Per iniziare a fare statistica applicata su modelli finanziari il primo passo consiste nel raccogliere i dati che sono immagazzinati in archivi chiamati DBMS (Data Base Management System) o in semplici file di testo. I DBMS sono un insieme di tabelle che sono collegate tra di loro tramite relazioni di alcune variabili (key-variables) necessariamente presenti in più tabelle.
L’obiettivo principale, però, è quello di ottenere un unica tabella chiamata Data-warehouse (DW), che può essere vista come un DBMS denormalizzato.
Il passaggio dal DBMS al DW avviene tramite la cosiddetta procedura ETL (Extract Trasform and Load). Il DW risulta utile allo statistico per l’analisi e l’elaborazione di dati tramite reporting.
Il secondo passo consiste nella Knowledge Discovery/Data Mining ovvero la fase in cui vengono usate diverse tecniche e metodologie per l’estrazione di informazioni da grandi quantità di dati presi dai DW (modelli supervisionati come Random Forest, Bagging, Gradient Boosting, Reti Neurali e Support Vector Machine).

Per fare ciò bisogna introdurre il concetto di OLAP (On-Line Analytical Processing), ovverosia un insieme di tecniche software per avviare un’analisi interattiva dei dati.
I software più utilizzati dalle aziende per affrontare obiettivi di marketing, performance, profitti, analisi dei rischi e altro sono SAS, SPSS, STATA e RStudio.
Gli OLTP (On-Line Transaction processing) invece a differenza degli OLAP hanno come scopo quello di dare una garanzia di integrità e sicurezza delle transazioni e vengono usati maggiormente per tenere aggiornati i sistemi (banche, società di assicurazioni, posta) che registrano un’infinità di movimenti ogni giorno.
Le tecniche più affrontate nella fase di Data Mining sono quelli di Cluster Analysis, Reti neurali (classificazione), Alberi di decisione (Random Forest – Bagging – Gradient Boosting), Analisi di associazione, Analisi in componenti principali (ACP).
In questa seconda fase il Data Analyst deve essere in grado di maneggiare i cosiddetti Big Data con metodi di Machine Learning (apprendimento automatico) e Deep Learning (apprendimento profondo) per essere in grado di estrarre conoscenze e informazioni utili alle aziende provenienti dal Data Warehouse.
Una volta estrapolata l’informazione (tramite reporting) il passo successivo è quello di creare alcune strategie che variano a seconda dell’obiettivo ma che per la maggior parte delle aziende si concentrano su una massimizzazione del profitto affiancata alla minimizzazione del rischio che porta ovviamente ad un problema di trade-off.
Per finire vengono confrontate le varie strategie nella fase di valutazione e con l’inserimento di molteplici indici si conclude con la scelta della strategia ottima.
