Come già detto i Big Data sono dati fondamentalmente grezzi che vanno non solo recuperati ma anche, attraverso complessi algoritmi, interpretati ed organizzati. L'attività di scavare all'interno di questa complessa mole di informazioni spiega cosa vuol dire Data Mining il cui significato è molto chiaro e metaforicamente può essere descritto come l'estrazione di informazioni da una miniera di dati. Facciamo subito questa distinzione, fondamentale nel nostro caso:
- Definiamo "dato" un elemento le cui caratteristiche sono note ma non ancora organizzate o classificate. Il dato è solo potenzialmente informativo, in quanto costituito da simboli che devono essere elaborati prima poter essere compresi
- Definiamo "informazione" la risultanza di questa elaborazione che restituisce una serie di dati aggregati e organizzati in modo tale che nel loro insieme siano significativi
- Definiamo "conoscenza" una serie di informazioni che aggregate tra loro consentono di diffondere sapere, comprensione, cultura o esperienza.
Ora che ci siamo fatti una cultura, possiamo definire con facilità il Data Mining che consiste in tutte le attività che hanno come obiettivo l'estrazione di informazioni da una indefinita quantità di dati: fondamentalmente tutto ciò che attraverso ricerca, analisi e organizzazione genera sapere o conoscenza a partire da dati grezzi. Si tratta di una serie di tecniche e metodologie molto simili alla statistica ma con una grande differenza: se questa è usata per fotografare lo stato attuale (o passato) delle cose, il data mining è più usato per cercare correlazioni tra variabili a scopi predittivi.
Data Mining secondo wikipedia :
- estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
- esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi.
Per farla facile quindi, Data Mining ha un significato preciso e riguarda l'attività che viene svolta sui Big Data per renderli intelligibili (scopri ad esempio come i big data si applicano alla pianificazione media digitale in modalita "audience targeting") a tutti e trarne informazioni predittive utili a chi le ha commissionate.
Tipicamente il Data Mining viene svolto attraverso software di Visual Programming: sono programmi che non necessitano di conoscenze specifiche di programmazione ma che consentono di gestire le regole e i flussi che i dati estratti devono seguire per produrre significato (ad esempio, semplificando, estrarre ed associare tra loro età, modello di cellulare posseduto e provenienza geografica per capire se Samsung deve comunicare principalmente in alcune regioni o usare un particolare tone of voice in linea con il target).
Detta così sembra semplice, in realtà è un'attività piuttosto complessa che implica una lunga analisi preliminare dei dati e una capacità di sintesi notevole. Le fasi del processo di Data Mining che portano dall'analisi dei dati ad un modello predittivo sono riassunte dal modello CRISP-DM, Cross Industry Standard Process for Data Mining, il processo open standard più utilizzato che vede 6 step:
- Comprensione del Business, che comprende principalmente lo studio del settore e gli obiettivi della ricerca
- Comprensione dei Dati, che significa capire con quali dati si ha a che fare e effettuare un check della completezza dei dati in proprio possesso.
- Preparazione dei Dati, che significa trasformare i dati grezzi in dati strutturati attraverso la loro organizzazione e l'assegnazione di attributi.
- Modeling, che vede l'applicazione di modelli (con cui vengono aggregati i dati) esistenti o di modelli costruiti.
- Valutazione dei risultati ottenuti, che spesso significa rivedere gli step precedenti
- Deployment, in cui i dati sono resi disponibili attraverso report o infografiche.
Interessa il tema "Big Data"? Leggi tutti gli altri articoli su cosa sono i Big Data:
- Un nuovo approccio alla comunicazione
- A cosa servono i Big Data
- 5 applicazioni pratiche dei Big Data
- Scopri come funzionano i media digitali e cos'è il programmatic advertising
Luca Bizzarri