Big data: definizione, a cosa servono ed esempi per il marketing

Big data definizione, a cosa servono ed esempi per il marketing

Cosa sono i Big Data e a cosa servono? Sulla bocca di tutti, sono l'ultima frontiera della relazione (del controllo, forse) con il cliente.

Il termine "Big Data" si riferisce a un insieme di dati così ampio e complesso da richiedere l'uso di tecnologie avanzate, come ad esempio l'intelligenza artificiale, per la loro elaborazione. 

Nel mondo del marketing, i Big Data offrono diverse possibilità: comprendere meglio le esigenze dei clienti, identificare rapidamente il pubblico di riferimento o personalizzare il rapporto con il consumatore attraverso una comunicazioni dedicate. Questi dati provengono da diverse fonti e, se aggregati e interpretati correttamente, possono fornire una visione completa del comportamento e delle preferenze dei consumatori.

Gartner ha definito i Big Data come "risorse informative ad alto volume, alta velocità e alta varietà che richiedono forme innovative di elaborazione [...] per migliorarne la comprensione". Queste tre caratteristiche, le 3 "V" dei Big Data, sono fondamentali per comprendere l'importanza dei Big Data nel marketing.

Il "Volume" si riferisce alla quantità di dati generati ogni giorno da una varietà di fonti, come social media, siti web, applicazioni mobili e altro. Questo volume di dati fornisce alle aziende un'enorme quantità di potenziali informazioni e insight sui propri clienti.

La "Velocità" riguarda la rapidità con cui questi dati vengono generati ed elaborati. Nell'era digitale, i dati vengono generati in tempo reale e le aziende devono essere in grado di analizzarli e reagire in tempi altrettanto brevi.

"Varietà" indica la quantità di dati disponibili. I dati possono essere strutturati (come i numeri) o non strutturati (come il testo) e provenire da diverse fonti.

Nel contesto del marketing, i Big Data rappresentano un'opportunità di cambiamento radicale. Permettono di sviluppare strategie di marketing più efficaci e personalizzate, basate sull'analisi e comprensione approfondita del comportamento e delle preferenze dei clienti.

Infine, i Big Data sono un patrimonio inestimabile per le aziende, in quanto facilitano il processo decisionale, migliorano le prestazioni e supportano lo sviluppo dei processi aziendali. 

Certo, capirli e saperli sfruttare non è una cosa semplice e richiede esperti (i data scientist) e software dedicati. Insomma, i dati sono disponibili ma avere i dati e utilizzarli per il business sono ancora cose molto lontane. 

Big Data: definizione

Il termine Big Data definisce una mole così grande di dati che non può essere analizzata tramite metodi convenzionali: stiamo parlando infatti di dimensioni inimmaginabili, per la precisione di Zettabyte (che contiene miliardi di Terabyte, che a loro volta contengono 1.000 Gigabyte l'uno). Una mole di dati incredibilmente grande.

Ma la vera rivoluzione dei Big Data non è tanto la loro dimensione quanto la sopraggiunta possibilità di analizzarli e trarne conclusioni coerenti. 

La rivoluzione dei Big Data è duplice:

  1. da un lato non si tratta di un insieme di tabelle strutturate come in un classico DB, ma di dati non strutturati composti da elementi multimediali (video, audio, foto, testi) che possono essere assoggettati solo ed esclusivamente da analisi semantiche
  2. dall'altro come accennato, non è tanto la presenza di una enorme quantità di dati quanto la possibilità di analizzarli e estrarne informazioni in tempi ragionevoli e con risorse limitate: se qualche anno fa uno scienziato dei dati (ancora una volta è il caso di dire "eh già": esiste il data scientist, fatevene una ragione) poteva impiegare molto tempo e un computer da milioni di euro per estrarre un'analisi da dati che potremmo definire "medium data", oggi è un'operazione che grazie a nuovi algoritmi si può fare in qualche ora, con un comune laptop.

Cosa sono i Big Data e cosa servano sono domande lecite che abbiamo cercato di affrontare e oggi proviamo a vedere come applicare i Big Data alla comunicazione. Qualcuno definiva il progresso tecnologico quel momento in cui una tecnologia, fino ad allora per pochi eletti, diventa disponibile a tutti: è sicuramente il percorso di smartphone e tablet che hanno nel bene e nel male rivoluzionato il nostro modo di vivere. Andiamo per alzata di mano: quanto di voi si svegliano la mattina e prima di alzarsi dal letto controllano le mail? Quanti voi mentre guardano la TV hanno in mano il cellulare per guardare Facebook? E quanti hanno il tablet appoggiato in bagno e lo usano principalmente in quel momento? Ok, l'ultima. Quanti a tavola al ristorante chattano con il gruppo di amici via Whatsapp? Quante ne avete alzate, 3 su 4? Non male.

Se questo non vi è bastato per capire quanto questa tecnologia sia entrata nella nostra vita quotidiana vi racconto questo aneddoto. Ero da un cliente l'altro giorno che mi raccontava di questa grandissima catena della GDO che ha visto un calo incredibile degli ultimi anni dei prodotti "dell'ultimo miglio", quelli che sono appena prima del blocco casse. Si sono interrogati per mesi sul fatto che cicche e caramelle non fosse più d'appeal per i clienti e come potessero sostituirle. Infine si sono resi conto che molto più semplicemente, oggi, le persone in coda non si guardano più in giro ma hanno gli occhi puntati sul cellulare. Questo riduce notevolmente la spinta all'acquisto d'impulso che muove il fatturato di quei prodotti.

Ma perché vi racconto tutto questo? Voglio solo dimostrare anche ai più scettici che la maggior parte di noi vive quotidianamente con questi strumenti e si interfaccia con loro più di quanto si possa pensare: questo non può non incidere sul modo in cui comunichiamo con i nostri consumatori. Nell'immagine qui sopra vediamo lo schema che utilizziamo in presentazione per riassumere il concetto: la strada verso l'acquisto è costellata di touchpoint, ognuno dei quali attiva in quel momento l'interesse del consumatore.

Ma esattamente, oggi, cosa è un consumatore (leggi qui l'approfondimento sui consumer  insight)? In questi anni il suo ruolo in comunicazione è cambiato molto perché ha acquisito una consapevolezza di sé e del suo potere nei confronti dei Brand che prima non aveva: i suoi interessi aumentano perché è in grado di sapere più cose, ha accesso ad un mondo fantastico pieno di opportunità di incontri, eventi, sport e non so cos'altro che prima non aveva. Aumentando i suoi interessi, aumentano anche i suoi desideri: oggi ogni persona è un'entità complessa, costituita da tanti consumatori al suo interno che in momenti diversa di una stessa giornata presta attenzione selettiva ad alcuni argomenti piuttosto che altri, per poi tornare ad interessarsi ad altro. Insomma, quello che voglio dire è che non credo più nella forza del messaggio che parte in broadcast e arriva diretto, uniformato, uguale per tutti quanti. Questo deve esistere in realtà, ma deve essere parte di una strategia più ampia che possa parlare ad ognuno in maniera customizzata.

Fortunatamente oggi, proprio grazie alle stesse tecnologie che hanno complicato la situazione, i touchpoint a disposizione di un'Azienda si sono moltiplicati esponenzialmente (qui trovi informazioni su come funziona il programmatic advertising) e attraverso tecnologie come Big Data, le DMP, i cookie, le DSP & co. siamo in grado di conoscere i gusti e gli interessi del nostro target e sapere quali sono i momenti giusti in cui lanciare il messaggio. Attenzione non sto dicendo che radio, TV e compagnia bella siano morti, tutt'altro. Bisogna solo trovare il giusto mix, perché ricordiamoci sempre che dietro il successo di una campagna digitale ci sono mezzi offline che spingono (e lo fanno bene).

Le caratteristiche principali dei Big Data

  1. Volume, che ne definisce la dimensione in termini di byte
  2. Velocità, relativa all'estrazione dei dati che di solito avviene in tempo reale
  3. Varietà, che ne indica la provenienza: possono essere dati pubblici o derivati da ricerche o analisi.

Quest'ultima caratteristica introduce il grande dubbio legato a questa tipologia di dati, dubbio tanto grande da introdurre come quarta variabile la "veridicità" del dato. Il che apre un mondo di possibili domande ma questo vale anche per siti come, ad esempio, Wikipedia del quale ci fidiamo ciecamente anche se è stato certificato un elevato grado di inesattezze.

Per tornare a noi. Cosa ce ne facciamo di tutta questa mole di dati? Le applicazioni dei Big Data sono tantissime: dalla previsione delle zone a rischio criminalità di una città allo studio del genoma delle piante per studiarne la resistenza alla siccità, alla previsione del comportamento in base a stimoli definiti applicata all'intelligenza artificiale. Quello che però ci interessa approfondire è come li possiamo utilizzare in relazione al marketing e al CRM (Customer Relationship Marketing).

Ad oggi comunque il grosso dell'appicazione dei Big Data in comunicazione è almeno su 3 grandi fronti:

  1. Campagne di Programmatic ADV e Audience Targeting 
  2. CRM, dalla gestione dei lead dell'Inbound Marketing all'email marketing
  3. Marketing Automation, gestione del contenuto in maniera automatizzata in base a comportamenti di navigazione e acquisto.

Per questo motivo la scelta di una piattaforma non è cosa da prendere a cuor leggero: la software selection è un tema delicato proprio per il grande impatto che può avere sul business aziendale, nel bene e nel male.

Big data e strategia di marketing: esempi pratici

Come anticipato si tratta di dati non strutturati, costituiti principalmente da elementi appartenenti a mondi tra loro diversi: una combinazione di audio, video, testo e foto; in pratica tutto che si può trovare sul web. Analizzati attraverso complessi algoritmi, queste interrogazioni portano alla luce informazioni non solo comprensibili ma utili e applicabili a diversi settori: dal marketing alla cura del cancro, dall'intelligenza artificiale alla prevenzione del terrorismo e della criminalità. Insomma ex chaos, ordo.

Il funzionamento di per sé è abbastanza semplice, quello che è più complesso è il modo in cui poi i dati vengono estrapolati e letti ma che fortunatamente non è oggetto del presente articolo. Di base:

  1. I Big Data possono essere un patrimonio aziendale quindi di proprietà diretta del Brand, acquistabili da terze parti oppure di pubblico dominio: stiamo parlando ad esempio di dati provenienti dagli analytics del sito piuttosto che dai social networks.
  2. Questi dati vengono integrati in una piattaforma che viene definita DMP, Data Management Platform che li analizza e li trasforma in insight. Caratteristiche delle DMP sono la cross-canalità come input, la presenza di potenti algoritmi per l'analisi e una segmentazione del target come output.

La mancanza di linee guida e la scarsa conoscenza dei Big Data, essendo per noi italiani un qualcosa di relativamente nuovo e ancora un po' misterioso, ci porta ad analizzare le principali applicazioni che i Big Data hanno o avranno nel marketing e alcune sembrano fantascienza ma non lo sono:

  1. Retargeting: ogni volta che visitiamo un sito questo lascia una piccola parte di codice, il famigerato cookie, che "ricorda" ad esempio i prodotti che abbiamo visitato o comprato. In questo modo è possibile erogare campagne ADV mirate ad utenti che sappiamo già essere interessati a quei particolari prodotti. Zalando ad esempio fa molto uso di questa tecnica e fa molto bene perché solitamente ha un tasso di conversione piuttosto elevato. Qui trovi una case history di una pianificazione media digitale di questo tipo fatta da OFG Advertising.
  2. Definire il proprio ICP: il nostro Ideal Customer Profile. I Big Data ci aiutano a capire ancora meglio chi sono i nostri consumatori approfondendo caratteristiche socio-demografiche come sesso, età, lingua, provenienza ma ci possono anche aiutare a capire il loro comportamento sul sito studiandone ad esempio la modalità di navigazione o i prodotti acquistati o ancora capire attraverso l'app quanto i nostro consumatori si fermano nei negozi della concorrenza. Sulla base dei dati oggettivi sarà possibile poi studiare azioni di marketing o advertising specifiche per ogni cluster di cliente.
  3. ADV personalizzate: come appena detto se io arrivo a conoscere i miei clienti così nel dettaglio, posso anche erogare campagne personalizzate. Perché è diverso dal retargeting? Mentre in questo l'ADV server dà per scontato un interesse in base a precedenti acquisti, con i Big Data possiamo andare oltre: il DMP sa come ti chiami, in che zona abiti e forse anche che faccia hai. ADV personalizzate su di te, non sui tuoi interessi. Ti sta venendo un po' di ansia?
  4. Esperienze personalizzate: allo stesso modo, conoscendo chi sta navigando sul mio sito, posso addirittura fargli vivere un'esperienza di navigazione dedicata. Lo posso chiamare per nome, fargli vedere nel sito i suoi colori preferiti sui bottoni che convertono o mostrare solo i prodotti cui so che lui è interessato.



    Qui stiamo parlando di Marketing Automation. Le piattaforme che gestiscono la marketing automation stanno diventando sempre più accessibili e democratiche. Il punto è che per utilizzare l'automazione non serve solo la piattaforma ma ancora una volta è una questione di mindset e organizzazione tra reparti. Per far funzionare la piattaforma, ognuno deve fare la sua parte: questo è un punto di partenza, non di arrivo. Un altro punto fondamentale è la scelta della piattaforma. La software selection è fondamentale per avere un progetto di successo. Il problema è che spesso esistono software pre-esistenti e le integrazioni non sempre sono funzionali o necessarie. Insomma questo è un tema importante che deve essere approfondito prima di iniziare.

    Non, ripeto NON, scegliete una piattaforma solo perché costa meno: valutate i costi indiretti cioè l'impatto (il costo) che essa può generare su persone e processi aziendali se non dovesse essere quella giusta. 
  5. Offline & Online merge: con le app come tramite (e altri strumenti che si stanno facendo spazio nei punti vendita come telecamere che analizzano le espressioni dei consumatori davanti agli scaffali o sensori di movimento) è possibile trasformare il comportamento reale in dati digitali da integrare nei Big Data. In questo modo si aggiunge un tassello importante: il comportamento d'acquisto fuori da Internet ma nella vita reale.

Qualcuno definiva il progresso tecnologico quel momento in cui una tecnologia, fino ad allora per pochi eletti, diventa disponibile a tutti: è sicuramente il percorso di smartphone e tablet che hanno nel bene e nel male rivoluzionato il nostro modo di vivere. Andiamo per alzata di mano: quanti di voi si svegliano la mattina e prima di alzarsi dal letto controllano le mail? Quanti voi mentre guardano la TV hanno in mano il cellulare per guardare Facebook? E quanti hanno il tablet appoggiato in bagno e lo usano principalmente in quel momento? Ok, l'ultima. Quanti a tavola al ristorante chattano con il gruppo di amici via Whatsapp? Quante ne avete alzate, 3 su 4? Non male.

Big data, tecnologia e comunicazione

Se questo non ti è bastato per capire quanto questa tecnologia sia entrata nella nostra vita quotidiana vi racconto questo aneddoto. Ero da un cliente l'altro giorno che mi raccontava di questa grandissima catena della GDO che ha visto un calo incredibile degli ultimi anni dei prodotti "dell'ultimo miglio", quelli che sono appena prima del blocco casse. Si sono interrogati per mesi sul fatto che cicche e caramelle non fosse più d'appeal per i clienti e come potessero sostituirle. Infine si sono resi conto che molto più semplicemente, oggi, le persone in coda non si guardano più in giro ma hanno gli occhi puntati sul cellulare. Questo riduce notevolmente la spinta all'acquisto d'impulso che muove il fatturato di quei prodotti.

Ma perché ti racconto tutto questo? Voglio solo dimostrare anche ai più scettici che la maggior parte di noi vive quotidianamente con questi strumenti e si interfaccia con loro più di quanto si possa pensare: questo non può non incidere sul modo in cui comunichiamo con i nostri consumatori. Nell'immagine qui sopra vediamo lo schema che utilizziamo in presentazione per riassumere il concetto: la strada verso l'acquisto è costellata di touchpoint, ognuno dei quali attiva in quel momento l'interesse del consumatore.

Ma esattamente, oggi, cosa è un consumatore (leggi qui l'approfondimento sui consumer insight)? In questi anni il suo ruolo in comunicazione è cambiato molto perché ha acquisito una consapevolezza di sé e del suo potere nei confronti dei Brand che prima non aveva: i suoi interessi aumentano perché è in grado di sapere più cose, ha accesso ad un mondo fantastico pieno di opportunità di incontri, eventi, sport e non so cos'altro che prima non aveva. Aumentando i suoi interessi, aumentano anche i suoi desideri: oggi ogni persona è un'entità complessa, costituita da tanti consumatori al suo interno che in momenti diversa di una stessa giornata presta attenzione selettiva ad alcuni argomenti piuttosto che altri, per poi tornare ad interessarsi ad altro. Insomma, quello che voglio dire è che non credo più nella forza del messaggio che parte in broadcast e arriva diretto, uniformato, uguale per tutti quanti. Questo deve esistere in realtà, ma deve essere parte di una strategia più ampia che possa parlare ad ognuno in maniera customizzata.

Fortunatamente oggi, proprio grazie alle stesse tecnologie che hanno complicato la situazione, i touchpoint a disposizione di un'Azienda si sono moltiplicati esponenzialmente e attraverso tecnologie come Big Data, le DMP, i cookie, le DSP & co. siamo in grado di conoscere i gusti e gli interessi del nostro target e sapere quali sono i momenti giusti in cui lanciare il messaggio. Attenzione non sto dicendo che radio, TV e compagnia bella siano morti, tutt'altro. Bisogna solo trovare il giusto mix, perché ricordiamoci sempre che dietro il successo di una campagna digitale ci sono mezzi offline che spingono (e lo fanno bene).

Stiamo cercando ancora di capire come evolverà la questione programmatic e audience targeting dopo la rivoluzione cookieless.

Marketing data driven

Prendere decisioni, che siano di marketing o altro, basate sui dati (il famigerato marketing data driven) non è così come dirlo. Raccogliere e aggregare tra loro i big data è un lavoro complesso che richiede alta specializzazione e analizzare i dati è ancora un altro tema. In poche parole raccogliere i Big Data e analizzare i dati è appannaggio di pochi: la data science inizia a prendere il sopravvento su molte altre discipline.

Primo perché leggere i dati e trasformarli in indicazioni utili è più complicato di quanto si possa pensare e poi perché l'argomento è ampio: allineamento tra reparti aziendali, tecnologia, marketing data driven, tecnologia, vendite, tecnologia. Ah, e tecnologia ovviamente.

Se non fosse ancora chiaro, oggi affrontiamo il tema più che altro dal punto di vista del software, avremo altre occasioni di parlare di Growth Hacking e metodologie volte al miglioramento delle performance digitali.

Ultima premessa: il marketing non è l'unica disciplina che può essere guidata da dati ma la data science potenzialmente ha lo scopo di raccogliere dati provenienti da qualsiasi fonte e di aggregare e analizzare quei dati per astrarne delle regole (dal campo medico a quello militare ecc.).

Diciamo che per poter parlare di marketing data driven dobbiamo almeno rispondere a 3 necessità fondamentali:

  1. Dobbiamo avere dei dati da analizzare
  2. Dobbiamo essere capaci di aggregarli
  3. Dobbiamo essere capaci di analizzarli

Sembrano 3 banalità e, in effetti, è proprio così: sono 3 banalità però dalle quali non possiamo prescindere. Vediamo di sviscerare un po' meglio questi punti che ci aiuteranno a seguire il filo del discorso.

Raccogliere i dati dei clienti

Dove posso trovare i dati dei clienti? Beh, di certo non si comprano al supermercato. O forse sì. Esistono banche dati (una specie di supermercato, in effetti) nelle quali fondamentalmente si possono acquistare pacchetti di dati: i famosi Big Data, utilizzabili ad esempio per campagne in programmatic advertising, hanno però bisogno di essere letti da specifiche piattaforme (DMP, Data Management Platform) che sparano il dato anonimizzato sul server che gestisce le campagne mostrando così i banner agli utenti che hanno profili di navigazione statisticamente simili all'audience target. Suona complicato ma la maggior parte di questo processo è demandata alla tecnologia. Come al solito la difficoltà sta nella progettazione e nel corretto setup, non tanto nell'esecuzione.

Il punto però qui sta nella parola "anonimizzato". Quello che si può acquistare è un'analisi statistica e di conseguenza un risultato di campagna advertising "statisticamente accettabile".

Secondo una proverbiale descrizione (a quanto pare di Trilussa, poeta e scrittore romano) la statistica è quella scienza per cui se io mangio un pollo intero e tu non mangi nulla abbiamo mangiato mezzo pollo a testa. C'est à dire, calata nella realtà dei fatti che stiamo trattando, meglio basare le propre analisi su dati di prima parte, cioè raccolti in maniera diretta dall'azienda.

Quindi per tornare alla nostra domanda, dove trovo i dati se non posso comprarli? La risposta è tanto semplice quanto faticosa: me li raccolgo da solo. Le fonti possono essere tante, da Analytics al CRM, dai dati di navigazione all'email marketing, dall'app mobile alla carta fedeltà, dalla marketing automation all'intelligenza artificiale. Rimane il tema di come analizzare i big data e raccogliere dati statistici, come detto, non è propriamente uno scherzo in termini di strategia, coordinamento tra reparti aziendali, coerenza e integrazione tra tutti i touchpoint, controllo della bontà del dato e quindi, per chiudere, di costi.

Raccogliere i dati statistici dei clienti

Perché l'aggregazione di dati diversi dovrebbe essere un problema? In teoria non dovrebbe esserlo, hai ragione. La pratica però è diversa: per mancanza di una seria analisi iniziale, di una strategia chiara o, più semplicemente, di un partner in grado di definirla in maniera univoca ha portato la stragrande maggioranza delle aziende a stratificare software su software, di anno in anno.

Il risultato è un ecosistema aziendale di software in cui nessuno è contento: la proprietà spende sempre più soldi, il management fatica ad organizzare il lavoro e gli utilizzatori si trovano a gestire un elevato livello di complessità dovuto a passaggi manuali, integrazioni, diverse dashboard e diversi login.

Il tema dell'aggregazione è reale quindi e duplice:

  1. Bisogna gestire il flusso di dati tra i diversi software per ottenere informazioni univoche (solo per fare un esempio banale, allineare il software che invia le newsletter con il CRM).
  2. Bisogna saper uniformare i dati provenienti da diverse fonti esterne (ad esempio integrare i dati di navigazione, i dati dei comportamenti sui social media e i dati delle telefonate del reparto sales).

Il fattore tecnologico è fondamentale per l'aggregazione dei dati. Primo perché altrimenti sarebbe un lavoraccio (inutile) e secondo perché, ad oggi, ogni dato che raccogliamo arriva direttamente dalle piattaforme cui ognuno di noi si appoggia tutti i giorni (social media, app mobile, Google search etc).

Analizzare i dati raccolti e big data

Una volta che i dati sono stati aggregati e uniformati devono poter essere letti allo scopo di trarre degli insight sul loro comportamento (cosa sono i consumer insight?). Questa è la fase finale e se siamo qui vuol dire che:

  1. abbiamo costruito un valido ecosistema di software interni all'azienda
  2. stiamo raccogliendo dati statistici legati ai comportamenti dei nostri clienti o prospect
  3. abbiamo qualcuno che sa leggere i dati statistici (data scientist)

Certo, dobbiamo assicurarci che la lettura e l'interpretazione dei dati porti ad un qualche tipo di azione: ovviamente leggere e sapere non basta, il dato deve essere il punto di partenza per azioni nuove o correttive che però non sono prese "di pancia" ma con piena coscienza. Il marketing data driven è qui che deve portare.

Compila il questionario sulla crescita aziendale: ricevi la liste delle azioni  da sviluppare>

Luca Bizzarri

Big data e data mining

Come già detto i Big Data sono dati fondamentalmente grezzi che vanno non solo recuperati ma anche, attraverso complessi algoritmi, interpretati ed organizzati. L'attività di scavare all'interno di questa complessa mole di informazioni spiega cosa vuol dire Data Mining il cui significato è molto chiaro e metaforicamente può essere descritto come l'estrazione di informazioni da una miniera di dati. Facciamo subito questa distinzione, fondamentale nel nostro caso:

  1. Definiamo "dato" un elemento le cui caratteristiche sono note ma non ancora organizzate o classificate. Il dato è solo potenzialmente informativo, in quanto costituito da simboli che devono essere elaborati prima poter essere compresi
  2. Definiamo "informazione" la risultanza di questa elaborazione che restituisce una serie di dati aggregati e organizzati in modo tale che nel loro insieme siano significativi
  3. Definiamo "conoscenza" una serie di informazioni che aggregate tra loro consentono di diffondere sapere, comprensione, cultura o esperienza.

Ora che ci siamo fatti una cultura, possiamo definire con facilità il Data Mining che consiste in tutte le attività che hanno come obiettivo l'estrazione di informazioni da una indefinita quantità di dati: fondamentalmente tutto ciò che attraverso ricerca, analisi e organizzazione genera sapere o conoscenza a partire da dati grezzi. Si tratta di una serie di tecniche e metodologie molto simili alla statistica ma con una grande differenza: se questa è usata per fotografare lo stato attuale (o passato) delle cose, il data mining è più usato per cercare correlazioni tra variabili a scopi predittivi.

Data Mining secondo wikipedia :

  • estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
  • esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi.

Per farla facile quindi, Data Mining ha un significato preciso e riguarda l'attività che viene svolta sui Big Data per renderli intelligibili a tutti e trarne informazioni predittive utili a chi le ha commissionate.

Tipicamente il Data Mining viene svolto attraverso software di Visual Programming: sono programmi che non necessitano di conoscenze specifiche di programmazione ma che consentono di gestire le regole e i flussi che i dati estratti devono seguire per produrre significato (ad esempio, semplificando, estrarre ed associare tra loro età, modello di cellulare posseduto e provenienza geografica per capire se Samsung deve comunicare principalmente in alcune regioni o usare un particolare tone of voice in linea con il target).

Detta così sembra semplice, in realtà è un'attività piuttosto complessa che implica una lunga analisi preliminare dei dati e una capacità di sintesi notevole. Le fasi del processo di Data Mining che portano dall'analisi dei dati ad un modello predittivo sono riassunte dal modello CRISP-DM, Cross Industry Standard Process for Data Mining, il processo open standard più utilizzato che vede 6 step:

  1. Comprensione del Business, che comprende principalmente lo studio del settore e gli obiettivi della ricerca
  2. Comprensione dei Dati, che significa capire con quali dati si ha a che fare e effettuare un check della completezza dei dati in proprio possesso.
  3. Preparazione dei Dati, che significa trasformare i dati grezzi in dati strutturati attraverso la loro organizzazione e l'assegnazione di attributi.
  4. Modeling, che vede l'applicazione di modelli (con cui vengono aggregati i dati) esistenti o di modelli costruiti.
  5. Valutazione dei risultati ottenuti, che spesso significa rivedere gli step precedenti
  6. Deployment, in cui i dati sono resi disponibili attraverso report o infografiche.

Luca Bizzarri