Big Data: Cosa Sono, la Storia, le Caratteristiche, le Analisi ed Esempi

big data
big fish – Tim Burton

Cosa sono i Big Data

“Big Data” letteralmente significa “Grandi dati”, ovvero grandi quantità di dati che, presi insieme, occupano molto spazio di archiviazione nell’ordine dei Terabyte (unità di misura multipla del byte, corrispondente a 2 alla quarantesima byte, ovvero a 1.048.576 megabyte, il simbolo è TB).

Come sosteneva Bernard Marr in un suo vecchio articolo su Forbes, tra il 2013 e il 2015 abbiamo prodotto più dati che in tutta la storia dell’umanità fino ad allora, ed è facile presumere che ora quella quantità di dati venga generata anche in un solo anno, se non di meno. Sta infatti partendo la corsa all’invenzione di nuove, sempre maggiori, unità di misura per le quantità di dati, tanto che si presume che nel 2020 ci saranno circa 44 zettabyte di dati che circoleranno per il globo, ovvero 440 miliardi di gigabyte. Quasi tutti questi dati generati dall’uomo sono digitali, una quantità sorprendente che passa dai dati inviati dai satelliti e dalle sonde spaziali ai selfie che carichiamo quotidianamente sui social network

La rivoluzione Big Data e, in generale, il termine Big Data in sè si riferisce proprio a cosa si può fare con tutta questa quantità di informazioni, ossia agli algoritmi capaci di trattare così tante variabili in poco tempo e con poche risorse computazionali. Il paragone è presto e fatto: fino a poco tempo fa uno scienziato, per analizzare una montagna di dati, avrebbe impiegato molto tempo e si sarebbe servito di computer mainframe da oltre 2 milioni di dollari. Oggi, con un semplice algoritmo, quelle stesse informazioni possono essere elaborate nel giro di poche ore, magari sfruttando un semplice laptop per accedere alla piattaforma di analisi. Questa è la rivoluzione Big Data.

Ciò presuppongono anche nuove capacità di collegare fra loro le informazioni per fornire un approccio visuale ai dati, suggerendo pattern e modelli di interpretazione fino a poco tempo fa inimmaginabili. Scenario che  risulta essere utile in molteplici mercati e business, dalle automobili alla medicina, dal commercio all’astronomia, dalla biologia alla chimica farmaceutica, dalla finanza al gaming. Nessun settore in cui esistono strategie di marketing e dati da utilizzare può dirsi indenne dalla rivoluzione Big Data

le 3 caratteristiche per definirsi tali

Quando si parla di Big Data diventa impossibile non citare le famose “3V”, definite per la prima volta da uno studio del 2001 dell’analista Douglas Laney. Col passare degli anni si sono aggiunti altri 2 elementi, che vanno a definire le “5V” che ad oggi più rappresentano questo contesto. Vediamole:

Volume

Elevate moli di dati generati, più di 50 TB, e in forte crescita, più del 50% annuo, soprattutto grazie allo sviluppo di tutte quelle tecnologie capaci di produrre moli di dati. Se proviamo a considerare alcuni dei problemi principali di questa caratteristica, sicuramente non possiamo non tenere in considerazione il rischio di scarsa qualità delle informazioni immagazzinate, dato che la maggior parte delle volte possiamo ricevere dati non facilmente comprensibili. Inoltre, siamo così sicuri che sia corretto ignorare i comportamenti di acquisto della minoranza degli utenti? Potrebbe essere che l’analisi di questo specifico cluster ci porti a scoprire desideri nascosti dei nostri consumatori e condurre l’azienda verso nuovi business o attività di valore.

Velocità

Dati generati e acquisiti rapidamente, strutturati e non strutturati, ecco perché ogni giorno diventa sempre più difficile e costoso analizzare ogni nuova mole di dati restando al passo con i cambiamenti. Basti pensare a quanto può essere immediata la ricezione di informazioni da social network, chiamate al customer care, risultati di survey o le comunicazioni dei gps. Ecco perché è necessario sviluppare nuovi tools e architetture capaci di incrementare la velocità di analisi e destrutturare i volumi di dati ricevuti, in modo da creare indicatori rilevanti per il business, come potrebbero essere quelli demografici, geografici, economici o comportamentali. La maggior parte delle volte risulta vincente la combinazione tra queste chiavi di lettura, riuscendo così a targetizzare la propria audience suddividendola in più segmenti di clientela, per ideare strategie personalizzate. Per esempio, secondo un articolo di Forbes, aziende come Wal-Mart sono capaci di gestire più di un milione di transazioni di coinvolgimento dei clienti, per ora, dai loro canali.

Varietà

Dati eterogenei per fonte e formato, che sempre più si differenziano tra di loro dato che vengono inventate continuamente nuove tecnologie e le persone sono sempre più motivate verso la differenziazione delle proprie abitudini e dei propri comportamenti. Infatti il mondo Big Data è un mondo multimediale in cui i dati possono strutturati o non strutturati, come immagini, video, audio, testo o altro. Per questa ragione è necessario sviluppare indicatori semplici, rapidi e variabili, a partire per esempio dalla ricezione di feedback degli utenti attraverso i sistemi di rilevamento della soddisfazione e di raccomandazione, continuando anche qui il processo di comparazione delle diverse informazioni descrittive ricevute.

 Valore

Qualità e affidabilità dei dati rappresentano l’elemento preponderante per validare la nostra strategia data driven. Abbiamo visto come diventa sempre più difficoltoso analizzare tutti i dati ricevuti, di conseguenza sarebbe di vitale importanza riuscire a selezionare determinate informazioni per permettere agli analisti e strategy manager aziendali di lavorare su informazioni di rilievo per le attività aziendali. Uno degli indicatori di settore più conosciuti e più determinanti è quello del ROI, Return On Information, che permette di valutare se i propri metodi di rilevazione ed analisi sono efficienti o meno.

Veridicità

Accuratezza e Mutevolezza del significato di un dato a seconda del contesto. Infatti non sempre i dati ricevuti possono essere veritieri e verificati, e quindi possono contaminare le nostre analisi e non rappresentare al meglio il nostro settore d’interesse. Riuscire ad accurare questo aspetto permette anche di prevedere processi di decisioni istantanee, che altrimenti sarebbero impraticabili senza una precedente filtrazione di ciò che si ha ricevuto. Per fare un esempio concreto, proviamo a pensare a quanti dei messaggi sui social o delle recensioni ricevute sul web potrebbero non provenire da clienti veri e propri ma da parte di concorrenti interessati a fare marketing in modo sleale. Ora vedremo come non è solo determinante conoscere come sono strutturate e come possono essere immagazzinate queste grandi moli di dati, compito arduo delegato a specialisti di IT, ma per le aziende diventa di primaria importanza conoscere anche i processi di analisi, per riuscire a non perdersi ed a creare reale valore aziendale.

 

La storia dei Big Data: da dove arrivano?

L’uomo ha sempre avuto interesse a conservare informazioni per poterle poi consultare in seguito, come conferma la creazione dell’Abaco, la biblioteca di Alessandria in Babilonia, oltre a molti altri episodi storici. Ma quali sono le date più rilevanti per arrivare alla concezione di Big Data dei giorni nostri?

La prima data è quella del 1865 dove si inizia a parlare di Business Intelligence, vista come un modo di ottenere vantaggio competitivo sui competitor collezionando e analizzando in maniera strutturata informazioni rilevanti per il business. Tutto però resta alquanto confusionario. Infatti, solo nel 1880, un dipendente dell’ufficio di censimento USA mette a punto un sistema per classificare e organizzare i dati raccolti dal censimento, in modo di riuscire a ridurre il lavoro di catalogazione di questi dati da 10 anni a soli 3 mesi. È così che nasce il primo sistema di computazione automatica e l’inventore, Herman Hollerith, poco più avanti diventa il fondatore di un’azienda oggi conosciuta come IBM, azienda leader nel settore della tecnologia e definibile come la “regina” nella gestione, analisi e protezione dei dati.

Dovrà passare quasi un secolo affinchè IBM continui le ricerche verso la Business Intelligence, definita come l’abilità di apprendere le relazioni tra eventi in modo da guidare le scelte future del business. Ecco che nel 1965 viene creato il primo data center in USA, e soltanto pochi anni dopo uno sviluppatore crea il primo framework per un database relazionale, ovvero un “magazzino” di dati dove le varie tabelle che contengono i dati sono collegate tra loro attraverso chiavi di lettura. Ad esempio la colonna “ID prodotto” sta sia nella tabella “Prodotti venduti” che in quella “Informazioni prodotto”, così che si possano collegare le due variabili. Questa tipologia di database relazionale è quella, su cui si basano oggi la maggior parte dei database per la raccolta dei dati.

Alla fine del XX secolo, più precisamente nel 1991, nasce internet, che offre la possibilità di rendere i dati accessibili a tutti e ovunque nel mondo, e grazie agli sviluppi tecnologici il digitale diventa per la prima volta più economico della carta. Sono proprio gli anni ’90 ad affermarsi come i più determinanti in questa materia, consolidando questa crescita nel 1999, anno in cui si legge per la prima volta la parola “Big Data” e si inizia a parlare di Internet of Things, e della possibilità di collegare gli oggetti connessi ad internet tra loro.

le tipologie di big data

Infatti per comprendere lo sviluppo dei Big Data occorre anche saper individuare i modelli di utilizzo degli Analytics nelle imprese e ancora una volta è necessaria una distinzione duale nelle tipologie di dati:

  • dati strutturati
  • dati destrutturati

Nel caso dei dati destrutturati si tratta poi tipicamente di: testo, immagini, video, audio, elementi di calcolo. Richiamando ancora i dati dell’Osservatorio Big Data del Politecnico di Milano le imprese italiane stanno lavorando prevalentemente sui dati strutturati che rappresentano ancora l’83% dei volumi legati ai sistemi di Analytics. I dati destrutturati, con un +31% rispetto al 2017, crescono ogni anno più del doppio rispetto ai dati strutturati (15%). Per trovare il modo da estrarre valore da un dato destrutturato diventa infatti necessario riuscire ad individuare quali azioni possono rivelarsi decisive e quali inutili, scremando il più possibile una quantità di dati così numerosa da essere alquanto difficoltosa da decifrare.

Cosa significa dato destrutturato? Vuol dire dato eterogeneo, che significa, banalizzando un po’, un dato che rispecchia l’eterogeneità della realtà, questi sono dovuti soprattutto agli effetti dell’Internet of Things, che si aggancia ai fenomeni già più consolidati del Mobile e dei Social Media. Maggiore aderenza alla realtà vuol anche dire inoltre maggiore possibilità di trasformare i dati in conoscenza reale. Per le aziende questo significa maggiori capacità di rappresentare la realtà e dunque maggiori opportunità di agire sulle leve che permettono di ottenere un risparmio, di attuare efficienze, di ottimizzare processi interni e di sviluppare nuovi prodotti e servizi.

Ma qual è la reale funzione dell’utilizzo dei Big Data? È quella di fornire la miglior rappresentazione possibile della realtà attraverso i dati, e per riuscire a raggiungere questo scopo e rappresentare in modo verosimile prima e veritiero poi la realtà con dati concreti è necessario sviluppare metodiche e logiche di rappresentazione con processi di verifica e di controllo.

la Big Data Analytics

data analysis

Descriptive analysis

Si parte dall’Analisi Descrittiva, costituita da tutti i tool che permettono di rappresentare e descrivere, anche in modo grafico, in modo più immediato e sintetico i principali indicatori attraverso livelli di performance, la realtà di determinate situazioni o processi aziendali e funzionali del business. Nonostante questo sia un ambito più consolidato, dato che la totalità delle grandi organizzazioni svolge analisi descrittive sui propri dati, vi sono molteplici traiettorie di evoluzione relative all’aggiornamento dei dati in tempo reale, al miglioramento e arricchimento delle tipologie di visualizzazione e all’ampliamento della platea di coloro che accedono e interagiscono con le analisi.

Diagnostic Analytics

Un unico obiettivo, rispondere alla domanda Perché è successo?”. In altre parole, si cerca di approfondire i dati per tentare di comprendere le cause di eventi e comportamenti, attraverso tecniche quali Data Discovery e Correlazioni. le correlazioni vengono fatte con analisi statistiche tipo regressioni, indici di pierson ecc. mentre il data discovery Nella scoperta dei dati, gli esseri umani, o alcuni tipi di tecnologie di intelligenza artificiale, esaminano i dati da varie fonti e cercano di estrarre informazioni importanti o significative da tali dati, per garantire supporto alle decisioni aziendali. ci si avvale sempre della data viz

Predictive Analytics

Si passa poi all’Analisi Predittiva che, basandosi su modelli e tecniche matematiche come i Modelli Predittivi, di regressione ed il Forecasting, rappresenta un insieme di soluzioni avanzate grazie a cui effettuare l’analisi dei dati al fine di disegnare scenari di sviluppo nel futuro. in futuro le parole chiave sarebbero semplicemente due: Data Mining e Machine Learning. nella previsione del futuro incotrimao diversi limiti: I modelli perdono affidabilità al passare del tempo perchè entrano in gioco moltissime variabili e Richiedono una concentrazione mentale tremenda per il corretto funzionamento quindi anche una sola dimenticanza manda in fumo il modello.

Prescriptive Analytics

Con le Analisi Prescrittive si entra nell’ambito di strumenti che associano l’analisi dei dati alla capacità di assumere e gestire processi decisionali, sono tool che mettono a disposizione indicazioni strategiche ed operative basate sia sull’Analisi Descrittiva sia sulle Analisi Predittive. bisogna considerare che questo tipo di analisi risulta efficace solo se le organizzazioni sanno quali domande porre e come reagire alle risposte

I big data per il marketing: Esempi di analisi

vuoi degli esempi? in questo post trovi tutte le analisi di digital marketing che si possono fare con i big data!

VEDI ANCHE: I BIG DATA PER L’INDUSTRIA 4.0

 

Autore: Andrea Magnani – profilo linkedin