Corsa all'oro nelle montagne di dati

15 aprile 2015

I Big Data sono la nuova speranza, il nuovo oro della Silicon Valley. Con il termine Big Data si intendono i dati raccolti da grandi aziende internet, fornitori di energia e società di telecomunicazioni: i database che nascono dalle nostre vite, sempre più registrate digitalmente.

Non esiste una definizione precisa di Big Data, ma le tre V – Volume, Velocità e Varietà – sono solitamente utilizzate come criteri chiave per la sua differenziazione. Si riferisce a dati generati in massa (Volume), rigenerati costantemente e continuamente (Velocità) e multiformi e non ordinati (Varietà).

Il successo genera molti frutti e, nel caso dei Big Data, altre V sono di moda, come veridicità (affidabilità), fattibilità (usabilità), valore (valore) o verosimiglianza (plausibilità). Ma queste sono sempre state proprietà importanti anche per i database tradizionali.

Da dove provengono queste nuove masse di dati digitali? Un prerequisito è stato il calo del costo dell'hardware informatico: lo spazio di archiviazione e la potenza di calcolo sono diventati sempre più accessibili e il numero di dispositivi e la loro connettività tramite Internet sono in costante crescita. Questo ha creato le basi non solo per la raccolta, l'elaborazione e l'archiviazione elettronica dei dati a basso costo, ma anche per la loro raccolta con livelli di dettaglio senza precedenti. Ad esempio, l'azienda Pacific Gas and Electric (PG&E) utilizza contatori intelligenti in tutta la California dal 2012. Si tratta di contatori intelligenti di elettricità e gas che registrano i valori di consumo più volte all'ora e li inviano elettronicamente alla sede centrale, dove in precedenza un dipendente si recava una volta all'anno con blocco e matita, annotava le letture e interrompeva il processo.

Un altro fattore significativo nel diluvio di dati è la proliferazione degli smartphone. Grazie a loro, lasciamo tracce di dati nelle nostre città, documentando dove siamo e chi incontriamo (GPS), chi sono i nostri amici e cosa ci piace (Facebook), cosa cerchiamo (Google), cosa pensiamo (Twitter) e, naturalmente, chi chiamiamo. Inoltre, navighiamo e facciamo acquisti online, raccogliamo punti bonus, utilizziamo carte sconto o fedeltà e paghiamo elettronicamente.

I dati generati in questo processo sono chiamati Big Data.

I Big Data, a causa del loro enorme volume, presentano nuove sfide in termini di raccolta, sicurezza ed elaborazione dei dati. Facebook, ad esempio, deve coordinare l'accesso di oltre un miliardo di utenti attivi in tutto il mondo. Su YouTube, ogni ora vengono guardati oltre 500 anni di film e ogni minuto vengono caricate 72 ore di filmati. Google riceve oltre un miliardo di query di ricerca al giorno.

I Big Data sono più di una semplice nuova tecnologia per fornire informazioni al mondo. Sono legati alla speranza di riuscire sempre di più a utilizzare le enormi quantità di dati esistenti e in continua evoluzione in modo significativo, rapido ed efficace. Questo vale anche se i dati non presentano caratteristiche comuni, sono destrutturati, provengono da fonti diverse e sono stati originariamente raccolti per scopi completamente diversi. Ciò pone notevoli sfide in termini di elaborazione dei dati, metodi statistici e forme di visualizzazione delle informazioni. Si tratta di compiti per lavori nuovi e impegnativi.

La speranza è anche che diventino possibili nuove e approfondite intuizioni sulle strutture sociali, sui flussi di informazioni, sui flussi di merci, sui flussi di traffico, sugli spostamenti delle persone attraverso le città o sulle loro migrazioni tra Paesi. Approfondimenti sulle connessioni tra i flussi di traffico durante il giorno, il consumo di elettricità nei diversi quartieri, l'utilizzo delle reti di comunicazione e tra condizioni meteorologiche, viaggi, amicizie e diffusione delle malattie.

Finora, avevamo solo vaghe idee su come alcuni di questi elementi potessero essere collegati. I Big Data ci hanno fornito sempre più informazioni. La sfida ora è imparare ad analizzare ed elaborare questi dati. L'obiettivo è che noi, come società, comprendiamo che possiamo prevedere il futuro e quindi utilizzare meglio le risorse.

Un esempio di applicazione dei Big Data è Google Traffic. Google Maps mostra la situazione attuale del traffico a colori, dal verde per un flusso di traffico fluido al nero per un ingorgo. Le informazioni provengono dai sensori stradali, ma anche dagli utenti del software di navigazione di Google. Questo software segnala ai server centrali la posizione di ciascun utente e la sua velocità. I dati combinati di tutti gli utenti creano un quadro della situazione del traffico, con un'accuratezza straordinaria. In futuro, questo dovrebbe funzionare non solo in tempo reale, ma anche in modo predittivo. Dopotutto, la domanda non è "Com'è la situazione ora?", ma "Come sarà la situazione quando arriverò lì?".

Un'altra applicazione è l'analisi dei post di Twitter, ad esempio con la parola chiave "Sentirsi male", tenendo conto delle relazioni di amicizia per prevedere la diffusione di epidemie. GermTracker è già online per alcune importanti città degli Stati Uniti e per Londra.

È concepibile analizzare i social network per valutare il livello di soddisfazione dei residenti di una città, di un quartiere o di una strada, per analizzare la distribuzione geografica delle amicizie o delle relazioni familiari, o per analizzare i modelli migratori. E tutto questo in tempo reale. Così, in futuro, 1,5 milioni di abitanti della Germania non scompariranno "improvvisamente".

Lo svantaggio è che i big data forniscono anche informazioni sulla vita degli individui, spesso con una precisione molto maggiore di quanto sospettiamo. Sebbene ci consideriamo ancora individualisti, gli statistici dotati di enormi quantità di dati ne sanno già di più. E questa conoscenza è preziosa perché consente di valutare il rischio di incidenti o malattie, il futuro successo professionale, le preferenze e altre circostanze personali. Finora, i dati vengono utilizzati principalmente per scopi pubblicitari. La catena di grandi magazzini americana Target ha già attirato l'attenzione inviando a una minorenne annunci di abbigliamento per neonati prima ancora che sapesse di essere incinta.

Una correlazione tra quoziente intellettivo e "mi piace" su Facebook per determinati marchi o prodotti è già stata scientificamente provata. Da allora, si è dato per scontato che chi mette "Mi piace" su Harley Davidson o clicca su "Adoro essere una mamma" non sia particolarmente intelligente. È solo questione di tempo prima che ulteriori correlazioni vengano scoperte nei vasti archivi di dati.

Dovremo imparare a gestirlo, a stabilire dei limiti e a controllare la tecnologia. Questo era già il caso quando abbiamo scoperto il fuoco.

Resta da vedere in quale direzione e in che misura i Big Data cambieranno il nostro mondo. Il trend è ancora agli albori, ma il suo potenziale è evidente.

Infine, diamo un'occhiata a ciò che i Big Data sanno di sé stessi: un'analisi dei Big Data sui Big Data basata su tutte le query di ricerca di Google dal 2004. "Big Data" è emerso come termine di ricerca a metà del 2011 e da allora ha registrato un trend in crescita. E un'altra intuizione brilla come una piccola pepita d'oro in una padella: il termine ha origine in India, nella città di Bangalore, dove molte aziende americane gestiscono call center. Si tratta di una nuova scoperta rivoluzionaria? Probabilmente no. Ma si tratta di informazioni, l'oro del nostro tempo. Chissà quanta ne verrà scoperta e cosa ne verrà fuori?