From Physics to Data Science: come sono cambiati i dati

Tra il 1995 e il 2000 ho scoperto la bellezza della fisica. Dopo gli anni del liceo, durante i quali mi chiedevo sempre se mai sarei riuscito ad appassionarmi a qualcosa oltre ai Pink Floyd e ai Led Zeppelin, finalmente avevo trovato qualcosa che catturava completamente la mia attenzione.

Quel qualcosa meritava di farmi passare ore e ore incollato ai libri per capire la perfezione delle leggi che regolano il mondo che ci circonda, le intuizioni incredibili a cui l’uomo è riuscito a dare forma per creare degli esperimenti che sono meravigliosi anche solo da leggere.

L’infinito che cerchiamo di raggiungere come i vichinghi di “Immigrant Song” non solo nello spazio, oltre il sistema solare, ma anche all’interno della materia degli elementi che ci circondano, nella tentativo, che non dà pace all’uomo, di aprire quel “Saucerful of Secrets” che finalmente ci svelerà tutte le risposte alle domande che ci portiamo appresso da sempre.

I dati nel campo della fisica

Tra il 2001 e il 2005 la fisica mi restituì con gli interessi tutto il tempo che avevo investito nelle polverose biblioteche del dipartimento, facendomi vivere le esperienze che fino a quegli anni avevo solo potuto sognare. Mi ha dato infatti la possibilità di scoprire in prima persona come l’ingegno dell’uomo riesce a mettere insieme nozioni di ingegneria, elettronica, matematica, fisica, biologia e medicina per sviluppare dei sistemi logici programmabili (FPGA) in grado di realizzare dei Monte Carlo in tempo reale.

Tale sistema permise la stima della distribuzione della dose di radiazioni nei tessuti biologici in Radioterapia. In questo modo il medico poteva calcolare i tempi ottimali nella predisposizione della terapia di irraggiamento per curare un paziente.

Gli studi per il conseguimento del Ph. D. successivamente mi hanno dato l’opportunità di lavorare allo sviluppo di uno dei più grandi esperimenti di fisica delle particelle ad alta energia mai realizzato finora: l’esperimento LHCb, un esperimento dell’acceleratore del CERN che ha lo scopo di misurare i parametri della violazione CP e decadimenti e fenomeni rari relativi agli adroni in cui è presente il quark beauty (quark b).

Il lavoro e l’esperienza di quegli anni mi hanno segnato tantissimo, le cose che ho imparato sono innumerevoli, a partire dallo sviluppo di modelli dei segnali dell’esperimento fino alla progettazione di micro-chip VLSI per l’elettronica di acquisizione dei dati dai sensori dell’esperimento.

Ma più di tutto, quello che da allora non mi ha più abbandonato, è stato l’aver capito l’importanza dei dati, della scelta del formato più opportuno, della verifica della qualità, dei filtri più funzionali e dei sistemi di storage più adeguati.

Infine, ultimo ma non per importanza, la possibilità di realizzare serie temporali e di incrociare dati diversi provenienti da altri sensori dell’esperimento per ottenere quello che dall’analisi dei dati del singolo sensore non era possibile estrarre, mi aveva aperto gli occhi sulle potenzialità enormi delle risposte che sono semplicemente nascoste nei dati e aspettano che noi le leggiamo nel modo corretto.

Dopo il Ph.D. e un PostDoc trascorso alla ricerca di segnali del passaggio di neutrini negli oceani, credevo di aver ormai visto tutto, e che i dati fossero ormai senza segreti per me, ma mi sbagliavo di grosso.

I dati oltre la fisica

Nel 2006, un’occasione imprevista mi regala la possibilità di iscrivermi a un Master in “Tecnologie Bioinformatiche Applicate alla Medicina Personalizzata”, organizzato dal più grande centro di ricerca scientifica e tecnologica della Sardegna, il CRS4. Mi si apre un mondo: scoprendo che non esistono solo particelle inanimate come gli elettroni e i quark.

La mia attenzione in quel momento venne catturata dal DNA. La coppia di filamenti di basi azotate dove i geni risiedono e si esprimono generando le proteine. Niente di tutto quello che avevo studiato fino a quel momento poteva spiegarmi la bellezza nascosta nella complessità di questo meraviglioso sistema.

Un punto tra tutti aveva poi per me un fascino nuovo e irresistibile: scoprivo l’esistenza di reti di interazioni tra geni, tra proteine e di interazioni tra queste due reti legate tra loro.

I dati che descrivono queste entità sono molto più complessi di quelli che avevo visto fino ad allora, gli oggetti dello studio diventano sequenze di nucleotidi ATCG delle quali vogliamo trovare in stringhe lunghissime pattern ripetuti, cluster di sotto stringhe, periodicità, correlazioni e punti di singolarità.

Le sorgenti di dati non sono più esperimenti da riprodurre nel laboratorio del campus, ma sono portali web che mettono a disposizione centinaia di GByte di dati già acquisiti da altri, secondo la filosofia degli open data che in quegli anni stava prendendo vita anche in Italia.

I dati sono così tanti che ci si perde, e mi domando, ancora legato al punto di vista del fisico che in genere ha sotto mano le equazioni di quello che vuole verificare ma non riesce facilmente ad avere a disposizione i dati necessari per la verifica sperimentale:

ma se hanno già tutti questi dati, perché non hanno ancora trovato quello che cercano?

La risposta è proprio nel fatto che le risposte sono nascoste nei dati e non sempre è facile trovarle però se si capisce l’importanza dei dati allora si fa di tutto per acquisirne lo storico, anche se ancora non è chiaro come analizzarli, perché si sa che la risposta deve essere lì, bisogna soltanto leggerli in un modo nuovo che ancora non è stato pensato.

Un mondo nuovo e ancora inesplorato si apriva davanti ai miei occhi man mano che andavo a concludere il percorso del Master e realizzavo un modello per omologia di un canale al Cloro per capire perché il dogma “Struttura – Funzione”, che associa a ogni struttura proteica una specifica funzione biologica, sembra non venire rispettato da questo tipo di proteina.

Ancora non sapevo che il mondo stava andando nella direzione in cui avremmo prodotto 44 ZetaByte di dati, 40 volte di più del numero di stelle nell’universo osservabile, un mondo nel quale Google, Facebook, Microsoft e Amazon possiedono 1200 PetaByte di informazioni personali sui loro utenti e nel quale vengono fatte ogni giorno 3.5 miliardi di ricerche su Google ogni giorno (fonte).

Tutto questo avrebbe portato nel 2010 all’era dei Big Data, ma questa è un altra storia e la discuteremo in un prossimo post.

Richiedi una consulenza

Approfondisci con Alessandro Chessa CEO Linkalab