È un fatto poco noto che alcuni grandi scienziati, tra cui diversi matematici, avevano una certa passione per il gioco d’azzardo e provavano a capire – con i mezzi del ragionamento matematico – quali potessero essere le migliori strategie per vincere al gioco. Tra questi Blaise Pascal, filosofo e matematico di talento, nella sua carriera si era imbattuto in un singolare problema propostogli da un suo amico scrittore: Antoine Gombaud, in arte “Chevalier de Mère”, che da accanito giocatore si era posto la domanda se fosse più facile ottenere almeno un 6 in 4 lanci di un dado, oppure un doppio 6 in 24 lanci. 

Questo problema risolto da Pascal, è descritto in un carteggio con un altro grande matematico del tempo, Fermat spesso ritenuto alle origini della moderna teoria delle probabilitàÈ curioso che lo stesso Gombaud avesse escogitato un metodo che definiamo oggi “moderno” per stimare la probabilità: aveva effettuato centinaia di prove per arrivare ad una risposta empirica. 

Questo metodo sperimentale è il conseguente approccio “frequentistico” (calcolare il numero medio di occorrenze del risultato desiderato e ottenere 6 in 4 lanci, oppure, nel secondo esperimento un doppio 6 in 24 lanci) è stato ed è ancora alla base della moderna teoria delle probabilità. Contare gli eventi favorevoli ed attribuire agli stessi una frequenza che diventa “probabilità” nel limite dei grandi numeri, è alla base del cosiddetto “approccio frequentistico” alla probabilità. 

In questo metodo i dati sono casuali, ma i modelli che si stimano sopra (per esempio le distribuzioni di probabilità) hanno parametri “reali”. 

Per esempio la distribuzione del peso delle persone adulte di un determinato sesso, segue approssimativamente la distribuzione di Gauss o distribuzione normale, per cui bastano due parametri: la media e la varianza che danno rispettivamente posizione e ampiezza della distribuzione stessa. 

Una volta noti quei due parametri siamo ragionevolmente confidenti, che sarà estremamente raro incontrare persone che hanno un peso estremamente alto o davvero basso. Questo perché la distribuzione normale concentra il 96% dei punti entro due ampiezze di deviazione standard (nota anche come regola dei 2s ) e 5 ampiezze di deviazione standard con una probabilità bassissima. In altre parole trovare una persona che pesi 350kg sarà molto raro, se la media del peso è attorno ai 70kg. 

Quindi si può immaginare che in questo modo di pensare i parametri della distribuzione normale, media e varianza – se è stata fatta bene la stima – siano dati una volta per tutte, mentre ci sono dati che variano casualmente pur seguendo da vicino la distribuzione normale. Immaginatevi ora un modo di ragionare esattamente opposto, i dati sono fissi e non hanno una loro caratteristica di casualità, ad essere mobili adesso sono i parametri della nostra distribuzione che si adattano ai dati e li descrivono. 

La media e la varianza della distribuzione del peso si muovono (oscillando attorno ad un valor medio) per catturare tutta la variabilità dei dati. Questo approccio alternativo alla probabilità è legato ad un importante teorema sulla probabilità noto come “Teorema di Bayes”. 

Thomas Bayes era un sacerdote inglese vissuto al tempo di Newton con una grande passione per la matematica, ottime abilità di calcolo e di ragionamento logico. In un’opera postuma veniva formulato il teorema che porta il suo nome. Una equazione molto semplice che regola come si calcola la “probabilità condizionata”. 

Proviamo a chiarire innanzitutto il concetto di probabilità condizionata. 

Dato un evento A questo si dice “condizionato” ad un evento B se A può verificarsi solo dopo che abbiamo osservato B. Per esempio la probabilità di ottenere un 6 lanciando il dado dopo aver prima ottenuto un 6 si dice essere “condizionata all’evento 6”. Si scrive formalmente 

P(A | B) e si legge in inglese “A given B”. 

Possiamo scrivere il teorema di Bayes in questa forma:

P(A|B) P(B) = P(B|A) P(A);

La formula sorprendentemente semplice stabilisce che è possibile stimare la probabilità di evento A condizionato a B in funzione delle informazioni che abbiamo sull’evento B questa volta condizionato ad A (l’evento “contrario”) e su entrambi gli eventi A e B senza condizioni.

In termini più semplici possiamo affermare che se B sono i dati, possiamo stimare i parametri A dalle informazioni che sappiamo a priori di come, se conoscessimo il comportamento dei dati al variare dei parametri P(B|A). Di fatto si rovescia il ragionamento dell’approccio frequentistico, se abbiamo informazioni sui parametri (e la loro variabilità P(A)) allora possiamo stimare come gli stessi si comportano con i dati reali che non sono più da considerare “random” ma dati una volta per tutte.

Questo modo di valutare la probabilità può essere spesso convoluto, difficile da trattare e matematicamente ostico (perché non si riesce a stimare – in ogni occasione – come si trasformano le probabilità nella formula sopra). Tuttavia può essere un trucco molto potente per risolvere problemi “difficili da trattare” in senso classico. Di solito i metodi bayesiani si risolvono con metodi di simulazione al computer. 

Ora vediamo un esempio della potenza del metodo bayesiano applicato ad un problema “classico” che si potrebbe incontrare anche nel business.

Supponiamo di voler valutare la probabilità di ricevere una offerta di lavoro dopo un colloquio anche se nei tre giorni successivi non abbiamo ricevuto alcuna chiamata:

P(Offer|NoCall)

Sappiamo che dalla nostra esperienza e da quella di altri amici, quando ci fanno delle offerte di lavoro non sempre ci chiamano nei 3 giorni successivi. Attribuiamo a questo evento: P(NoCall|Offer) un valore pari al 40% 

Allo stesso tempo la probabilità di una offerta la stimiamo bassa 

P(Offer) = 20%

E quella di non ricevere una chiamata come abbastanza alta 

P(NoCall) = 90%

Ora abbiamo tutte le informazioni date dal teorema di Bayes.

P(Offer|NoCall) = P(NoCall|Offer) * P(Offer) / P(NoCall)

Sostituendo otteniamo

P(Offer|NoCall) = 40% * 20%/90% = 8.9% 

In pratica con questo trucco abbiamo dato un valore ad una cosa abbastanza “impalpabile” come la domanda: se non ci chiamano ci faranno comunque un’offerta? il valore del 8.9% è assolutamente ragionevole, siamo a meno del 10%, probabilmente dobbiamo continuare a cercare lavoro.

Quello che appare evidente in questo esempio che per sperimentare abbiamo introdotto parecchi valori secondo la nostra esperienza. Abbiamo ovvero dato dei valori – per esempio alla probabilità di non ricevere una telefonata – secondo una stima data personale basata sul nostro convincimento (belief in inglese).

La statistica Bayesiana incorpora infatti le convinzioni dello sperimentatore sotto forma di “probabilità a priori” (quel 40% che abbiamo inserito è un tipico esempio). Dalle ipotesi – che devono essere ragionevoli – sulle probabilità a priori e sulle relative distribuzioni dei parametri discendono poi con calcoli non sempre banali e spesso con il ricorso al calcolatore, i valori che vogliamo stimare.

Le applicazioni nel business sono innumerevoli, tra le più note citiamo quel metodo di classificazione machine learning, noto come Naive Bayes che facendo uso della statistica bayesiana e di alcune ipotesi semplici sulla distribuzione dei parametri da stimare si rivela molto efficace. 

Per esempio nella distinzione tra spam e non-spam. Il metodo del Naive Bayes ha il vantaggio di essere molto veloce da applicare e di richiedere anche pochi dati.

Possiamo dire, in generale, che la metodologia bayesiana si applica molto bene ai campioni piccoli, mentre al contrario il deep learning richiede grandi dataset di training. Il metodo bayesiano è a suo agio con piccoli campioni, un fatto non trascurabile nel mondo dei big data, quando come accade spesso, i dati non sono affatto “big” e le domande di business sono impellenti.