Nella sezione precedente abbiamo derivato il teorema di Bayes

$$P(A|B) = \frac{P(A) P(B|A)}{P(B)}$$


Come esempio abbiamo usato i dati del General Social Survey, ma visto che avevamo i dati del dataset completo non avevamo la vera necessità di usare il teorema.

Spesso non abbiamo il dataset completo e un quel caso il teorema di Bayes è molto utile.
In questo capitolo lo useremo per risolvere problemi più impegnativi legati alla probabilità condizionata.

## Il problema dei biscotti

Iniziamo con una versione sottilmente mascherata del [problema dell'urna](https://en.wikipedia.org/wiki/Urn_problem):
> Supponiamo di avere due ciotole di biscotti.
>
> * La ciotola 1 contiene 30 biscotto alla vaniglia e 10 al cioccolato
>
> * La ciotola 2 contiene 20 biscotti alla vaniglia e 20 al cioccolato
> Ora supponiamo di scegliere una ciotola a caso e senza guardare scegliere un biscotto a caso.
> Se il biscotto è alla vaniglie quale è la probabilità che venga dalla ciotola 1?

Quello che vogliamo calcola è la probabilità condizionale di scegliere la ciotola 1 quando abbiamo un biscotto alla vaniglia $P(B_1 | V)$.

Il teorema di Bayes ci da questa relazione

$$P(B_1|V) = \frac{P(B_1)~P(V|B_1)}{P(V)}$$

Il termine a sinistra è il valore che vogliamo ottenere. I terminia destra sono:

* $P(B_1)$ la probabilità di scegliere la ciotola 1 non è condizionatoa dal tipo di biscotti. Dunque scegliendo la ciotola in modo randomico abbiamo che $P(B_1) = 1/2$.

* $P(V|B_1)$ è la probabilità di avere un biscotto alla vaniglia dalla ciotola 1 che rappresenta 3/4
* $P(V)$ è la probabilità di ottenere un biscotto alla vaniglia da entrambre le ciotole 5/8

Possiamo calcolare $P(V)$ usando anche la legge della probabilità totale (anche se ammetto che in questo momento stiamo complicando le cose per nulla):

$$P(V) = P(B_1)~P(V|B_1) ~+~ P(B_2)~P(V|B_2)$$

Sostiuendo i numeri otteniamo 

$$P(V) = (1/2)~(3/4) ~+~ (1/2)~(1/2) = 5/8$$

Possiamo calcolare il risuatato direttamente in quanto:

* Visto che abbiamo la stessa probabilità di scegliere una ciotola o l'altra e che le ciotole hanno lo stesso numero di biscotti abbiamo la stessa probabilità di scegliere un biscotto.

* Tra le due ciotole ci sono 50 biscotti alla vaniglia e 30 al cioccolato dunque $P(V) = 5/8$.

Finalemente, possiamo applicare il teorema di Bayes per calcolare la probabilità a posteriori della ciotola 1

$$P(B_1|V) = (1/2)~(3/4)~/~(5/8) = 3/5$$

Questo esempio dimostra un uso del teorema di Bayes che permette di passare da $P(B|A)$ to $P(A|B)$.
Questa strategia è utile nei casi come questo dove è facile calcolare i termini nella parte destra, più che dalla parte sinistra.

## Interpretazione diacronica del teorema di Bayes

Inanzitutto prima di inizare a spiegare, analizziamo il significato della parola diacronica.
Questa parola significa che rappresenta un qualcosa che sta accadendo nel tempo.

Nel nostro caso possiamo pensare il teorema di Bayes come un qualcosa che ci da la possibilità di aggiornare la probabilità di una ipotesi $H$ dato un certo corpo di dati $D$.

Questa interpretazione è "diacronica", che significa "relativa al cambiamento nel tempo"; in questo caso la probabilità che le ipotesi cambino qundo siamo di fronte a nuovi dati.

Riscrivendo il teorema di Bayes con $H$ e $D$

$$P(H|D) = \frac{P(H)~P(D|H)}{P(D)}$$

In questa interprestazione ogni termine assume questo significato:

* $P(H)$ è la probabilità delle ipotesi prima di aver visto il dato, chiamata anche probabilità a priori o semplicemente **a priori**.
* $P(H|D)$ è la probabilità delle ipotesi dopo aver visto i dati, chiamata **a posteriori**
* $P(D|H)$ è la probabilità del dato sotto quella ipotesi, chiamata anche  **verosomiglianza**
* $P(D)$ è la **probabilità totale a quella data** sotto ogni ipotesi.  

A volte possiamo calcolare la probabilità a priori basandosi sulle informazioni di base. Per esempio, il problema dei biscotti specifica che possiamo scegliere una ciotola in maniera randomica con egual probabilità.

In altri casi la probabilità a priori è soggettiva, ragionevolmente le persone potrebbero non essere d'accordo, semplicemente perchè hanno informazione di base differenti o perchè interpretano le informazioni in modo differente.

La verosomiglianza è di solito la parte più facile da calcolare. Nel problema dei biscotti, ci viene dati i numeri dei biscotti in ogni ciotola, dunque possiamo calcolare la probablità dei dati sotto ogni ipotesi.

Calcolare la probabilità totale dei dati può essere complicato.
Si può suppore che sia la probabilità di vedere il dato sotto ogni ipotesi, può essere difficile definire con precisione che cosa significhi.
Più spesso semplifichiamo le cose specificando un insieme di ipotesi che sono 

* Mutualmente esclusive, questo significa che solo una di questa può essere vera e
* Colletivamente esaustiva, che significa che almeno uno deve essere vera

Quando queste condizioni sono applicate, possiamo calcolare $P(D)$ usando la legge della probabilità totale.
Per esempio con queste due ipotesi  $H_1$ e $H_2$:

$$P(D) = P(H_1)~P(D|H_1) + P(H_2)~P(D|H_2)$$

E più generalmente con un numero indefinito di ipotesi:

$$P(D) = \sum_i P(H_i)~P(D|H_i)$$

Il processo in questa sezione, usando i dati e le probabilità a priorità a priosi per calcolare le probabilità a posteriori è chiamato anche **Aggiornamento Bayesiano**.

## Tabelle di Bayes

Uno strumento utile per l'aggiornamento Bayesiano è la tabella di Bayes.
Possiamo scrivere la tabella di bayes o usare un foglio di calcolo, ma in questa sezione useremo un `DataFrame` Pandas.
Come primo passo creeremo un `DataFrame` vuoto con ogni riga per ogni ipotesi:

In [1]:
import pandas as pd
table = pd.DataFrame(index=['Bowl 1', 'Bowl 2'])

Ora aggiungiamo una colonna rappresentante le probabilità a priori:

In [2]:
table['prior'] = 1/2, 1/2
table

Unnamed: 0,prior
Bowl 1,0.5
Bowl 2,0.5


Una colonna con i valori di verosomiglianza:

In [3]:
table['likelihood'] = 3/4, 1/2
table

Unnamed: 0,prior,likelihood
Bowl 1,0.5,0.75
Bowl 2,0.5,0.5


Qui vediamo le differenze tra dal metodo precedente: possiamo calcolare la verosomiglianza per entrambe le ipotesi, non solo per la ciotola 1.

* La probabilità di avere un biscotto alla vaniglia dalla ciotola 1 è 3/4.
* La probabilità di avere un biscotto alla vaniglia dalla ciotola 2 e 1/2.

Potresti notare che la verosomiglia non raggiunga il valore 1. Questo va bene, ogni una di essere è la probabilità condizionata su differenti ipotesi.

Non c'è nessuna ragione che queste ipotesi debbano arrivare al valore 1 e non c'è nessun problema se lo fanno.
Il prossimo passo è simile a quanto già fatto in precedenza, moltiplichiamo le probabilità a priori con le verosomiglianze:

In [4]:
table['unnorm'] = table['prior'] * table['likelihood']
table

Unnamed: 0,prior,likelihood,unnorm
Bowl 1,0.5,0.75,0.375
Bowl 2,0.5,0.5,0.25


Chiamiamo il risultato `unnorm` perchè i valori sono "posteriori non normalizzati". Ogni valore è il prodotto tra la probabilità a priori e la verosomiglianza:

$$P(B_i)~P(D|B_i)$$

Che rappresenta il numeratore del teorema di Bayes.
Se sommiamo i due valorei otteniamo 

$$P(B_1)~P(D|B_1) + P(B_2)~P(D|B_2)$$

Che rappresenta il denominatore del teorema di Bayes $P(D)$.
Possiamo calcolare la probabilità totale dei dati in questo modo:

In [5]:
prob_data = table['unnorm'].sum()
prob_data

0.625

Abbiamo ottenuto i famosi 5/8, come se avessimo calcolato direttamente $P(D)$.
Possiamo calcolare le probabilità a posteriori in questo modo:

In [6]:
table['posterior'] = table['unnorm'] / prob_data
table

Unnamed: 0,prior,likelihood,unnorm,posterior
Bowl 1,0.5,0.75,0.375,0.6
Bowl 2,0.5,0.5,0.25,0.4


La probabilità a posteriori per la ciotola 1 è 0.6, lo stesso valore che abbiamo ottenuto usando il teorema di Bayes. Come Bonus abbiamo anche la probabilità della ciotola 2 che ha come valore 0.4.

Quando sommiamo i valori dei posteriori non normalizzati ed eseguiamo la divisione, forziamo le probabilità a posteriori ad avere come valore massimo 1. Questo processo è anche chiamato normalizzazione, questo è il perchè la probabilità totale viene anche chiamata "costante di normalizzazine".

## Il problema dei dadi

Con la tabella di Bayes possiamo risolvere problemi con più di due ipostesi. Per esempio:

> Supponiamo di avere una scatola con un dado a 6 facce un dado a 8 facce e un dado a 12 facce. Sceglo un dado in modo casuale lo lancio e leggo il valore 1 quale è la probabilità che abbia scelto un dado a 6 facce?

In questo esempio, ci sono tre ipotesi con la stessa priorità a priori. I dato in nostro possesso è 1.

Se scelgo il dado a 6 facce la probabilità di 1 sara 1/ mentre per il dado a 8 facce sarà 1/8 e così via
Questa è la tabella di Bayes che usa gli interi per rappresentare le ipotesi:

In [7]:
table2 = pd.DataFrame(index=[6, 8, 12])

Useremo il tipo di dato fractions per rappresentare le probabilità a priori e le verosomiglianze. Questo sistema ci pemetterà di non arrotondare i numeri a virgola mobile.

In [8]:
from fractions import Fraction

table2['prior'] = Fraction(1, 3)
table2['likelihood'] = Fraction(1, 6), Fraction(1, 8), Fraction(1, 12)
table2

Unnamed: 0,prior,likelihood
6,1/3,1/6
8,1/3,1/8
12,1/3,1/12


Una volta calcolate le probabilità a priori e le verosomiglianze, i passi rimanenti sono gli stessi mettiamo tutto in una funzione:

In [9]:
def update(table):
    """Calcoliamo la probabilità a posteriori"""
    table['unnorm'] = table['prior'] * table['likelihood']
    prob_data = table['unnorm'].sum()
    table['posterior'] = table['unnorm'] / prob_data
    return prob_data

Usiamo la funzione e aggiorniamo la tabella.

In [10]:
prob_data = update(table2)

Qui la tabbelina finale di Bayes:

In [11]:
table2

Unnamed: 0,prior,likelihood,unnorm,posterior
6,1/3,1/6,1/18,4/9
8,1/3,1/8,1/24,1/3
12,1/3,1/12,1/36,2/9


Le probabilità a posteriori del dado a sei facce sono 4/9, che è leggermente più probabile degli altri dati, 3/9 e 2/9.
Intuitivamente, il dado a 6 facce è il più probabile in quanto ha la verosomiglianza più elevata.

## Il problema di Monty Hall
Usiamo ora il teorema di Bayes per risolvere un dei problemi più litigiosi problemi della probabilità:
Il problema di Monty Hall è basato su un gioco chiamato *Let's Make a Deal*.
Se sei un concorrente del programma, ecco il funzionamento del gioco:

* Il presentatore Monty Hall, ti mostra tre porte chiuse numerate con 1,2 e 3 ti chiede di indovinare dietro a quale porta ci sia il premio.

* Uno dei premi è di valore (di solito una macchina), mentre dietro alle altre porte c'è un premio di poco valore (di solito delle capre).

* L'obiettivo del gioco è quello di indovinare dietro a quale porta si nasconda l'auto. Se indovini potrai tenerti l'auto.

Supponiamo di prendere la porta 1. Prima di aprire la porta che hai scelto, Monty apre la porta numero 3 e ti rivela una capra. 
Poi Monty ti offre la possibilità di cambiare la tua scelta.

Per massimizzare la possibilità di vittoria, rimaniamo sulla porta numero 1 o cambiamo sulla porta 2?
Per rispondere a questa domanda, dobbiamo fare due assunzioni circa il comportamento del presentatore:

1. Monty apre sempre una porta e offre la possibilità di cambiare.
2. Non succederà mai che dietro una porta aperta dal presentatore ci sia una macchina
3. Se scegliamo la porta con una macchina, lui scegliera una porta a caso 


Sotto queste assunzioni, faresti meglio a cambiare. Se rimani sulla tua scelta si ha 1/3 di possibilità di vincere. Se cambiamo si ha la possibilità di vincere pari a 2/3.

Se non si è mai incontrato il problema prima, potresti trovare la risposta sorprendente.Ma non saresti da solo molte persone hanno la forte intuizione che il risultato non cambi se si cambia o meno. Ci sono due porte ancora, questo è il ragionamento, dunque dietro la porta c'è il 50% di probabilità di avere un'auto. Ma questo è sbagliato.

Per vedere il perchè, potrebbe aiutare la tabella di Bayes. 
Possiamo partire da tre ipotesi, la macchina può essere dietro alla porta 1,2 o 3. In accordo con con quanto detto la probabilità di vincere in partenza di ogni porta è 1/3.


In [12]:
table3 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3'])
table3['prior'] = Fraction(1, 3)
table3

Unnamed: 0,prior
Door 1,1/3
Door 2,1/3
Door 3,1/3


Il dato è che Monty aprendo la porta 3 e ha rilevato la capra. Consideriamo la probabilità dei dati sotto ogni ipotesi: 

* Se la macchina è dietro alla porta 1, Monty sceglie la porta 2 o la porta 3 in modo causale. Dunque la probabilità di aprire la porta 3 è 1/2.
* Se la macchina è dietro la porta 2, Monty deve aprire la porta 3 dunque la probabilità del dato sotto questa ipotesi è 1.
* Se la macchina fosse dietro alla porta 3, Monty non potrebbe aprirla, con questa probabilità sui dati l'ipotesi è 0.

Qui le verosomiglianze:


In [13]:
table3['likelihood'] = Fraction(1, 2), 1, 0
table3

Unnamed: 0,prior,likelihood
Door 1,1/3,1/2
Door 2,1/3,1
Door 3,1/3,0


Ora abbiamo la probabilità a priori e le verosomiglianze, possiamo usare la funzione `update` per calcolare la probabilità a posteriori.

In [14]:
update(table3)
table3

Unnamed: 0,prior,likelihood,unnorm,posterior
Door 1,1/3,1/2,1/6,1/3
Door 2,1/3,1,1/3,2/3
Door 3,1/3,0,0,0


Perciò ringraziamo e cambiamo la porta.

[![Monty Hall](https://img.youtube.com/vi/nYX8DMG8_yw/0.jpg)](https://www.youtube.com/watch?v=nYX8DMG8_yw)

Qui sotto l'esemmpio con quatto porte le cose cambiano un pochino

In [15]:
table4 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3', 'Door 4'])
table4['prior'] = Fraction(1, 4)
table4

Unnamed: 0,prior
Door 1,1/4
Door 2,1/4
Door 3,1/4
Door 4,1/4


In [16]:
table4['likelihood'] = Fraction(1, 3), Fraction(1, 2), Fraction(1, 2), Fraction(1, 2)
table4

Unnamed: 0,prior,likelihood
Door 1,1/4,1/3
Door 2,1/4,1/2
Door 3,1/4,1/2
Door 4,1/4,1/2


In [17]:
update(table4)
table4

Unnamed: 0,prior,likelihood,unnorm,posterior
Door 1,1/4,1/3,1/12,2/11
Door 2,1/4,1/2,1/8,3/11
Door 3,1/4,1/2,1/8,3/11
Door 4,1/4,1/2,1/8,3/11


Questo esempio mostra che la nostra intuizione di probabilità non è sempre affidabile.
Il teorema di Bayes può aiutare fornendo una strategia divide et impera:

1. Primo, annotare le ipotesi e i dati.
2. Quindi, calcolare le probabilità a priori.
3. Infine calcoliamo la verosomiglianza del dato sotto ogni ipotesi.

La tabella di Bayes fa il resto.

## Sommario
In questo capitolo abbiamo risolto il problema dei biscotti usando il teorema di Bayes esplicitamente e usando la tabella di di bayes.

Non c'è una reale differenza tra questi metodi, ma la tabella di Bayes può rendere più facile calcolare la probabilità totale, specialmente quando ci sono più di due ipotesi. 
Abbiamo poi risolto il problema dei dadi e siamo passati al problema delle porte di Monty Hall.
Nel prossimo capitolo estendiamo il problema dei biscotti e dei dadi e passiamo dalla probabilità di base alla statistica Bayesiana.

## Esercizi

**Esercizio**: Supponiamo di avere due monete in una scatola. Una è una momenta normale con una testa e una coda, mentre l'altra è una moneta truccata con due teste. Scegliamo una moneta a caso e vediamo che una delle due facce è una testa, quale è la probabilità di aver scelto la moneta truccata?

In [21]:
coin = pd.DataFrame(index=['Coin 1','Coin 2'])
coin['prior'] = Fraction(1, 2)
coin['likelihood'] = Fraction(1, 2), Fraction(1, 1)
update(coin)
coin

Unnamed: 0,prior,likelihood,unnorm,posterior
Coin 1,1/2,1/2,1/4,1/3
Coin 2,1/2,1,1/2,2/3


**Esercizio**:Supponiamo di incontrare qualcuno e di venire a sapere che ha dua bambini.
Chiedi ad entrambi i bambini se sono ragazzine e loro dicono di si, qual'è la probabilità che entrambi siano femmine?
*Suggerimento*: Si parte con 4 ipotesi con la stessa probabilità

In [23]:
child = pd.DataFrame(index=['All Male','First Female','Second Female','All Female'])
child['prior'] = Fraction(1, 4)
child['likelihood'] = 0, Fraction(1, 1), Fraction(1, 1),Fraction(1, 1),
update(child)
child

Unnamed: 0,prior,likelihood,unnorm,posterior
All Male,1/4,0,0,0
First Female,1/4,1,1/4,1/3
Second Female,1/4,1,1/4,1/3
All Female,1/4,1,1/4,1/3


**Esercizio:** Ci sono molte variazioni del [problema di Monty Hall](https://en.wikipedia.org/wiki/Monty_Hall_problem).
Per esempio, supponiamo che Monty scelga sempre la porta 2 se possibile e scelga la porta 3 solo se deve (perchè dietro alla 2 c'è la macchina)

Se scegliamo la porta 1 e Monty apre la 2, quale è la probabilità che la macchina sia dietro alla 3?

In [27]:
# If the car is behind Door 1, Monty would always open Door 2 
# If the car was behind Door 2, Monty would have opened Door 3
# If the car is behind Door 3, Monty would always open Door 2


table3 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3'])
table3['prior'] = Fraction(1, 3)
table3['likelihood'] =  1, 0, 1
update(table3)
table3

Unnamed: 0,prior,likelihood,unnorm,posterior
Door 1,1/3,1,1/3,1/2
Door 2,1/3,0,0,0
Door 3,1/3,1,1/3,1/2


Se scegli la porta 1 e Monty apre la 3 quale è la priorità che la macchina sia dietro alla 2?

In [28]:
table3 = pd.DataFrame(index=['Door 1', 'Door 2', 'Door 3'])
table3['prior'] = Fraction(1, 3)
table3['likelihood'] = 0,1,0
update(table3)
table3

Unnamed: 0,prior,likelihood,unnorm,posterior
Door 1,1/3,0,0,0
Door 2,1/3,1,1/3,1
Door 3,1/3,0,0,0


**Esercizio**:Le M&M sono delle piccole caramelle di cioccolata di vari colori.
L'azienza Mars. Inc. che produce tali dolciumi, cambia la miscela dei colori nel tempo.
Nel 1995 sono stati introdotti gli M&M di colore blue.

* Nel 1994, il mix dei colori in sacchetto di M&M era 20\% Marroni, 20\% Giallo, 20\% Rosso, 10\% Verde, 10\% Arancio, 10\% Marroncino.

* Nel 1996, era del 24\% Blue, 20\%Verde, 16\% Arancio, 14\% Giallo, 13\% Rosso, 13\% Marrone. 

Supponiamo che un nostro amico abbia due sacchetti di M&M, e ci dice che uno è del 1994 e uno del 1996. Non ci dice quale è quale, ma ci consegna una M&M per ogni sacchetto. Una è gialla e una è verde. Quale è la probabilità che la gialla sia del 1994? 

Suggerimento, Il trucchetto di questa domanda è definire le ipotesi e i dati con attenzione.

In [32]:
# le ipotesi sono 2
# A la caramella gialla viene dal sacchetto del 1994 e la verde viene dal sacchetto del 1996
# B la caramella verde viene dal sacchetta del 1944 e la gialla viene dal sacchetto del 1996

mm = pd.DataFrame(index=['A', 'B'])
mm['prior'] = 1/2

# la probabilità della caramella gialla del 1994 è del 0.2 mentre quella verde del 1996 è del 0.2
likelihoodA = 0.2*0.2

# la probabilita della caramella gialla del 1996 è 0.14 mentre quella verde del 1994 è 0.1
likelihoodB = 0.14*0.1
mm['likelihood'] = likelihoodA,likelihoodB

update(mm)
mm

Unnamed: 0,prior,likelihood,unnorm,posterior
A,0.5,0.04,0.02,0.740741
B,0.5,0.014,0.007,0.259259
