# Probabilità

Fino ad ora abbiamo visto la parte di statistica che partendo dai dati ci aiuta a capire le cause di un fenomeno.
Iniziamo un nuovo capitolo dedicato alla probabilità che partendo dalla descrizione delle cause ci aiuta a prevedere i dati.

Partiamo subito con una parte importante del nostro corso, la probabilità condizionata.
Cominciamo con un esperimento mentale 

## Linda la bancaria
Per introdurre la probabilità condizionata useremo un esperimento di Tversky and Kahneman due studiosi che posero questa domanda ad un gruppo di persone:

Linda ha 31 anni, single, aperta e molto brillante. Si è laureata in filosofia. Da studente, era molto impegnata nei problemi di discriminazione e giustizia sociale, e ha anche partecipato a manifestazioni antinucleari. Quale delle due seguenti alternative è più probabile:

Linda lavora in banca come cassiera.
Linda lavora in banca come cassiera ed è un’attivista nel movimento femminista.

Molte persone scelsero la seconda opzione presubilmente perchè sembra più coerente con la descrizione, sembra sia insolito che Linda sia solo una cassiera, ci sembra più consistente che sia anche femminista.

Ma la seconda risposta non può essere più probabile, vediamo il perchè.
Supponiamo di avere 1000 persone che corrispondono alla descrizione di Linda, e che 10 lavorino in banca come cassiera.
Quante di loro saranno anche femministe?  Al massimo lo saranno tutte e 10 in quel caso la seconda opzione e equiprobabile. 
Se come converrete con me queste saranno meno di 10 la seconda opzione sarà meno probabile. Ma in nessun modo la seconda opzione sarà più probabile.

A questo punto possiamo iniziare a spiegare la definizione di probabilità, questa però puo rilevarsi più difficile da spiegare di quel che si pensi.

Ora per evitare di bloccarci già all'inizio diamo la definizione semplice, la probabilità è una frazione di un insieme finito.
Per esempio de intrervistiamo 1000 persone e 20 sono dei cassieri, la frazione che lavora come cassieri rappresenta il 0.02 o il 2%.

Se scegliessimo una persona in questa popolazione a caso, la probabilità che questa sia un banchiere è del 2%.
Quando diciamo "a caso" intendiamo che ogni persona ha la stessa probabilità di essere scelta.

Con queste definizioni e un dataset appropriato possiamo calcolare le probabilità.

In [1]:
import pandas as pd

gss = pd.read_csv('./data/gss_bayes.csv', index_col=0)
gss.head()

Unnamed: 0_level_0,year,age,sex,polviews,partyid,indus10
caseid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,1974,21.0,1,4.0,2.0,4970.0
2,1974,41.0,1,5.0,0.0,9160.0
5,1974,58.0,2,6.0,1.0,2670.0
6,1974,30.0,1,5.0,4.0,6870.0
7,1974,48.0,1,5.0,4.0,7860.0


Il dataframe che contiene i dati è composto dalle seguenti colonne:

* caseid: Il codice che rappresenta l'intervistato
* year: l'anno in cui la persona ha risposto all'intervista
* age: l'età della persona intervistata
* sex: il sesso della persona intervistata
* polviews: opinione politica della persona su una gamma da liberale a conservatore
* partyid: Affiliazione politica: Democratica, Indipendente o Repubblicana
* indus10: [Codice](https://gssdataexplorer.norc.org/variables/17/vshow) del settore industriale in cui l'intervistato lavora

Osserviamo nel dettaglio la variabile indus10.
## La percentuale dei bancari
Il codice per "Attività bancarie e connesse" è il 6870, possiamo dunque selezionare i bancari così:

In [2]:
banker = (gss['indus10'] == 6870)
banker.head()

caseid
1    False
2    False
5    False
6     True
7    False
Name: indus10, dtype: bool

Il risultato è un oggetto Series Pandas, che contiene dei valori booleani.
Se usiamo la funzione `sum` di questo oggetto, tratteremo i valori `True` come 1 e `False` 0 dunque il totale dei bancari.

In [3]:
banker.sum()

728

In questo dataset ci sono 728 banchieri.
Per calcolare la frazione dei banchieri, possiamo usare la funzione `mean`, che calcola la frazione dei valori True nella serie.

In [4]:
print("{0:.4f}".format(banker.mean()))

0.0148


Circa l'1.5% delle persone intervistate rappresenta un bancario, se scegliessimo una persona dal dataset avremmo una probabilità di scegliere un bancario pari all'1.5%

## Funzione di probabilità
Creiamo una funzione dalla sezione precedente che data una serie di valori Booleani e ritorna una probabilità:

In [5]:
def prob(A):
    """Calcolo una probabilità di una proposizione A"""    
    return A.mean()

Possiamo calcolare la frazione dei bancari con questa chiamata:

In [6]:
prob(banker)

0.014769730168391155

Ora controlliamo un'altra variabile in questo dataset. I valori della colonna sex sono codificati in questo modo:


1.    Mschio
2.    Femmina

Possiamo ottenere una serie booleana in questo modo

In [7]:
female = (gss['sex'] == 2)

E usiamo questo per calcolare la percentuale delle intervistate donne.

In [8]:
prob(female)

0.5378575776019476

La percentuale delle donne nel dataset è più alta della popolazione U.S. perche il dataset GSS non include le persone che vivono in prigioni o caserme militari, ovviamente questa popolazione è probabilmente maschile.

## Opinioni politiche e partiti
Le altre variabili che considereremo sono `polviews` che descrive le opinioni politiche degli intervistati, e `partyid` che descrive l'appartenenza ad un partito politico.

I valori di `polviews` sono su una scala di 7 punti:

1.    Estremamente liberale
2.    Liberale
3.    Leggermente liberale
4.    Moderato
5.    Leggermente Conservatore
6.    Conservatore
7.    Estremante Conservatore

Definiremo una variabile liberale, che indica le persone che hanno risposto: Estremamente liberale, Liberale, Leggermente liberale.



In [9]:
liberal = (gss['polviews'] <= 3)

Qui la frazione degli intervistati che si sono liberali.

In [10]:
prob(liberal)

0.27374721038750255

Se scegliessimo una persona a caso in questo dataset, la probabilità che sia liberale è circa del 27%.
Il valore di `partyid` sono codificati in questo modo:

0.    Fortemente democratico
1.    Non molto democratico
2.    Indipendente, quasi democratico
3.    Indipendente
4.    Indipendente, quasi repubblicano
5.    Non molto repubblicano
6.    Fortemente repubblicano
7.    Altri partiti

Definiremo la variabile `democrat` che include le persone che hanno risposto "Fortemente democratico" o "Non molto democratico":

In [11]:
democrat = (gss['partyid'] <= 1)

E questa è la probabilità degli intervistati che sono democratici.

In [12]:
prob(democrat)

0.3662609048488537

## Congiunzione 

Ora che abbiamo la definizione di probabilità e una funzione per calcolarla, moviamoci sulla congiunzione.
"Congiunzione" è un altro nome per la logica e l'operazione. Se abbiamo due [proposizioni](https://it.wikipedia.org/wiki/Proposizione_(logica)), A e B, la congiunzione di A e B sarà vera se sia A che B saranno vere, altrimenti avremo un valore falso. 

Dunque se abbiamo due serie booleane, possiamo usare l'operatore & per calcolare la loro congiunzione. Per esempio abbiamo gia calcolaro la probabilità che l'intervistato sia un bancario.

In [13]:
prob(banker)

0.014769730168391155

e la probabilità che sia democratico

In [14]:
prob(democrat)

0.3662609048488537

Ora possiamo calcolare la probabilità che l'intervistato sa bancario e democratico:

In [15]:
prob(banker & democrat)

0.004686548995739501

Come dovremmo aspettarci, `prob(banker & democrat)` è più bassa di `prob(banker)` perchè non tutti i banchieri sono democratici. Ci aspettiamo anche che la congiunzione sia commutativa cioè che A & B sia lo stesso di B & A per verificarlo possiamo calcolare `prob(democrat & banker)`:

In [16]:
prob(democrat & banker)

0.004686548995739501

E come ci si può aspettare sono lo stesso valore.

## Probabilità condizionata
La probabilità condizionata è una probabilità che dipende da una condizione, questà però potrebbe non essere la definizione più utile. Qui alcuni esempi:

* Quale è che l'intervistato sia democratico, sapendo che questo sia liberale?
* Quale è la probabilità che l'intervistato sia donna, sapendo che questi sia un bancario?
* Quale è la probabilità che l'intevistato sia liberale, sapendo che questo è una donna?

Partiamo con rispondere alla prima domanda, che possiamo interpretare come: "Se tutti gli intervistati sono liberali, quale è la frazione dei democratici?"

Possiamo calcolare questa probabilità in due passi:

1. Selezioniamo tutti gli intervisati che sono liberali
2. Calcoliamo la frazione degli intervitati che sono democratici

Per selezionare gli intervistati liberali possiamo usare l'operatore `[]` così:

In [17]:
selected = democrat[liberal]

`selected` contiene i valori dei democratici per gli intevistati liberali, dunque `prob(selected)` è la frazione dei liberali che sono anche democratici

In [18]:
prob(selected)

0.5206403320240125

Poco più della metà dei liberali sono anche democratici. Se il risultato è più piccolo di quanto ci si aspetta tieni a mente:
Abbiamo usato una definizione alquanto rigida di "democratico", escludendo gli indipendenti che si appoggiano ai democratici.
Il dataset include gli intervistati sin dal 1974, nella prima parte di questo intervallo, c'era meno allineamento tra opinioni politche e appartenenza politica, comparati con il presente. 
Proviamo con un secondo esempio, "Quale è la probabilità che l'intervistato sia femmina dato che è un bancario?" Possiamo interpretare questo "se tutti gli intervistati fossero banchieri, quale frazione è composta da femmine ?"

Ancora, useremo l'operatore `[]` per selezionare solo i bancari e la funzione `prob` per calcolare la frazione delle femmine.

In [19]:
selected = female[banker]
prob(selected)

0.7706043956043956

Circa il 77% dei bacari in questo dataset è composto da donne.
Uniamo questo codice in una fuznione. Definiremo la funzione `conditional` che prende in ingresso due serie booleane, `proposition` e `given` e calcola la probabilità condizionale:

In [20]:
def conditional(proposition, given):
    """Probability of A conditioned on given."""
    return prob(proposition[given])

Usiamo `conditional` per calcolare la probabilità che un intervistato sia liberale dato il fatto di essere donna.

In [21]:
conditional(liberal, given=female)

0.27581004111500884

Circa il 28% delle intervistare sono liberali.
Abbiamo usato la parola chiave `given` con il parametro female per rendere l'espressione più leggibile.

## La probabilità condizionale non è commutativa

Abbiamo visto che la congiunzione è commutativa `prob(A & B)` è sempre uguale a `prob(B & A)`.
La probabilità condizionale non è commutativa, `conditional(A, B)` non è lo stesso di `conditional(B, A)`.
Questo sarà più chiaro se vediamo un esempio, in precedenza abbiamo calcolato la probabilità che un intervistato sia femmina dato che sia una bancaria.

In [22]:
conditional(female, given=banker)

0.7706043956043956

Il risultato mostra che la maggior parte dei bancari è femmina. Questo non è lo stessa probabilità che un intevistato sia un bancario dato che sia femmina:

In [23]:
conditional(banker, given=female)

0.02116102749801969

Solo circa il 2% delle intervistate è bancaria.
Speriamo che questo esempio chiarisca come la probabilità condizionale non sia commutativa. 

## Condizione e congiunzione
Possiamo combinare la probabilità condizionale e la congiunzione. Per esempio questa è la probabilità che una intervistata sia femmina dato il fatto che sia liberale e Democratica.

In [24]:
conditional(female, given=liberal & democrat)

0.576085409252669

Circa il 57% dei liberali democratici è femmina.
Questa invece è la probabilità che una donna liberale sia anche una bancaria: 

In [25]:
conditional(liberal & female, given=banker)

0.17307692307692307

Circa il 17% dei bancari è una donna liberale

## Legge delle probabilità

In queste poche sezioni, deriveremo tre relazioni tra congiunzione e probabilità condizionale:
* **Teorema 1:** usare una congiunzione per calcolare la probabilità condizionata.
* **Teorema 2:** usare la probabilità condizionale per calcolare la congiunzione.
* **Teorema 3:** usare la probabilità condizionale conditional(A, B) per calcolare la probabilità conditional(B, A). Questo è anche conosciuto come teorema di Bayes.

Scriveremo questo teorema usando le notazioni matematiche della probabilità:
* $P(A)$ è la probabilità di una proposizione $A$.
* $P(A~\mathrm{and}~B)$ è la probabilità della congiunzione di $A$ e $B$, cioè la probabilità che entrambi siano veri.
* $P(A | B)$ è la probabilità condizionale $A$ dato che $B$ è vero. La linea verticale tra $A$ e $B$ viene pronunciata "dato che".

Con queste notazioni siamo pronti al teorema 1.

## Teorema 1
Quale frazione dei bancari sono donne? Abbiamo già visto una strada per calcolare la risposta:
Useremo l'operatore `[]` per selezionare i bancari, poi useremo la funzione `mean` per calcolare la frazione delle bancarie che sono donne.
Possiamo scrivere questi passi come:

In [26]:
female[banker].mean()

0.7706043956043956

Oppure possiamo usare la funzione `conditional` che fa la stessa cosa:

In [27]:
conditional(female, given=banker)

0.7706043956043956

Esiste un altro modo di calcolare la probabilità condizionale, calcolando il rapporto delle due probabilità:
La frazione delle intervistate donne e bancarie e la frazione delle intervistate che sono donne
In altre parole: di tutti i bancari, quale frazione è bancaria e donna?.

In [28]:
prob(female & banker) / prob(banker)

0.7706043956043956

Il risultato è lo stesso. Questo esempio dimostra la regola generale che lega la probabilità condizionata alla congiunzione.
Vediamo come scriverlo in una notazione matematica:

$$P(A|B) = \frac{P(A~\mathrm{and}~B)}{P(B)}$$


Questo è il teorema 1.

## Teorema 2
Se prendiamo il teorema 1 e moltiplichiamo entrambi i lati con $P(B)$ otteniemo il teorema 2.

$$P(A~\mathrm{and}~B) = P(B) ~ P(A|B)$$

Questa formula suggerisce un secondo modo di calcolare la congiunzione: invece di usare l'operatore `&`, possiamo calcolare il prodotto delle due probabilità.

Vediamo come funziona per l'esempio `liberal` e `democrat`. Qui il risultato dell'operazione `&`:

In [29]:
prob(liberal & democrat)

0.1425238385067965

Qui il risultato usando il teorema 2:

In [30]:
prob(democrat) * conditional(liberal, democrat)

0.1425238385067965

Il valore è lo stesso.

## Teorema 3

Abbiamo stabilito che la congiunzione è commutativa. Con una notazione matematica possiamo scrivere:

$$P(A~\mathrm{and}~B) = P(B~\mathrm{and}~A)$$

Se applichiamo il Teorema 2 ad entrambi i lati otteniamo: 

$$P(B) P(A|B) = P(A) P(B|A)$$

Qui un modo per interpretare questo: se volgiamo controllare $A$ e $B$, possiamo farlo nel seguente ordine:

1. Possiamo controllare prima $B$, poi $A$ condizionato su $B$ oppure
2. Possiamo controllare prima $A$, poi $B$ condizionato su $A$.

Se dividiamo entrambe le parti con $P(B)$, otteniamo il teorema 3:

$$P(A|B) = \frac{P(A) P(B|A)}{P(B)}$$

E questo è il teorema di Bayes.
Per vedere come funzione calcoliamo la frazione dei bancari che sono liberali, prima usando la funzione `conditional`:

In [31]:
conditional(liberal, given=banker)

0.2239010989010989

qui il risultato usando il teorema di bayes

In [32]:
prob(liberal) * conditional(banker, liberal) / prob(banker)

0.2239010989010989

e come si vede il risultato è uguale.

## La legge della Probabilità totale

In aggiunta a questi tre teoremi, c'è una cosa ulteriore che dovremmo saper usare per fare statistica bayesiana: la legge della probabilità totale.
Ecco una forma della legge, espressa in forma matematica:

$$P(A) = P(B_1 \mathrm{and} A) + P(B_2 \mathrm{and} A)$$


In parole, la probabilità di $A$ è la somma di due possibilità: o $B_1$ e $A$ sono vere oppure $B_2$ e $A$ sono vere.
Ma questa legge si applica solo se $B_1$ e $B_2$ sono:

* Mutualmente esclusive, che significa che solo una alla volta di queste può essere vera e
* Colletivamente esaustivo, che significa che una di queste deve essere vera.

Come esempio, usiamo questa legge per calcolare la probabilità che un intervistato sia un bancario.
Possiamo calcolaro direttamente così: 

In [33]:
prob(banker)

0.014769730168391155

Andiamo a confermare che possiamo ottenere lo stesso risultato andando a calcolare i bancari maschi e femmine separatamente.
In questo dataset tutti gli intervistati sono segnati come maschi o femmine.
Recentemente, il board GSS ha annunciato che avrà delle domande più inclusive. 
Possiamo ottenere più informazioni a questo [link](https://gender.stanford.edu/news-publications/gender-news/more-inclusive-gender-questions-added-general-social-survey).

Abbiamo già un oggetto `Series` con valori Booleani con il valore `True` quando l'intervistato è donna.
Qui la serie complementare degli intervistati uomini.

In [34]:
male = (gss['sex'] == 1)

Possiamo calcolare la probabilità totale dei bancari in questo modo:

In [35]:
prob(male & banker) + prob(female & banker)

0.014769730168391155

Poichè maschio e femmina sono mutualmente esclusivi e colletivamente esaustivo, possiamo ottenere lo stesso risultato calcolando la probabilità dei bancari direttamente.

Applicando il teorema 2 possiamo scrivere la legge della probabilità totale come

$$P(A) = P(B_1) P(A|B_1) + P(B_2) P(A|B_2)$$

Possiamo testare il risultato come

In [36]:
(prob(male) * conditional(banker, given=male) +
prob(female) * conditional(banker, given=female))

0.014769730168391153

Quando si hanno più di due condizioni, è più coinciso scrivere la legge delle probabilità totale come sommatoria:


$$P(A) = \sum_i P(B_i) P(A|B_i)$$

Ancora, questo vale se le condizioni $B_i$ sono mutualmente esclusive e collettivamente esaustive.
Come esempio consideriamo `polviews`, che contiene 7 differenti valori.

In [37]:
B = gss['polviews']
B.value_counts().sort_index()

1.0     1442
2.0     5808
3.0     6243
4.0    18943
5.0     7940
6.0     7319
7.0     1595
Name: polviews, dtype: int64

In questa scala `4.0` rappresenta "Moderato".
Possiamo calcolare la probabilità del bancario moderato così

In [38]:
i = 4
prob(B==i) * conditional(banker, B==i)

0.005822682085615744

Possiamo usare la funzione `sum` e un generatore di espressioni per calcolare la sommatoria.

In [39]:
sum(prob(B==i) * conditional(banker, B==i)
    for i in range(1, 8))

0.014769730168391157

Il risultato è lo stesso.
In questo esempio, usiamo la legge della probabilità che introduce più lavoro che calcolare la probabilità direttamente ma tornerà utile in seguito.

## Riepilogo

Questo è quello che abbiamo fatto:

**Teorema 1**  ci da modo di calcolare la probabilità condizionale usando la congiunione:

$$P(A|B) = \frac{P(A~\mathrm{and}~B)}{P(B)}$$

**Teorema 2** ci da modo di calcolare la congiunzione usando la probabilità condizionale:

$$P(A~\mathrm{and}~B) = P(B) P(A|B)$$

**Teorema 3**, Chiamato anche teorema di Bayes, ci permette di mettere in relazione $P(A|B)$ e $P(B|A)$ nel seguente modo:

$$P(A|B) = \frac{P(A) P(B|A)}{P(B)}$$

**Legge della probabilità totale** ci da modo di calcolare la probabilità totale sommando i vari pezzi:

$$P(A) = \sum_i P(B_i) P(A|B_i)$$

A questo punto possiamo chederci, e allora?. Se abbiamo tutti i dati possiamo calcolare tutte le probabilità che vogliamo, che siamo congiunzioni o probabilita condizionate, basta contare non serve usare queste formule.

E si in questo caso si ha ragione *se* abbiamo tutti i dati. Ma spesso non li abbiamo, e in quel caso, queste formule ci vengono in aiuto specialmente il teorema di Bayes.


### Esercizi


**Esercizio** Usiamo i dati in nostro possesso per risolvere una variante del problema di Linda.

>Linda ha 31 anni, è single, schietta e molto brillante. Lei è laureanta in filosofica. 
Quando era studente, lei era molto interessata a questioni quali la discriminazione e la giustizia sociale, ha anche partecipato a manifestazioni contro il nucleare. Cosa è più probabile?

> 1. Linda è una bancaria
> 2. Linda è una bancaria e si considera una persona liberale e democratica.

Per rispondere alla domanda calcolare:

* La probabilità che Linda sia una bancaria.
* La probabilità che Linda sia una bancaria e liberale
* La probabilità che Linda sia una bancaria, liberale e democratica

In [40]:
prob(banker & female)

0.011381618989653074

In [41]:
prob(banker & female & liberal)

0.002556299452221546

In [42]:
prob(banker & female & liberal & democrat)

0.0012375735443294787

**Esercizio**: Usare la probabilità condizionale per calcolare la probabilità condizionale dei seguenti casi:
Quale è la probabilita che l'intervistato sia liberale, dato che è Democratico?

In [43]:
conditional(liberal, given=democrat)

0.3891320002215698

Quale è la probabilità che un intervistato sia Democratico dato il fatto che è liberale?

In [44]:
conditional(democrat, given=liberal)

0.5206403320240125

**Esercizio** C'è una [frase famosa](https://quoteinvestigator.com/2014/02/24/heart-head/) su giovani, anziani, liberali e conservatori qualcosa di simile a:

> Se non sei liberale a 25 anni non hai un cuore. Se non sei conservatore a 35 non hai un cervello.

Che tu sia d'accordo o meno, questo ci suggerisce alcune probabilità che possiamo calcolare come esercizio.
Piuttosto che usare delle date specifiche definiamo `young` e `old` come under 30 e over 65: 

In [45]:
young = (gss['age'] < 30)
prob(young)

0.19435991073240008

In [46]:
old = (gss['age'] >= 65)
prob(old)

0.17328058429701765

Definiamo conservativo una persona con una visione politica "Conservativa", "Leggermente Conservativa" o "Estremamente Conservativa".

In [47]:
conservative = (gss['polviews'] >= 5)
prob(conservative)

0.3419354838709677

Usa la funzione `prob` e `conditional` per calcolare le seguenti probabilità.

* Quale è la probabilità che un intervistato sia un giovane liberale?

In [48]:
prob(young & liberal)

0.06579427875836884

Quale è la probabilità che una persona giovane sia liberale?

In [49]:
conditional(liberal, given=young)

0.338517745302714

Quale è la percentuale degli intervistati che sono anziani conservatori?

In [50]:
prob(old & conservative)

0.06701156421180766

Quale percentuale di conservatori è anziana?

In [51]:
conditional(old, given=conservative)

0.19597721609113564