# Stats Codebook - Probability

---

## Contents

- [Events](#events)
- [Frequentist Definition](#frequentist-definition)
- [Addition Theorem](#addition-theorem)
- [Conditional Probability](#conditional-probability) 
- [Multiplication Theorem](#multiplication-theorem)
- [Independence](#independence)
- [Probability Axioms & Properties](#probability-axioms)
- [Bayes Theorem](#bayes-theorem)

---

<a id="events"></a>
## Events

Dato un *random experiment*, i suoi possibili *outcome* si chiamano **simple events**, mentre l'insieme di tutti i *simple events* prende il nome di **sample space**.

Ogni possibile sottoinsieme del *sample space*, anche se di cardinalità unitaria, prende il nome di **event**.

Dato un certo evento $A$, si definisce **complementary event** l'evento che contiene tutti i *simple event* del *sample space* che non sono contenuti in $A$, e si denota con $A^C$ o $\bar{A}$.

Anche l'intero *sample space* può essere un evento, e si chiama **sure event**. Anche il sottoinsieme vuoto del *sample space* è un evento, e si chiama **impossible event**.

L'**unione** di due eventi $A\;or\;B$ è l'insieme di tutti i *simple events* che appartengono solo ad $A$, solo a $B$ o ad entrambi.

L'unione di $A$ con il suo complemento coincide con l'intero *sample space*, cioè $A\;or\;A^C=\Omega$.

L'**intersezione** di due eventi $A\;and\;B$ è l'insieme di tutti i *simple events* che appartengono sia ad $A$ che a $B$.

L'intersezione di $A$ con il suo complemento coincide con l'*impossible event*, cioè $A\;and\;A^C=\emptyset$

Dati due eventi $A$ e $B$, la loro **differenza** $A-B$ è quell'evento che contiene tutti i *simple event* di $A$ che non sono contenuti in $B$.

Dati due eventi $A$ e $B$, si dice che $A$ è un sottoinsieme di $B$, cioè $A\subseteq B$ se tutti i *simple event* di $A$ appartengono anche a $B$.

Due eventi $A$ e $B$ si dicono **disjoint** se non possono verificarsi allo stesso tempo.

$$\large A\;and\;B=\emptyset$$

Due eventi **non-disjoint** possono verificarsi allo stesso tempo, e quindi $A\;and\;B\neq\emptyset$.

---

<a id="frequentist-definition"></a>
## Frequentist Definition

Se un esperimento è ripetuto $n$ volte, la frequenza relativa del suo generico *outcome* $A$ è pari al rapporto fra il numero di volte che si è verificato (la sua frequenza assoluta) ed il numero totale di *trials* eseguiti.

$$\large f(A)=\frac{n_A}{n}$$

Ripetendo l'esperimento un numero indefinito di volte, si nota come la frequenza relativa del generico evento $A$ converga ad un certo valore. Questa frequenza relativa limite è interpretata come la **probabilità** di occorrenza dell'evento $A$.

$$\large P(A)=lim_{n\rightarrow\infty}\frac{n_A}{n}$$

La definizione frequentista si basa sulla **Law of Large Numbers**: più osservazioni sono raccolte da un *random experiment*, più la proporzione di occorrenze di un particolare *outcome* tende a convergere alla sua probabilità di occorrenza.

---

<a id="addition-theorem"></a>
## Addition Theorem

Dati due eventi $A$ e $B$, la probabilità di occorrenza del loro evento unione è pari alla somma delle singole probabilità di occorrenza meno la probabilità di occorrenza del loro evento intersezione.

La probabilità di occorrenza dell'evento unione di due eventi va interpretata come la probabilità che almeno uno di essi si verifichi.

$$\large P(A\;or\;B)=P(A)+P(B)-P(A\;and\;B)$$

Dati due eventi disgiunti, la probabilità di occorrenza del loro evento intersezione è nulla. In questo caso, l'*Addition Theorem* diventa:

$$\large P(A\;or\;B)=P(A)+P(B)$$

---

<a id="conditional-probability"></a>
## Conditional Probability

La **conditional probability** di un evento $A$ dato il verificarsi di un evento $B$ è pari al rapporto fra la probabilità congiunta dei due eventi e la probabilità dell'evento condizionante, cioè $B$.

$$\large P(A|B)=\frac{P(A\;and\;B)}{P(B)}$$

Il ruolo di $A$ e $B$ è interscambiabile, nel senso che la seguente formulazione è comunque valida:

$$\large P(B|A)=\frac{P(A\;and\;B)}{P(A)}$$

---

<a id="multiplication-theorem"></a>
## Multiplication Theorem

Dati due eventi $A$ e $B$, la probabilità che si verifichino entrambi dipende dalla probabilità di occorrenza di uno di essi dato il verificarsi dell'altro.

In altre parole, la probabilità di occorrenza congiunta può essere ricavata come la probabilità condizionata di $A$ dato il verificarsi di $B$, moltiplicata per la probabilità del singolo evento condizionante, cioè $B$.

$$\large P(A\;and\;B)=P(A|B)P(B)$$

In alternativa, la stessa probabilità congiunta può essere calcolata come la probabilità condizionata di $B$ dato il verificarsi di $A$, moltiplicata per la probabilità del singolo evento condizionante, cioè $A$.

$$\large P(A\;and\;B)=P(B|A)P(A)$$

<br>

---

<a id="independence"></a>
## Independence

Due eventi si dicono **independent** se il verificarsi o meno di uno di essi non influenza il verificarsi o meno dell'altro.

Più formalmente, si dimostra che due eventi $A$ e $B$ sono **stochastically independent** se la loro probabilità congiunta è pari al prodotto delle probabilità di occorrenza dei singoli eventi.

$$\large P(A\;and\;B)=P(A)\cdot P(B)$$

In altre parole, se la probabilità di occorrenza di $A$ dato il verificarsi di $B$ è ancora uguale alla probabilità di occorrenza di $A$, i due eventi sono indipendenti.

$$\large P(A|B)=P(A)$$

---

<a id="probability-axioms"></a>
## Probability Axioms & Properties

Essendo definita sulla base di una proporzione, la probabilità di occorrenza del generico evento $A$ è sempre compresa fra zero e uno.

$$\large 0\leq P(A)\leq1$$

<br>

Siccome il generico evento $A$ ed il suo complemento sono disgiunti per definizione, dall'*Addition Theorem* ricaviamo:

$$\large P(A\;or\;A^C)=P(A)+P(A^C)=1$$

In altre parole, data la probabilità di occorrenza di un evento $A$, la probabilità che si verifichi il suo complemento è pari a:

$$\large P(A^C)=1-P(A)$$

La differenza fra due eventi corrisponde all'intersezione del primo evento con il complemento del secondo:

$$\large A-B=A\;andB^C$$

<br>

Dati $k$ eventi $A_1,\dots,A_k$, tutti disgiunti tra loro, si dice che essi formano una **complete decomposition** del *sample space* $\Omega$ se la loro unione coincide con l'intero *sample space*.

$$\large A_1\;or\;\dots\;A_k=\Omega$$

Il *Multiplication Theorem* è utilizzato per dimostrare la **Law of Total Probability**: data una *complete decomposition* del *sample space* $A_1,\dots,A_k$, la probabilità di occorrenza di un altro evento esterno $B$ può essere ricavata con la seguente sommatoria:

$$\large P(B)=\sum_{i=1}^{k}P(B|A_i)P(A_i)$$

<br>

Incrociando la definizione di evento complementare e quella di probabilità condizionata, è possibile affermare che la probabilità condizionata di $A$ dato $B$ si può calcolare anche come *uno meno* la probabilità condizionata del complemento di $A$ dato $B$.

$$\large P(A|B)=1-P(A^c|B)$$

<br>

E' possibile anche dimostrare che la somma di tutte le probabilità di occorrenza degli *outcome* $A_i$ di un certo *sample space*, ognuno condizionato da un altro evento esterno $B$, è pari ad uno.

$$\large P(A_1|B)+\dots+P(A_k|B)=1$$

---

<a id="bayes-theorem"></a>
## Bayes Theorem

Il Teorema di Bayes fornisce una relazione matematica fra $P(A|B)$ e $P(B|A)$.

La sua forma più classica può essere ottenuta, data un'applicazione del *multiplication theorem*, moltiplicando e dividendo per l'evento non condizionante.

$$\large P(A|B)=\frac{P(A\;and\;B)}{P(B)}=\frac{P(A\;and\;B)}{P(B)}
\frac{P(A)}{P(A)}$$

$$\large P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$

<br>

Consideriamo una *complete decomposition* $A_1,\dots,A_k$ del *sample space* i cui eventi sono tutti a due a due disgiunti.

Dato un evento $B$ non appartenente alla *complete decomposition*, possiamo sfruttare la *Law of Total Probability* per arrivare a una nuova formulazione del *Bayes Theorem*.

$$\large P(A_i|B)=\frac{P(B|A_i)P(A_i)}
{\sum_j P(B|A_j)P(A_j)}$$

Le probabilità $P(A_j)$ sono dette **prior probabilities**.

Le probabilità condizionate $P(B|A_j)$ sono dette **model probabilities**.

Le probabilità condizionate $P(A_j|B)$ sono dette **posterior probabilities**.

---