Che tempo farà domani? Come andranno i miei investimenti? Quanti nuovi casi di COVID-19 in Italia ci dobbiamo aspettare nelle prossime settimane?

Le scienze statistiche cercano, attraverso modelli e calcoli più o meno complessi, di rispondere a domande come queste. 

Uno dei metodi utilizzati, forse tra i più affascinanti (e sempre più usati), è **l'inferenza bayesiana**.
Nonostante le sue basi affondino fino alla metà del '700, è stata applicata estesamente solo grazie all'uso di computer sempre più potenti, in grado di svolgere in pochi minuti calcoli (spesso su matrici multidimensionali) che sarebbero quasi impossibili da fare a mano.
Minuti, certo, e un minuto è un'eternità per un computer. Per renderci conto della proporzione, immaginiamo di dover scrivere le "tabelline" delle moltiplicazioni di tutti i numeri da 1 a 100. Ci metteremmo delle ore usando decine di fogli. Uno smartphone di ultima generazione ci può impiegare 60 milionesimi di secondo nel palmo di una mano (figura $\ref{fig:tabelline}$).

\begin{figure}
\centering
    \includegraphics[width=0.5\textwidth,height=0.5\textheight,keepaspectratio]{tabelline3}
    \caption{Esempio di calcolo su uno smartphone (con Jupyter Notebook). Questo semplice script calcola 100'000 volte tutte le moltiplicazioni a due a due di tutti i numeri da 1 a 100 e ritorna il tempo medio di esecuzione in microsecondi (milionesimi di secondo).}
    \label{fig:tabelline}
\end{figure}

In [1]:
from IPython.display import display, Markdown, Latex
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as sps

def latexplot(plt, figlabel, figcaption, showme=False, single=False):

    figname = figlabel + '.png'
    plt.savefig(figname, bbox_inches='tight')

    if showme:
        plt.show()
        return
    plt.close()

    if single:
        strLatex=fr"""
\begin{{figure}}
\centering
    \includegraphics[width=0.5\textwidth,height=0.5\textheight,keepaspectratio]{{{figname}}}
    \caption{{{figcaption}}}
    \label{{fig:{figlabel}}}
\end{{figure}}
        """        
    else:
        strLatex=fr"""
\begin{{figure}}
\centering
    \includegraphics{{{figname}}}
    \caption{{{figcaption}}}
    \label{{fig:{figlabel}}}
\end{{figure}}
        """
    
    return display(Latex(strLatex)) 

notti_di_pioggia = 40
giorni_meteo = 365

# La strada bagnata

Ci alziamo una mattina di sole e scopriamo che il tratto di strada visibile dalla nostra finestra è bagnato, ma il giorno passato non ha piovuto. Quante probabilità ci sono che abbia piovuto mentre dormivamo la scorsa notte?

Per rispondere a questa domanda possiamo affidarci alla _statistica inferenziale bayesiana_ il cui scopo è determinare, con teoremi e formule più o meno complesse, di rispondere a domande simili a questa nei campi più disparati.

La categoria di "domanda" che abbiamo posto è chiamata probabilità **a posteriori** o **condizionata**: ci chiediamo infatti quale sia la probabilità dell'evento "pioggia la scorsa notte" (che chiameremo parametro $\theta$) condizionata dal, ovvero a posteriori del, fatto noto "tratto di strada bagnato" (che chiameremo variabile $X$). Scriveremo 

$$
P(\theta|X) = \; ?
$$

e leggeremo "probabilità di _theta_ dato $X$". Il parametro $\theta$ rappresenta la _verità_ che non conosciamo e che vogliamo scoprire (ha piovuto la scorsa notte?) e la variabile $X$ ciò che abbiamo osservato (la strada è bagnata).

Le probabilità vanno da 0 a 1, ovvero da 0% a 100%. Sarà questo pertanto il tipo di risultato che otterremo.

Analizzando il problema, ci renderemo facilmente conto del fatto che la risposta dipende da una serie di fattori. Vediamoli uno per uno:

1. che probabilità c'è che una strada si bagni se piove?
2. che probabilità c'è, in generale, che piova una sola notte?
3. che probabilità c'è, in generale, che una strada si bagni?

La domanda 1. è ancora una probabilità condizionata (o a posteriori) ma è l'opposto della domanda iniziale: ci chiediamo infatti che probabilità ha una strada di bagnarsi a condizione (o a posteriori del fatto) che piova. Senza entrare troppo nel dettaglio, possiamo facilmente stabilire che sia piuttosto elevata: per non bagnarsi dovrebbe essere "coperta", ma allora ci troveremmo di fronte ad esempio a un porticato e non più ad un tratto di strada, oppure dovrebbe essere un tratto molto ristretto ad esempio coperto da un'auto parcheggiata che poi si è spostata, ecc (vedremo più avanti che in realtà il tipo di "domanda" posta in questo caso non è esattamente uguale alla precedente).

In [2]:
x_given_theta = .99

display(Markdown(fr"""
Assegnamo pertanto a questa probabilità un valore prossimo al 100%, 
per esempio {x_given_theta*100:.0f}\%. 
La probabilità a posteriori della variabile $X$ (la strada è bagnata?)
dato lo specifico valore del parametro $\theta$ (ha piovuto di notte) sarà

$$
P(X|\theta) = {x_given_theta*100:.2f}\%
$$
"""))


Assegnamo pertanto a questa probabilità un valore prossimo al 100%, 
per esempio 99\%. 
La probabilità a posteriori della variabile $X$ (la strada è bagnata?)
dato lo specifico valore del parametro $\theta$ (ha piovuto di notte) sarà

$$
P(X|\theta) = 99.00\%
$$


che leggeremo "probabilità di $X$ dato $\theta$".

La domanda 2. è invece una probabilità non condizionata ovvero **a priori**: ci si chiede qual'è la probabilità a priori di una sola notte di pioggia. Per rispondere a questa domanda potremmo controllare gli archivi del servizio meteorologico del posto in cui viviamo e segnarci tutte le singoli notti di pioggia, diciamo, in un anno: saranno molto frequenti se viviamo, ad esempio, in Irlanda o Scozia ma molto meno se viviamo in Italia, dato che le condizioni climatiche portano più spesso a giornate intere di pioggia (magari consecutive). Supponiamo di scoprire che ci siano state 40 singole notti di pioggia nello scorso anno; la probabilità a priori della variabile pioggia di notte $\theta$ sarà pertanto

In [3]:
theta_prior = notti_di_pioggia / giorni_meteo

display(Markdown(fr"""
$$
P(\theta) = {notti_di_pioggia} / {giorni_meteo} = {theta_prior*100:.2f}\%
$$
"""))


$$
P(\theta) = 40 / 365 = 10.96\%
$$


La domanda 3. è, come la precedente, una probabilità a priori ma più difficile da determinare. Perché? Ci chiediamo quale sia la probabilità a priori che una strada sia bagnata, dovremmo quindi tener conto di tutte le possibilità tali per cui una strada si bagni, dalle più probabili (la pioggia stessa, un camion delle pulizie stradali passato da poco ecc) alle più improbabili (il ribaltamento di un carretto di consegne di bottiglie di acqua con rottura di sufficienti bottiglie, l'esondazione di un canale di irrigazione abbastanza vicino, l'atterraggio di un'astronave aliena che usi acqua come propellente... ecc). Sembra quasi impossibile da determinare, ma esiste un metodo che può venirci in aiuto: possiamo semplicemente sommare tra loro

In [4]:
display(Markdown(fr"""
- la probabilità che una strada si bagni se piove, che abbiamo già stabilito infatti
$P(X|\theta) = {x_given_theta*100:.2f}\%$, 
moltiplicato per la probabilità che piova una notte, che conosciamo già 
$P(\theta) = {theta_prior*100:.2f}$\%
- la probabilità che una strada si bagni se non piove  $P(X|\overline{{\theta}})$, 
che leggeremo "probabilità di $X$ dato non $\theta$"
moltiplicato per la probabilità che non piova solo una notte $P(\overline{{\theta}})$, che leggeremo
"probabilità di non $\theta$"
"""))


- la probabilità che una strada si bagni se piove, che abbiamo già stabilito infatti
$P(X|\theta) = 99.00\%$, 
moltiplicato per la probabilità che piova una notte, che conosciamo già 
$P(\theta) = 10.96$\%
- la probabilità che una strada si bagni se non piove  $P(X|\overline{\theta})$, 
che leggeremo "probabilità di $X$ dato non $\theta$"
moltiplicato per la probabilità che non piova solo una notte $P(\overline{\theta})$, che leggeremo
"probabilità di non $\theta$"


del primo termine conosciamo già tutto, ma come facciamo a determinare i valori del secondo termine? Grazie alle regole delle probabilità, la probabilità "non piova una sola notte" è complementare alla probabilità che "piova una sola notte", di cui abbiamo già stabilito il valore:

In [5]:
display(Markdown(fr"""
$$
P(\overline{{\theta}}) = 1 - P(\theta) = 1 - {(theta_prior)*100:.2f} \% = 
{(1-theta_prior)*100:.2f}\%
$$
"""))


$$
P(\overline{\theta}) = 1 - P(\theta) = 1 - 10.96 \% = 
89.04\%
$$


Ci serve dunque assegnare un valore a $P(X|\overline{\theta})$. Osserviamo che, per le regole delle probabilità

$$
P(X|\overline{\theta}) = 1 - P(\overline{X}|\overline{\theta})
$$

ovvero: la probabilità che una strada _si bagni se non piove_ è complementare alla probabilità che _non si bagni se non piove_ che corrisponde alla probabilità che una strada sia asciutta se non piove.

In [6]:
non_x_given_non_theta = .97

display(Markdown(fr"""
In questo caso specifico possiamo solo assegnare un valore arbitrario a 
$P(\overline{{X}}|\overline{{\theta}})$ risparmiandoci solamente il compito di 
immaginare le situazioni più improbabili (come l'astronave aliena) 
e considerando che "è molto probabile" che una strada sia asciutta in assenza di pioggia,
ad esempio {non_x_given_non_theta*100:.0f}\%:

$$
P(X|\overline{{\theta}}) = 1 - P(\overline{{X}}|\overline{{\theta}}) = 
1 - {non_x_given_non_theta*100:.2f}\% = {(1-non_x_given_non_theta)*100:.2f}\%
$$
"""))


In questo caso specifico possiamo solo assegnare un valore arbitrario a 
$P(\overline{X}|\overline{\theta})$ risparmiandoci solamente il compito di 
immaginare le situazioni più improbabili (come l'astronave aliena) 
e considerando che "è molto probabile" che una strada sia asciutta in assenza di pioggia,
ad esempio 97\%:

$$
P(X|\overline{\theta}) = 1 - P(\overline{X}|\overline{\theta}) = 
1 - 97.00\% = 3.00\%
$$


in altre situazioni invece è un valore noto (come nel caso dei test diagnostici in campo medico che vedremo in seguito).

In [7]:
x_prior = x_given_theta * theta_prior + (1-non_x_given_non_theta) * (1-theta_prior)

display(Markdown(fr"""
Possiamo pertanto determinare che la probabilità a priori che una strada sia bagnata è pari al

$$
P(X) = P(X|\theta)P(\theta) + P(X|\overline{{\theta}})P(\overline{{\theta}}) = 
{x_given_theta*100:.2f}\% \cdot {theta_prior*100:.2f}\% + 
{(1-non_x_given_non_theta)*100:.2f}\% \cdot {(1-theta_prior)*100:.2f}\% =
{x_prior*100:.2f}\%
$$
"""))


Possiamo pertanto determinare che la probabilità a priori che una strada sia bagnata è pari al

$$
P(X) = P(X|\theta)P(\theta) + P(X|\overline{\theta})P(\overline{\theta}) = 
99.00\% \cdot 10.96\% + 
3.00\% \cdot 89.04\% =
13.52\%
$$


Questa operazione appena effettuata 

$$
P(X) = \sum_{i} \Big( P(X|\theta_i)P(\theta_i) \Big)
$$

è detta _marginalizzazione della variabile $X$_ e, per questo motivo, la "domanda" 3. è chiamata _probabilità marginale_.

Arrivati a questo punto chiediamoci: quale relazione hanno le tre probabilità determinate con la probabilità che vogliamo ottenere $P(\theta|X)$?.

Possiamo dire che

- la probabilità che una strada sia bagnata se ha piovuto $P(X|\theta)$ e la probabilità che piova una notte sola $P(\theta)$ sono direttamente proporzionali alla probabilità che abbia piovuto la scorsa notte data la strada bagnata: entrambe queste probabilità contribuiscono in modo positivo alla risposta che cerchiamo
- la probabilità che una strada sia bagnata in generale $P(X)$ è inversamente proporzionale alla probabilità che abbia piovuto la scorsa notte se la strada è bagnata: ci potrebbero essere una serie di altri motivi per cui la strada sia bagnata e noi vogliamo solo quelli direttamente collegati alla pioggia

riassumendo

$$
P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)}
$$

l'equazione appena scritta è il _Teorema di Bayes_.

Assegnamo ai termini del teorema i valori ricavati in precedenza e calcoliamo

In [8]:
theta_given_x = x_given_theta*theta_prior/x_prior

display(Markdown(fr"""
$$
P(\theta|X) = \frac{{P(X|\theta)P(\theta)}}{{P(X)}} = 
\frac{{ {x_given_theta*100:.2f}\% \cdot {theta_prior*100:.2f}\% }}{{ {x_prior*100:.2f}\% }} = 
{theta_given_x*100:.2f}\%
$$

Siamo giunti pertanto a determinare, grazie alle regole delle probabilità e al
Teorema di Bayes, che la probabilità che la scorsa notte abbia piovuto
dato il fatto che vediamo un tratto di strada bagnata è pari al {theta_given_x*100:.2f}\%.
"""))


$$
P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)} = 
\frac{ 99.00\% \cdot 10.96\% }{ 13.52\% } = 
80.24\%
$$

Siamo giunti pertanto a determinare, grazie alle regole delle probabilità e al
Teorema di Bayes, che la probabilità che la scorsa notte abbia piovuto
dato il fatto che vediamo un tratto di strada bagnata è pari al 80.24\%.


# Positivo o negativo

Nel caso specifico appena trattato, la risposta sembra piuttosto ovvia e vano l'intero sforzo per arrivare al risultato, ma in altre situazioni il calcolo bayesiano della probabilità a posteriori può dare responsi anche molto lontani da quelli che ci suggerirebbe il semplice intuito.

In [9]:
PR = .00002
SE = .85
SP = .99
PR10 = 10**np.ceil(abs(np.log10(PR)))

display(Markdown(fr"""
Supponiamo ad esempio che un paziente venga sottoposto ad un test di screening 
per una malattia $M$ piuttosto rara, ad esempio con una prevalenza $\mathbf{{PV}}$ nella popolazione 
di appartenenza dello {PR*100:.3f}\%, ovvero {PR*PR10:.0f} casi su {PR10:,.0f}.

Il test cui verrà sottoposto è di tipo qualitativo e fornirà un responso dicotomico: 
positivo $\oplus$ oppure negativo $\ominus$.
Sappiamo, dalla letteratura medica che abbiamo consultato, che il test ha sensibilità $\mathbf{{SE}}$
{SE:.0%} e specificità $\mathbf{{SP}}$ {SP:.0%} (per approfondimenti, si veda [Test Diagnostici](https://maxpierini.it/ncov/covid-tamponi.pdf)).

Dal punto di vista della statistica bayesiana sensibilità e specificità sono due probabilità a posteriori, rispettivamente:

$$
\mathbf{{SE}} = P(\oplus|M) = {SE*100:.2f}\%
$$

$$
\mathbf{{SP}} = P(\ominus|\overline{{M}}) = {SP*100:.2f}\%
$$
"""))


Supponiamo ad esempio che un paziente venga sottoposto ad un test di screening 
per una malattia $M$ piuttosto rara, ad esempio con una prevalenza $\mathbf{PV}$ nella popolazione 
di appartenenza dello 0.002\%, ovvero 2 casi su 100,000.

Il test cui verrà sottoposto è di tipo qualitativo e fornirà un responso dicotomico: 
positivo $\oplus$ oppure negativo $\ominus$.
Sappiamo, dalla letteratura medica che abbiamo consultato, che il test ha sensibilità $\mathbf{SE}$
85% e specificità $\mathbf{SP}$ 99% (per approfondimenti, si veda [Test Diagnostici](https://maxpierini.it/ncov/covid-tamponi.pdf)).

Dal punto di vista della statistica bayesiana sensibilità e specificità sono due probabilità a posteriori, rispettivamente:

$$
\mathbf{SE} = P(\oplus|M) = 85.00\%
$$

$$
\mathbf{SP} = P(\ominus|\overline{M}) = 99.00\%
$$


ovvero la probabilità a posteriori di ottenere un test positivo se si è malati e la probabilità a posteriori di ottenere un test negativo se non si è affetti dalla relativa patologia.

La prevalenza $\mathbf{PV}$ della malattia in questione invece è, in questo caso, una probabilità a priori: dato che non abbiamo alcuna informazione sul paziente se non quella di appartenere alla popolazione scelta per lo screening, è la probabilità a priori che il paziente sia affetto dalla malattia $P(M)$.

Quello che vogliamo ottenere sottoponendo il paziente al test è la probabilità di malattia a posteriori dato il risultato $\odot$ del test

$$
P(M|\odot)
$$

dove la probabilità di malattia $M$ è il parametro $\theta$ (verità non nota) mentre il risultato $\odot$ del test è la variabile $X$.

Applicando quindi il Teorema di Bayes otteniamo che

$$
P(M|\odot) = \frac{P(\odot|M)P(M)}{P(\odot)}
$$

Supponiamo che il test sia risultato positivo $\oplus$, la nostra formula diventerà pertanto

$$
P(M|\oplus) = \frac{P(\oplus|M)P(M)}{P(\oplus)}
$$

Osserviamo che 

- $P(\oplus|M)$ altro non è che la sensibilità $\mathbf{SE}$ del test
- $P(M)$ è, come detto in precedenza, la prevalenza della malattia

Come determiniamo $P(\oplus)$ ovvero la probabilità a priori (probabilità _marginale_) di ottenere un test positivo?

Possiamo procedere _marginalizzando_ la variabile $\oplus$ come fatto in precedenza per la probabilità a priori di osservare una strada bagnata

In [10]:
PP = SE*PR + (1-SP)*(1-PR)

display(Markdown(fr"""
$$
P(\oplus) = P(\oplus|M)P(M) + P(\oplus|\overline{{M}})P(\overline{{M}})
$$

come prima, conosciamo il primo termine della somma (sensibilità e prevalenza) e
sappiamo che 

$$
P(\overline{{M}}) = 1 - P(M) = 1 - {PR*100:.3f}\% = {(1-PR)*100:.3f}\%
$$ 

ma, a differenza dell'esempio precedente, possiamo determinare con precisione il secondo termine coi dati a
disposizione infatti

$$
P(\oplus|\overline{{M}}) = 1 - P(\ominus|\overline{{M}}) = 1 - \mathbf{{SP}} =
1 - {SP*100:.2f}\% = {(1-SP)*100:.2f}\%
$$

Possiamo quindi ottenere

$$
P(\oplus) = P(\oplus|M)P(M) + P(\oplus|\overline{{M}})P(\overline{{M}}) = 
\mathbf{{SE}} \cdot \mathbf{{PV}} + (1 - \mathbf{{SP}}) (1 - \mathbf{{PV}}) = 
$$
$$
{SE*100:.2f}\% \cdot {PR*100:.3f}\% + {(1-SP)*100:.2f}\% \cdot {(1-PR)*100:.3f}\% = 
{PP*100:.3f}\%
$$
"""))


$$
P(\oplus) = P(\oplus|M)P(M) + P(\oplus|\overline{M})P(\overline{M})
$$

come prima, conosciamo il primo termine della somma (sensibilità e prevalenza) e
sappiamo che 

$$
P(\overline{M}) = 1 - P(M) = 1 - 0.002\% = 99.998\%
$$ 

ma, a differenza dell'esempio precedente, possiamo determinare con precisione il secondo termine coi dati a
disposizione infatti

$$
P(\oplus|\overline{M}) = 1 - P(\ominus|\overline{M}) = 1 - \mathbf{SP} =
1 - 99.00\% = 1.00\%
$$

Possiamo quindi ottenere

$$
P(\oplus) = P(\oplus|M)P(M) + P(\oplus|\overline{M})P(\overline{M}) = 
\mathbf{SE} \cdot \mathbf{PV} + (1 - \mathbf{SP}) (1 - \mathbf{PV}) = 
$$
$$
85.00\% \cdot 0.002\% + 1.00\% \cdot 99.998\% = 
1.002\%
$$


Abbiamo perciò tutti i termini necessari a determinare la probabilità di malattia a posteriori dato il risultato positivo del test. Visto il valore molto elevato di sensibilità e specificità ci aspetteremmo di ottenere un risultato altrettanto notevole ma applicando il teorema di Bayes otteniamo

In [11]:
PO = SE*PR/PP

display(Markdown(fr"""
$$
P(M|\oplus) = \frac{{P(\oplus|M)P(M)}}{{P(\oplus)}} = 
\frac{{ {SE*100:.2f}\% \cdot {PR*100:.3f}\% }}{{ {PP*100:.3f}\% }} =
{PO*100:.2f}\%
$$

ovvero, in seguito a risultato positivo del test, il nostro paziente avrà
una probabilità a posteriori di essere malato pari soltanto allo 
{PO*100:.2f}\%...!

Perché è così bassa nonostante sensibilità e specificità fossero piuttosto elevate? Il risultato
dipende dal fatto che 
siamo partiti con un'esigua probabilità di malattia a priori $\mathbf{{PV}}={PR*100:.3f}\%$.
"""))


$$
P(M|\oplus) = \frac{P(\oplus|M)P(M)}{P(\oplus)} = 
\frac{ 85.00\% \cdot 0.002\% }{ 1.002\% } =
0.17\%
$$

ovvero, in seguito a risultato positivo del test, il nostro paziente avrà
una probabilità a posteriori di essere malato pari soltanto allo 
0.17\%...!

Perché è così bassa nonostante sensibilità e specificità fossero piuttosto elevate? Il risultato
dipende dal fatto che 
siamo partiti con un'esigua probabilità di malattia a priori $\mathbf{PV}=0.002\%$.


Questo esempio spiega più chiaramente in cosa consista l'analisi bayesiana:

> L'analisi bayesiana consiste nella rivalutazione del nostro iniziale livello di fiducia circa l'avverarsi di un evento $\theta$ in base all'osservazione di un dato $X$ ovvero nella *ridistribuzione* della probabilità *a priori* di un parametro $\theta$ condizionato dalla variabile $X$

Ripensando all'esempio precedente della strada, cosa abbiamo fatto in realtà? Abbiamo _ridistribuito_ l'inizialmente remota probabilità a priori di una notte isolata di pioggia in base all'osservazione del tratto di strada bagnata. Se non avessimo osservato $X=$ "strada bagnata" o se avessimo osservato qualcosa di differente (ad esempio, solo strisce bagnate sulla strada o dei lavori in corso sulla tubazioni, ecc) la probabilità a priori di pioggia la notte scorsa sarebbe stata modificata di conseguenza.

# La curva delle idee

Supponiamo ora che il parametro $\theta$ di cui vogliamo calcolare la probabilità sia $R_t$ ovvero il tasso di riproduzione effettivo $R$ nel tempo $t$ di COVID-19 in Italia e i valori della variabile $X$ osservata siano i nuovi casi giornalieri $k$ di COVID-19 osservati in Italia dal primo all'ultimo giorno dei dati registrati. 

I calcoli saranno più complessi visto che non ci stiamo più occupando di eventi dicotomici, come malattia o salute, strada bagnata o asciutta, notte di pioggia o non, risultato positivo o negativo, bensì una scala continua dei possibili valori di $R_t$ da un minimo di 0 ad un massimo da definire e una scala discreta di valori dei nuovi casi $k$ osservati da un minimo di 0 ad un massimo virtualmente illimitato, ma ciò di cui trattiamo sono comunque probabilità. Infatti, ciò che vogliamo ottenere è sempre $P(R_t|k)$ ovvero, a partire da un livello di fiducia a priori circa le probabilità di ottenere ogni possibile valore di $R_t$, ridistribuire per ogni giorno in archivio le probabilità dei valori di $R_t$ in base all'osservazione dei $k$ nuovi casi registrati. Usando la notazione ormai nota e il Teorema di Bayes:

$$
P(R_t|k) = \frac{P(k|R_t)P(R_t)}{P(k)}
$$

dove 

- $P(k|R_t)$ sono le probabilità a posteriori di osservare i nuovi casi $k$ per ciascuno dei possibili valori di $R_t$
- $P(R_t)$ sono le probabilità a priori per ogni valore possibile del numero di riproduzione effettivo
- $P(k)$ è la probabilità a priori (_marginale_) di osservare il numero di nuovi casi giornalieri misurato per ogni giorno in archivio

È più chiara ora la differenza tra la "domanda iniziale" $P(R_t|k)$ e il termine $P(k|R_t)$ del teorema di Bayes: nel primo caso infatti ci chiediamo per ciascun valore possibile di $R_t$ quale la sia la probabilità di ottenerlo data l'osservazione nota di $k$ nuovi casi; nel secondo invece ci si chiede quanto sia probabile osservare i $k$ nuovi casi effettivamente misurati per ognuno dei possibili valori di $R_t$. Non conosciamo direttamente $P(k|R_t)$ ma possiamo dedurlo in base al ragionamento e all'osservazione: essendo il tasso di riproduzione $R$ il numero medio di soggetti suscettibili che un infetto può contagiare, i nuovi casi $k$ sono verosimilmente proporzionali ad esso. Possiamo dunque stabilire una relazione (matematica) tra le due quantità, sempre restando nell'ambito delle probabilità.

La probabilità a posteriori di $R_t$ calcolata per ciascun giorno diventa la probabilità a priori per il giorno successivo, che verrà nuovamente ridistribuita in base ai nuovi casi giornalieri osservati, ecc... fino all'ultimo giorno (presumibilmente oggi).

Come si diceva, l'inferenza bayesiana consiste nella rivalutazione del livello di fiducia inziale (a priori) su un parametro $\theta$ data l'osservazione di un valore della variabile $X$, osserviamo perciò che il teorema di Bayes può essere riscritto così

$$
P(\theta|X) = P(\theta) \cdot \frac{P(X|\theta)}{P(X)}
$$

dove $P(\theta)$ è il grado di fiducia iniziale (probabilità a priori) dell'avverarsi di $\theta$ e il secondo termine rappresenta il coefficiente che determina "l'entità della rivalutazione"

$$
\frac{P(X|\theta)}{P(X)} = \mathcal{L}(\theta|X)
$$

che leggeremo **verosimiglianza** $\mathcal{L}$ (dall'inglese _Likelihood_) del parametro $\theta$ data l'osservazione di $X$.

Quindi possiamo dire che

$$
P(\theta|X) = P(\theta) \cdot \mathcal{L}(\theta|X)
$$

> La probabilità a posteriori di $\theta$ data l'osservazione di $X$ è direttamente proporzionale alla probabilità a priori di $\theta$ e alla verosimiglianza di $\theta$ dato $X$

Tornando all'esempio del numero di riproduzione effettivo possiamo pertanto dire che

$$
P(R_t|k) = P(R_t) \cdot \frac{P(k|R_t)}{P(k)}
$$

e che

$$
P(R_t|k) = P(R_t) \cdot \mathcal{L}(R_t|k)
$$

In [12]:
Rt = np.linspace(0, 12, 101)

fig, ax = plt.subplots(2, 2, figsize=(10,10), sharey=True)

ax[0,0].set_title("Primo giorno $t=0$")
ax[0,0].plot(Rt, sps.norm.pdf(Rt, loc=6, scale=24), c="r")
ax[0,0].fill_between(Rt, sps.norm.pdf(Rt, loc=6, scale=24), alpha=.2)
ax[0,0].axhline(0, c="k", alpha=.2)

ax[0,1].set_title("Secondo giorno $t=1$")
ax[0,1].plot(Rt, sps.norm.pdf(Rt, loc=5, scale=2), c="r")
ax[0,1].fill_between(Rt, sps.norm.pdf(Rt, loc=5, scale=2), alpha=.2)
ax[0,1].axvline(5, c="orange", ls=":")
ax[0,1].axhline(max(sps.norm.pdf(Rt, loc=5, scale=2)), c="g", ls=":")
ax[0,1].axhline(0, c="k", alpha=.2)

ax[1,0].set_title("Terzo giorno $t=2$")
ax[1,0].plot(Rt, sps.norm.pdf(Rt, loc=3, scale=1.5), c="r")
ax[1,0].fill_between(Rt, sps.norm.pdf(Rt, loc=3, scale=1.5), alpha=.2)
ax[1,0].axvline(3, c="orange", ls=":")
ax[1,0].axhline(max(sps.norm.pdf(Rt, loc=3, scale=1.5)), c="g", ls=":")
ax[1,0].axhline(0, c="k", alpha=.2)

ax[1,1].set_title("Quarto giorno $t=3$")
ax[1,1].plot(Rt, sps.norm.pdf(Rt, loc=4, scale=1), c="r")
ax[1,1].fill_between(Rt, sps.norm.pdf(Rt, loc=4, scale=1), alpha=.2)
ax[1,1].axvline(4, c="orange", ls=":")
ax[1,1].axhline(max(sps.norm.pdf(Rt, loc=4, scale=1)), c="g", ls=":")
ax[1,1].axhline(0, c="k", alpha=.2)

latexplot(
    plt, "distribuzione",
    "Esempio di ridistribuzione di probabilità. Le curve mostrano la densità di probabilità (pdf) per i valori di $R_t$."
)

<IPython.core.display.Latex object>

Quale sarà, per ogni valore possibile di $R_t$, la nostra probabilità a priori per il primo giorno $t=0$? Non abbiamo alcuna informazione su ciò che sia accaduto precedentemente, quindi ogni valore è equamente probabile: la _distribuzione di probabilità_ di $R_t$ il primo giorno sarà una linea retta, ovvero una _distribuzione uniforme_ (riquadro in alto a sinistra in figura $\ref{fig:distribuzione}$). Dopo l'osservazione di $k$ nuovi casi il secondo giorno, la distribuzione a priori di $R_t$ cambierà di conseguenza e diverrà la nuova probabilità a priori per il giorno successivo e così via (riquadri successivi in figura $\ref{fig:distribuzione}$). In questo modo, ogni giorno, l'osservazione di $k$ nuovi casi _ridistribuisce_ la probabilità a priori in una probabilità a posteriori, che potrà essere usata per il giorno successivo fino all'ultimo giorno in archivio.

È ora più chiaro perchè si parlava di _ridistribuzione_ di probabilità: quando abbiamo a che fare con più valori (variabili discrete come i $k$ nuovi casi o continue come i valori di $R_t$) la probabilità assegnata a ciascun valore è "riassunta" in una _distribuzione di probabilità_ che, graficamente, può essere rappresentata da una curva (come le densità di probabilità in figura $\ref{fig:distribuzione}$): ad ogni osservazione la curva si modifica ovvero la probabilità viene ridistribuita in base alle osservazioni.

Supponiamo ora di essere giunti a determinare la probabilità a posteriori di $R_t$ dell'ultimo giorno $t=t^*$ (oggi) ovvero $R_t^*$. Non abbiamo più $k$ nuovi casi da osservare, come determiamo la probabilità dei valori di $R_t$ per il giorno successivo $t=t^*+1$ (domani) ovvero $R_{t^*+1}$?

Come può il ragionamento seguito finora portare ad una stima di previsione riguardo la probabilità un determinato evento $\theta$ nel futuro?

# Predire il passato

In [13]:
from scipy.optimize import fmin

def HDIofICDF(dist_name, credMass=0.95, **args):
    # freeze distribution with given arguments
    distri = dist_name(**args)
    # initial guess for HDIlowTailPr
    incredMass =  1.0 - credMass

    def intervalWidth(lowTailPr):
        return distri.ppf(credMass + lowTailPr) - distri.ppf(lowTailPr)

    # find lowTailPr that minimizes intervalWidth
    HDIlowTailPr = fmin(intervalWidth, incredMass, ftol=1e-8, disp=False)[0]
    # return interval as array([low, high])
    return distri.ppf([HDIlowTailPr, credMass + HDIlowTailPr])

In [14]:
fig, ax = plt.subplots(2, 2, figsize=(10, 10), sharey=True)

for i in range(4):
    ax.flat[i].axhline(0, c="k", alpha=.2)

ax[0,0].set_title("Esempio di distribuzione Normale")
ax[0,0].plot(Rt, sps.norm.pdf(Rt, 4, 1), lw=4, c="k")
lo95, hi95 = sps.norm.interval(.95, 4, 1)  # sps.norm.ppf(.05/2, 4, 1), sps.norm.ppf(1-.05/2, 4, 1)
lo50, hi50 = sps.norm.interval(.5, 4, 1)
ML = sps.norm.ppf(.5, 4, 1)
ax[0,0].axvline(ML, c="g", ls=":", label=f"ML = {ML:.2f}")
ax[0,0].plot(
    [lo50, hi50], [sps.norm.pdf(lo50, 4, 1), sps.norm.pdf(hi50, 4, 1)], c="b", 
    label=f"CI 50% = {lo50:.2f}-{hi50:.2f}")
ax[0,0].plot(
    [lo95, hi95], [sps.norm.pdf(lo95, 4, 1), sps.norm.pdf(hi95, 4, 1)], c="r", 
    label=f"CI 95% = {lo95:.2f}-{hi95:.2f}")
ax[0,0].legend(loc="upper right")

ax[0,1].set_title("Esempio di distribuzione Beta")
ax[0,1].plot(Rt, sps.beta.pdf(Rt, a=6, b=2.5, scale=5), c="k", lw=4)
lo95, hi95 = HDIofICDF(sps.beta, credMass=.95, a=6, b=2.5, scale=5)
lo50, hi50 = HDIofICDF(sps.beta, credMass=.5, a=6, b=2.5, scale=5)
ML = Rt[sps.beta.pdf(Rt, a=6, b=2.5, scale=5).argmax()]
ax[0,1].axvline(ML, c="g", ls=":", label=f"ML = {ML:.2f}")
ax[0,1].plot(
    [lo50, hi50], [sps.beta.pdf(lo50, a=6, b=2.5, scale=5), sps.beta.pdf(hi50, a=6, b=2.5, scale=5)], c="b", 
    label=f"CI 50% = {lo50:.2f}-{hi50:.2f}")
ax[0,1].plot(
    [lo95, hi95], [sps.beta.pdf(lo95, a=6, b=2.5, scale=5), sps.beta.pdf(hi95, a=6, b=2.5, scale=5)], c="r", 
    label=f"CI 95% = {lo95:.2f}-{hi95:.2f}")
ax[0,1].legend(loc="upper right")

ax[1,0].set_title("Esempio di distribuzione Gamma")
ax[1,0].plot(Rt, sps.gamma.pdf(Rt, a=6, scale=.75), c="k", lw=4)
lo95, hi95 = HDIofICDF(sps.gamma, credMass=.95, a=6, scale=.75)
lo50, hi50 = HDIofICDF(sps.gamma, credMass=.5, a=6, scale=.75)
ML = Rt[sps.gamma.pdf(Rt, a=6, scale=.75).argmax()]
ax[1,0].axvline(ML, c="g", ls=":", label=f"ML = {ML:.2f}")
ax[1,0].plot(
    [lo50, hi50], [sps.gamma.pdf(lo50, a=6, scale=.75), sps.gamma.pdf(hi50, a=6, scale=.75)], c="b", 
    label=f"CI 50% = {lo50:.2f}-{hi50:.2f}")
ax[1,0].plot(
    [lo95, hi95], [sps.gamma.pdf(lo95, a=6, scale=.75), sps.gamma.pdf(hi95, a=6, scale=.75)], c="r", 
    label=f"CI 95% = {lo95:.2f}-{hi95:.2f}")
ax[1,0].legend(loc="upper right")

ax[1,1].set_title("Esempio di distribuzione di Laplace")
ax[1,1].plot(Rt, sps.laplace.pdf(Rt, 4, .75), c="k", lw=4)
lo95, hi95 = HDIofICDF(sps.laplace, credMass=.95, loc=4, scale=.75)
lo50, hi50 = HDIofICDF(sps.laplace, credMass=.5, loc=4, scale=.75)
ML = Rt[sps.laplace.pdf(Rt, 4, .75).argmax()]
ax[1,1].axvline(ML, c="g", ls=":", label=f"ML = {ML:.2f}")
ax[1,1].plot(
    [lo50, hi50], [sps.laplace.pdf(lo50, 4, .75), sps.laplace.pdf(hi50, 4, .75)], c="b", 
    label=f"CI 50% = {lo50:.2f}-{hi50:.2f}")
ax[1,1].plot(
    [lo95, hi95], [sps.laplace.pdf(lo95, 4, .75), sps.laplace.pdf(hi95, 4, .75)], c="r", 
    label=f"CI 95% = {lo95:.2f}-{hi95:.2f}")
ax[1,1].legend(loc="upper right")

latexplot(
    plt, "distribuzioni",
    "Esempi di distribuzioni di probabilità e di relative valore di massima verosimiglianza o moda "+
    r"(ML, $\textit{Maximum Likelihood}$) e intervalli di credibilità (CI, $\textit{Credible Interval}$ detti anche "+
    r"HDI, $\textit{Highest Density Interval}$)"
)

<IPython.core.display.Latex object>

Esistono diversi tipi di distribuzione (vedi figura $\ref{fig:distribuzioni}$) ognuna descritta da una specifica funzione matematica con ben note proprietà. Per ogni variabile, la scelta della distribuzione a priori è effettuata in base all'analisi della variabile stessa e alla valutazione delle possibilità che supponiamo.

Per ogni distribuzione, possiamo definire il valore centrale della massima verosimiglianza (ML, _Maximum Likelihood_ corrispondente alla _moda_ della distribuzione) che rappresenta il valore maggiormente probabile e una serie di intervalli di credibilità (CI, _Credible Interval_) che descrivono i valori minimi e massimi entro una probabilità definita (ad esempio, 95% o 50%).

Ripensando all'esempio della ridistribuzione a posteriori della probabilità di $R_t$ notiamo come ogni giorno il valore della massima verosimiglianza (moda) sia sempre più probabile e gli intervalli di credibilità sempre più stretti: dopo giorno dopo, grazie alla rivalutazione delle probabilità guadagnamo credibilità (figura $\ref{fig:distribuzione-credibile}$).

Valore centrale e intervalli di credibilità, possono poi essere calcolati per ciascun giorno e rendere così graficamente più chiaro l'andamento nel tempo della probabilità del parametro che abbiamo calcolato (figura $\ref{fig:temporale}$).

In [15]:
fig, ax = plt.subplots(figsize=(10,4))

params = [
    [6, 24], [5, 2], [3, 1.5], [4, 1], [3.5, .5], [3.75, .25]
]

ML = [p[0] for p in params]
CI50 = [sps.norm.interval(.5, p[0], p[1]) for p in params]
CI95 = [sps.norm.interval(.95, p[0], p[1]) for p in params]

ax.plot(ML, "o--", c="k", label="ML")
ax.fill_between(
    [i for i in range(len(params))], [ci50[0] for ci50 in CI50], [ci50[1] for ci50 in CI50], color="k", alpha=.25,
    label="CI 50%"
)
ax.fill_between(
    [i for i in range(len(params))], [ci95[0] for ci95 in CI95], [ci95[1] for ci95 in CI95], color="k", alpha=.1,
    label="CI 95%"
)

ax.set_xlim(0, len(params)-1)
ax.set_ylim(0, 12)
ax.legend(loc="upper right")

ax.set_xlabel("Giorni da $t=0$", fontsize=15)
ax.set_ylabel("Valori di $R_t$", fontsize=15)

ax.set_title("Esempio di andamento temporale")

latexplot(
    plt, "temporale",
    "Esempio di visualizzazione nel tempo dei valori centrali di massima verosimiglianza (moda) e "+
    "intervalli di credibilità della probabilità a posteriori del parametro $R_t$.",
    showme=False
)

<IPython.core.display.Latex object>

In [16]:
fig, ax = plt.subplots(2, 2, figsize=(10,10), sharey=True)

ax[0,0].set_title("Primo giorno $t=0$")
ax[0,0].plot(Rt, sps.norm.pdf(Rt, loc=6, scale=24), c="r", label="Valori equamente probabili")
ax[0,0].fill_between(Rt, sps.norm.pdf(Rt, loc=6, scale=24), alpha=.2)
ax[0,0].axhline(0, c="k", alpha=.2)
ax[0,0].legend(loc="upper right")

ax[0,1].set_title("Secondo giorno $t=1$")
ax[0,1].plot(Rt, sps.norm.pdf(Rt, loc=5, scale=2), c="r")
ax[0,1].fill_between(Rt, sps.norm.pdf(Rt, loc=5, scale=2), alpha=.2)
ax[0,1].axvline(5, c="orange", ls=":", label="ML = 5")
ax[0,1].axhline(max(sps.norm.pdf(Rt, loc=5, scale=2)), c="g", ls=":")
lo95, hi95 = sps.norm.interval(.95, 5, 2)
lo50, hi50 = sps.norm.interval(.5, 5, 2)
ax[0,1].plot(
    [lo50, hi50], [sps.norm.pdf(lo50, 5, 2), sps.norm.pdf(hi50, 5, 2)], c="b", 
    label=f"CI 50% = {lo50:.2f}-{hi50:.2f}")
ax[0,1].plot(
    [lo95, hi95], [sps.norm.pdf(lo95, 5, 2), sps.norm.pdf(hi95, 5, 2)], c="y", 
    label=f"CI 95% = {lo95:.2f}-{hi95:.2f}")
ax[0,1].legend(loc="upper right")
ax[0,1].axhline(0, c="k", alpha=.2)

ax[1,0].set_title("Terzo giorno $t=2$")
ax[1,0].plot(Rt, sps.norm.pdf(Rt, loc=3, scale=1.5), c="r")
ax[1,0].fill_between(Rt, sps.norm.pdf(Rt, loc=3, scale=1.5), alpha=.2)
ax[1,0].axvline(3, c="orange", ls=":", label="ML = 3")
ax[1,0].axhline(max(sps.norm.pdf(Rt, loc=3, scale=1.5)), c="g", ls=":")
lo95, hi95 = sps.norm.interval(.95, 3, 1.5)
lo50, hi50 = sps.norm.interval(.5, 3, 1.5)
ax[1,0].plot(
    [lo50, hi50], [sps.norm.pdf(lo50, 3, 1.5), sps.norm.pdf(hi50, 3, 1.5)], c="b", 
    label=f"CI 50% = {lo50:.2f}-{hi50:.2f}")
ax[1,0].plot(
    [lo95, hi95], [sps.norm.pdf(lo95, 3, 1.5), sps.norm.pdf(hi95, 3, 1.5)], c="y", 
    label=f"CI 95% = {lo95:.2f}-{hi95:.2f}")
ax[1,0].legend(loc="upper right")
ax[1,0].axhline(0, c="k", alpha=.2)

ax[1,1].set_title("Quarto giorno $t=3$")
ax[1,1].plot(Rt, sps.norm.pdf(Rt, loc=4, scale=1), c="r")
ax[1,1].fill_between(Rt, sps.norm.pdf(Rt, loc=4, scale=1), alpha=.2)
ax[1,1].axvline(4, c="orange", ls=":", label="ML = 4")
ax[1,1].axhline(max(sps.norm.pdf(Rt, loc=4, scale=1)), c="g", ls=":")
lo95, hi95 = sps.norm.interval(.95, 4, 1)
lo50, hi50 = sps.norm.interval(.5, 4, 1)
ax[1,1].plot(
    [lo50, hi50], [sps.norm.pdf(lo50, 4, 1), sps.norm.pdf(hi50, 4, 1)], c="b", 
    label=f"CI 50% = {lo50:.2f}-{hi50:.2f}")
ax[1,1].plot(
    [lo95, hi95], [sps.norm.pdf(lo95, 4, 1), sps.norm.pdf(hi95, 4, 1)], c="y", 
    label=f"CI 95% = {lo95:.2f}-{hi95:.2f}")
ax[1,1].legend(loc="upper right")

ax[1,1].axhline(0, c="k", alpha=.2)

latexplot(
    plt, "distribuzione-credibile",
    "Esempio di ridistribuzione di probabilità a posteriori. Ogni giorno "+
    "il valore centrale di massima verosimiglianza (moda) è sempre più probabile e "+
    "gli intervalli di credibilità sempre più stretti."
)

<IPython.core.display.Latex object>

In [17]:
fig, ax = plt.subplots(1, 2, figsize=(10, 5))

ax[0].scatter(
    [i for i in range(21)],
    [np.random.randint(20) for i in range(21)],
    c="r"
)
ax[0].plot([-1,21],[-1,21], c="k", ls=":")
ax[0].set_xlim(-1,21)
ax[0].set_ylim(-1,21)
ax[0].set_xticks([i*2 for i in range(11)])
ax[0].set_yticks([i*2 for i in range(11)])
ax[0].set_ylabel("Eventi previsti")
ax[0].set_xlabel("Eventi osservati")
ax[0].set_title("Esempio di scarsa correlazione")

ax[1].scatter(
    [i for i in range(21)],
    [i+np.random.random()*((-1)**np.random.randint(2)) for i in range(21)],
    c="g"
)
ax[1].plot([-1,21],[-1,21], c="k", ls=":")
ax[1].set_xlim(-1,21)
ax[1].set_ylim(-1,21)
ax[1].set_xticks([i*2 for i in range(11)])
ax[1].set_yticks([i*2 for i in range(11)])
ax[1].set_ylabel("Eventi previsti")
ax[1].set_xlabel("Eventi osservati")
ax[1].set_title("Esempio di buona correlazione")

latexplot(
    plt, "correlazione",
    "Esempi di correlazione tra valori osservati e previsti dal modello."
)

<IPython.core.display.Latex object>

Nell'esempio precedente del calcolo di $R_t$, non abbiamo ottenuto informazioni sul futuro, ma abbiamo molte più informazioni sul passato. Integrando queste informazioni con altri dati utili (ad esempio, periodi di lockdown, mobilità della popolazione, tempi stimati tra contagio e ospedalizzazione, ecc) possiamo creare un **modello** ovvero un'insieme di funzioni che descrivono le distribuzioni di probabilità a priori e le presupposte relazioni di causalità di tutti gli elementi utili che possono influire sul risultato che vogliamo ottenere: il tasso di riproduzione effettivo $R_t$.

Il modello creato non dovrà "semplicemente" essere in grado di descrivere il passato ma, generando valori casuali dalle distribuzioni impostate e calcolandone le relazioni, produrre un percorso simile alla realtà.

Analizziamo un semplice esempio, preso dal libro Doing Bayesian Analysis [ref](.).

Un politico vive su una delle isole di un arcipelago. Essendo in campagna elettorale vuole visitare tutte le isole che lo compongono e passare più tempo dove la popolazione è maggiore ma non conosce i dati demografici di ciascuna isola. Grazie però al suo team può sapere

- la popolazione dell'isola su cui si trova
- la popolazione della prossima isola che intende visitare

Supponiamo che l'arcipelago sia costituito da 7 isole che chiameremo $\theta_1$, $\theta_2$ ecc. La popolazione di ciascuna sarà $P(\theta_i)$ con $i$ da 1 a 7 e, per semplicità, diremo che $P(\theta_i)<P(\theta_{i+1})$ pertanto la popolazione dell'isola $\theta_5$ sarà maggiore di $\theta_4$ ma minore rispetto a $\theta_6$ e così via.
Il nostro politico potrà spostarsi solamente in isole contigue ovvero trovandosi sull'isola $\theta_i$ potrà decidere se

- restare su $\theta_i$ un altro giorno
- spostarsi su $\theta_{i+1}$
- spostarsi su $\theta_{i-1}$

Supponiamo che parta ad esempio dall'isola $\theta_2$. Come può decidere se restare o spostarsi e dove?
Un metodo potrebbe essere quello di lanciare una moneta: se uscisse testa otterrebbe la _proposta_ di muoversi sull'isola $\theta_{i+1}$ (quindi $\theta_3$ nell'esempio) se uscisse croce su $\theta_{i-1}$. Comunicata la proposta, il suo team potrà chiedere all'isola scelta quale sia la sua popolazione. Se la popolazione fosse maggiore dell'isola su cui si trova ora si sposterà sicuramente altrimenti sarà nuovamente in dubbio sul da farsi e si sposterà solamente su base probabilistica generando ad esempio una percentuale casuale da 0% a 100% con una roulette numerata: si sposterebbe solamente se la percentuale random generata fosse minore della proporzione tra la popolazione dell'isola proposta e dell'isola attuale

$$
p_{\mathrm{spostarsi}} = \frac{ P(\theta_{\mathrm{proposta}}) }{ P(\theta_{\mathrm{attuale}}) }
$$

Se ad esempio il giorno $t=1$ uscisse testa, la proposta di spostarsi da $\theta_2$ a $\theta_3$ verrà immediatamente accettata perché la popolazione è maggiore. Il tempo successivo $t=2$ sarà su $\theta_3$ e immaginiamo che il lancio della moneta dia croce. La popolazione su $\theta_2$ è minore che sull'attuale $\theta_3$. Cosa fare? Il rapporto tra le due popolazioni sarà

$$
p_{\mathrm{spostarsi}} = \frac{ P(\theta_{\mathrm{2}}) }{ P(\theta_{\mathrm{3}}) } = \frac{2}{3} = 66,\overline{6}\%
$$

se dunque il giro di roulette risultasse in una percentuale inferiore si muoverebbe sull'isola proposta altrimenti resterebbe sull'attuale. E così via giorno per giorno (per completare il quadro, immaginiamo due isole "virtuali" $\theta_0$ e $\theta_8$ con popolazione nulla: le proposte verso queste isole inesistenti saranno sicuramente rifiutate).

Per quanto possa sembrare del tutto casuale, grazie alle relazioni predeterminate e dopo un sufficiente numero di spostamenti, questo metodo (il cui nome tecnico è _algoritmo Metropolis della catena Markov Monte Carlo_) porterà il nostro politico ad aver passato in proporzione più tempo sulle isole più popolose. La dimostrazione matematica del perché il metodo funzioni è molto complessa e al di là delle finalità di questa semplice introduzione all'argomento. Si rimanda alla bibliografia per approfondimenti specifici.

Cosa abbiamo fatto dunque? Abbiamo impostato un _modello_ e, grazie alla generazioni di valori casuali (il lancio della moneta e il giro di roulette) e alle relazioni determinate (in quali casi spostarsi), abbiamo **simulato** un possibile percorso del politico tra le isole in $n$ spostamenti. Potremmo ripetere la simulazione partendo da un'isola diversa in $t=1$ e per più o meno spostamenti. Se il risultato delle simulazioni fosse sempre che il politico abbia passato più tempo sulle isole più popolose, avremo ottenuto il risultato cercato.

Proviamo una simulazione in `python` del modello impostato. Definiamo anzitutto il lancio della moneta:

```python
def lancio_della_moneta():
    return (-1) ** np.random.randint(2)
```

questa semplice funzione ritorna in modo casuale +1 (testa) o -1 (croce). Useremo `lancio_della_moneta` per determinare su quale isola $\theta$ proporre di spostarci. Definiamo il giro della roulette:

```python
def giro_di_roulette():
    return np.random.random()
```

la funzione ritorna un numero reale casuale tra 0 e 1, ovvero una percentuale tra 0% e 100%. Useremo `giro_di_roulette` per calcolare la probabilità di spostarci in caso la moneta ritorni -1 (croce). Definiamo infine la funzione di simulazione del percorso effettuato in base alle isole e al numero di spostamenti, iniziando da un'isola scelta casualmente

```python
def simulazione(isole, spostamenti):
    percorso = [np.random.choice(list(isole))]
    for spostamento in range(spostamenti-1):
        prossima_isola = percorso[-1] + lancio_della_moneta()
        if (
            not prossima_isola or 
            prossima_isola > len(isole)
        ):
            percorso.append(percorso[-1])
            continue
        if prossima_isola > percorso[-1]:
            percorso.append(prossima_isola)
            continue
        p_spostamento = prossima_isola / percorso[-1]
        if giro_di_roulette() < p_spostamento:
            percorso.append(prossima_isola)
        else:
            percorso.append(percorso[-1])
    return percorso
```

e le isole dell'arcipelago con la loro popolazione

```python
isole = {}
for isola in range(7):
    isole.update({isola+1: (isola+1)*1000}
```

Facciamo ora "girare" il modello nelle simulazioni A, B e C con rispettivamente 1000, 2000 e 3000 spostamenti

```python
simulazione_A = simulazione(isole, spostamenti=1000)
simulazione_B = simulazione(isole, spostamenti=2000)
simulazione_C = simulazione(isole, spostamenti=3000)
```

e vediamone il risultato in figura $\ref{fig:MCMC}$

\begin{figure}
\centering
    \includegraphics{MCMC}
    \caption{Esempio di simulazioni di un semplice algoritmo Metropolis del metodo Markov chain Monte Carlo.}
    \label{fig:MCMC}
\end{figure}

Notiamo come effettivamente, dopo un numero sufficiente di spostamenti, la distribuzione del tempo passato in ciascuna isola si avvicini sempre più alla sua popolazione e gli errori percentuali sul tempo atteso siano via via minori.

In [18]:
display(Markdown(fr"""
Al di là della simulazione in sé stessa possiamo però anche calcolare la probabilità 
di restare o spostarsi su un'isola diversa. Supponiamo di partire dall'isola centrale $\theta_4$. 
La probabilità di spostarsi sull'isola $\theta_5$ dipende solo dal lancio della moneta, dunque è del 50%. 
La probabilità di spostarsi sull'isola $\theta_3$ dipende sia dal lancio della moneta 50% che dalla 
proporzione tra le popolazioni di $\theta_3$ e $\theta_4$ quindi 
$50\% \cdot \frac{{3}}{{4}} = {.5*3/4*100:.1f}\%$. La restante 
$100\%-50\%-{.5*3/4*100:.1f}\% = {(1-.5-.5*3/4)*100:.1f}\%$ è la probabilità di restare sull'isola $\theta_4$.
"""))


Al di là della simulazione in sé stessa possiamo però anche calcolare la probabilità 
di restare o spostarsi su un'isola diversa. Supponiamo di partire dall'isola centrale $\theta_4$. 
La probabilità di spostarsi sull'isola $\theta_5$ dipende solo dal lancio della moneta, dunque è del 50%. 
La probabilità di spostarsi sull'isola $\theta_3$ dipende sia dal lancio della moneta 50% che dalla 
proporzione tra le popolazioni di $\theta_3$ e $\theta_4$ quindi 
$50\% \cdot \frac{3}{4} = 37.5\%$. La restante 
$100\%-50\%-37.5\% = 12.5\%$ è la probabilità di restare sull'isola $\theta_4$.


Si procederà allo stesso modo per ogni tempo successivo. Come vediamo in figura $\ref{fig:metropolis}$, già al tempo $t=15$ la distribuzione di probabilità del modello (steli) si avvicina alla distribuzione voluta (barre verdi) basata sulla popolazione delle isole.

\begin{figure}
\centering
    \includegraphics{metropolis}
    \caption{Esempio di distribuzione di probabilità un semplice algoritmo Metropolis del metodo Markov chain Monte Carlo.}
    \label{fig:metropolis}
\end{figure}

> L'algoritmo funziona anche con distribuzioni target differenti, in Appendice un esempio per distribuzione target casuale (figure $\ref{fig:MCMC2}$ e $\ref{fig:metropolis2}$)

Con il modello appena creato però abbiamo solo simulato uno o più possibili percorsi oppure calcolato la probabilità di trovarsi in un dato luogo in un dato tempo, come possiamo capire se un modello è in grado descrivere la realtà?

In verità, abbiamo già tutto ciò che ci serve perché anche nell'esempio precedente avevamo una distribuzione _target_ da raggiungere, dipendente in quel caso dalla popolazione delle isole, ma potrebbe per esempio dipendere dal numero di nuovi casi di una malattia infettiva o dalla temperatura registrata in una determinata area geografica o ancora dall'andamento di determinati titoli in borsa, ecc.

Tornando all'esempio del calcolo di $R_t$, impostiamo tutti i paramentri del modello (probabilità a priori, variabili random e relazioni tra variabili) in un apposito strumento di calcolo (ad esempio [Stan](https://mc-stan.org/)) sul nostro desktop computer e cerchiamo di... "predire il passato" ovvero simulare gli eventi già accaduti. Fermiamo il calcolo ad un determinato giorno $t=t'$ e controlliamo se i dati generati sono simili a quelli realmente misurati. Del passato conosciamo tutto perché è già accaduto, possiamo pertanto valutare se e quanto le distribuzioni a priori di probabilità e le presunte relazioni tra gli eventi che abbiamo definito siano valide. In qualche minuto (ricordiamoci cosa può fare uno smartphone in pochi milionesimi di secondo) avremo i risultati delle simulazioni e potremo confrontarli con i dati realmente osservati tramite un'analisi della loro correlazione (figura $\ref{fig:correlazione}$).

Se non abbiamo ottenuto una buona correlazione, dovremo rivedere il modello, modificarlo e rifinirlo, fino ad ottenere una buona simulazione degli eventi accaduti in precedenza e infine potremo applicarlo a partire dall'ultimo giorno, oggi, supponendo differenti _scenari_ e prevedendo così le probabilità dei futuri valori del parametro di nostro interesse.

Ad esempio, possiamo supporre che variazioni della mobilità della popolazione influiscano verosimilmente sul tasso di riproduzione di un'epidemia, aumentando o diminuendo la possibilità di contatti tra possibili infetti. Si possono perciò definire alcuni possibili scenari al termine di un lockdown

1. scenario A: aumento della mobilità del 50%
2. scenario B: aumento della mobilità del 25%
3. eccetera...

Calcolati infine valore di massima verosimiglianza (moda) e intervalli di credibilità delle probabilità a posteriori ottenute per i giorni futuri, potremo visualizzare graficamente il risultato delle nostre previsioni per ciascuno degli scenari ipotizzati (figura $\ref{fig:scenari}$).

In [19]:
d = np.linspace(0, 30, 101)

fig, ax = plt.subplots(1, 2, figsize=(10, 5), sharey=True, sharex=True)

ax[0].set_title("Esempio di scenario A")
ax[0].fill_between(
    d,
    sps.norm.pdf(d, loc=25, scale=7),
    sps.norm.pdf(d, loc=27, scale=7)*0.3,
    color="y", alpha=.5, label="Intervallo di credibilità"
)
ax[0].plot(
    d, sps.norm.pdf(d, loc=28, scale=8)*.7, c="k", ls="--",
    label="Moda (ML)"
)
ax[0].set_xlim(0,30)
ax[0].set_yticks([])
ax[0].set_xlabel("Giorni da oggi")
ax[0].set_ylabel("Valori previsti")
ax[0].legend(loc="upper left")

ax[1].set_title("Esempio di scenario B")
ax[1].fill_between(
    d,
    sps.norm.pdf(d, loc=45, scale=13),
    sps.norm.pdf(d, loc=39, scale=7)*0.2,
    color="c", alpha=.5, label="Intervallo di credibilità"
)
ax[1].plot(
    d, sps.norm.pdf(d, loc=41, scale=10)*.4, c="k", ls="--",
    label="Moda (ML)"
)
ax[1].set_ylabel("Valori previsti")
ax[1].set_xlabel("Giorni da oggi")
ax[1].legend(loc="upper left")

latexplot(
    plt, "scenari",
    "Esempio di previsioni per differenti scenari."
)

<IPython.core.display.Latex object>

# Una semplice complessità

Abbiamo visto come, nonostante i calcoli dell'inferenza bayesiana possano essere talmente complessi da poter essere svolti solo da un computer sufficientemente potente con l'ausilio di strumenti informatici appositi, le sue basi si fondino su principi semplici che applichiamo, spesso inconsciamente, nella vita di tutti i giorni (pensiamo all'esempio iniziale della strada bagnata).

Non dimentichiamoci che il computer più potente che conosciamo siamo noi stessi e gli apparentemente semplici ma profondamente complessi meccanismi del pensiero umano.

# Appendice

\begin{figure}
\centering
    \includegraphics{MCMC2}
    \caption{Esempio di simulazioni di un algoritmo Metropolis del metodo Markov chain Monte Carlo con ditribuzione target random.}
    \label{fig:MCMC2}
\end{figure}

\begin{figure}
\centering
    \includegraphics{metropolis2}
    \caption{Esempio di distribuzione di probabilità un algoritmo Metropolis del metodo Markov chain Monte Carlo con distribuzione target random.}
    \label{fig:metropolis2}
\end{figure}