(bayes-revisited-notebook)=
# Rivisitazione del teorema di bayes

L'obiettivo di questo capitolo è quello di riformulare il teorema di Bayes che abbiamo incontrato nel capitolo XX in modo da chiarire le basi della modellizzazione bayesiana descritta nel capitolo precedente.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import arviz as az
from scipy.stats import norm
from scipy.stats import beta
from scipy.stats import uniform

In [2]:
%config InlineBackend.figure_format = 'retina'
RANDOM_SEED = 42
rng = np.random.default_rng(RANDOM_SEED)
az.style.use("arviz-viridish")

## Riesame del Teorema di Bayes

Per cominciare, denotiamo con $ Y $ una variabile casuale che assume un valore realizzato $ y $. Ad esempio, il punteggio di uno studente in un esame di Psicometria potrebbe essere considerato una variabile casuale $ Y $ che assume un ampio insieme di valori possibili. Una volta che lo studente riceve un voto nell'esame di Psicometria, la variabile casuale $ Y $ è ora realizzata come $ y $. Poiché $ Y $ è una variabile casuale non osservata, dobbiamo specificare un modello di probabilità per spiegare come abbiamo ottenuto i valori effettivi dei dati $ y $. Ci riferiamo a questo modello come il processo generatore di dati o DGP.

Successivamente, denotiamo con $ \theta $ un parametro che riteniamo caratterizzi il modello di probabilità di interesse. Il parametro $ \theta $ può essere uno scalare, come la media o la varianza di una distribuzione, o può essere un vettore, come un insieme di coefficienti di regressione nell'analisi di regressione. Per evitare troppa confusione notazionale, per ora useremo $ \theta $ per rappresentare sia parametri scalari che vettoriali dove la differenza sarà rivelata dal contesto.

Nell'inferenza statistica, l'obiettivo è ottenere stime dei parametri sconosciuti dati i dati. La differenza chiave tra l'inferenza statistica bayesiana e l'inferenza statistica frequentista riguarda la natura dei parametri sconosciuti $ \theta $. Nella tradizione frequentista, si assume che $ \theta $ sia sconosciuto, ma abbia un valore fisso che desideriamo stimare. Nell'inferenza statistica bayesiana, $ \theta $ è considerato anch'esso sconosciuto, ma invece di essere fisso, si suppone, come $ Y $, di essere una variabile casuale che possiede una distribuzione di probabilità a priori che riflette la nostra incertezza sul vero valore di $ \theta $ prima di aver visto i dati. Poiché sia i dati osservati $ y $ che i parametri $ \theta $ sono considerati variabili casuali, il calcolo delle probabilità ci consente di modellare la probabilità congiunta dei parametri e dei dati come una funzione della distribuzione condizionale dei dati dati i parametri, e la distribuzione a priori dei parametri. Più formalmente,

$$ 
\begin{equation}
p(\theta, y) = p(y \mid \theta)p(\theta), 
\end{equation}
$$ (eq-prob-congiunta-bayes)

dove $ p(\theta, y) $ è la distribuzione congiunta dei parametri e dei dati. Usando il teorema di Bayes dalla Eq. {eq}`eq-bayes-cont`, otteniamo il seguente:

$$ 
\begin{equation}
p(\theta \mid y) = \frac{p(\theta, y)}{p(y)} = \frac{p(y \mid \theta)p(\theta)}{p(y)},
\end{equation}
$$ (eq-bayes-revisited)

dove $ p(\theta \mid y) $ rappresenta la distribuzione a posteriori dei parametri $ \theta $ dati i dati osservati $ y $. Quindi, dall'Eq. {eq}`eq-bayes-revisited` la distribuzione a posteriori di $ \theta $ dato $ y $ è uguale alla distribuzione dei dati $ p(y \mid \theta) $ moltiplicata per la distribuzione a priori dei parametri $ p(\theta) $ normalizzata per $ p(y) $ in modo che la distribuzione a posteriori  integri a 1. Per variabili discrete,

$$ 
p(y) = \sum_\theta p(y \mid \theta)p(\theta)  
$$

e per variabili continue,

$$ 
p(y) = \int p(y \mid \theta)p(\theta)d\theta.
$$

Come osservazione a margine, per modelli complessi con molti parametri, l'Eq. {eq}`eq-bayes-revisited` sarà molto difficile da valutare, ed è per questa ragione che abbiamo bisogno dei metodi computazionali che verranno discussi in seguito.

Il denominatore dell'Eq. {eq}`eq-bayes-revisited` non coinvolge i parametri del modello, quindi possiamo omettere il termine $p(y)$ e ottenere la distribuzione a posteriori non normalizzata:

$$ 
\begin{equation}
p(\theta \mid y) \propto p(y \mid \theta)p(\theta).
\end{equation}
$$ (eq-not-normalized-posterior)

Consideriamo la densità dei dati $ p(y \mid \theta) $ sul lato destro dell'Eq. {eq}`eq-not-normalized-posterior`. Quando è espresso in termini dei parametri sconosciuti $ \theta $ per valori fissi di $ y $, questo termine è la verosimiglianza $ L(\theta \mid y) $, che abbiamo discusso in dettaglio nel capitolo XX. Quindi, l'Eq. {eq}`eq-not-normalized-posterior` può essere riscritta come

$$ 
\begin{equation}
p(\theta \mid y) \propto L(\theta \mid y)p(\theta).
\end{equation}
$$

Le Equazioni (2.5) o (2.6) rappresentano il nucleo dell'inferenza statistica bayesiana ed è ciò che separa la statistica bayesiana dalla statistica frequentista.