<a href="https://colab.research.google.com/github/QwertyJacob/colab_handouts_PSI/blob/main/4.4_CLT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 4.4 Teorema del limite centrale
_______________
Adattamento da:

- Probability for Computer Scientists (CS109 Course Reader), C. Piech, Standford, 2024
- Probability and Statistics for Computer Scientists, M. Baron, CRC Press, 2014


Passiamo ora a considerare le somme di variabili aleatorie,

$$
S_n = X_1 + \ldots + X_n,
$$

che compaiono in numerose applicazioni. Siano $ \mu = \mathbb{E}(X_i) $ e $ \sigma = \text{Std}(X_i) $ per tutti gli $ i = 1, \ldots, n $.

Come si comporta $ S_n $ per $ n $ grande? Esegui la seguente simulazione per vedere il comportamento di $ S_n $ in tre casi diversi:

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Generate random walk
N = 1000
S = np.zeros(N)
for n in range(1, N):
    S[n] = S[n-1] + np.random.randn()

n = np.arange(1, N+1)

# Plot S(n)
plt.figure(figsize=(10,4))
plt.plot(n, S)
plt.title("Behavior of S(n) (the random walk itself)")
plt.xlabel("n")
plt.ylabel("S(n)")
plt.grid(True)
plt.show()

# Plot S(n)/n
plt.figure(figsize=(10,4))
plt.plot(n, S / n)
plt.title("Behavior of S(n)/n (strong law of large numbers → 0)")
plt.xlabel("n")
plt.ylabel("S(n)/n")
plt.grid(True)
plt.show()

# Plot S(n)/sqrt(n)
plt.figure(figsize=(10,4))
plt.plot(n, S / np.sqrt(n))
plt.title("Behavior of S(n)/sqrt(n) (√n scaling → Brownian motion fluctuations)")
plt.xlabel("n")
plt.ylabel("S(n)/sqrt(n)")
plt.grid(True)
plt.show()


Eseguendo il codice possiamo vedere che:

- La somma semplice $ S_n $ diverge. In effetti, questo risultato era prevedibile perché

$$
\text{Var}(S_n) = n\sigma^2,
$$
e
$$
\lim_{n \to \infty}[n\sigma^2]= \infty,
$$
quindi la variabilità di $ S_n $ cresce illimitatamente al tendere di $ n $ all'infinito.

Nota: per dopo, teniamo presente che la deviazione standard di $S_n$ è:

$$
\text{Std}(S_n)=\sqrt{\text{Var}(S_n)}=\sqrt{n\sigma^2}=\sigma\sqrt{n}
$$

- La media $ S_n / n $ converge. Infatti, in questo caso si ha

$$
\text{Var}(S_n / n) = \frac{\text{Var}(S_n)}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n},
$$
e
$$
\lim_{n \to \infty}[\frac{\sigma^2}{n}]= 0,
$$

pertanto la variabilità di $ S_n / n $ si annulla quando $ n \to \infty $.

- Un fattore di normalizzazione interessante è $ 1 / \sqrt{n} $. Nel caso $ \mu = 0 $, possiamo osservare dai grafici che $ S_n / \sqrt{n} $ né diverge né converge! Non tende ad allontanarsi da 0, ma non converge neppure a 0. Piuttosto, si comporta come una certa variabile aleatoria:

$$
\text{Var}(S_n / \sqrt{n}) = \frac{\text{Var}(S_n)}{n} = \frac{n\sigma^2}{n} = \sigma^2 = \text{Var}(X_i),
$$


Il teorema seguente afferma che tale variabile ha approssimativamente distribuzione Normale per $ n $ grande.

> **Teorema 1 (Teorema del Limite Centrale)**  

Siano $ X_1, X_2, \ldots $ variabili aleatorie **indipendenti** con lo stesso valore atteso $ \mu = \mathbb{E}(X_i) $ e la stessa deviazione standard $ \sigma = \text{Std}(X_i) $, e sia

$$
S_n = \sum_{i=1}^n X_i = X_1 + \ldots + X_n.
$$
la variabile aleatoria somma, mentre 

$$
Z_n = \frac{S_n - \mathbb{E}(S_n)}{\text{Std}(S_n)} = \frac{S_n - n\mu}{\sigma \sqrt{n}}
$$
la variabie aleatoria somma _standardizzata_.

Quando $ n \to \infty $, la somma standardizzata $Z_n$ _converge in distribuzione_ a una variabile aleatoria Normale Standard, cioè:
$$
[Z_n]_{n \to \infty }\sim \mathcal{N}(0,1)
$$
Oppure, in altre parole, la sua CDF, $F_{Z_n}(z)$ converge alla CDF della normale standard $\Phi(z)$:

$$
F_{Z_n}(z) = P\left( \frac{S_n - n\mu}{\sigma \sqrt{n}} < z \right) \to \Phi(z)
\quad \text{per ogni } z.
\quad (4.18)
$$

Questo teorema è molto potente perché può essere applicato a variabili aleatorie $ X_1, X_2, \ldots $ con qualsiasi tipo di distribuzione (purché abbiano un valore atteso e varianza finite). Finché $ n $ è sufficientemente grande (la regola empirica è $ n > 30 $), si può utilizzare la distribuzione Normale per calcolare probabilità relative a $ S_n$.

Il Teorema 1 rappresenta solo una versione fondamentale del Teorema del Limite Centrale. Negli ultimi due secoli, esso è stato esteso a vaste classi di variabili dipendenti, vettori aleatori, processi stocastici, e così via.

> **Esempio 4.13 (Allocazione dello spazio su disco).** Un disco ha uno spazio libero di 330 megabyte. È probabile che questo spazio sia sufficiente per memorizzare 300 immagini indipendenti, sapendo che ciascuna immagine ha una dimensione attesa di 1 megabyte e uno scarto quadratico medio di 0,5 megabyte?

**Soluzione.** Abbiamo $ n = 300 $, $ \mu = 1 $, $ \sigma = 0.5 $. Il numero di immagini $ n $ è grande, quindi il Teorema del Limite Centrale si applica alla dimensione totale $ S_n $. Allora,

$$
P(\text{spazio sufficiente}) = P(S_n \leq 330) = P\left( \frac{S_n - n\mu}{\sigma \sqrt{n}} \leq \frac{330 - (300\times1)}{0.5 \sqrt{300}} \right)
$$

$$
\approx \Phi(3.46) = 0.9997.
$$

Questa probabilità è molto elevata; pertanto, lo spazio disponibile sul disco è quasi certamente sufficiente. ♦

> **NB** Nel caso speciale in cui le variabili $ X_1, X_2, \ldots $ siano distribuite secondo una Normale, la distribuzione di $ S_n $ è sempre Normale, e la (4.18) diventa un'uguaglianza esatta per ogni valore di $ n $, anche piccolo.

**Esempio 4.14 (Ascensore).** State aspettando un ascensore con capacità massima di 2000 libbre. L’ascensore arriva con dieci passeggeri adulti. Supponete che il vostro peso sia di 150 libbre e abbiate sentito che i pesi degli esseri umani seguono una distribuzione Normale con media 165 libbre e scarto quadratico medio di 20 libbre. Decidereste di salire sull’ascensore o di aspettare il prossimo?

**Soluzione.** In altre parole, è probabile un sovraccarico? La probabilità di un sovraccarico è

$$
P(S_{10} + 150 > 2000) = P(S_{10}  > 2000 -150) = P\left( \frac{S_{10} - (10 \times 165)}{20 \sqrt{10}} > \frac{2000 - 150 - (10 \times 165)}{20 \sqrt{10}} \right)
$$

$$
= 1 - \Phi(3.16) = 0.0008.
$$

Quindi, con probabilità $ 0.9992 $, è sicuro utilizzare questo ascensore. Ora tocca a voi decidere. ♦

Tra le variabili aleatorie discusse nei Capitoli 3 e 4, la **Variabile Binomiale** ha una forma speciale: essa è infatti una **somma** di variabili di Bernoulli **indipendenti** e **identicamente distribuite** Di conseguenza, il Teorema del Limite Centrale si applica a questa distribuzione quando $ n $ è sufficientemente grande. In effetti, Abraham de Moivre (1667–1754) ottenne la prima versione del Teorema del Limite Centrale proprio come approssimazione della distribuzione Binomiale. Vediamo più da vicino questo risultato:

### Una simulazione utile:

In questo esempio, si utilizza una simulazione utile per illustrare il teorema del limite centrale. Stiamo prendendo una v.a. discreta uniforme, $X$ che prende due soli valori con uguale probabilità. $-1$ e $1$. (Quindi non è una Bernoulliana)
Quale è il valore atteso di ciascuna di esse? 
$$
\mathbb{E}[X]= -1\times0.5+1\times0.5=0
$$
Ora prendiamo diecimila di queste variabili, in modo tale che esse siano indipendenti l'una dall'altra e abbiano tutte la stessa distribuzione di probabilità. Sommiamo queste variabili e applicchiamo la standardizzazione. Che distribuzione di probabilità avremo?


In [None]:
import numpy as np  
import matplotlib.pyplot as plt  

# Parametri della simulazione  
num_walkers = 10000  # Numero di "camminatori" (particelle o simulazioni indipendenti)  
num_steps = 1000     # Numero di passi per ciascun camminatore  

# Simula i passi casuali: +1 o -1 con probabilità uguale  
steps = np.random.choice([-1, 1], size=(num_walkers, num_steps))  

# Calcola la posizione finale per ciascun camminatore (somma dei passi)  
positions = np.sum(steps, axis=1)  

# Plot dell'istogramma delle posizioni finali (normalizzato per ottenere una densità di probabilità)  
plt.figure(figsize=(10, 6))  
plt.hist(positions, bins=50, density=True, alpha=0.6, color='green', label='Istogramma delle posizioni')  

# Calcola media e deviazione standard (dovrebbero essere circa 0 e sqrt(num_steps))  
mu = np.mean(positions)  
sigma = np.std(positions)  

# Sovraimponi la curva gaussiana teorica  
x = np.linspace(mu - 4*sigma, mu + 4*sigma, 100)  
gaussian = (1 / (sigma * np.sqrt(2 * np.pi))) * np.exp(- (x - mu)**2 / (2 * sigma**2))  
plt.plot(x, gaussian, 'r--', linewidth=2, label='Distribuzione Gaussiana')  

# Aggiungi titoli e etichette  
plt.title('Simulazione di Random Walk: Evoluzione verso Distribuzione Gaussiana')  
plt.xlabel('Posizione Finale')  
plt.ylabel('Densità di Probabilità')  
plt.legend()  
plt.grid(True)
# Se vuoi salvare il grafico: 
# plt.savefig('random_walk.png')
plt.show()  

# Stampa alcune statistiche per verifica  
print(f"Media delle posizioni: {mu:.2f} (attesa ~0)")  
print(f"Deviazione standard: {sigma:.2f} (attesa ~sqrt({num_steps}) = {np.sqrt(num_steps):.2f})")

### Approssimazione Normale della distribuzione Binomiale

Le variabili binomiali rappresentano un caso particolare di $ S_n = X_1 + \ldots + X_n $, in cui tutte le $ X_i $ hanno distribuzione di Bernoulli con un certo parametro $ p $. Sappiamo dalla Sezione 3.3.6 che per valori piccoli di $ p $ è possibile approssimare la distribuzione Binomiale con una distribuzione di Poisson, e per valori grandi di $ p $ un'approssimazione analoga si applica al numero di fallimenti.

Per valori moderati di $ p $ (ad esempio, $ 0.05 \leq p \leq 0.95 $) e per $ n $ grande, possiamo applicare il Teorema 1:

$$
\text{Binom}(n, p) \sim \mathcal{N}\left( \mu = np, \, \sigma = \sqrt{np(1 - p)} \right)
\quad (4.19)
$$

Esegui la seguente cella di codice per avere una visuale grafica di come, man mano che $ n $ aumenta, la PMF della distribuzione Binomiale è via via più similare alla PDF della distribuzione Normale:

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from math import comb

plt.figure()
# Increase plot size
plt.figure(figsize=(20,7))
# Plot binomial PMFs for n = 1,3,5,...,99
for n in range(20,120, 10):
    x = np.arange(0, n+1)
    p = np.array([comb(n, k) * (0.5**k) * (0.5**(n-k)) for k in x])
    plt.plot(x, p, label=f'n = {n}')

plt.title("Binomial probabilities for increasing values of n (p=0.5)")
plt.xlabel("x")
plt.ylabel("P(X = x)")
plt.xlim(0, 80)
plt.legend(ncols=10)
plt.show()


### Correzione di continuità

Questa correzione è necessaria quando approssimiamo una distribuzione discreta (in questo caso la Binomiale) con una distribuzione continua (la Normale). Ricordiamo che la probabilità $ P(X = x) $ può essere positiva se $ X $ è una variabile discreta, mentre è sempre nulla se $ X $ è continua. Pertanto, un uso diretto della (4.19) approssimerebbe sempre $ P(X = x) $ con 0, il che rappresenterebbe un'approssimazione scadente.

Il problema si risolve introducendo la **correzione di continuità**: si estende l'intervallo di 0,5 unità in ogni direzione, quindi si utilizza l'approssimazione Normale. Si osserva che

$$
\boxed{
\begin{aligned}
    &\textbf{Correzioni di continuità}\\
    \text{Dati} \quad &  X \sim \text{Binom}(n,p) \quad \text{e} Y \sim \mathcal{N}(np, np(1-p)) \\ 
    \text{tale che} & \quad Y \approx X \quad \text{per valori di}\quad n \quad \text{abbastanza grandi}\\
    &\text{si ha:}\\ 
P_X(x) &= P(X = x) = P(x - 0.5 < Y < x + 0.5)\\
F_X(x) &= P(X \leq x) = P(Y < x + 0.5)\\
1-F_X(x) &= P(X > x) = P(Y > x + 0.5)\\
1- F_X(x-1)&= P(X \geq x) = P(Y > x - 0.5)\\
F_X(x-1) &= P(X < x) = P(Y < x - 0.5)\\
\end{aligned}
}
$$


La correzione per continuità non modifica l'evento né altera la sua probabilità. Tuttavia, fa la differenza nel caso della distribuzione Normale: trasforma la probabilità di un singolo punto (che sarebbe zero) nella probabilità di un intervallo (che non è nulla).

Ogni volta che approssimiamo una distribuzione discreta con una continua, dobbiamo utilizzare la correzione per continuità.


**Esempio 4.15.** Un nuovo virus informatico attacca una cartella composta da 200 file. Ogni file viene danneggiato con probabilità $ 0.2 $, indipendentemente dagli altri. Qual è la probabilità che meno di 50 file vengano danneggiati?

**Soluzione.** Il numero $ X $ di file danneggiati ha distribuzione Binomiale con $ n = 200 $, $ p = 0.2 $, $ \mu = np = 40 $, e $ \sigma = \sqrt{np(1 - p)} = 5.657 $. 
Approssimiamo $X$ ocn una v.a. gaussiana $Y$:
$$
Y \approx X \quad \text{tale che:} Y \sim \mathcal{N}(\mu=40,\sigma=5.657)
$$

Applicando il Teorema del Limite Centrale con la correzione di continuità:
$$
P(X < 50) = P(Y < 49.5) = P\left( \frac{Y - 40}{5.657} < \frac{49.5 - 40}{5.657} \right)
$$
Dato che $\frac{49.5 - 40}{5.657}=1.68$, abbiamo:
$$
= P\left( Z < 1.68 \right) = \Phi(1.68) = 0.9535.
$$

Si noti che la correzione per continuità corretta sostituisce 50 con 49,5 e non con 50,5. Infatti, siamo interessati all'evento in cui $ X $ è strettamente minore di 50, cioè $ X \leq 49 $. Tale evento corrisponde all'intervallo $ [0, 49] $, che, con la correzione, diventa $ [0, 49.5] $. In altre parole, gli eventi $ \{X < 50\} $ e $ \{Y < 49.5\} $ sono equivalenti.

Gli eventi $ \{X < 50\} $ e $ \{Y < 50.5\} $ sono invece diversi: il secondo include $ X = 50 $?, mentre il primo, cioè $ X < 50 $, esclude 50. 
$ Y < 50.5 $ include $ X = 50 $, e $ \{Y < 50\} $ include tutti i valori di $X$ fino a 49, mentre $ \{Y < 50.5\} $ include fino a $X=50$. Dunque, sostituire $ \{X < 50\} $ con $ \{Y < 50.5\} $ avrebbe ampliato l'evento e avrebbe portato a una sovrastima della probabilità.

Pertanto, la scelta corretta è $ 49.5 $ per l'evento $ X < 50 $. ♦

Quando una distribuzione continua (ad esempio, la distribuzione _Gamma_) viene approssimata con un'altra distribuzione continua (ad esempio, Normale), la correzione per continuità **non è necessaria**. In effetti, sarebbe un errore utilizzarla, perché altererebbe l'evento e non preserverebbe la probabilità.