In [None]:
import numpy as np

from scipy.stats import chi2, norm

import matplotlib.pyplot as plt
%matplotlib inline

# Monete truccate?

Lanciamo **3 monete**. **Se** le monete *non sono truccate*, per ciascuna moneta la probabilità di ottenere testa è $p=1/2$. Le probabilità dei possibili risultati sulle tre monete si ottengono dalla **distribuzione binomiale**. Dal momento che $p=(1-p)=1/2$:
$$
P(k)={3\choose k}p^k(1-p)^{3-k}={3 \choose k}(1/2)^k(1/2)^{3-k}={3 \choose k}(1/2)^3={3 \choose k}\frac{1}{8}
$$

- **0 teste**: $$P(0)={3\choose 0}\frac{1}{8}=\frac{1}{8}=0.125$$
- **1 testa**: $$P(1)={3\choose 1}\frac{1}{8}=3\,\frac{1}{8}=0.375$$
- **2 teste**: $$P(2)={3\choose 2}\frac{1}{8}=3\,\frac{1}{8}=0.375$$
- **3 teste**: $$P(3)={3\choose 2}\frac{1}{8}=\frac{1}{8}=0.125$$

In [None]:
P_expt = np.array([0.125, 0.375, 0.375, 0.125])

Immaginiamo ora di lanciare $N=200$ volte le 3 monete e di ottenere questi **conteggi** di teste:

In [None]:
O = np.array([16, 88, 69, 27])

In [None]:
N = O.sum()
print(N)

In [None]:
fig,ax = plt.subplots()

ax.set_xlim(-1,4)

ax.set_xticks([0,1,2,3])
ax.set_xlabel('# teste',fontsize=12)
ax.set_ylabel(r'Conteggi $O$',fontsize=12)

ax.bar([0,1,2,3],O,ec='k',width=0.42,label='Conteggi $O_i$')

ax.legend(loc='best')

Ci viene chiesto di valutare se le monete sono **truccate** o meno. 

**Ipotesi nulla $H_0$**: le monete non sono truccate.<br>
Fissiamo la soglia di significatività $\alpha=0.05$.

**Sotto l'ipotesi nulla**, le probabilità di ottenere i 4 possibili risultati sono date da `P_expt`. Avendo lanciato $N$ volte le tre monete, i **valori attesi** _se_ $H_0$ è vera sono $E_i = P(i)N$:

In [None]:
E = N*P_expt
print(E)

In [None]:
fig,ax = plt.subplots()

ax.set_xlim(-1,4)

ax.set_xticks([0,1,2,3])
ax.set_xlabel('# teste',fontsize=12)
ax.set_ylabel(r'Conteggi $O$',fontsize=12)

ax.bar([0,1,2,3],O,ec='k',width=0.42,label='Conteggi $O_i$')
ax.scatter([0,1,2,3],E,c='r',label='Attesi, $E_i$')

ax.legend(loc='best')

Per ogni numero di teste (0,1,2,4) $i$ avviene un esperimento di conteggio. Il numero di conteggi $O_i$ per il possibile risultato $i$ segue una statistica **poissoniana** con
1) **valore medio** $E_i$
2) **deviazione standard** $\sqrt{E_i}$

dove i valori $E_i$ sono i numeri di conteggi **attesi** per un numero $i$ di teste *se è vera* l'ipotesi nulla.

Se per $i$ abbiamo $O_i \gtrsim 5$, la Poissoniana è ben approssimata da una distribuzione **Gaussiana**, quindi la variabile casuale $O_i$ è una variabile (approssimativamente) gaussiana.<br>
Possiamo valutare se i valori **attesi** $E_i$ si adattano bene ai conteggi **osservati** $O_i$ calcolando il $\chi^2$:
$$
\chi^2_o=\sum_{i=1}^n \frac{(O_i-E_i)^2}{E_i}
$$
dove $n=4$ possibili risultati.

In [None]:
chisq_o = np.sum((O-E)**2/E)
print(chisq_o)

Abbiamo $n=4$ categorie in cui conteggiamo, il numero totale di conteggi è fissato a $N$. Il numero di **gradi di libertà** della distribuzione $\chi^2$ è

In [None]:
dof = len(O)-1
print(dof)

La probabilità di avere $P(\chi^2\geq\chi^2_o)$ si ottiene usando la PDF della distribuzione $\chi^2$ con 3 gradi di libertà

In [None]:
1-chi2.cdf(chisq_o, dof)

$P(\chi^2\geq\chi_o^2)>\alpha$. Non possiamo rigettare l'ipotesi nulla.

Altre 3 monete diverse:

In [None]:
O2 = np.array([13, 60, 95, 32])
print(O2.sum())

In [None]:
fig,ax = plt.subplots()

ax.set_xlim(-1,4)

ax.set_xticks([0,1,2,3])
ax.set_xlabel('# teste',fontsize=12)
ax.set_ylabel(r'Conteggi $O$',fontsize=12)

ax.bar([0,1,2,3],O2,ec='k',width=0.42,label='Conteggi $O_i$')
ax.scatter([0,1,2,3],E,c='r',label='Attesi, $E_i$')

ax.legend(loc='best')

In [None]:
chisq_o2 = np.sum((O2-E)**2/E)
print(chisq_o2)

In [None]:
1-chi2.cdf(chisq_o2, dof)

# Test di una distribuzione

In [None]:
norm_data = np.loadtxt('./data/dati_misure.dat',unpack=True)

Numero totale di dati $N$:

In [None]:
N = len(norm_data)
print(N)

In [None]:
Oi, bins = np.histogram(norm_data,bins=np.arange(-2.25,2.75,.5))
print(bins)
print(Oi)

In [None]:
center_bins = np.sum(np.vstack([bins[:-1],bins[1:]]),axis=0)/2.
print(center_bins)

Il numero $n$ di *bin* in cui suddividiamo è

In [None]:
n = len(center_bins)
print(n)

In [None]:
fig,ax = plt.subplots()

ax.set_xlim(-3,3)

ax.set_xticks(center_bins)
ax.set_xlabel('$z$',fontsize=12)
ax.set_ylabel(r'Conteggi $O$',fontsize=12)

ax.bar(center_bins,Oi,ec='k',width=0.42,label='Dati')

ax.legend(loc='upper right')

In ogni **bin** $i$ avviene un esperimento di conteggio: il numero di conteggi $O_i$ nel bin $i$ segue una statistica **poissoniana** con
1) **valore medio** $E_i$
2) **deviazione standard** $\sqrt{E_i}$

dove i valori $E_i$ sono i numeri di conteggi **attesi** nel bin $i$ *se è vera* l'ipotesi nulla.

**Ipotesi nulla:** i valori conteggiati di $z$ seguono una distribuzione gaussiana di media $\mu=0$ e $\sigma=1$:

$$\textup{PDF}(z)=\frac{1}{\sqrt{2\pi}}e^{-x^2}$$

Il numero totale di conteggi che ci **aspettiamo** nel bin $i$ è quindi

\begin{align}
E_i &= N\int_{z_{i-1}}^{z_i}\textup{PDF}(z)dz\\
&= N\left(\int_{-\infty}^{z_{i}}\textup{PDF}(z)dz - \int_{-\infty}^{z_{i-1}}\textup{PDF}(z)dz\right)\\
&= N\,\left[\textup{CDF}(z_i)-\textup{CDF}(z_{i-1})\right]
\end{align}

Se **nel bin** $O_i \gtrsim 5$, la Poissoniana è ben approssimata da una distribuzione **Gaussiana**, quindi la variabile casuale $O_i$ è una variabile (approssimativamente) gaussiana.

In [None]:
cdfs = norm.cdf(bins)
Ei = np.diff(cdfs)*N

In [None]:
fig,ax = plt.subplots()

ax.set_xlim(-3,3)

ax.set_xticks(center_bins)
ax.set_xlabel('$z$',fontsize=12)
ax.set_ylabel(r'Conteggi',fontsize=12)

ax.bar(center_bins,Oi,ec='k',width=0.42,label='Osservati, $O_i$')
ax.scatter(center_bins,Ei,c='r',label='Attesi, $E_i$')

ax.legend(loc='upper right')

Possiamo valutare se i valori **attesi** $E_i$ si adattano bene ai **osservati** $O_i$ calcolando il $\chi^2$:
$$
\chi^2_o=\sum_{i=1}^n \frac{(O_i-E_i)^2}{E_i},
$$
dove $n=9$ è il numero di bin.

In [None]:
dof = n-1
print(dof)

In [None]:
chisq = np.sum((Oi-Ei)**2/Ei)
print(chisq)

In [None]:
1-chi2.cdf(chisq,dof)

# Dadi truccati?

Lanciando 1000 volte **due dadi a 6 facce** si ottiengono i 1000 risultati raccolti nel file `./data/dadi.dat`.<br>
Usando il test statistico del $\chi^2$ possiamo concludere che il dado è truccato?

In [None]:
dadi = np.loadtxt('./data/dadi.dat')

In [None]:
print(len(dadi))
print(dadi)

In [None]:
Oi, bins = np.histogram(dadi,np.arange(1.5,13))
center_bins = np.arange(2,13)
print(center_bins)

In [None]:
fig,ax = plt.subplots()

ax.set_xticks(range(2,13))
ax.set_xlabel('Risultato',fontsize=12)
ax.set_ylabel('Conteggi',fontsize=12)

ax.bar(center_bins,Oi,ec='k')

1) Quali sono i risultati che si possono ottenere lanciando 2 dadi a 6 facce?
2) Quanti sono i **conteggi osservati** $O_i$ per ciascun risultato?

**Ipotesi nulla:** i due dadi non sono truccati. Ciascuna faccia ha una probabilità 1/6.

3) Qual è la probabilità teorica $P_i$ di ottenere ciascun risultato usando **due dadi non truccati**?
4) Quali sono i **conteggi attesi** $E_i$ per ciascun risultato?
5) Usando un test del $\chi^2$ e scegliendo una significatività $\alpha=5\%$, possiamo **rigettare** l'ipotesi nulla?