In [None]:
import numpy as np

from scipy.stats import chi2, norm

import matplotlib.pyplot as plt
%matplotlib inline

# Test di una distribuzione

In [None]:
norm_data = np.loadtxt('./data/dati_misure.dat',unpack=True)

Numero totale di dati $N$:

In [None]:
N = len(norm_data)
print(N)

In [None]:
Oi, bins = np.histogram(norm_data,bins=np.arange(-2.25,2.75,.5))
print(bins)
print(Oi)

In [None]:
center_bins = np.sum(np.vstack([bins[:-1],bins[1:]]),axis=0)/2.
print(center_bins)

In [None]:
fig,ax = plt.subplots()

ax.set_xlim(-3,3)

ax.set_xticks(center_bins)
ax.set_xlabel('$z$',fontsize=12)
ax.set_ylabel(r'Conteggi $O$',fontsize=12)

ax.bar(center_bins,Oi,ec='k',width=0.42,label='Dati')

ax.legend(loc='upper right')

In ogni **bin** $i$ avviene un esperimento di conteggio: il numero di conteggi $O_i$ nel bin $i$ segue una statistica **poissoniana** con
1) **valore medio** $E_i$
2) **deviazione standard** $\sqrt{E_i}$

dove i valori $E_i$ sono i numeri di conteggi **attesi** nel bin $i$ *se è vera* l'ipotesi nulla.

**Ipotesi nulla:** i valori conteggiati di $z$ seguono una distribuzione gaussiana di media $\mu=0$ e $\sigma=1$:

$$\textup{PDF}(z)=\frac{1}{\sqrt{2\pi}}e^{-x^2}$$

Il numero totale di conteggi che ci **aspettiamo** nel bin $i$ è quindi

\begin{align}
E_i &= N\int_{z_{i-1}}^{z_i}\textup{PDF}(z)dz\\
&= N\left(\int_{-\infty}^{z_{i}}\textup{PDF}(z)dz - \int_{-\infty}^{z_{i-1}}\textup{PDF}(z)dz\right)\\
&= N\,\left[\textup{CDF}(z_i)-\textup{CDF}(z_{i-1})\right]
\end{align}

Se **nel bin** $O_i \gtrsim 5$, la Poissoniana è ben approssimata da una distribuzione **Gaussiana**, quindi la variabile casuale $O_i$ è una variabile (approssimativamente) gaussiana.

In [None]:
cdfs = norm.cdf(bins)
Ei = np.diff(cdfs)*N

In [None]:
fig,ax = plt.subplots()

ax.set_xlim(-3,3)

ax.set_xticks(center_bins)
ax.set_xlabel('$z$',fontsize=12)
ax.set_ylabel(r'Conteggi',fontsize=12)

ax.bar(center_bins,Oi,ec='k',width=0.42,label='Osservati, $O_i$')
ax.scatter(center_bins,Ei,c='r',label='Attesi, $E_i$')

ax.legend(loc='upper right')

Possiamo valutare se i valori **attesi** $E_i$ si adattano bene ai **osservati** $O_i$ calcolando il $\chi^2$:
$$
\chi^2=\sum_i \frac{(O_i-E_i)^2}{E_i}
$$

In [None]:
chisq = np.sum((Oi-Ei)**2/Ei)
print(chisq)

In [None]:
1-chi2.cdf(chisq,len(Oi)-1)

# Dadi truccati?

Lanciando 1000 volte **due dadi a 6 facce** si ottiengono i 1000 risultati raccolti nel file `./data/dadi.dat`.<br>
Usando il test statistico del $\chi^2$ possiamo concludere che il dado è truccato?

In [None]:
dadi = np.loadtxt('./data/dadi.dat')

In [None]:
print(len(dadi))
print(dadi)

1) Quali sono i risultati che si possono ottenere lanciando 2 dadi a 6 facce?
2) Quanti sono i **conteggi osservati** $O_i$ per ciascun risultato?

**Ipotesi nulla:** i due dadi non sono truccati. Ciascuna faccia ha una probabilità 1/6.

3) Qual è la probabilità teorica $P_i$ di ottenere ciascun risultato usando **due dadi non truccati**?
4) Quali sono i **conteggi attesi** $E_i$ per ciascun risultato?
5) Usando un test del $\chi^2$ e scegliendo una significatività $\alpha=5\%$, possiamo **rigettare** l'ipotesi nulla?