## Test chi-cuadrado para histogramas

Correr la demo para el conjunto de 1000 datos primero para mostrar que la hipótesis nula no puede ser rechazada. Tengo dos opciones: 1) medir más datos o 2) dejar de medir no rechazar la hipótesis nula. Elijo la opción 1: corro el script para 10000 datos y muestro que se rechaza la hipótesis nula.

In [None]:
import math
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats

In [None]:
datos = np.loadtxt('test_chi2_1k.txt') # muestra de 1.000 datos
# datos = np.loadtxt('test_chi2_10k.txt') # muestra de 10.000 datos

Histograma

In [None]:
histo, borde_bin = np.histogram(datos, bins=20, range=[-3, 3])
centro_bin = ( borde_bin[0:-1] + borde_bin[1:] ) / 2

Parámetros de la PDF según la hipótesis nula $H_0$ (distribución normal estándar)

In [None]:
mu = 0
sigma = 1

## Plot datos y PDF 

In [None]:
ndatos = len(datos)
ancho_bin = borde_bin[1] - borde_bin[0]
mu = scipy.stats.norm.pdf(centro_bin, loc=mu, scale=sigma)  * ndatos * ancho_bin

In [None]:
fig1, ax1 = plt.subplots()
ax1.set_xlabel("x")
ax1.set_ylabel("Frecuencia")
ax1.plot(centro_bin, histo, 'o', label="Datos")
ax1.plot(centro_bin, mu, 's', label="N(0,1)")
ax1.legend()
plt.tight_layout()
# plt.savefig("test_chi2.svg")
plt.show()

## Estadístico t observado

Selecciono solo los bines con más entradas para que la aproximación Gaussiana al número de entradas del bin sea válida

In [None]:
mu_min = 20

In [None]:
mu_sel = mu[mu>mu_min]
mu_sel

In [None]:
print(f'Número de bines seleccionados: {len(mu_sel)}')

In [None]:
sigma_sel = np.sqrt(mu_sel)
sigma_sel

In [None]:
histo_sel = histo[mu>mu_min]
histo_sel

In [None]:
z = (histo_sel-mu_sel) / sigma_sel
z

In [None]:
t_obs = np.sum(z*z)
print("Estadístico del test observado = ", t_obs)

## Pvalor

In [None]:
grados_libertad = len(histo_sel)
grados_libertad

In [None]:
pvalor = scipy.stats.chi2.sf(t_obs, df=grados_libertad)
print(f'pvalor = {100*pvalor}%')

## Distribución del estadístico t

In [None]:
t = np.linspace(0, 2*t_obs, num=1000)
pdf_chi2 = scipy.stats.chi2.pdf(t, df=grados_libertad)

In [None]:
fig2, ax2 = plt.subplots()
ax2.set_xlabel("t")
ax2.set_ylabel("f(t)")
ax2.plot(t, pdf_chi2)
ax2.axvline(t_obs, ls='--', color='tab:orange')
ax2.text(t_obs, 0.5, ' $t_{obs}$',
         transform=ax2.get_xaxis_text1_transform(0)[0])
plt.show()

## Test chi-cuadrado con la librería danatools

Install danatools with: `pip install danatools`

In [None]:
import danatools

In [None]:
tobs, pvalor = danatools.chi_square_test(observed=histo_sel, mean_exp=mu_sel, std_dev_exp=sigma_sel)
print("Estadístico del test observado = ", t_obs)
print(f'pvalor = {100*pvalor:.1e}%')

*Nota*: La librería scipy implementa un test chi cuadrado útil para histogramas con un número total de entradas fijo. Sin embargo, en este ejemplo el número de eventos en el rango seleccionado es una variable aleatoria que sigue una distribución de Poisson. Para el caso de histogramas con número de eventos fijos se puede usar el [test chi-cuadrado de scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html).