#Bondad de Ajuste con el test $\chi^2$ de Pearson

In [None]:
import numpy as np
import pandas as pd
import scipy.stats as stats

In [None]:
population = pd.DataFrame(["blanco"]*1000000+["hispano"]*600000+["negro"]*500000+["asiatico"]*150000+["otro"]*350000)
mallorca = pd.DataFrame(["blanco"]*600+["hispano"]*300+["negro"]*250+["asiatico"]*75+["otro"]*150)

$$
\left.
\begin{array}{ll}
H_0: & \mathrm{La\ proporcion\ de\ individuos\ por\ categoria\ es\ igual\ en\ Mallorca\ que\ en\ todo\ el\ estado}  \\
H_1: & \mathrm{La\ proporcion\ de\ individuos\ por\ categoria\  NO\ es\ igual\ en\ Mallorca\ que\ en\ todo\ el\ estado }
\end{array}
\right\}
$$

In [None]:
population_table = pd.crosstab(index = population[0], columns="count")
mallorca_table = pd.crosstab(index = mallorca[0], columns="count")

In [None]:
print("Población global")
print(population_table)
print("Muestra de Mallorca")
print(mallorca_table)

Población global
col_0       count
0                
asiatico   150000
blanco    1000000
hispano    600000
negro      500000
otro       350000
Muestra de Mallorca
col_0     count
0              
asiatico     75
blanco      600
hispano     300
negro       250
otro        150


$$\chi_0 = \sum_{i=1}^n\frac{(o_i-e_i)^2}{e_i} \sim\chi^2_{n-1-k}$$
donde $n$ es el número de clases o categorías, $o_i$ son las frecuecias  observadas y $e_i$ son las frecuencias teóricas y $k$ es el número de parámetros estimados para la distribución teórica.

In [None]:
o_i = mallorca_table
o_i

col_0,count
0,Unnamed: 1_level_1
asiatico,75
blanco,600
hispano,300
negro,250
otro,150


In [None]:
n = len(mallorca)
n

1375

In [None]:
p_i = population_table/len(population)
p_i

col_0,count
0,Unnamed: 1_level_1
asiatico,0.057692
blanco,0.384615
hispano,0.230769
negro,0.192308
otro,0.134615


In [None]:
e_i = n * p_i
e_i

col_0,count
0,Unnamed: 1_level_1
asiatico,79.326923
blanco,528.846154
hispano,317.307692
negro,264.423077
otro,185.096154


In [None]:
chi_0 = (((o_i-e_i)**2)/e_i).sum()
chi_0

col_0
count    18.194805
dtype: float64

### Comprobación con valor crítico de la distribución

In [None]:
alpha = 0.05
crit = stats.chi2.ppf(q = 1-alpha, df = len(o_i)-1)
crit

9.487729036781154

In [None]:
if (chi_0 > crit).bool():
  print("Rechazamos H0")
else:
  print("No hay evidencias para rechazar H0")

Rechazamos H0


$$p = P(\chi^2_{k-1}>\chi_0) = 1-F_{\chi^2_{k-1}}(\chi_0)$$

In [None]:
p_val = 1-stats.chi2.cdf(x=chi_0, df = len(o_i)-1)
p_val

array([0.00113047])

In [None]:
if p_val < alpha:
  print("Rechazamos H0")
else:
  print("No hay evidencias para rechazar H0")

Rechazamos H0


## Automatizar el código con el test de $\chi^2$ de Python

In [None]:
stats.chisquare(f_obs = o_i, f_exp=e_i)

Power_divergenceResult(statistic=array([18.19480519]), pvalue=array([0.00113047]))

## Otra forma de hacer el test de $\chi^2$


In [None]:
from scipy.stats import chi2_contingency
table = [[10,20,30,40], [6,9,15,22]]
stat, pv, dof, expected = chi2_contingency(table)
print("Estadistico = %.3f, p-valor = %.3f, df = %.0f" % (stat,pv,dof))
print(expected)

Estadistico = 0.267, p-valor = 0.966, df = 3
[[10.52631579 19.07894737 29.60526316 40.78947368]
 [ 5.47368421  9.92105263 15.39473684 21.21052632]]
