# <font color=green size=10>CURSO DE ESTADÍSTICA - PARTE 3</font>

***

# <font color=green>5. PRUEBAS CHI-CUADRADO</font>
***

Tenemos dos tipos de pruebas Chi-Cuadrado
> 1. Prueba de **bondad de ajuste**. \\
Se compara a la distribución observada de los datos con una distribución que se espera en los datos.
> 2. Prueba de **independencia**. \\
El objetivo es verificar si dos variables cuantitativas son o no independientes.

## **Prueba de bondad de ajuste** 



La prueba de bondad de ajuste chi-cuadrado $(\chi^2)$ prueba la hipótesis nula de que no hay diferencia entre las frecuencias observadas de un evento dado y las frecuencias que realmente se esperan para ese evento.

**Problema**

Antes de cada partido del campeonato nacional de fútbol, ​​se deben revisar las monedas utilizadas por los árbitros para asegurarse de que no estan sesgadas, es decir, que no tiendan a un resultado determinado. 
Para ello, se debe realizar una prueba sencilla antes de cada partido. Esta prueba consiste en lanzar la moneda del juego **50 veces** y contar las frecuencias de las **CARAS** y de las **CRUCES** obtenidas. En la siguiente tabla se muestran los resultados obtenidos en el experimento:

||CARA|CRUZ|
|-|-|-|
|Observado|17|33|
|Esperado|25|25|

Con un **nivel de significancia del 5%**, ¿es posible decir que la moneda no es honesta, o sea, que es más probable que caiga con la **CARA** volteada para arriba?

<font color='red'> Aqui el objetivo es verificar si los resultados del experimento indican que la distribución del número caras (o cruces) es binomial con probabilidad de éxito $0,5$.</font>

Si denotamos por \\

<font color='red'>$f_{cara}$</font> $\Rightarrow$ la frecuencia que sale  <font color='red'>cara</font>,

<font color='blue'>$f_{cruz}$</font> $\Rightarrow$ la frecuencia que sale <font color='blue'>cruz</font>,

podemos plantear las hipótesis como sigue

$
\begin{cases}
H_0: f_{cara} = f_{cruce} \,  \\
H_1: f_{cara} \neq f_{cruce}
\end{cases}
$
**o equivalentemente** 
$
\begin{cases}
H_0:p_{caras}=p_{0i} \\
H_1:p_{caras}\neq p_{0i} 
\end{cases}
$

en que $p_{cara}$ representa la probabilidad de que salga cara y $p_{0i}$ es la probabilidad especifica para la categoria $i$, $i=1,\ldots,k.$ \\

En este caso <font color='red'>$p_{0i} =  0,5$</font>.

**Datos del problema**


In [None]:
f_obs = [17, 33]
f_esp = [25, 25]
significancia = 0.05
confianza = 1 - significancia
k = 2


<font color='red'>Observación</font>

$f^{esp}_{i} = n\times p_{0i}$,  $i=1,\ldots,k$.

Tenemos que $k=2$, $n=50$ y $p_{0i}=0,50$, luego

$f^{esp}_{1} = 50 \times 0.50 = 25$ \\
$f^{esp}_{2} = 50 \times 0.50 = 25$


#### Haciendo cálculos

**Paso 1: Establecer las hipótesis $H_0$ y $H_1$**

$H_0: f_{cara} = f_{cruce}$  \\

$H_1:  f_{cara} \neq f_{cruce}$ 

siendo $f_{cara}$ la frecuencia de las caras y $f_{cruce}$ la frecuencia de las cruces.

**Paso 2: Fijar el nivel de significancia $\alpha$ de la prueba**

$\alpha =0.05$

**Paso 3: Estadística de Prueba**

$$ \chi^{2} = \sum\limits_{i=1}^{k}\frac{\left(f^{obs}_{i}-f^{esp}_{i}\right)^2}{f^{esp}_{i}}$$

In [None]:
chi_2 = ((f_obs[0]-f_esp[0])**2/f_esp[0]) + ((f_obs[1]-f_esp[1])**2/f_esp[1])
chi_2

5.12

**Paso 4: Determinar la región crítica**

![Region Critica Moneda](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Moneda.png)

Obteniendo $\chi^{2}_{\alpha}$

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi.html

In [None]:
from scipy.stats import chi

In [None]:
grados_de_libertad = k-1

In [None]:
chi_2_alpha = chi.ppf(confianza,grados_de_libertad)**2
chi_2_alpha

3.8414588206941245

La Región Crítica es como sigue

![Valor Critico Moneda](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Valor_Critico_Moneda.png)

**Paso 5: Tomar la decisión y concluir**

<font color='red'>¿$\chi^{2} = 5,12$ está en la Región Crítica?</font> o equivalentemente <font color='red'> ¿ $\chi^{2} \geq 3,84$?</font>

In [None]:
chi_2 >= chi_2_alpha

True

Observe que <font color='red'>$\chi^{2}≥3,84$</font> y por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar $H_0$</font>.

![Decision Moneda](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Decision_Moneda.png)

<font color='red'> Rechazamos $H_0$ si $p$-valor $\leq \alpha$.</font>

El p-valor se calcula como

$p-\textrm{valor} = P\left(\chi^{2}_{(k-1)} \geq \chi^{2}_{obs}\right)$


In [None]:
raiz_chi_2 = np.sqrt(chi_2)
raiz_chi_2

2.262741699796952

In [None]:
p_valor = chi.sf(raiz_chi_2, grados_de_libertad)
p_valor 

0.023651616655355978

In [None]:
p_valor <= significancia

True

Observe que <font color='red'>$p$−valor$\leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar  $H_0$</font>.

<font color='blue'> **Conclusión:** rechazamos la hipótesis nula ($H_0$) y concluimos que las frecuencias observadas y esperadas son diferentes, es decir, la moneda no es honesta y necesita ser reemplazada. </font> 

#### Usando biblioteca de Phyton

<font color='red'> Usando chisquare</font>

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html

In [None]:
from scipy.stats import chisquare

In [None]:
chisquare(f_obs,f_esp)

Power_divergenceResult(statistic=5.12, pvalue=0.023651616655356)

In [None]:
chi2,p_valor = chisquare(f_obs,f_esp)
print(chi2)
print(p_valor)

5.12
0.023651616655356


In [None]:
p_valor <= significancia

True

Observe que <font color='red'>$p$−valor$\leq \alpha$</font>, por lo tanto hay suficiente evidencia en la muestra para <font color='red'>rechazar  $H_0$</font>.

<font color='blue'> **Conclusión:** rechazamos la hipótesis nula ($H_0$) y concluimos que las frecuencias observadas y esperadas son diferentes, es decir, la moneda no es honesta y necesita ser reemplazada. </font>

## **Generalizando**

### **Estadística de prueba**

Para evaluar las hipótesis se utiliza la estadística chi-cuadrado:
$$ \chi^{2} = \sum\limits_{i=1}^{k}\frac{\left(f^{obs}_{i}-f^{esp}_{i}\right)^2}{f^{esp}_{i}},$$
en que
>- $f^{obs}_{i}$: es el valor observado en la $i$-esima categoría. 
>- $f^{esp}_{i}$: es el valor que se espera (bajo $H_0$ cierta) en la $i$-esima categoría y se calcula como sigue $f^{esp}_{i} = n\times p_{0i}$, $i,\ldots,k$.
>- $k$ es el número de categorías.

Asumiendo que $H_0$ es verdadera y para frecuencias observadas y esperadas grandes,  $\chi^{2} \sim \chi^{2}_{(k-1)}$.

### **Region Crítica**

![Region Critica Chi2](https://caelum-online-public.s3.amazonaws.com/ESP-1778-estadistica-con-python-test-hipotesis/Region_Critica_Chi2.png)

### **$p$-valor**
El $p$-valor es calculado como:

$$p-\textrm{valor} = P\left(\chi^{2}_{(k-1)} \geq \chi^{2}_{obs}\right)$$

donde $\chi^{2}_{obs}$ es el valor de la estadística de prueba $\chi^{2}$ calculado a partir de los datos. \\

Recuerde que $H_0$ es rechazada si $p$-valor $\leq \alpha$.