# Test Chi cuadrado

Test común que se usa cuando tenemos tablas de frecuencia

* **Bondad de ajuste**: consiste en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional.

* **Homogeneidad**: consiste en comprobar si varias muestras de un carácter cualitativo proceden de la misma población

* **Independencia** de los datos: consiste en comprobar si dos características cualitativas están relacionadas entre sí.

Para **una variable** podemos aplicar la bondad de ajuste, mientras que para **dos variables** podemos aplicar las pruebas de homogeneidad o independencia

In [2]:
# importamos bibliotecas
import scipy.stats as ss
import numpy as np
import pandas as pd
import seaborn as sns

# seaborn
sns.set()

## Fórmula de la $\chi^2$

Siendo:

$O_{i}$: los valores obtenidos

$E_{i}$: los valores esperados

$$
{\chi}^2=\sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}
$$

## Prueba de bondad de ajuste

Un ejemplo es comprobar los resultados de lanzar una moneda al aire. En este caso, la **hipótesis nula** es que la proporción de caras y cruces es la misma (0.5), mientras que la **hipótesis alternativa** es que la proporción no se mantiene, y por tanto, o la moneda está trucada o los datos son falsos.

Aquí vamos a generar datos que sigan una distribución binomial (que sería propia de la moneda) y posteriormente generaremos datos

In [2]:
# datos procedentes de una distribución binomial
data = np.random.binomial(n=1, p=0.5, size=200)

# Contamos los sucesos
unique, counts = np.unique(data, return_counts=True)

print("Los valores son: ", unique)
print("El resultado es: ", counts)
print("Los valores esperados son 0:{0} y 1:{1}".format(100, 100))

Los valores son:  [0 1]
El resultado es:  [ 92 108]
Los valores esperados son 0:100 y 1:100


In [4]:
# grados de libertad
df = 1

# realizamos el test chi cuadrado
chiq, pvalue = ss.chisquare(f_obs=counts, f_exp=[100, 100], ddof=1)

# comparamos con chi teorico
syn_data = np.random.chisquare(df, size=2000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos los resultados
print("Valor chi obtenido: ", chiq)
print("Valor chi teórico: ", chiq_teorico)

Valor chi obtenido:  1.28
Valor chi teórico:  4.174728489818992


Recordamos que:

* **hipótesis nula**: los valores están bien distribuidos, es decir, la proporción de caras y cruces es la misma.
* **hipótesis alternativa**: los valores no están bien distribuidos, por lo tanto no hay una proporción entre caras y cruces del 50%.

El $\chi^2$ obtenido es menor que el $\chi^2$ teórico, es decir, la *hipótesis nula* es **cierta**, y los valores se encuentran distribuidos según una proporción del 50%.

Este es la solución correcta, debido a que desde el principio he usado una distribución binomial con probabilidad 0.5 para obtener los valores de la moneda. Pero, ¿y si usamos otra probabilidad?

In [5]:
# datos procedentes de una distribución normal
data = np.random.binomial(n=1, p=0.4, size=200)

# Contamos los sucesos
unique, counts = np.unique(data, return_counts=True)

print("Los valores son: ", unique)
print("El resultado es: ", counts)
print("Los valores esperados son 0:{0} y 1:{1}".format(100, 100))

Los valores son:  [0 1]
El resultado es:  [120  80]
Los valores esperados son 0:100 y 1:100


In [7]:
# grados de libertad
df = 1

# realizamos el test chi cuadrado
chiq, pvalue = ss.chisquare(f_obs=counts, f_exp=[100, 100], ddof=1)

# comparamos con chi teorico
syn_data = np.random.chisquare(df, size=2000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos los resultados
print("Valor chi obtenido: ", chiq)
print("Valor chi teórico: ", chiq_teorico)

Valor chi obtenido:  8.0
Valor chi teórico:  3.7296695162436753


En este caso, el valor obtenido es mayor que el valor teórico, por tanto, rechazaríamos la **hipótesis nula** y podríamos concluir que la moneda o los valores están manipulados y no guarda una proporción del 50%

En este caso la proporción es del 40%, ya que lo hemos hecho así a propósito para tener el ejemplo contrario.

## Test de homogeneidad

## Test de independencia

Estamos interesados en determinar si dos cualidades o variables referidas a individuos de una población están relacionadas. Se diferencia de los contrastes anteriores en que en este caso estamos interesados en ver la relación existente entre dos variables de una misma población, no queremos contrastar la distribución teórica de una variable ni comparar la distribución de una única variable en dos poblaciones.

### Ejemplo 1

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra de 100 jóvenes con los siguientes resultados:

|             |Sin depresión|Con depresión|
|-------------|-------------|-------------|
|Deportista   |38           |9            |
|No deportista|31           |22           |


Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo con un nivel de significación del 5%

* *Hipótesis nula*: Existe independencia entre la activadad del sujeto y su estado de ánimo.
* *Hipótesis alternativa*: No existe independencia entre la activadad del sujeto y su estado de ánimo


Supongamos que existe independencia entre la actividad física y el estado de ánimo. Si es así habrá la misma proporción de deportistas que tiene depresión que los que no la tienen, y lo mismo para los no deportistas.

Los datos serían:

|             |Sin depresión|Con depresión|Total|
|-------------|-------------|-------------|-----|
|Deportista   |38           |9            |47   |
|No deportista|31           |22           |53   |
|Total        |69           |31           |100  |


Si existe independencia:


|             |Sin depresión|Con depresión|
|-------------|-------------|-------------|
|Deportista   |47/100 * 69  |47/100 * 31  |
|No deportista|53/100 * 69  |53/100 * 31  |

|             |Sin depresión|Con depresión|
|-------------|-------------|-------------|
|Deportista   |32.43        |14.57        |
|No deportista|36.57        |16.43        |

In [14]:
# calculamos chi cuadrado
chiq, pvalue = ss.chisquare(f_obs=[38,9,31,22], f_exp=[32.43,14.57,36.57,16.43], ddof=1)

# comparamos con chi teorico
syn_data = np.random.chisquare(1.0, size=10000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos su valor
print("chi obtenido: ", chiq)
print("chi teórico: ", chiq_teorico)

chi obtenido:  5.8227196213990755
chi teórico:  3.8627710558629693


El valor de $\chi^2$ obtenido es mayor que el teórico, por lo tanto, debemos rechazar la hipótesis nula y asumir que existe relación entre la depresión y los hábitos deportistas del individuo.