# Test Chi cuadrado

Test común que se usa cuando tenemos tablas de frecuencia

* **Una variable**
    * **Bondad de ajuste**: consiste en determinar si los datos de cierta muestra corresponden a cierta distribución poblacional.

* **Dos variables**
    * **Homogeneidad**: consiste en comprobar si varias muestras de un carácter cualitativo proceden de la misma población

    * **Independencia** de los datos: consiste en comprobar si dos características cualitativas están relacionadas entre sí.

Para **una variable** podemos aplicar la bondad de ajuste, mientras que para **dos variables** podemos aplicar las pruebas de homogeneidad o independencia

In [1]:
# importamos bibliotecas
import scipy.stats as ss
import numpy as np
import pandas as pd
import seaborn as sns

# seaborn
sns.set()

## Fórmula de la $\chi^2$

Siendo:

$O_{i}$: los valores obtenidos

$E_{i}$: los valores esperados

$$
{\chi}^2=\sum_{i=1}^{n} \frac{(O_i - E_i)^2}{E_i}
$$

## Prueba de bondad de ajuste

Un ejemplo es comprobar los resultados de lanzar una moneda al aire. En este caso, la **hipótesis nula** es que la proporción de caras y cruces es la misma (0.5), mientras que la **hipótesis alternativa** es que la proporción no se mantiene, y por tanto, o la moneda está trucada o los datos son falsos.

Aquí vamos a generar datos que sigan una distribución binomial (que sería propia de la moneda) y posteriormente generaremos datos

In [2]:
# datos procedentes de una distribución binomial
data = np.random.binomial(n=1, p=0.5, size=200)

# Contamos los sucesos
unique, counts = np.unique(data, return_counts=True)

print("Los valores son: ", unique)
print("El resultado es: ", counts)
print("Los valores esperados son 0:{0} y 1:{1}".format(100, 100))

Los valores son:  [0 1]
El resultado es:  [ 92 108]
Los valores esperados son 0:100 y 1:100


In [4]:
# grados de libertad
df = 1

# realizamos el test chi cuadrado
chiq, pvalue = ss.chisquare(f_obs=counts, f_exp=[100, 100], ddof=1)

# comparamos con chi teorico
syn_data = np.random.chisquare(df, size=2000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos los resultados
print("Valor chi obtenido: ", chiq)
print("Valor chi teórico: ", chiq_teorico)

Valor chi obtenido:  1.28
Valor chi teórico:  4.174728489818992


Recordamos que:

* **hipótesis nula**: los valores están bien distribuidos, es decir, la proporción de caras y cruces es la misma.
* **hipótesis alternativa**: los valores no están bien distribuidos, por lo tanto no hay una proporción entre caras y cruces del 50%.

El $\chi^2$ obtenido es menor que el $\chi^2$ teórico, es decir, la *hipótesis nula* es **cierta**, y los valores se encuentran distribuidos según una proporción del 50%.

Este es la solución correcta, debido a que desde el principio he usado una distribución binomial con probabilidad 0.5 para obtener los valores de la moneda. Pero, ¿y si usamos otra probabilidad?

In [5]:
# datos procedentes de una distribución normal
data = np.random.binomial(n=1, p=0.4, size=200)

# Contamos los sucesos
unique, counts = np.unique(data, return_counts=True)

print("Los valores son: ", unique)
print("El resultado es: ", counts)
print("Los valores esperados son 0:{0} y 1:{1}".format(100, 100))

Los valores son:  [0 1]
El resultado es:  [120  80]
Los valores esperados son 0:100 y 1:100


In [7]:
# grados de libertad
df = 1

# realizamos el test chi cuadrado
chiq, pvalue = ss.chisquare(f_obs=counts, f_exp=[100, 100], ddof=1)

# comparamos con chi teorico
syn_data = np.random.chisquare(df, size=2000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos los resultados
print("Valor chi obtenido: ", chiq)
print("Valor chi teórico: ", chiq_teorico)

Valor chi obtenido:  8.0
Valor chi teórico:  3.7296695162436753


En este caso, el valor obtenido es mayor que el valor teórico, por tanto, rechazaríamos la **hipótesis nula** y podríamos concluir que la moneda o los valores están manipulados y no guarda una proporción del 50%

En este caso la proporción es del 40%, ya que lo hemos hecho así a propósito para tener el ejemplo contrario.

## Test de homogeneidad

Prueba que nos indica si dos muestras provienen de una misma población. Es decir, comprobamos si los datos se distribuyen de la misma forma o tienen la misma distribución.

In [39]:
# parámetros
n1 = 1
p1, p2, p3 = 0.5, 0.4, 0.6
size = 1000

# tiradas de la moneda
tir_1 = np.random.binomial(n=n1, p=p1, size=size)
tir_2 = np.random.binomial(n=n1, p=p2, size=size)
tir_3 = np.random.binomial(n=n1, p=p3, size=size)

# Contamos los sucesos
unique1, counts1 = np.unique(tir_1, return_counts=True)
unique2, counts2 = np.unique(tir_2, return_counts=True)                         
unique3, counts3 = np.unique(tir_3, return_counts=True)

# totales
total_caras = counts1[1] + counts2[1] + counts3[1]
total_cruces = counts1[0] + counts2[0] + counts3[0]
total = total_caras + total_cruces

# valor esperado
exp_caras = size / total * total_caras
exp_cruces = size / total * total_cruces

# hagamos una tabla
print("|     |  Cruces  |  Caras  | Total |")
print("|tir_1|  {0}      |  {1}     | {2} |".format(str(counts1[0]), str(counts1[1]), str(size)))
print("|tir_2|  {0}      |  {1}     | {2} |".format(str(counts2[0]), str(counts2[1]), str(size)))
print("|tir_3|  {0}      |  {1}     | {2} |".format(str(counts3[0]), str(counts3[1]), str(size)))
print("|Total|  {0}     |  {1}    | {2} |".format(str(total_cruces), str(total_caras), str(size * 3)))

|     |  Cruces  |  Caras  | Total |
|tir_1|  508      |  492     | 1000 |
|tir_2|  578      |  422     | 1000 |
|tir_3|  368      |  632     | 1000 |
|Total|  1454     |  1546    | 3000 |


Aquí nos podríamos preguntar si todas las tiradas proceden de la misma moneda, y por tanto, tendrán la misma probabilidad, lo que nos sugiere que proceden de la misma distribución estadística.

Ya sabemos que la respuesta es no, debido a que nosotros mismos hemos construido los datos con probabilidades distintas de una distribución binomial. Pero vamos a comprobar mediante esta prueba que ciertamente proceden de distribuciones binomiales con diferente probabilidad.

Si las tiradas proceden de una misma moneda estas estarían igualmente distribuidas. En la siguiente tabla se muestran los datos teóricos que deberían haber salido.

In [40]:
# test de homogeneidad

# grados de libertad
df = 1

# realizamos el test chi cuadrado
chiq1, pvalue1 = ss.chisquare(f_obs=[counts1[0],counts2[0],counts3[0]],
                            f_exp=exp_cruces,
                            ddof=df)
chiq2, pvalue2 = ss.chisquare(f_obs=[counts1[1],counts2[1],counts3[1]],
                            f_exp=exp_caras)

# estadístico chi
chiq = chiq1+ chiq2

# comparamos con chi teorico
syn_data = np.random.chisquare(df, size=size)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos los resultados
print("Valor chi obtenido: ", chiq)
print("Valor chi teórico: ", chiq_teorico)

Valor chi obtenido:  91.55276695772558
Valor chi teórico:  3.5936323561933508


Efectivamente, el valor de $\chi^2$ obtenido es mayor que el valor teórico, por lo tanto se rechaza la hipótesis nula que suponía que las distribuciones eran iguales.

En nuestro caso las distribuciones son todas binomiales pero con distinta probabilidad, por tanto son diferentes.

Repitamos el proceso, pero esta vez hagamos que las probabilidades sean iguales y posteriormente haremos pequeñas desviaciones de la probabilidad y analizaremos los resultados.

In [41]:
# tiradas de la moneda
tir_1 = np.random.binomial(n=1, p=0.5, size=size)
tir_2 = np.random.binomial(n=1, p=0.5, size=size)
tir_3 = np.random.binomial(n=1, p=0.5, size=size)

# Contamos los sucesos
unique1, counts1 = np.unique(tir_1, return_counts=True)
unique2, counts2 = np.unique(tir_2, return_counts=True)                         
unique3, counts3 = np.unique(tir_3, return_counts=True)

# totales
total_caras = counts1[1] + counts2[1] + counts3[1]
total_cruces = counts1[0] + counts2[0] + counts3[0]
total = total_caras + total_cruces

# valor esperado
exp_caras = size / total * total_caras
exp_cruces = size / total * total_cruces

# hagamos una tabla
print("|     |  Cruces  |  Caras  | Total |")
print("|tir_1|  {0}      |  {1}     | {2} |".format(str(counts1[0]), str(counts1[1]), str(size)))
print("|tir_2|  {0}      |  {1}     | {2} |".format(str(counts2[0]), str(counts2[1]), str(size)))
print("|tir_3|  {0}      |  {1}     | {2} |".format(str(counts3[0]), str(counts3[1]), str(size)))
print("|Total|  {0}     |  {1}    | {2} |".format(str(total_cruces), str(total_caras), str(size * 3)))

# test de homogeneidad

# grados de libertad
df = 1

# realizamos el test chi cuadrado
chiq1, pvalue = ss.chisquare(f_obs=[counts1[0],counts2[0],counts3[0]],
                            f_exp=exp_cruces,
                            ddof=df)
chiq2, pvalue = ss.chisquare(f_obs=[counts1[1],counts2[1],counts3[1]],
                            f_exp=exp_caras)

# estadístico chi
chiq = chiq1 + chiq2

# comparamos con chi teorico
syn_data = np.random.chisquare(df, size=2000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos los resultados
print("Valor chi obtenido: ", chiq)
print("Valor chi teórico: ", chiq_teorico)

|     |  Cruces  |  Caras  | Total |
|tir_1|  504      |  496     | 1000 |
|tir_2|  540      |  460     | 1000 |
|tir_3|  538      |  462     | 1000 |
|Total|  1582     |  1418    | 3000 |
Valor chi obtenido:  3.2844821591279896
Valor chi teórico:  3.9530205147006496


In [42]:
# tiradas de la moneda
tir_1 = np.random.binomial(n=1, p=0.5, size=size)
tir_2 = np.random.binomial(n=1, p=0.40, size=size)
tir_3 = np.random.binomial(n=1, p=0.55, size=size)

# Contamos los sucesos
unique1, counts1 = np.unique(tir_1, return_counts=True)
unique2, counts2 = np.unique(tir_2, return_counts=True)                         
unique3, counts3 = np.unique(tir_3, return_counts=True)

# totales
total_caras = counts1[1] + counts2[1] + counts3[1]
total_cruces = counts1[0] + counts2[0] + counts3[0]
total = total_caras + total_cruces

# valor esperado
exp_caras = size / total * total_caras
exp_cruces = size / total * total_cruces

# hagamos una tabla
print("|     |  Cruces  |  Caras  | Total |")
print("|tir_1|  {0}      |  {1}     | {2} |".format(str(counts1[0]), str(counts1[1]), str(size)))
print("|tir_2|  {0}      |  {1}     | {2} |".format(str(counts2[0]), str(counts2[1]), str(size)))
print("|tir_3|  {0}      |  {1}     | {2} |".format(str(counts3[0]), str(counts3[1]), str(size)))
print("|Total|  {0}     |  {1}    | {2} |".format(str(total_cruces), str(total_caras), str(size * 3)))

# test de homogeneidad

# grados de libertad
df = 1

# realizamos el test chi cuadrado
chiq1, pvalue = ss.chisquare(f_obs=[counts1[0],counts2[0],counts3[0]],
                            f_exp=exp_cruces,
                            ddof=df)
chiq2, pvalue = ss.chisquare(f_obs=[counts1[1],counts2[1],counts3[1]],
                            f_exp=exp_caras)

# estadístico chi
chiq = chiq1+ chiq2

# comparamos con chi teorico
syn_data = np.random.chisquare(df, size=2000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos los resultados
print("Valor chi obtenido: ", chiq)
print("Valor chi teórico: ", chiq_teorico)

|     |  Cruces  |  Caras  | Total |
|tir_1|  517      |  483     | 1000 |
|tir_2|  577      |  423     | 1000 |
|tir_3|  424      |  576     | 1000 |
|Total|  1518     |  1482    | 3000 |
Valor chi obtenido:  47.55084732201438
Valor chi teórico:  3.8789003069131316


## Test de independencia

Estamos interesados en determinar si dos cualidades o variables referidas a individuos de una población están relacionadas. Se diferencia de los contrastes anteriores en que en este caso estamos interesados en ver la relación existente entre dos variables de una misma población, no queremos contrastar la distribución teórica de una variable ni comparar la distribución de una única variable en dos poblaciones.

### Ejemplo 1

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra de 100 jóvenes con los siguientes resultados:

|             |Sin depresión|Con depresión|
|-------------|-------------|-------------|
|Deportista   |38           |9            |
|No deportista|31           |22           |


Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo con un nivel de significación del 5%

* *Hipótesis nula*: Existe independencia entre la activadad del sujeto y su estado de ánimo.
* *Hipótesis alternativa*: No existe independencia entre la activadad del sujeto y su estado de ánimo


Supongamos que existe independencia entre la actividad física y el estado de ánimo. Si es así habrá la misma proporción de deportistas que tiene depresión que los que no la tienen, y lo mismo para los no deportistas.

Los datos serían:

|             |Sin depresión|Con depresión|Total|
|-------------|-------------|-------------|-----|
|Deportista   |38           |9            |47   |
|No deportista|31           |22           |53   |
|Total        |69           |31           |100  |


Si existe independencia:


|             |Sin depresión|Con depresión|
|-------------|-------------|-------------|
|Deportista   |47/100 * 69  |47/100 * 31  |
|No deportista|53/100 * 69  |53/100 * 31  |

|             |Sin depresión|Con depresión|
|-------------|-------------|-------------|
|Deportista   |32.43        |14.57        |
|No deportista|36.57        |16.43        |

In [14]:
# calculamos chi cuadrado
chiq, pvalue = ss.chisquare(f_obs=[38,9,31,22], f_exp=[32.43,14.57,36.57,16.43], ddof=1)

# comparamos con chi teorico
syn_data = np.random.chisquare(1.0, size=10000)

# calculamos para el percentil 95
chiq_teorico = np.percentile(a=syn_data, q=95)

# visualizamos su valor
print("chi obtenido: ", chiq)
print("chi teórico: ", chiq_teorico)

chi obtenido:  5.8227196213990755
chi teórico:  3.8627710558629693


El valor de $\chi^2$ obtenido es mayor que el teórico, por lo tanto, debemos rechazar la hipótesis nula y asumir que existe relación entre la depresión y los hábitos deportistas del individuo.