In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as sp
import scipy.stats as ss
from IPython.display import display

In [2]:
sns.set_style("whitegrid")

responses = pd.read_csv('../Laboratorio_01/Dataset/responses.csv')

In [3]:
print("Shape response sin drop = {}".format(responses.shape))
print("Shape response con drop = {}".format(responses.dropna().shape))

Shape response sin drop = (1010, 150)
Shape response con drop = (674, 150)


# **La prueba de $\chi^2$ (chi cuadrado) para independencia de variables categóricas**

Esto prueba si la distribución de datos categóricos de muestra coincide con una distribución esperada.

En primer lugar vamos a plantear nuestra hipótesis
* **$H_0$** = Las dos variables en estudio son independientes
* **$H_1$** = Las dos variables en estudio están relacionadas

Como en los juicios, en estadística, las variables son independientes hasta que demostremos lo contrario.

## Tabla de Contingencia

In [4]:
cross = pd.crosstab(index=responses.Alcohol.dropna(),
                    columns=responses.Smoking.dropna(),
                    margins=False,
                    normalize=False)

display(cross.shape)
cross

(3, 4)

Smoking,current smoker,former smoker,never smoked,tried smoking
Alcohol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
drink a lot,78,55,15,72
never,11,11,61,39
social drinker,99,109,131,319


## Para tener un análisis certero debemos calcular las frecuencias marginales

Las pruebas que tratan con variables categóricas se basan en recuentos de variables en lugar del valor real de las variables mismas.

In [5]:
pd.crosstab(index=responses.Alcohol.dropna(),
            columns=responses.Smoking.dropna(),
            margins=True,
            normalize=False)

Smoking,current smoker,former smoker,never smoked,tried smoking,All
Alcohol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
drink a lot,78,55,15,72,220
never,11,11,61,39,122
social drinker,99,109,131,319,658
All,188,175,207,430,1000


## La frecuencia esperada

¿Cómo se contrasta la $H_0$?

$$ fe_{i j} = \frac{(total fila i-ésima) * (total columna j-ésima)}{gran total} $$

**Nota 1:** Se calculan las frecuencias que cabría esperar si las 2 variables fueran independientes

**Nota 2:** $fe_{i j}$ es nuestro estadistico

In [6]:
ndarray_fe = ss.contingency.expected_freq(cross)
ndarray_fe

array([[ 41.36 ,  38.5  ,  45.54 ,  94.6  ],
       [ 22.936,  21.35 ,  25.254,  52.46 ],
       [123.704, 115.15 , 136.206, 282.94 ]])

In [7]:
chi2, p, dof, ex  = ss.chi2_contingency(cross.values, correction=False)
print("Chi2 =", chi2)
print("P-value =", p)
print("DoF =", dof)
print("Exp =", ex)

Chi2 = 140.7461035508088
P-value = 6.974221284156533e-28
DoF = 6
Exp = [[ 41.36   38.5    45.54   94.6  ]
 [ 22.936  21.35   25.254  52.46 ]
 [123.704 115.15  136.206 282.94 ]]


Matemáticamente se ha demostrado que sila $H_0$ (hipótesis nula) es cierta el estadístico sigue una distribución o modelo $\chi^2$ (chi cuadrado) con $(i-1)(j-1)$ grados de libertad que tienen que ver con las dimensiones de la tabla.  
Como se ajusta a un modelo podemos establecer un nivel de riesgo y compara el experimental con el valor crítico del modelo.

In [8]:
def calc_conf(confianza):
    """
    Retorna el nivel de significancia.
    """
    return (100 - confianza) / 100

# Queremos confianza al 95%
if p < calc_conf(95):
    print("Rechazo H0 ==> Las Variables Estan Correlacionadas")
else:
    print("Acepto H0 ==> Las Variables Son Independientes")

Rechazo H0 ==> Las Variables Estan Correlacionadas
