<a href="https://colab.research.google.com/github/jhermosillo/diplomado_CDD2019/blob/master/An%C3%A1lisis%20Estad%C3%ADstico/chi_cuadrada.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Prueba $\chi^2$

La prueba $\chi^2$ para independencia muestra como dos conjuntos de datos son independientes uno del otro.



In [0]:
from scipy.stats import chi2_contingency
import pandas as pd
import numpy as np

Vamos  a crear datos muestreados. Digamos que son datos sobre el color favorito de playeras para hombres y mujeres. Queremos saber si el color y el genero son independientes. 

In [43]:
playeras = pd.DataFrame(
    [
        [48,22,33,47],
        [35,36,42,27]
    ],
    index=["Hombre","Mujer"],
    columns=["Negro","Blanco","Rojo","Azul"])
playeras

Unnamed: 0,Negro,Blanco,Rojo,Azul
Hombre,48,22,33,47
Mujer,35,36,42,27


In [44]:
playeras.columns #imprimir columnas

Index(['Negro', 'Blanco', 'Rojo', 'Azul'], dtype='object')

In [45]:
playeras.index #imprimir renglones

Index(['Hombre', 'Mujer'], dtype='object')

La función chi2_contingency() regresa cuatro valores: el valor $\chi^2$, el valor $p$, grados de libertad y valores esperados.

In [46]:
chi2_contingency(playeras)

(11.56978992417547,
 0.00901202511379703,
 3,
 array([[42.93103448, 30.        , 38.79310345, 38.27586207],
        [40.06896552, 28.        , 36.20689655, 35.72413793]]))

In [0]:
ve=chi2_contingency(playeras)[3]

In [89]:
ve

array([[42.93103448, 30.        , 38.79310345, 38.27586207],
       [40.06896552, 28.        , 36.20689655, 35.72413793]])

Esta tabla es llamada: tabla de contingencia. Veamos la tabla de contingencia en un dataframe.

In [0]:
tc=pd.DataFrame(
    data=ve[:,:], 
    index=["Hombre","Mujer"],
    columns=["Negro","Blanco","Rojo","Azul"]
).round(2)

Los valores esperados de los datos observados se calculan usando la siguiente ecuación.

$$ ve_{ij}=\frac{\left( \sum renglón_i\right)\left( \sum columna_j \right)}{total} $$

Así, tendremos un valor esperado para cada entrada de nuestra tabla de contingencia.

Veamos el cálculo explícito del valor esperado para color negro y hombre.

In [91]:
tc

Unnamed: 0,Negro,Blanco,Rojo,Azul
Hombre,42.93,30.0,38.79,38.28
Mujer,40.07,28.0,36.21,35.72


In [35]:
print(tc.loc['Hombre'])
sr1=sum(tc.loc['Hombre'])
print(tc['Negro'])
sc1=sum(tc['Negro'])
print(sr1)
print(sc1)

Negro     42.93
Blanco    30.00
Rojo      38.79
Azul      38.28
Name: Hombre, dtype: float64
Hombre    42.93
Mujer     40.07
Name: Negro, dtype: float64
150.0
83.0


In [0]:
sr2=sum(tc.loc['Mujer'])
total=sr1+sr2

In [37]:
sr1*sc1/total

42.93103448275862

In [38]:
tc['Negro']['Hombre']

42.93

Cómo era de esperar el valor coincide con el que se obtiene mediante la función chi2_contingency(). El valor $\chi^2$ es el primer valor que regresa dicha función. Para calcularlo manualmente se usa la fórmula

$$ \chi^2=\sum_i\frac{(O_i-E_i)^2}{E_i} $$

donde $O$ es el valor observado y $E$ es el valor esperado.

Actividad: Escribir una función que calcule el valor $\chi^2$.

In [40]:
chisquare=chi2_contingency(tshirts)[0]
chisquare

11.56978992417547

# Solución parcial #

In [55]:
print(playeras.columns,playeras.index)
len(playeras.index)*len(playeras.columns)

Index(['Negro', 'Blanco', 'Rojo', 'Azul'], dtype='object') Index(['Hombre', 'Mujer'], dtype='object')


8

In [68]:
playeras

Unnamed: 0,Negro,Blanco,Rojo,Azul
Hombre,48,22,33,47
Mujer,35,36,42,27


In [77]:
print(playeras.sum(axis=1))
sumatotal=sum(playeras.sum(axis=1))
print(sumatotal)


Hombre    150
Mujer     140
dtype: int64
290


In [79]:
#suma para renglones
print(playeras.sum(axis=1))
sumaR=playeras.sum(axis=1)
sumaR[0],sumaR[1]

Hombre    150
Mujer     140
dtype: int64


(150, 140)

In [83]:
#suma para columnas
print(playeras.sum(axis=0))
sumaC=playeras.sum(axis=0)
for i in range(len(sumaC)):
  print(sumaC[i])

Negro     83
Blanco    58
Rojo      75
Azul      74
dtype: int64
83
58
75
74


In [95]:
#Valores esperados manualmente
vem=[]
for i in range(len(sumaC)):
  for j in range(len(sumaR)):
    vem.append((sumaC[i]*sumaR[j])/sumatotal)
vem

[42.93103448275862,
 40.06896551724138,
 30.0,
 28.0,
 38.793103448275865,
 36.206896551724135,
 38.275862068965516,
 35.724137931034484]

In [94]:
ve

array([[42.93103448, 30.        , 38.79310345, 38.27586207],
       [40.06896552, 28.        , 36.20689655, 35.72413793]])