<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Librerías-y-funciones" data-toc-modified-id="Librerías-y-funciones-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Librerías y funciones</a></span></li><li><span><a href="#Test-de-Independencia" data-toc-modified-id="Test-de-Independencia-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Test de Independencia</a></span><ul class="toc-item"><li><span><a href="#Ejemplo-1:-Titanic-Dataset" data-toc-modified-id="Ejemplo-1:-Titanic-Dataset-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Ejemplo 1: Titanic Dataset</a></span><ul class="toc-item"><li><span><a href="#Tabla-de-contingencia" data-toc-modified-id="Tabla-de-contingencia-2.1.1"><span class="toc-item-num">2.1.1&nbsp;&nbsp;</span>Tabla de contingencia</a></span></li><li><span><a href="#Test-estadístico" data-toc-modified-id="Test-estadístico-2.1.2"><span class="toc-item-num">2.1.2&nbsp;&nbsp;</span>Test estadístico</a></span></li></ul></li><li><span><a href="#Ejemplo-2:-Censo-data" data-toc-modified-id="Ejemplo-2:-Censo-data-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Ejemplo 2: Censo data</a></span></li></ul></li><li><span><a href="#Test-de-Homogeneidad" data-toc-modified-id="Test-de-Homogeneidad-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Test de Homogeneidad</a></span><ul class="toc-item"><li><span><a href="#Tabla-de-contingencia" data-toc-modified-id="Tabla-de-contingencia-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Tabla de contingencia</a></span></li><li><span><a href="#Test-estadístico" data-toc-modified-id="Test-estadístico-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Test estadístico</a></span></li></ul></li><li><span><a href="#Test-de-Mc-Nemar" data-toc-modified-id="Test-de-Mc-Nemar-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Test de Mc Nemar</a></span><ul class="toc-item"><li><span><a href="#Tabla-de-contingencia" data-toc-modified-id="Tabla-de-contingencia-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Tabla de contingencia</a></span></li><li><span><a href="#Test-estadístico" data-toc-modified-id="Test-estadístico-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Test estadístico</a></span></li></ul></li><li><span><a href="#Test-de-Cochran" data-toc-modified-id="Test-de-Cochran-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Test de Cochran</a></span><ul class="toc-item"><li><span><a href="#Tabla" data-toc-modified-id="Tabla-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Tabla</a></span></li><li><span><a href="#Test-estadístico" data-toc-modified-id="Test-estadístico-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Test estadístico</a></span></li></ul></li></ul></div>

### Librerías y funciones

In [106]:
import numpy as np
import pandas as pd
import researchpy as rp
import sidetable
import scipy.stats as stats

from statsmodels.stats.contingency_tables import mcnemar,cochrans_q

np.random.seed(4586)  


In [107]:
def decision(pvalue, alpha):
    if pvalue < alpha:
        print('Decisión: Rechazar H0')
    else:
        print('Decisión: No Rechazar H0')

### Test de Independencia

#### Ejemplo 1: Titanic Dataset 

En este primer ejemplo usaremos el clásico dataset del Titanic (disponible en [Kaggle](https://www.kaggle.com/c/titanic/data?select=train.csv)) en donde aplicaremos el Test de Independencia para responder la siguiente pregunta: **¿Las posibilidades de sobrevivir al accidente estuvo relacionada con el sexo de las personas?**.

A continuación cargamos el dataset y observamos que las columnas de interés son **Sex** y **Survived** que cuentan con las categorías *male y female* y *0 y 1* respectivamente.

In [108]:
titanic_data = pd.read_csv('train.csv')

Dado que una de las variables (Age) posee datos faltantes, procedemos a eliminar esos datos nulos antes de comenzar a trabajar.

In [109]:
titanic_clean = titanic_data.dropna()
titanic_clean.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.55,C103,S


Para llevar a cabo el test planteamos las siguientes hipótesis:

- **H0**: Sex y Survived son variables independientes (No existe relación entre ambas).

- **H1**: Sex y Survived son variables dependientes.

- **Nivel de significación: $\alpha$**= 0.05.

##### Tabla de contingencia

El primer paso es crear la tabla de frecuencias..

In [110]:
tabla_contingencia = pd.crosstab(titanic_clean["Sex"], titanic_clean["Survived"])
tabla_contingencia

Survived,0,1
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,6,82
male,54,41


##### Test estadístico

Vamos a usar la función <code>chi2_contingency</code> de la librería Scipy, la cual nos devuelve, entre otras cosas, el p-valor que ayuda a determinar el Rechazo o No Rechazo de H0. 
    
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

In [111]:
chi_cuadrado, p_value, degree_freedom, expected_values = stats.chi2_contingency(tabla_contingencia)
print('Valor del test: ', chi_cuadrado, ' \n \n p-valor: ', 
      p_value, '\n \n Grados de Libertad: ', 
      degree_freedom,'\n \n Valores esperados: ', expected_values)

Valor del test:  49.62965365707783  
 
 p-valor:  1.8568580662867508e-12 
 
 Grados de Libertad:  1 
 
 Valores esperados:  [[28.85245902 59.14754098]
 [31.14754098 63.85245902]]


In [112]:
decision(p_value, 0.05)

Decisión: Rechazar H0


Luego existe una relación significativa entre las variables Sex y Survived (no son independientes).

**Otra forma**

Usando researchpy (https://researchpy.readthedocs.io/en/latest/).

En este caso, a través de la función <code>crosstab</code> generamos todo en una única salida: tabla de contingencia con frecuencias marginales, resultados del test y valores esperados (todos expresados como dataframes de Pandas). Notar que para realizar el Test de Independencia debe elegirse 'chi-square' como parámetro de entrada.

https://researchpy.readthedocs.io/en/latest/crosstab_documentation.html

In [113]:
tabla_contingencia, resultado_test, valores_esperados = rp.crosstab(titanic_clean["Sex"], 
                                                                    titanic_clean["Survived"],
                                               test= "chi-square",
                                               expected_freqs= True,
                                               prop= None)

tabla_contingencia

Unnamed: 0_level_0,Survived,Survived,Survived
Survived,0,1,All
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,6,82,88
male,54,41,95
All,60,123,183


In [114]:
resultado_test

Unnamed: 0,Chi-square test,results
0,Pearson Chi-square ( 1.0) =,51.8748
1,p-value =,0.0
2,Cramer's phi =,0.5324


In [115]:
valores_esperados

Unnamed: 0_level_0,Survived,Survived
Survived,0,1
Sex,Unnamed: 1_level_2,Unnamed: 2_level_2
female,28.852459,59.147541
male,31.147541,63.852459


In [116]:
decision(resultado_test.loc[1][1], 0.05)

Decisión: Rechazar H0


#### Ejemplo 2: Censo data

El objetivo de este ejemplo es mostrar que el procedimiento no cambia cuando el tamaño de la tabla de contingencia es diferente a la 2x2 del ejemplo anterior. 

En este caso, el dataset contiene datos censales y fue descargado de https://www.mldata.io/dataset-details/census_income/.

In [117]:
censo_data = pd.read_csv('census_income_dataset.csv')
censo_data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education_num,marital_status,occupation,relationship,race,sex,capital_gain,capital_loss,hours_per_week,native_country,income_level
0,39,State-gov,77516.0,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174.0,0.0,40.0,United-States,<=50K
1,50,Self-emp-not-inc,83311.0,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0.0,0.0,13.0,United-States,<=50K
2,38,Private,215646.0,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0.0,0.0,40.0,United-States,<=50K
3,53,Private,234721.0,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0.0,0.0,40.0,United-States,<=50K
4,28,Private,338409.0,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0.0,0.0,40.0,Cuba,<=50K


Para llevar a cabo el test planteamos las siguientes hipótesis:

- **H0**: Education y Race son variables independientes (No existe relación significativa entre ambas).

- **H1**: Education y Race son variables dependientes.

- **Nivel de significación: $\alpha$**= 0.05.

In [118]:
tabla_contingencia = pd.crosstab(censo_data["education"], censo_data["race"])
tabla_contingencia

race,Amer-Indian-Eskimo,Asian-Pac-Islander,Black,Other,White
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
10th,22,16,182,11,1158
11th,26,27,252,22,1485
12th,5,15,105,17,515
1st-4th,4,10,24,13,196
5th-6th,2,28,41,23,415
7th-8th,10,14,90,23,818
9th,9,10,111,15,611
Assoc-acdm,13,49,161,10,1368
Assoc-voc,31,53,165,9,1803
Bachelors,29,408,504,50,7034


In [119]:
chi_cuadrado, p_value, degree_freedom, expected_values = stats.chi2_contingency(tabla_contingencia)
print('Valor del test: ', chi_cuadrado, ' \n \n p-valor: ', 
      p_value, '\n \n Grados de Libertad: ', 
      degree_freedom,'\n \n Valores esperados: ', expected_values)

Valor del test:  1040.6622432490265  
 
 p-valor:  7.472985630265706e-179 
 
 Grados de Libertad:  60 
 
 Valores esperados:  [[1.33661603e+01 4.31982925e+01 1.33235023e+02 1.15460874e+01
  1.18765444e+03]
 [1.74366324e+01 5.63537120e+01 1.73809836e+02 1.50622825e+01
  1.54933754e+03]
 [6.32222268e+00 2.04328856e+01 6.30204537e+01 5.46132427e+00
  5.61763114e+02]
 [2.37684779e+00 7.68176979e+00 2.36926211e+01 2.05319192e+00
  2.11195569e+02]
 [4.89803857e+00 1.58300438e+01 4.88240654e+01 4.23107162e+00
  4.35216781e+02]
 [9.18983662e+00 2.97007698e+01 9.16050735e+01 7.93845461e+00
  8.16565865e+02]
 [7.27488637e+00 2.35118136e+01 7.25166865e+01 6.28426354e+00
  6.46412350e+02]
 [1.54062078e+01 4.97915524e+01 1.53570390e+02 1.33083412e+01
  1.36892351e+03]
 [1.98327259e+01 6.40976823e+01 1.97694300e+02 1.71320994e+01
  1.76224319e+03]
 [7.72234962e+01 2.49579767e+02 7.69770382e+02 6.67079563e+01
  6.86171840e+03]
 [5.71598215e+00 1.84735678e+01 5.69773965e+01 4.93763564e+00
  5.07895418

In [120]:
decision(p_value, 0.05)

Decisión: Rechazar H0


Por lo tanto las variables Educación y  Raza no son independientes (existe una relación significativa).

### Test de Homogeneidad

Supongamos que estamos intentando descubrir si la conformidad respecto a las clases virtuales durante la pandemia del año 2020 es similar en estudiantes de carreras pertenecientes a diversas áreas. Para esto se recopilan datos de estudiantes de Psicología, Ingeniería, Odontología y Arquitectura y se agrupan las respuestas de acuerdo a las siguientes categorías:

- Conforme con la modalidad virtual (OPCION 1)
- Prefiero la modalidad presencial (OPCION 2)
- Hubiese preferido una combinación de ambas (OPCION 3)
- Algunas materias me resultan difíciles desde lo virtual (OPCION 4)

A modo ilustrativo se genera el siguiente conjunto de datos sintético:

In [121]:
d = {'OPCION 1': [103, 85, 145,49], 'OPCION 2': [351,120, 178, 36],
     'OPCION 3': [321,95, 64, 136],'OPCION 4': [466,50,147,199]}
encuesta_conformidad = pd.DataFrame(data=d, index=['PSICOLOGIA','INGENIERIA','ODONTOLOGIA','ARQUITECTURA'])
encuesta_conformidad

Unnamed: 0,OPCION 1,OPCION 2,OPCION 3,OPCION 4
PSICOLOGIA,103,351,321,466
INGENIERIA,85,120,95,50
ODONTOLOGIA,145,178,64,147
ARQUITECTURA,49,36,136,199


Al igual que el Test de Independencia, el test de Homogeneidad utiliza el estadístico de chi-cuadrado. A nivel del Test estadístico el procedimiento es el mismo, la diferencia radica en lo que se está comparando con el test y las posteriores interpretaciones que se extraen. Recordemos:

- Independencia: Se comparan dos variables categóricas sobre una misma población
- Homogeneidad: Se compara la distribución de una variable categórica sobre dos o más poblaciones.

Ahora bien, planteamos las hipótesis del test:

- **H0**: Para cada una de opciones en la encuesta anterior, las proporciones de estudiantes de Psicología, Ingeniería, Odontología y Arquitectura no son significativamente diferentes.

- **H1**: Para al menos una de las opciones, las proporciones de estudiantes de Psicología, Ingeniería, Odontología y Arquitectura son significativamente diferente.

- **Nivel de significación: $\alpha$**= 0.05.

#### Tabla de contingencia

In [122]:
tabla_contingencia = encuesta_conformidad
tabla_contingencia

Unnamed: 0,OPCION 1,OPCION 2,OPCION 3,OPCION 4
PSICOLOGIA,103,351,321,466
INGENIERIA,85,120,95,50
ODONTOLOGIA,145,178,64,147
ARQUITECTURA,49,36,136,199


#### Test estadístico

In [123]:
chi_cuadrado, p_value, degree_freedom, expected_values = stats.chi2_contingency(tabla_contingencia)
print('Valor del test: ', chi_cuadrado, ' \n \n p-valor: ', 
      p_value, '\n \n Grados de Libertad: ', 
      degree_freedom,'\n \n Valores esperados: ', expected_values)

Valor del test:  302.2710702820085  
 
 p-valor:  8.608287723476637e-60 
 
 Grados de Libertad:  9 
 
 Valores esperados:  [[186.2719057  334.021611   300.37563851 420.33084479]
 [ 52.53438114  94.2043222   84.7151277  118.54616896]
 [ 80.1524558  143.72888016 129.25108055 180.8675835 ]
 [ 63.04125737 113.04518664 101.65815324 142.25540275]]


In [124]:
decision(p_value, 0.05)

Decisión: Rechazar H0


Luego, la proporción de estudiantes de las distintas carreras sobre cada una de las respuestas a la encuesta de conformidad de las clases virtuales *son significativamente distintas*. En otras palabras, al menos una de las proporciones es significativamente distintas a las demás. 

### Test de Mc Nemar

El ejemplo clásico, y muy útil, de aplicación de este test consiste en analizar la respuesta del organismo luego de un determinado tratamiento médico (por ejemplo estudiando si luego del mismo los síntomas desaparecieron o no). Con este test siempre trabajamos con una tabla de contingencia 2x2.

Para mostrar como se utiliza este test, generemos nuevamente un conjunto de datos sintéticos donde las filas y columnas representan la presencia/ausencia de síntomas antes y después respectivamente de cierto tratamiento.

#### Tabla de contingencia

In [125]:
matriz_contingencia = pd.DataFrame([[80, 100],
                                   [10,110]],
                                  columns=['SINTOMAS_SI', 'SINTOMAS_NO'], 
                                  index= ['SINTOMAS_SI','SINTOMAS_NO'])
matriz_contingencia

Unnamed: 0,DESPUES_SI,DESPUES_NO
ANTES_SI,80,100
ANTES_NO,10,110


Planteamos la H0 y H1:

- **H0**: No hay cambios significativos luego del tratamiento en cuanto a la presencia/ausencia de síntomas.

- **H1**: Existen cambios significativos sobre los síntomas luego de realizar el tratamiento médico.

- **Nivel de significación: $\alpha$**= 0.05.

#### Test estadístico

Vamos a utilizar el test de mcnemar disponible en la librería statsmodels.

https://www.statsmodels.org/dev/generated/statsmodels.stats.contingency_tables.mcnemar.html

In [126]:
result = mcnemar([[80, 100],[10,110]], exact=False)
print('Valor del test: ', result.statistic, ' \n \n p-valor: ', 
      result.pvalue)

Valor del test:  72.00909090909092  
 
 p-valor:  2.1420824611432634e-17


In [127]:
decision(result.pvalue, 0.05)

Decisión: Rechazar H0


Luego, existen cambios significativos sobre los síntomas luego de realizar el tratamiento médico.

### Test Q de Cochran

Este test es una extensión de McNemar que permite comparar proporciones considerando tres o más grupos.

Supongamos que en lugar de considerar un solo tratamiento, queremos analizar si 4 tratamientos diferentes poseen los mismos efectos (Funcionaron/No funcionaron) sobre 30 pacientes estudiados. Esto nos da una tabla de 30 filas y 4 columnas con 0 (No Funcionó) y 1 (Funcionó), similar a la siguiente:

#### Tabla

In [128]:
tabla =  pd.DataFrame(np.random.randint(0,2,size=(30, 4)), columns=['T1','T2','T3','T4'])
tabla

Unnamed: 0,T1,T2,T3,T4
0,0,1,0,0
1,0,0,1,1
2,0,1,1,1
3,0,0,1,1
4,1,1,1,0
5,1,0,1,0
6,0,0,1,1
7,1,1,1,1
8,1,0,1,0
9,0,0,0,1


Planteamos H0 y H1:

- **H0**: No existen diferencias significativas entre los 4 tratamientos.

- **H1**: Existen diferencias significativas entre los 4 tratamientos.

- **Nivel de significación: $\alpha$**= 0.05.

#### Test estadístico

Vamos a utilizar el test de Cochran de la libería statsmodels.

https://www.statsmodels.org/stable/generated/statsmodels.stats.contingency_tables.cochrans_q.html

In [129]:
result = cochrans_q(tabla.values.tolist())
print('Valor del test: ', result.statistic, ' \n \n p-valor: ', 
      result.pvalue,'\n \n Grados de Libertad: ', 
      result.df)


Valor del test:  3.391304347826087  
 
 p-valor:  0.3351356036041686 
 
 Grados de Libertad:  3


In [130]:
decision(result.pvalue, 0.05)

Decisión: No Rechazar H0


Luego, no hay evidencia suficiente para concluir que las diferencias en los efectos de los tratamientos son significativas.