# Tablas de contingencia con `pandas`

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/my_docs/logo_unal_color.png" alt="drawing" width="200"/>

En esta lección se mostrará como usar `pandas` para crear tablas de contingencia.

A continuación las librerías necesarias para realizar los ejemplos.

In [1]:
import pandas as pd

## Leyendo los datos del ejemplo

Para el ejemplo vamos a usar la base de datos sobre apartamentos usados en la ciudad de Medellín, la base de datos está disponible en [este enlace](https://raw.githubusercontent.com/fhernanb/datos/master/aptos2015). Para leer la base de datos usamos las siguientes instrucciones.

In [2]:
url = 'https://raw.githubusercontent.com/fhernanb/datos/master/aptos2015'
dt = pd.read_table(url, comment='#', sep=' ')
dt.head()

Unnamed: 0,precio,mt2,ubicacion,estrato,alcobas,banos,balcon,parqueadero,administracion,avaluo,terminado
1,79.0,43.16,norte,3,3,1,si,si,0.05,14.923002,no
2,93.0,56.92,norte,2,2,1,si,si,0.069,27.0,si
3,100.0,66.4,norte,3,2,2,no,no,0.0,15.738427,no
4,123.0,61.85,norte,2,3,2,si,si,0.13,27.0,no
5,135.0,89.8,norte,4,3,2,si,no,0.0,39.567,si


## Tablas de contingencia de una vía

Para crear este tipo de tablas se usa la función `crosstab`, la documentación completa de esta función se puede encontrar en este [enlace](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html).

A continuación se crea una tabla de frecuencia absoluta para la variable `ubicacion`.

In [3]:
t1 = pd.crosstab(index=dt['ubicacion'], columns="Numero")
t1

col_0,Numero
ubicacion,Unnamed: 1_level_1
aburra sur,169
belen guayabal,67
centro,38
laureles,73
norte,10
occidente,69
poblado,268


Si queremos crear una tabla de frecuencia relativa se usa el parámetro `normalize=1`.

In [4]:
t2 = pd.crosstab(index=dt['ubicacion'], columns="Numero", normalize=1)
t2

col_0,Numero
ubicacion,Unnamed: 1_level_1
aburra sur,0.243516
belen guayabal,0.096542
centro,0.054755
laureles,0.105187
norte,0.014409
occidente,0.099424
poblado,0.386167


Si queremos ver la tabla con los números en __porcentaje__ y no en __fracción__ como en el caso anterior se hace lo siguiente:

In [5]:
t3 = pd.crosstab(index=dt['ubicacion'], columns="Numero", normalize=1) * 100
t3

col_0,Numero
ubicacion,Unnamed: 1_level_1
aburra sur,24.351585
belen guayabal,9.654179
centro,5.475504
laureles,10.518732
norte,1.440922
occidente,9.942363
poblado,38.616715


## Tablas de contingencia de dos vías

Para crear este tipo de tablas se usa la misma función `crosstab`, la documentación completa de esta función se puede encontrar en este [enlace](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html).

A continuación se crea una tabla de frecuencia absoluta para las variable `ubicacion` y `parqueadero`.

In [6]:
c1 = pd.crosstab(index=dt["parqueadero"], columns=dt["ubicacion"])
c1

ubicacion,aburra sur,belen guayabal,centro,laureles,norte,occidente,poblado
parqueadero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
no,39,31,28,3,3,20,2
si,130,36,10,70,7,49,266


Para incluir los totales se hace así:

In [7]:
c2 = pd.crosstab(index=dt["parqueadero"], columns=dt["ubicacion"], margins=True)
c2

ubicacion,aburra sur,belen guayabal,centro,laureles,norte,occidente,poblado,All
parqueadero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
no,39,31,28,3,3,20,2,126
si,130,36,10,70,7,49,266,568
All,169,67,38,73,10,69,268,694


El parámetro `normalize` se puede usar para obtener tablas de frecuencia relativa global, por columnas, por filas. Abajo los ejemplos de como usar `normalize`.

In [8]:
c3 = pd.crosstab(index=dt["parqueadero"], columns=dt["ubicacion"], margins=True, normalize='all')
round(c3 * 100, 1)

ubicacion,aburra sur,belen guayabal,centro,laureles,norte,occidente,poblado,All
parqueadero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
no,5.6,4.5,4.0,0.4,0.4,2.9,0.3,18.2
si,18.7,5.2,1.4,10.1,1.0,7.1,38.3,81.8
All,24.4,9.7,5.5,10.5,1.4,9.9,38.6,100.0


In [9]:
c4 = pd.crosstab(index=dt["parqueadero"], columns=dt["ubicacion"], margins=True, normalize='columns')
round(c4 * 100, 1)

ubicacion,aburra sur,belen guayabal,centro,laureles,norte,occidente,poblado,All
parqueadero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
no,23.1,46.3,73.7,4.1,30.0,29.0,0.7,18.2
si,76.9,53.7,26.3,95.9,70.0,71.0,99.3,81.8


In [10]:
c5 = pd.crosstab(index=dt["parqueadero"], columns=dt["ubicacion"], margins=True, normalize='index')
round(c5 * 100, 1)

ubicacion,aburra sur,belen guayabal,centro,laureles,norte,occidente,poblado
parqueadero,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
no,31.0,24.6,22.2,2.4,2.4,15.9,1.6
si,22.9,6.3,1.8,12.3,1.2,8.6,46.8
All,24.4,9.7,5.5,10.5,1.4,9.9,38.6


## Tablas de contingencia con 3 o más variables

Es posible usar la función `crosstab` para crear este tipo de tablas usando la siguiente estructura:
`pd.crosstab([variables por fila], [variables por columna])`.

A continuación se muestra un ejemplo de una tabla de contingencia que tiene en la fila la variable `parqueadero` mientras que en la columna las variables `ubicación` y `balcón`.

In [11]:
pd.crosstab(dt["parqueadero"], [dt["ubicacion"], dt["balcon"]])

ubicacion,aburra sur,aburra sur,belen guayabal,belen guayabal,centro,centro,laureles,laureles,norte,norte,occidente,occidente,poblado,poblado
balcon,no,si,no,si,no,si,no,si,no,si,no,si,no,si
parqueadero,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2
no,20,19,5,26,13,15,0,3,1,2,10,10,2,0
si,18,112,7,29,5,5,25,45,1,6,18,31,60,206


A continuación se muestra un ejemplo de una tabla de contingencia que tiene en la fila las variables `parqueadero` y `balcón` mientras que en la columna la variable `ubicación`.

In [12]:
pd.crosstab([dt["parqueadero"], dt['balcon']], dt["ubicacion"])

Unnamed: 0_level_0,ubicacion,aburra sur,belen guayabal,centro,laureles,norte,occidente,poblado
parqueadero,balcon,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
no,no,20,5,13,0,1,10,2
no,si,19,26,15,3,2,10,0
si,no,18,7,5,25,1,18,60
si,si,112,29,5,45,6,31,206
