# Tablas de contingencia con `pandas`
<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>
<br>
En esta lección se mostrará como usar `pandas` para crear tablas de contingencia.

A continuación las librerías necesarias para realizar los ejemplos.

In [1]:
import pandas as pd

## Leyendo los datos del ejemplo

Para el ejemplo vamos a usar la base de datos sobre apartamentos usados en la ciudad de Medellín, la base de datos está disponible en [este enlace](https://raw.githubusercontent.com/fhernanb/datos/master/aptos2015). Para leer la base de datos usamos las siguientes instrucciones.

In [2]:
url = 'https://raw.githubusercontent.com/fhernanb/datos/master/aptos2015'
dt = pd.read_table(url, comment='#', sep=' ')
dt.head()

Unnamed: 0,precio,mt2,ubicacion,estrato,alcobas,banos,balcon,parqueadero,administracion,avaluo,terminado
1,79.0,43.16,norte,3,3,1,si,si,0.05,14.923002,no
2,93.0,56.92,norte,2,2,1,si,si,0.069,27.0,si
3,100.0,66.4,norte,3,2,2,no,no,0.0,15.738427,no
4,123.0,61.85,norte,2,3,2,si,si,0.13,27.0,no
5,135.0,89.8,norte,4,3,2,si,no,0.0,39.567,si


## Tablas de contingencia de una vía

Para crear este tipo de tablas se usa la función `crosstab`, la documentación completa de esta función se puede encontrar en este [enlace](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html).

A continuación se crea una tabla de frecuencia absoluta para la variable `ubicacion`.

In [5]:
t1 = pd.crosstab(index=dt['ubicacion'], columns="Numero")
t1

col_0,Numero
ubicacion,Unnamed: 1_level_1
aburra sur,169
belen guayabal,67
centro,38
laureles,73
norte,10
occidente,69
poblado,268


Si queremos crear una tabla de frecuencia relativa se usa el parámetro `normalize=1`.

In [6]:
t2 = pd.crosstab(index=dt['ubicacion'], columns="Numero", normalize=1)
t2

col_0,Numero
ubicacion,Unnamed: 1_level_1
aburra sur,0.243516
belen guayabal,0.096542
centro,0.054755
laureles,0.105187
norte,0.014409
occidente,0.099424
poblado,0.386167


Si queremos ver la tabla con los números en __porcentaje__ y no en __fracción__ como en el caso anterior se hace lo siguiente:

In [11]:
t3 = pd.crosstab(index=dt['ubicacion'], columns="Numero", normalize=1) * 100
t3

col_0,Numero
ubicacion,Unnamed: 1_level_1
aburra sur,24.351585
belen guayabal,9.654179
centro,5.475504
laureles,10.518732
norte,1.440922
occidente,9.942363
poblado,38.616715
