# Ejercicio 2: análisis de tablas
*Rodrigo Leo*

**Objetivo**: usando datos de la ENIGH 2018, identificar por quintil de ingreso de las viviendas el tipo de tenencia de vivienda (propia, propia pero la están pagando, rentada u otros). Generar una tabla resumen en Excel que presente los resultados a nivel nacional, tanto en número de viviendas como en participación porcentual.

---

## 1. Importar paquetes y tablas

En primer lugar importamos los paquetes de Python requeridos para el análisis. En este caso únicamente requerimos `pandas`:

In [1]:
import pandas as pd

Importamos la tabla `concentradohogar.csv` como `ch`:

In [2]:
ch = pd.read_csv('concentradohogar.csv')
ch.head()

Unnamed: 0,folioviv,foliohog,ubica_geo,tam_loc,factor,clase_hog,sexo_jefe,edad_jefe,educa_jefe,tot_integ,ing_cor
0,100013601,1,1001,1,175,2,1,74,4,3,76403.7
1,100013602,1,1001,1,175,2,1,48,11,5,42987.73
2,100013603,1,1001,1,175,2,1,39,10,2,580697.74
3,100013604,1,1001,1,175,2,2,70,8,2,46252.71
4,100013606,1,1001,1,175,2,2,51,4,4,53837.09


Obtenemos el número de registros de la tabla y el tipo de datos de cada columa:

In [3]:
len(ch)

74647

In [4]:
ch.dtypes

folioviv        int64
foliohog        int64
ubica_geo       int64
tam_loc         int64
factor          int64
clase_hog       int64
sexo_jefe       int64
edad_jefe       int64
educa_jefe      int64
tot_integ       int64
ing_cor       float64
dtype: object

Importamos la tabla `viviendas.csv` como `viviendas`:

In [5]:
viviendas = pd.read_csv('viviendas.csv', low_memory = False)
viviendas.head()

Unnamed: 0,folioviv,tipo_viv,mat_pared,mat_techos,mat_pisos,antiguedad,antigua_ne,cocina,cocina_dor,cuart_dorm,num_cuarto,disp_agua,dotac_agua,excusado,uso_compar,sanit_agua,tenencia,tipo_adqui,viv_usada,tipo_finan
0,100013601,1,8,10,3,42.0,,1,2,4,6,1,1,1,2,1,4,1.0,2.0,5.0
1,100013602,1,8,10,3,40.0,,1,2,5,6,1,1,1,2,1,2,,,
2,100013603,1,8,10,3,50.0,,1,2,2,7,1,1,1,2,1,4,1.0,1.0,2.0
3,100013604,1,8,10,3,45.0,,1,2,2,5,1,1,1,2,1,4,1.0,2.0,2.0
4,100013606,1,8,10,3,40.0,,1,2,3,4,1,4,1,2,1,2,,,


Obtenemos el número de registros de la tabla y el tipo de datos de cada columa:

In [6]:
len(viviendas)

73405

In [7]:
viviendas.dtypes

folioviv        int64
tipo_viv       object
mat_pared       int64
mat_techos      int64
mat_pisos      object
antiguedad    float64
antigua_ne     object
cocina          int64
cocina_dor     object
cuart_dorm      int64
num_cuarto      int64
disp_agua       int64
dotac_agua     object
excusado        int64
uso_compar     object
sanit_agua     object
tenencia        int64
tipo_adqui     object
viv_usada      object
tipo_finan     object
dtype: object

## 2. Determinar el ingreso *por vivienda*

Creamos una columa de ceros en `viviendas`, llamada `ingreso`, donde se almacenará el ingreso de la vivienda:

In [8]:
viviendas['ingreso'] = 0.0

Además, aprovechando que iteraremos sobre toda la tabla para calcular el ingreso por vivienda, obtendremos también el factor de expansión correspondiente. Por lo tanto, creamos una columa de ceros en `vivienda`, llamada `factor`, donde se almacenará el factor de expansión del hogar principal:

In [9]:
viviendas['factor'] = 0

Determinamos el ingreso de la vivienda como el ingreso corriente del hogar principal de dicha vivienda. Esto se hace cruzando la información de las tablas `viviendas` y `ch`, y filtrando esta última para que sólo considere los hogares principales (es decir, aquellos donde la variable `foliohog` es igual a 1. Esto mismo se hace para el factor de expansión:

<span style="color:darkred">Nota: esta celda de código tarda algunos minutos en ejecutarse.</span>

In [10]:
for index in viviendas.index:
    folioviv = viviendas.loc[index]['folioviv']
    query = ch.query(f"folioviv == {folioviv} & foliohog == 1")
    viviendas.at[index, 'ingreso'] = query['ing_cor']
    viviendas.at[index, 'factor'] = query['factor']

A continuación calculamos algunos estadísticos para la nueva variable `ingreso`:

In [11]:
viviendas['ingreso'].describe()

count    7.340500e+04
mean     4.637788e+04
std      6.165184e+04
min      0.000000e+00
25%      2.049620e+04
50%      3.387037e+04
75%      5.557934e+04
max      4.501830e+06
Name: ingreso, dtype: float64

Observamos que el ingreso mínimo es cero, mientras que el ingreso máximo es 4.5 millones. Para verificar que las observaciones con ingreso igual a cero no sean errores, hay que verificar si estos ceros provienen de los datos originales de la tabla `ch`. Para lograr esto determinamos el número de observaciones donde el ingreso es cero (en ambas tablas) y verificamos si coinciden:

In [12]:
print(len(ch.query("ing_cor == 0")), len(viviendas.query("ingreso == 0")))

8 8


Como el número de observaciones con ingreso cero es el mismo en ambas tablas, concluimos que los ceros observados en el ingreso de las viviendas provienen efectivamente de hogares con ingreso cero, y no son errores del algoritmo.

Finalmente obtenemos el número total de viviendas, que es igual a la suma de todos los factores de expansión:

In [13]:
viviendas['factor'].sum()

34155615

## 3. Calcular quintiles de ingreso por vivienda

A continuación obtenemos el quintil de ingreso que corresponde a cada vivienda. Esto se hace fácilmente con la función `qcut` de `pandas`:

In [14]:
viviendas['quintil'] = pd.qcut(viviendas['ingreso'], 5, labels = False)

Verificamos que los quintiles sean enteros del 1 al 5:

In [15]:
viviendas['quintil'].unique()

array([4, 3, 2, 0, 1])

Notamos que `pandas` numera los quintiles del 0 al 4. Para obtener la numeración que buscamos (del 1 al 5), sumamos una unidad:

In [16]:
viviendas['quintil'] = viviendas['quintil'] + 1
viviendas['quintil'].unique()

array([5, 4, 3, 1, 2])

Con lo que hemos obtenido la numeración correcta.

Finalmente, para verificar que los resultados sean consistentes, agrupamos las observaciones por quintil y obtenemos estadísticos para el ingreso de la vivienda:

In [17]:
viviendas.groupby('quintil')['ingreso'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
quintil,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,14681.0,12068.359069,3942.587029,0.0,9115.43,12546.18,15383.96,18023.71
2,14681.0,23005.939383,2891.093629,18023.85,20496.2,22987.12,25508.12,28093.91
3,14681.0,34048.99296,3652.419931,28094.19,30841.99,33870.37,37126.21,40770.56
4,14681.0,50493.777963,6318.642022,40771.07,44910.15,49890.42,55579.34,63034.71
5,14681.0,112272.350294,112666.653145,63034.93,73203.17,88524.54,118954.57,4501830.28


Observamos que:
* La suma de observaciones por quintil coincide con el número total de observaciones de la base de datos (73,405).
* El ingreso promedio por vivienda aumenta conforme sube el quintil de ingreso, lo cual indica que están bien calculados.
* El ingreso mínimo del quintil I es igual al ingreso mínimo de toda la tabla, mientras que el ingreso máximo del quintil V es igual al ingreso máximo de toda la tabla, lo cual confirma nuevamente que los quintiles están calculados correctamente.

## 4. Crear clasificación simplificada de tenencia

Queremos clasificar la tenencia de vivienda en las siguientes categorías:
* "Rentada", cuando la vivienda es rentada (variable `tenencia` igual a 1).
* "Propia", cuando la vivienda es propia y no se está pagando (variable `tenencia` igua a 4).
* "Pagando", cuando la vivienda es propia y se está pagando (variable `tenencia` igual a 3).
* "Otros", en cualquier otro caso.

Para ello creamos un diccionario llamado `clasificacion`, que mapea los posibles valores de la variable `tenencia` con una de las siguientes clases: `rentada`, `propia`, `pagando` y `otros`:

In [18]:
clasificacion = {
    1: 'rentada',
    2: 'otros',
    3: 'pagando',
    4: 'propia',
    5: 'otros',
    6: 'otros'
}

A continuación creamos una nueva columna llamada `tenencia_clasificacion`, que contendrá el tipo de tenencia simplificado. Inicialmente copiaremos los valores de la variable `tenencia`:

In [19]:
viviendas['tenencia_clasificacion'] = viviendas['tenencia']

Finalmente, reemplazamos los valores de `tenencia_clasificacion` empleando el mapeo que creamos en el diccionario `clasificacion`:

In [20]:
viviendas = viviendas.replace({'tenencia_clasificacion': clasificacion})

Con esto hemos concluido con la preparación de los datos requerida para elaborar la tabla final.

## 5. Crear la tabla final

Gracias a `pandas`, la creación de la tabla final es sencilla: agrupamos los datos de `viviendas` por quintil y por tenencia, y posteriormente calculamos la suma de los factores de expansión dentro de cada grupo. Esta tabla la guardaremos como `resumen`:

In [21]:
resumen = pd.DataFrame(viviendas.groupby(['quintil', 'tenencia_clasificacion']).agg('sum')['factor'])

Cambiamos el nombre de la columna `factor` a `viviendas`, para que sea más descriptivo:

In [22]:
resumen = resumen.rename(columns = {'factor': 'viviendas'})

Hay que comprobar que la suma total de las viviendas sea igual a 34,155,615 (este dato lo obtuvimos al final del paso 2):

In [23]:
tot_viviendas = resumen['viviendas'].sum()
tot_viviendas

34155615

El número total de viviendas es el que esperábamos, por lo que ningún dato se ha perdido en el camino.

A continuación calculamos el porcentaje de cada observación respecto al total nacional. Este porcentaje se almacenará en la variable `viviendas_porcentaje`:

In [24]:
resumen['viviendas_porcentaje'] = resumen['viviendas'] / tot_viviendas

Comprobamos que la suma de los porcentajes sea igual a 100:

In [25]:
resumen['viviendas_porcentaje'].sum()

1.0

La tabla final tiene la siguiente forma:

In [26]:
resumen

Unnamed: 0_level_0,Unnamed: 1_level_0,viviendas,viviendas_porcentaje
quintil,tenencia_clasificacion,Unnamed: 2_level_1,Unnamed: 3_level_1
1,otros,1219824,0.035714
1,pagando,75998,0.002225
1,propia,4172293,0.122155
1,rentada,716885,0.020989
2,otros,1384369,0.040531
2,pagando,271590,0.007952
2,propia,3783410,0.11077
2,rentada,1068558,0.031285
3,otros,1310559,0.03837
3,pagando,594518,0.017406


Antes de guardarla como un archivo de Excel, modificamos el formato de manera que:
* Los porcentajes aparezcan debajo de los valores absolutos.
* Los quintiles aparezcan como columnas

In [27]:
resumen = resumen.stack()
resumen = resumen.unstack(level = 'quintil')

El resultado es el siguiente:

In [28]:
resumen

Unnamed: 0_level_0,quintil,1,2,3,4,5
tenencia_clasificacion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
otros,viviendas,1219824.0,1384369.0,1310559.0,1048277.0,721895.0
otros,viviendas_porcentaje,0.03571372,0.04053123,0.03837024,0.03069121,0.02113547
pagando,viviendas,75998.0,271590.0,594518.0,908546.0,1211585.0
pagando,viviendas_porcentaje,0.002225051,0.007951548,0.01740616,0.02660019,0.0354725
propia,viviendas,4172293.0,3783410.0,3776992.0,3927793.0,4603344.0
propia,viviendas_porcentaje,0.1221554,0.1107698,0.1105819,0.114997,0.1347756
rentada,viviendas,716885.0,1068558.0,1155867.0,1116621.0,1086691.0
rentada,viviendas_porcentaje,0.02098879,0.03128499,0.0338412,0.03269216,0.03181588


Finalmente, guardamos esta tabla como un archivo de Excel (`.xlsx`), para posteriormente darle formato manualmente:

In [29]:
resumen.to_excel('resumen.xlsx')