## Importar paqueterías necesarias

In [1]:
from imp import reload
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
import setup_analysis as sa

In [None]:
reload(sa)

## Lectura de datos
En esta sección se hace la lectura de los cuatro archivos que contienen las respuestas a las distintas secciones de la ENUT y se guardan como las variables <code>tvivienda</code>, <code>thogar</code>, <code>tsdem</code> y <code>tmodulo</code>.

A continuación, se hace la lectura del archivo que contiene las variables seleccionadas de la encuesta. Se modifican también las variables de la columna <code>variable</code> para empatar el formato de las otras tablas. Se obtiene como resultado la variable <code>var_sel</code>, la cual incluye información sobre las variables deseadas.

In [2]:
tvivienda = pd.read_csv(sa.tvivienda)
thogar = pd.read_csv(sa.thogar)
tsdem = pd.read_csv(sa.tsdem)
tmodulo = pd.read_csv(sa.tmodulo)

In [3]:
var_sel = pd.read_csv(sa.var_sel)
var_sel.head()

Unnamed: 0,encuesta,variable,tabla,pregunta,elemento
0,ENUT,UPM,thogar,Número de UPM,Identificación
1,ENUT,VIV_SEL,thogar,Número de vivienda seleccionada,Identificación
2,ENUT,HOGAR,thogar,Número de Hogar,Identificación
3,ENUT,N_INF,thogar,Número de renglón del informante,Identificación
4,ENUT,p2_6_1,thogar,¿En este hogar contratan trabajadoras(es) domé...,Trabajadores en el hogar


In [4]:
var_sel["variable"] = var_sel["variable"].str.upper()
var_sel.head()

Unnamed: 0,encuesta,variable,tabla,pregunta,elemento
0,ENUT,UPM,thogar,Número de UPM,Identificación
1,ENUT,VIV_SEL,thogar,Número de vivienda seleccionada,Identificación
2,ENUT,HOGAR,thogar,Número de Hogar,Identificación
3,ENUT,N_INF,thogar,Número de renglón del informante,Identificación
4,ENUT,P2_6_1,thogar,¿En este hogar contratan trabajadoras(es) domé...,Trabajadores en el hogar


Se seleccionan de las tablas importadas únicamente aquellas variables incluidas en la tabla <code>var_sel</code>.

In [5]:
vars_viv = list(var_sel["variable"][var_sel["tabla"]=="tvivienda"])
vars_hog = list(var_sel["variable"][var_sel["tabla"]=="thogar"])
vars_sdm = list(var_sel["variable"][var_sel["tabla"]=="tsdem"])
vars_mod = list(var_sel["variable"][var_sel["tabla"]=="tmodulo"])

tvivienda = tvivienda[vars_viv]
thogar = thogar[vars_hog]
tsdem = tsdem[vars_sdm]
tmodulo = tmodulo[vars_mod]

<code>tmodulo</code> es una de las tablas con observaciones individuales, por lo que se espera que sea una de las tablas con mayor número de valores, y a partir del cual se pueden unir tablas fácilmente. Al usar la función <code>describe()</code>, se observa que todas las variables observables son numéricas. Sin embargo, se desea generar un identificador para los registros compuesto por las variables <code>UPM</code>, <code>VIV_SEL</code>, <code>HOGAR</code>, y <code>N_REN</code>. Este identificador contendrá esta información separada por guiones bajos, por lo cual estas variables deben ser transformadas a string. La tabla <code>tsdem</code> también incluye datos de individuos, por lo que se le tratará de una manera similar.

In [6]:
tmodulo.describe()

Unnamed: 0,UPM,ENT,VIV_SEL,HOGAR,N_REN,P5_1,P5_3_1,P5_3_3,P5_5,P5_6_1,...,P6_15_4,P6_15A_4_1,P6_15A_4_2,P6_15A_4_3,P6_15A_4_4,P6_16_6,P6_16A_6_1,P6_16A_6_2,P6_16A_6_3,P6_16A_6_4
count,71404.0,71404.0,71404.0,71404.0,71404.0,71404.0,44028.0,44028.0,44657.0,30208.0,...,15994.0,4005.0,4005.0,4005.0,4005.0,71404.0,2179.0,2179.0,2179.0,2179.0
mean,1995.312489,16.630889,6.85386,1.018766,2.215968,1.413898,36.138912,7.112905,1.965134,1.529164,...,1.749594,14.05568,5.181273,6.627715,2.409488,1.969484,5.236347,4.690225,2.138596,1.763194
std,1086.300502,9.180151,5.680367,0.155964,1.364706,0.492534,16.851626,7.273909,1.345657,0.811704,...,0.433261,16.648093,12.311561,7.811112,8.219249,0.172005,8.012137,11.210604,4.467932,7.166196
min,1.0,1.0,1.0,1.0,1.0,1.0,0.0,0.0,1.0,1.0,...,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
25%,1072.0,9.0,3.0,1.0,1.0,1.0,25.0,0.0,1.0,1.0,...,1.0,2.0,0.0,1.0,0.0,2.0,1.0,0.0,0.0,0.0
50%,2015.0,17.0,5.0,1.0,2.0,1.0,40.0,6.0,1.0,1.0,...,2.0,7.0,0.0,4.0,0.0,2.0,2.0,0.0,0.0,0.0
75%,2910.0,25.0,11.0,1.0,3.0,2.0,47.0,10.0,4.0,2.0,...,2.0,20.0,0.0,10.0,0.0,2.0,6.0,0.0,2.0,0.0
max,3814.0,32.0,23.0,5.0,19.0,2.0,99.0,48.0,5.0,9.0,...,2.0,99.0,50.0,48.0,50.0,2.0,60.0,50.0,45.0,50.0


In [7]:
tmodulo[["VIV_SEL","HOGAR","N_REN","UPM"]] = tmodulo[["VIV_SEL","HOGAR","N_REN","UPM"]].astype("string")
tmodulo["ENT"] = pd.Categorical(tmodulo["ENT"])
tmodulo["uid"] = tmodulo["UPM"] + "_" + tmodulo["VIV_SEL"] + "_" + tmodulo["HOGAR"] + "_" + tmodulo["N_REN"]

tsdem[["VIV_SEL","HOGAR","N_REN","UPM"]] = tsdem[["VIV_SEL","HOGAR","N_REN","UPM"]].astype("string")
tsdem["uid"] = tsdem["UPM"] + "_" + tsdem["VIV_SEL"] + "_" + tsdem["HOGAR"] + "_" + tsdem["N_REN"]

Se hará el experimento de unir las tablas <code>tmodulo</code> y <code>tsdem</code>. Para esto, es necesario conocer cuál tabla es más grande, de lo contrario, es posible realizar un cruce erróneo y eliminar datos. En este caso, la tabla <code>tsdem</code> es de mayor longitud, por lo que se realizará un left join con esta tabla como la tabla izquierda.

In [None]:
print(len(tsdem["UPM"]))
len(tmodulo["UPM"])

Al realizar el cruce, la longitud de la nueva tabla es la misma que la de <code>tsdem</code>, lo que significa que el cruce se realizó de manera correcta.

In [None]:
bd = tsdem.merge(tmodulo, 'left',['uid'])
print(len(bd["uid"]))
len(bd)

La siguiente tabla con mayor desagregación es <code>thogar</code>.

In [None]:
thogar[["VIV_SEL","HOGAR","UPM"]] = thogar[["VIV_SEL","HOGAR","UPM"]].astype("string")
thogar["hid"] = thogar["UPM"] + "_" + thogar["VIV_SEL"] + "_" + thogar["HOGAR"]

# Longitudes de base de datos y lista de identificadores de hogar.
print(len(thogar))
print(len(thogar["hid"].unique()))

In [None]:
bd = bd.rename(columns={'UPM_x':'UPM','VIV_SEL_x':'VIV_SEL', 'HOGAR_x':'HOGAR', 'N_REN_x':'N_REN'})

In [None]:
bd = bd.merge(thogar,  how='left', on=['UPM','VIV_SEL','HOGAR'])

In [None]:
bd

In [None]:
bd.to_csv(os.path.join(sa.dir_products,"csv","bd.csv"))

In [None]:
bd["P3_11"]