In [322]:
import pandas as pd
import numpy as np

pd.set_option("display.max_columns", 50)

VALOR_PARA_INDEFINIDOS = "No especificado"

In [323]:
# Codigo reutilizable

def mapea_respuesta_binaria(valor):
    respuesta_binaria = {"1": "Si", "2": "No"}
    return respuesta_binaria[valor]

def mapea_si_no_nosabe(valor):
    posibles_respuestas = {"1": "Si", "2": "No", "9": "No sabe", np.nan: VALOR_PARA_INDEFINIDOS}
    return posibles_respuestas[valor]

#### Tabla de Vivienda

In [324]:
tvivienda = pd.read_csv("../../datos/original_raw/TVIVIENDA.csv", dtype="str")

In [325]:
columnas_vivienda = {'LLAVEVIV': 'LLAVE_VIVIENDA', 'P1_1': 'dormitorios', 'P1_2': 'habitaciones', 'P1_3': 'baños',
                      'P1_4_01': 'refrigerador', 'P1_4_02': 'lavadora', 'P1_4_03': 'microondas','P1_4_04': 'automovil',
                      'P1_4_05': 'computadora', 'P1_4_06': 'telefono', 'P1_4_07': 'celular', 'P1_4_08': 'internet',
                      'P1_4_09': 'tv_paga','P1_4_10': 'streamings', 'P1_5': 'situacion', 'P1_6':'escrituras',
                      'P1_7':'adquisicion', 'P1_8_1': 'credito_infonavit', 'P1_8_2':'credito_bancario', 'P1_8_3': 'prestamo_familiar',
                      'P1_8_4': 'subsidio', 'P1_8_5': 'ahorros', 'P1_9': 'estatus_pago', 'P1_10': 'atraso_pago',
                      'P2_1': 'habitantes', 'P2_2': 'comparten_gasto_comida', 'P2_3': 'grupos_economicos', 'VIV_SEL': 'vivienda_seleccionada',
                      'ENT': 'entidad', 'MUN': 'municipio', 'TLOC': 'tamaño_localidad', 'REGION': 'region', 'FAC_VIV': 'factor_vivienda_expansion',
                      'UPM_DIS': 'UPM_diseño_muestral', 'EST_DIS': 'estrato_diseño_muestral'}

tvivienda.rename(columns= columnas_vivienda, inplace=True)

In [326]:
# Cambio a tipo de datos numerico para poder aplicar estadisticas básicas
tvivienda.dormitorios = tvivienda.dormitorios.astype('Int8')
tvivienda.habitaciones = tvivienda.habitaciones.astype('Int8')
tvivienda.baños = tvivienda.baños.astype('Int8')
tvivienda.habitantes = tvivienda.habitantes.astype('Int8')
tvivienda.grupos_economicos = tvivienda.grupos_economicos.astype('Int8')
# grupos_economicos = 2.3 Entonces, ¿cuántos hogares o grupos de personas tienen gasto separado para comer contando el de usted?
# Hay muchisimos NaN, los vamos a asumir como 1 grupo economico de personas que comparte gastos alimenticios en la vivienda
tvivienda.grupos_economicos = tvivienda.grupos_economicos.replace(to_replace=np.nan, value=1)


In [327]:
# Mapeo de respuestas binarias

tvivienda.refrigerador = tvivienda.refrigerador.apply(mapea_respuesta_binaria)
tvivienda.lavadora = tvivienda.lavadora.apply(mapea_respuesta_binaria)
tvivienda.microondas = tvivienda.microondas.apply(mapea_respuesta_binaria)
tvivienda.automovil = tvivienda.automovil.apply(mapea_respuesta_binaria)
tvivienda.computadora = tvivienda.computadora.apply(mapea_respuesta_binaria)
tvivienda.telefono = tvivienda.telefono.apply(mapea_respuesta_binaria)
tvivienda.celular = tvivienda.celular.apply(mapea_respuesta_binaria)
tvivienda.internet = tvivienda.internet.apply(mapea_respuesta_binaria)
tvivienda.tv_paga = tvivienda.tv_paga.apply(mapea_respuesta_binaria)
tvivienda.streamings = tvivienda.streamings.apply(mapea_respuesta_binaria)

In [328]:
situacion_de_vivienda = {"1": "Vive la persona que es dueña",
                         "2": "Paga renta",
                         "3": "Vivienda prestada por familiar",
                         "4": "Intestada o en litigio",
                         "5": "Otra situación",
                         "9": "No sabe"}
tvivienda.situacion = tvivienda.situacion.apply(lambda valor: situacion_de_vivienda[valor])

In [329]:
situacion_legal = {"1": "A nombre de la persona dueña",
                   "2": "A nombre de otra persona",
                   "3": "No tiene escrituras",
                   "9": "No sabe",
                   np.nan: VALOR_PARA_INDEFINIDOS}

tvivienda.escrituras = tvivienda.escrituras.apply(lambda valor: situacion_legal[valor]) 

In [330]:
adquisicion_propiedad = {"1": "Compró hecha", "2": "Mandó a construir", "3": "Propietario construyó",
                         "4": "Herencia","5": "Apoyo de Gobierno", "6": "Otra manera", "9": "No sabe",
                         np.nan: VALOR_PARA_INDEFINIDOS}
tvivienda.adquisicion = tvivienda.adquisicion.apply(lambda valor: adquisicion_propiedad[valor])

In [331]:

tvivienda.credito_infonavit = tvivienda.credito_infonavit.apply(mapea_si_no_nosabe)
tvivienda.credito_bancario = tvivienda.credito_bancario.apply(mapea_si_no_nosabe)
tvivienda.prestamo_familiar = tvivienda.prestamo_familiar.apply(mapea_si_no_nosabe)
tvivienda.subsidio = tvivienda.subsidio.apply(mapea_si_no_nosabe)
tvivienda.ahorros = tvivienda.ahorros.apply(mapea_si_no_nosabe)


In [332]:
financiamiento = {"1": "Totalmente pagada", "2": "Se está pagando", "3": "Dejaron de pagar",
                  "9": "No Sabe", np.nan: VALOR_PARA_INDEFINIDOS}

tvivienda.estatus_pago = tvivienda.estatus_pago.apply(lambda valor: financiamiento[valor])

In [333]:
tvivienda.atraso_pago = tvivienda.atraso_pago.apply(mapea_si_no_nosabe)

In [334]:
tvivienda.comparten_gasto_comida = tvivienda.comparten_gasto_comida.apply(mapea_respuesta_binaria)

In [335]:
# Entidades Federativas
entidades = {
    "01":"Aguascalientes",
    "02":"Baja California",
    "03":"Baja California Sur",
    "04":"Campeche",
    "05":"Coahuila de Zaragoza",
    "06":"Colima",
    "07":"Chiapas",
    "08":"Chihuahua",
    "09":"Ciudad de México",
    "10":"Durango",
    "11":"Guanajuato",
    "12":"Guerrero",
    "13":"Hidalgo",
    "14":"Jalisco",
    "15":"Estado de México",
    "16":"Michoacán de Ocampo",
    "17":"Morelos",
    "18":"Nayarit",
    "19":"Nuevo León",
    "20":"Oaxaca",
    "21":"Puebla",
    "22":"Querétaro",
    "23":"Quintana Roo",
    "24":"San Luis Potosí",
    "25":"Sinaloa",
    "26":"Sonora",
    "27":"Tabasco",
    "28":"Tamaulipas",
    "29":"Tlaxcala",
    "30":"Veracruz",
    "31":"Yucatán",
    "32":"Zacatecas"
}

tvivienda.entidad = tvivienda.entidad.apply(lambda valor: entidades[valor])

In [336]:
# Tamaño de la localidad

poblacion = {"1": "100 000 y más habitantes",
             "2": "15 000 a 99 999 habitantes",
             "3": "2 500 a 14 999 habitantes",
             "4": "menor a 2 500 habitantes"}

tvivienda['tamaño_localidad'] = tvivienda['tamaño_localidad'].apply(lambda codigo: poblacion[codigo])

In [337]:
# Región del país

regiones = {
    "1": "Norte",
    "2": "Centro-Norte",
    "3": "Centro",
    "4": "Sur"
}

tvivienda.region = tvivienda.region.apply(lambda codigo: regiones[codigo])

### Tabla de Hogar

In [338]:
thogar = pd.read_csv("../../datos/original_raw/THOGAR.csv", dtype="str")

In [339]:
columnas_hogar = {'LLAVEHOG': 'LLAVE_HOGAR', 'LLAVEVIV': 'LLAVE_VIVIENDA', 'P4_1_1': 'apoyo_gubernamental',
                    'P4_1_2': 'pension', 'P4_1_3': 'dinero_de_familiares_en_pais',
                    'P4_1_4': 'dinero_de_familiares_en_extranjero','P4_1_5': 'dinero_por_alquiler',
                    'P4_1_6': 'dinero_por_renta', 'P4_1_7': 'dinero_por_intereses', 'P4_1_8': 'dinero_por_venta',
                    'P4_1_9': 'dinero_por_dividendos', 'P4_2': 'ingreso_mensual_familiar', 'P4_3': 'ingreso_mensual_familiar_rango',
                    'FILTRO_S4_1': 'informante_en_hogar_unipersonal', 'P4_4_1': 'cuenta_bancaria', 'P4_4_2': 'afore',
                    'P4_5_1': 'tarjeta_departamental', 'P4_5_2': 'tarjeta_credito', 'P4_5_3': 'credito_automotriz',
                    'P4_5_4': 'credito_hipotecario', 'P4_6_1': 'ahorro_en_banco', 'P4_6_2': 'ahorro_afore', 'P4_6_3': 'ahorro_informal',
                    'P4_6_4': 'ahorro_con_familiares', 'P4_6_5': 'ahorro_casa', 'P4_7_1': 'deuda_en_instituciones',
                    'P4_8_1': 'atraso_en_deuda_institucional', 'P4_7_2': 'deudas_con_conocidos', 'P4_8_2': 'atraso_en_deuda_con_conocidos',
                    'P4_7_3': 'deuda_por_empeño', 'P4_8_3': 'atraso_en_deuda_por_empeño', 'P4_7_4': 'deuda_con_prestamistas',
                    'P4_8_4': 'atraso_en_deuda_con_prestamistas', 'P4_9_1': 'lider_en_compras_alimentos',
                    'P4_9_2': 'lider_en_compras_muebles', 'P4_9_3': 'lider_en_ahorros', 'P4_9_4': 'lider_gastos_educacion',
                    'P4_9_5': 'lider_compraventa_propiedad', 'P4_9_6': 'lider_gasto_salud', 'P4_10_1': 'dinero_suficiente_alimentacion',
                    'P4_10_2': 'dinero_suficiente_vivienda', 'P4_10_3': 'dinero_suficiente_ropa', 'P4_10_4': 'dinero_suficiente_transporte',
                    'P4_10_5': 'dinero_suficiente_salud', 'P4_10_6': 'dinero_suficiente_entretenimiento','HOGAR': 'numero_hogar'}

thogar.rename(columns=columnas_hogar, inplace=True)

In [340]:
# Eliminar columnas innecesarias. Estas columnas ya se encuentran en la tabla de Vivienda por lo que son duplicadas en 
# tabla Hogar
thogar.drop(columns=['UPM', 'VIV_SEL', 'ENT', 'MUN', 'TLOC', 'REGION', 'FAC_HOG', 'UPM_DIS', 'EST_DIS'], inplace=True)

In [341]:
thogar.apoyo_gubernamental = thogar.apoyo_gubernamental.apply(mapea_si_no_nosabe)
thogar.pension = thogar.pension.apply(mapea_si_no_nosabe)
thogar.dinero_de_familiares_en_pais = thogar.dinero_de_familiares_en_pais.apply(mapea_si_no_nosabe)
thogar.dinero_de_familiares_en_extranjero = thogar.dinero_de_familiares_en_extranjero.apply(mapea_si_no_nosabe)
thogar.dinero_por_alquiler = thogar.dinero_por_alquiler.apply(mapea_si_no_nosabe)
thogar.dinero_por_renta = thogar.dinero_por_renta.apply(mapea_si_no_nosabe)
thogar.dinero_por_intereses = thogar.dinero_por_intereses.apply(mapea_si_no_nosabe)
thogar.dinero_por_venta = thogar.dinero_por_venta.apply(mapea_si_no_nosabe)
thogar.dinero_por_dividendos = thogar.dinero_por_dividendos.apply(mapea_si_no_nosabe)

In [342]:
thogar.ingreso_mensual_familiar = thogar.ingreso_mensual_familiar.astype('Int32')
# 99999 significa No sabe, entonces lo vamos a omitir de la serie al substituirlo por np.nan
thogar.ingreso_mensual_familiar = thogar.ingreso_mensual_familiar.apply(lambda ingreso: np.nan if ingreso == 99999 else ingreso)

In [343]:
ingresos_rangos = {'01': 'Hasta $3600', '02': '$3601 a $6100', '03': '$6101 a $8100', '04': '$8101 a $9900',
                   '05': '$9901 a $12 000', '06': '$12 101 a $14 500', '07': '$14 501 a $17 600', '08': '$17 601 a $21 900',
                   '09': '$21 901 a $29 100', '10': '$29 101 a $45 100', '11': 'Más de $45 100'}

thogar.ingreso_mensual_familiar_rango = thogar.ingreso_mensual_familiar_rango.apply(lambda codigo: ingresos_rangos[codigo])

In [344]:
# Informacion de instrumentos financieros

thogar.informante_en_hogar_unipersonal = thogar.informante_en_hogar_unipersonal.apply(mapea_respuesta_binaria)
thogar.cuenta_bancaria = thogar.cuenta_bancaria.apply(mapea_si_no_nosabe)
thogar.afore = thogar.afore.apply(mapea_si_no_nosabe)
thogar.tarjeta_departamental = thogar.tarjeta_departamental.apply(mapea_si_no_nosabe)
thogar.tarjeta_credito = thogar.tarjeta_credito.apply(mapea_si_no_nosabe)
thogar.credito_automotriz = thogar.credito_automotriz.apply(mapea_si_no_nosabe)
thogar.credito_hipotecario = thogar.credito_hipotecario.apply(mapea_si_no_nosabe)

# Informacion de ahorros

thogar.ahorro_en_banco = thogar.ahorro_en_banco.apply(mapea_si_no_nosabe)
thogar.ahorro_afore = thogar.ahorro_afore.apply(mapea_si_no_nosabe)
thogar.ahorro_informal = thogar.ahorro_informal.apply(mapea_si_no_nosabe)
thogar.ahorro_con_familiares = thogar.ahorro_con_familiares.apply(mapea_si_no_nosabe)
thogar.ahorro_casa = thogar.ahorro_casa.apply(mapea_si_no_nosabe)


In [345]:
# Informacion de deuda

thogar.deuda_en_instituciones = thogar.deuda_en_instituciones.apply(mapea_si_no_nosabe)
thogar.atraso_en_deuda_institucional = thogar.atraso_en_deuda_institucional.apply(mapea_si_no_nosabe)
thogar.deudas_con_conocidos = thogar.deudas_con_conocidos.apply(mapea_si_no_nosabe)
thogar.atraso_en_deuda_con_conocidos = thogar.atraso_en_deuda_con_conocidos.apply(mapea_si_no_nosabe)
thogar.deuda_por_empeño = thogar.deuda_por_empeño.apply(mapea_si_no_nosabe)
thogar.atraso_en_deuda_por_empeño = thogar.atraso_en_deuda_por_empeño.apply(mapea_si_no_nosabe)
thogar.deuda_con_prestamistas = thogar.deuda_con_prestamistas.apply(mapea_si_no_nosabe)
thogar.atraso_en_deuda_con_prestamistas = thogar.atraso_en_deuda_con_prestamistas.apply(mapea_si_no_nosabe)

In [346]:
# La persona que decide en el hogar
def decisiones_en_hogar(codigo):
    posibles_valores = {'1': 'Jefe(a) del hogar', '2': 'Pareja del jefe(a)', '3': 'Jefe(a) y pareja en conjunto',
                          '4': 'Jefe(a) y otras personas', '5': 'Otros en el hogar', '6': 'Otros', '9': 'No sabe',
                          np.nan: VALOR_PARA_INDEFINIDOS}
    return posibles_valores[codigo]


thogar.lider_en_compras_alimentos = thogar.lider_en_compras_alimentos.apply(decisiones_en_hogar)
thogar.lider_en_compras_muebles = thogar.lider_en_compras_muebles.apply(decisiones_en_hogar)
thogar.lider_en_ahorros = thogar.lider_en_ahorros.apply(decisiones_en_hogar)
thogar.lider_gastos_educacion = thogar.lider_gastos_educacion.apply(decisiones_en_hogar)
thogar.lider_compraventa_propiedad = thogar.lider_compraventa_propiedad.apply(decisiones_en_hogar)
thogar.lider_gasto_salud = thogar.lider_gasto_salud.apply(decisiones_en_hogar)

In [347]:
# Suficiencia de recursos

thogar.dinero_suficiente_alimentacion = thogar.dinero_suficiente_alimentacion.apply(mapea_si_no_nosabe)
thogar.dinero_suficiente_vivienda = thogar.dinero_suficiente_vivienda.apply(mapea_si_no_nosabe)
thogar.dinero_suficiente_ropa = thogar.dinero_suficiente_ropa.apply(mapea_si_no_nosabe)
thogar.dinero_suficiente_transporte = thogar.dinero_suficiente_transporte.apply(mapea_si_no_nosabe)
thogar.dinero_suficiente_salud = thogar.dinero_suficiente_salud.apply(mapea_si_no_nosabe)
thogar.dinero_suficiente_entretenimiento = thogar.dinero_suficiente_entretenimiento.apply(mapea_si_no_nosabe)

In [456]:
thogar.sample(n=7)

Unnamed: 0,LLAVE_HOGAR,LLAVE_VIVIENDA,apoyo_gubernamental,pension,dinero_de_familiares_en_pais,dinero_de_familiares_en_extranjero,dinero_por_alquiler,dinero_por_renta,dinero_por_intereses,dinero_por_venta,dinero_por_dividendos,ingreso_mensual_familiar,ingreso_mensual_familiar_rango,informante_en_hogar_unipersonal,cuenta_bancaria,afore,tarjeta_departamental,tarjeta_credito,credito_automotriz,credito_hipotecario,ahorro_en_banco,ahorro_afore,ahorro_informal,ahorro_con_familiares,ahorro_casa,deuda_en_instituciones,atraso_en_deuda_institucional,deudas_con_conocidos,atraso_en_deuda_con_conocidos,deuda_por_empeño,atraso_en_deuda_por_empeño,deuda_con_prestamistas,atraso_en_deuda_con_prestamistas,lider_en_compras_alimentos,lider_en_compras_muebles,lider_en_ahorros,lider_gastos_educacion,lider_compraventa_propiedad,lider_gasto_salud,dinero_suficiente_alimentacion,dinero_suficiente_vivienda,dinero_suficiente_ropa,dinero_suficiente_transporte,dinero_suficiente_salud,dinero_suficiente_entretenimiento,numero_hogar
5557,1002413041,100241304,No,No,No,No,No,No,No,No,No,22000.0,$21 901 a $29 100,No,Si,Si,No,Si,No,No,No,Si,No,No,No,No,No especificado,No,No especificado,No,No especificado,No,No especificado,Otros en el hogar,Otros en el hogar,Otros en el hogar,Otros en el hogar,Pareja del jefe(a),Otros en el hogar,Si,Si,No,No,No,No,1
19658,3200291041,320029104,Si,No,Si,No,No,No,No,No,No,7000.0,$6101 a $8100,No,Si,No,No,No,No,No,No,No,No,No,No,No,No especificado,No,No especificado,No,No especificado,No,No especificado,Pareja del jefe(a),Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Si,Si,No,Si,No,No,1
15250,2701128181,270112818,No,No,No,No,No,No,No,No,No,,Hasta $3600,No,No,No,Si,No,No,No,No,No,No,No,No,Si,No,No,No especificado,No,No especificado,No,No especificado,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) del hogar,Si,Si,No,Si,Si,No,1
1168,301390081,30139008,Si,No,No,No,No,No,No,No,No,12000.0,$9901 a $12 000,No,Si,No,Si,No,No,No,No,No,No,No,No,No,No especificado,No,No especificado,No,No especificado,No,No especificado,Jefe(a) y otras personas,Jefe(a) y otras personas,Jefe(a) y otras personas,Jefe(a) y otras personas,Jefe(a) y otras personas,Jefe(a) y otras personas,Si,No,No,No,No,No,1
9925,1301155181,130115518,No,No,No,No,No,No,No,No,No,6800.0,$6101 a $8100,No,No,No,No,No,No,Si,No,No,Si,No,No,No,No especificado,No,No especificado,No,No especificado,No,No especificado,Jefe(a) del hogar,Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Jefe(a) y pareja en conjunto,Si,No,No,Si,No,No,1
11560,2107420191,210742019,Si,No,No,No,No,No,No,No,No,9600.0,$8101 a $9900,No,No,No,No,No,No,No,No,No,Si,No,No,No,No especificado,No,No especificado,No,No especificado,No,No especificado,Jefe(a) y otras personas,Jefe(a) y otras personas,Jefe(a) y otras personas,Jefe(a) y otras personas,Jefe(a) y pareja en conjunto,Jefe(a) y otras personas,Si,Si,No,Si,Si,No,1
15237,2701128041,270112804,Si,Si,No,No,No,No,No,No,No,15000.0,$9901 a $12 000,No,Si,Si,No,No,No,No,Si,Si,Si,No,No,No,No especificado,No,No especificado,No,No especificado,No,No especificado,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) del hogar,Jefe(a) y otras personas,Si,Si,Si,Si,Si,Si,1


In [457]:
thogar.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20448 entries, 0 to 20447
Data columns (total 46 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   LLAVE_HOGAR                         20448 non-null  object 
 1   LLAVE_VIVIENDA                      20448 non-null  object 
 2   apoyo_gubernamental                 20448 non-null  object 
 3   pension                             20448 non-null  object 
 4   dinero_de_familiares_en_pais        20448 non-null  object 
 5   dinero_de_familiares_en_extranjero  20448 non-null  object 
 6   dinero_por_alquiler                 20448 non-null  object 
 7   dinero_por_renta                    20448 non-null  object 
 8   dinero_por_intereses                20448 non-null  object 
 9   dinero_por_venta                    20448 non-null  object 
 10  dinero_por_dividendos               20448 non-null  object 
 11  ingreso_mensual_familiar            18886

#### Tabla de Estudio Socioeconómico

In [458]:
tsdem = pd.read_csv("../../datos/original_raw/TSDEM.csv", dtype="str")

Renombrar las columnas de Nemónicos a nombres mas amigables para el modelo

In [459]:
nuevos_nombres = {'LLAVESDE': 'LLAVE_SOCIODEMOGRAFICA', 'LLAVEVIV': 'LLAVE_VIVIENDA', 'LLAVEHOG': 'LLAVE_HOGAR','PAREN': 'parentesco', 'SEXO': 'sexo', 'EDAD': 'edad', 'P3_6_1': 'dia_nacimiento',
       'P3_6_2': 'mes_nacimiento', 'P3_6_3': 'elegibilidad', 'P3_7': 'asiste_a_escuela', 'NIV': 'nivel_escolar',
        'GRA': 'grado_escolar', 'P3_9': 'se_dedica', 'P3_10': 'ultima_actividad_economica',
       'VIV_SEL': 'vivienda_seleccionada', 'HOGAR': 'numero_hogar', 'N_REN': 'numero_renglon', 'ENT': 'entidad', 'MUN': 'municipio', 'TLOC': 'tamaño_localidad', 'REGION': 'region', 'FAC_HOG': 'factor_hogar_expansion',
       'UPM_DIS': 'UPM_diseño_muestral', 'EST_DIS': 'estrato_diseño_muestral'}
tsdem.rename(columns = nuevos_nombres, inplace=True)

Utilizar el archivo descriptor de base de datos para sustituir valores numericos por categorias

In [460]:
# Parentesco
condiciones = [tsdem['parentesco'] == "1",
              tsdem['parentesco'] == "2",
              tsdem['parentesco'] == "3",
              tsdem['parentesco'] == "4",
              tsdem['parentesco'] == "5",
              tsdem['parentesco'] == "6",
              tsdem['parentesco'] == "7",
              tsdem['parentesco'] == "8"
               ]
equivalentes = ["Jefa(e) (persona de referencia)",
                "Esposa(o) o compañera(o)",
                "Hija(o)",
                "Nieta(o)",
                "Nuera o yerno",
                "Madre, padre o suegra(o)",
                "Otro parentesco",
                "Sin parentesco"
                ]

tsdem['parentesco'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [461]:
# Sexo
condiciones = [tsdem['sexo'] == "1", tsdem['sexo'] == "2"]
equivalentes = ["Hombre", "Mujer"]

tsdem['sexo'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)


In [462]:
# Años cumplidos, Edad
condiciones = [ tsdem['edad'] == '00',
                tsdem['edad'] == '97',
                tsdem['edad'] == '98',
                tsdem['edad'] == '99'
              ]
equivalentes = [ "Menos de un año",
                "97 años y más",
                "No sabe, en personas de 18 años y más",
                "No sabe, en personas menores de 18 años"
                ]
tsdem['edad'] = np.select(condiciones, equivalentes, "Años cumplidos")


In [463]:
# Dia de nacimiento
def dato_indefinido(dato):
    if dato == '99':
        return np.nan
    else:
        return dato

tsdem.dia_nacimiento = tsdem.dia_nacimiento.apply(dato_indefinido)

In [464]:
# Mes de nacimiento

tsdem.mes_nacimiento = tsdem.mes_nacimiento.apply(dato_indefinido)

In [465]:
# Elegibilidad
condiciones = [tsdem['elegibilidad'] == '1', tsdem['elegibilidad'] == '2']
equivalentes = ["Persona elegida (del cumpleaños inmediato posterior a la fecha de la entrevista)",
                "Resto de las personas de 18 años y más"]

tsdem.elegibilidad = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [466]:
# Asistencia a escuela
condiciones = [tsdem['asiste_a_escuela'] == '1', tsdem['asiste_a_escuela'] == '2', tsdem['asiste_a_escuela'] == '9']
equivalentes = ["Si", "No", "No especificado"]
tsdem['asiste_a_escuela'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [467]:
# Grado de estudios
condiciones = [tsdem.nivel_escolar == '00',
               tsdem.nivel_escolar == '01',
               tsdem.nivel_escolar == '02',
               tsdem.nivel_escolar == '03',
               tsdem.nivel_escolar == '04',
               tsdem.nivel_escolar == '05',
               tsdem.nivel_escolar == '06',
               tsdem.nivel_escolar == '07',
               tsdem.nivel_escolar == '08',
               tsdem.nivel_escolar == '09',
               tsdem.nivel_escolar == '10',
               tsdem.nivel_escolar == '11',
               tsdem.nivel_escolar == '99']
equivalentes = ["Ninguno",
                "Preescolar o kinder",
                "Primaria",
                "Secundaria",
                "Normal básica",
                "Estudios técnicos con secundaria terminada",
                "Preparatoria o bachillerato",
                "Estudios técnicos con preparatoria terminada",
                "Licenciatura o Ingenieria (profesional)",
                "Especialidad",
                "Maestría",
                "Doctorado",
                "No sabe"]

tsdem.nivel_escolar = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [468]:
# Máximo grado aprobado

tsdem.grado_escolar = tsdem.grado_escolar.apply(lambda g: "Ninguno" if g == "0" else g)

In [469]:
condiciones = [tsdem.se_dedica == '1',
               tsdem.se_dedica == '2',
               tsdem.se_dedica == '3',
               tsdem.se_dedica == '4',
               tsdem.se_dedica == '5',
               tsdem.se_dedica == '6',
               tsdem.se_dedica == '7',
               tsdem.se_dedica == '8',
               tsdem.se_dedica == '9',
               ]
equivalentes = ["Trabajó",
                "Tenía trabajo, pero no trabajó",
                "Buscó trabajo",
                "Trámites para iniciar un negocio",
                "Jubilado/Pensionado",
                "Estudiante",
                "Se dedica a quehaceres del hogar o cuidad de algun familiar",
                "Limitacion fisica permanente que le impide trabajar",
                "Situacion diferente"]
tsdem.se_dedica = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [470]:
# Última actividad económica

condiciones = [tsdem.ultima_actividad_economica == '1',
               tsdem.ultima_actividad_economica == '2',
               tsdem.ultima_actividad_economica == '3',
               tsdem.ultima_actividad_economica == '4',
               tsdem.ultima_actividad_economica == '5',
               tsdem.ultima_actividad_economica == '6',
               tsdem.ultima_actividad_economica == '7']
equivalentes = ["Ayudó en un negocio",
                "Vendió algún producto",
                "Hizo algún producto",
                "Labores de campo",
                "Realizó alguna actividad por dinero",
                "De aprendiz",
                "No realizo actividad"]

tsdem.ultima_actividad_economica = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [471]:
# Entidades federativas
tsdem.entidad = tsdem.entidad.apply(lambda codigo: entidades[codigo])

In [472]:
# Tamaño de la localidad

poblacion = {"1": "100 000 y más habitantes",
             "2": "15 000 a 99 999 habitantes",
             "3": "2 500 a 14 999 habitantes",
             "4": "menor a 2 500 habitantes"}

tsdem['tamaño_localidad'] = tsdem['tamaño_localidad'].apply(lambda valor: poblacion[valor])

In [473]:
# Región del país

regiones = {
    "1": "Norte",
    "2": "Centro-Norte",
    "3": "Centro",
    "4": "Sur"
}

tsdem.region = tsdem.region.apply(lambda valor: regiones[valor])