In [162]:
import pandas as pd
import numpy as np

pd.set_option("display.max_columns", 50)

VALOR_PARA_INDEFINIDOS = "No especificado"

In [163]:
# Codigo reutilizable

def mapea_respuesta_binaria(valor):
    respuesta_binaria = {"1": "Si", "2": "No"}
    return respuesta_binaria[valor]

def mapea_si_no_nosabe(valor):
    posibles_respuestas = {"1": "Si", "2": "No", "9": "No sabe", np.nan: VALOR_PARA_INDEFINIDOS}
    return posibles_respuestas[valor]

#### Tabla de Vivienda

In [164]:
tvivienda = pd.read_csv("../../datos/original_raw/TVIVIENDA.csv", dtype="str")

In [165]:
columnas_vivienda = {'LLAVEVIV': 'LLAVE_VIVIENDA', 'P1_1': 'dormitorios', 'P1_2': 'habitaciones', 'P1_3': 'baños',
                      'P1_4_01': 'refrigerador', 'P1_4_02': 'lavadora', 'P1_4_03': 'microondas','P1_4_04': 'automovil',
                      'P1_4_05': 'computadora', 'P1_4_06': 'telefono', 'P1_4_07': 'celular', 'P1_4_08': 'internet',
                      'P1_4_09': 'tv_paga','P1_4_10': 'streamings', 'P1_5': 'situacion', 'P1_6':'escrituras',
                      'P1_7':'adquisicion', 'P1_8_1': 'credito_infonavit', 'P1_8_2':'credito_bancario', 'P1_8_3': 'prestamo_familiar',
                      'P1_8_4': 'subsidio', 'P1_8_5': 'ahorros', 'P1_9': 'estatus_pago', 'P1_10': 'atraso_pago',
                      'P2_1': 'habitantes', 'P2_2': 'comparten_gasto_comida', 'P2_3': 'grupos_economicos', 'VIV_SEL': 'vivienda_seleccionada',
                      'ENT': 'entidad', 'MUN': 'municipio', 'TLOC': 'tamaño_localidad', 'REGION': 'region', 'FAC_VIV': 'factor_vivienda_expansion',
                      'UPM_DIS': 'UPM_diseño_muestral', 'EST_DIS': 'estrato_diseño_muestral'}

tvivienda.rename(columns= columnas_vivienda, inplace=True)

In [197]:
# Cambio a tipo de datos numerico para poder aplicar estadisticas básicas
tvivienda.dormitorios = tvivienda.dormitorios.astype('Int8')
tvivienda.habitaciones = tvivienda.habitaciones.astype('Int8')
tvivienda.baños = tvivienda.baños.astype('Int8')
tvivienda.habitantes = tvivienda.habitantes.astype('Int8')
tvivienda.grupos_economicos = tvivienda.grupos_economicos.astype('Int8')
# grupos_economicos = 2.3 Entonces, ¿cuántos hogares o grupos de personas tienen gasto separado para comer contando el de usted?
# Hay muchisimos NaN, los vamos a asumir como 1 grupo economico de personas que comparte gastos alimenticios en la vivienda
tvivienda.grupos_economicos = tvivienda.grupos_economicos.replace(to_replace=np.nan, value=1)


In [167]:
# Mapeo de respuestas binarias

tvivienda.refrigerador = tvivienda.refrigerador.apply(mapea_respuesta_binaria)
tvivienda.lavadora = tvivienda.lavadora.apply(mapea_respuesta_binaria)
tvivienda.microondas = tvivienda.microondas.apply(mapea_respuesta_binaria)
tvivienda.automovil = tvivienda.automovil.apply(mapea_respuesta_binaria)
tvivienda.computadora = tvivienda.computadora.apply(mapea_respuesta_binaria)
tvivienda.telefono = tvivienda.telefono.apply(mapea_respuesta_binaria)
tvivienda.celular = tvivienda.celular.apply(mapea_respuesta_binaria)
tvivienda.internet = tvivienda.internet.apply(mapea_respuesta_binaria)
tvivienda.tv_paga = tvivienda.tv_paga.apply(mapea_respuesta_binaria)
tvivienda.streamings = tvivienda.streamings.apply(mapea_respuesta_binaria)

In [168]:
situacion_de_vivienda = {"1": "Vive la persona que es dueña",
                         "2": "Paga renta",
                         "3": "Vivienda prestada por familiar",
                         "4": "Intestada o en litigio",
                         "5": "Otra situación",
                         "9": "No sabe"}
tvivienda.situacion = tvivienda.situacion.apply(lambda valor: situacion_de_vivienda[valor])

In [169]:
situacion_legal = {"1": "A nombre de la persona dueña",
                   "2": "A nombre de otra persona",
                   "3": "No tiene escrituras",
                   "9": "No sabe",
                   np.nan: VALOR_PARA_INDEFINIDOS}

tvivienda.escrituras = tvivienda.escrituras.apply(lambda valor: situacion_legal[valor]) 

In [170]:
adquisicion_propiedad = {"1": "Compró hecha", "2": "Mandó a construir", "3": "Propietario construyó",
                         "4": "Herencia","5": "Apoyo de Gobierno", "6": "Otra manera", "9": "No sabe",
                         np.nan: VALOR_PARA_INDEFINIDOS}
tvivienda.adquisicion = tvivienda.adquisicion.apply(lambda valor: adquisicion_propiedad[valor])

In [171]:

tvivienda.credito_infonavit = tvivienda.credito_infonavit.apply(mapea_si_no_nosabe)
tvivienda.credito_bancario = tvivienda.credito_bancario.apply(mapea_si_no_nosabe)
tvivienda.prestamo_familiar = tvivienda.prestamo_familiar.apply(mapea_si_no_nosabe)
tvivienda.subsidio = tvivienda.subsidio.apply(mapea_si_no_nosabe)
tvivienda.ahorros = tvivienda.ahorros.apply(mapea_si_no_nosabe)


In [172]:
financiamiento = {"1": "Totalmente pagada", "2": "Se está pagando", "3": "Dejaron de pagar",
                  "9": "No Sabe", np.nan: VALOR_PARA_INDEFINIDOS}

tvivienda.estatus_pago = tvivienda.estatus_pago.apply(lambda valor: financiamiento[valor])

In [173]:
tvivienda.atraso_pago = tvivienda.atraso_pago.apply(mapea_si_no_nosabe)

In [174]:
tvivienda.comparten_gasto_comida = tvivienda.comparten_gasto_comida.apply(mapea_respuesta_binaria)

In [175]:
# Entidades Federativas
entidades = {
    "01":"Aguascalientes",
    "02":"Baja California",
    "03":"Baja California Sur",
    "04":"Campeche",
    "05":"Coahuila de Zaragoza",
    "06":"Colima",
    "07":"Chiapas",
    "08":"Chihuahua",
    "09":"Ciudad de México",
    "10":"Durango",
    "11":"Guanajuato",
    "12":"Guerrero",
    "13":"Hidalgo",
    "14":"Jalisco",
    "15":"Estado de México",
    "16":"Michoacán de Ocampo",
    "17":"Morelos",
    "18":"Nayarit",
    "19":"Nuevo León",
    "20":"Oaxaca",
    "21":"Puebla",
    "22":"Querétaro",
    "23":"Quintana Roo",
    "24":"San Luis Potosí",
    "25":"Sinaloa",
    "26":"Sonora",
    "27":"Tabasco",
    "28":"Tamaulipas",
    "29":"Tlaxcala",
    "30":"Veracruz",
    "31":"Yucatán",
    "32":"Zacatecas"
}

tvivienda.entidad = tvivienda.entidad.apply(lambda valor: entidades[valor])

In [176]:
# Tamaño de la localidad

poblacion = {"1": "100 000 y más habitantes",
             "2": "15 000 a 99 999 habitantes",
             "3": "2 500 a 14 999 habitantes",
             "4": "menor a 2 500 habitantes"}

tvivienda['tamaño_localidad'] = tvivienda['tamaño_localidad'].apply(lambda codigo: poblacion[codigo])

In [177]:
# Región del país

regiones = {
    "1": "Norte",
    "2": "Centro-Norte",
    "3": "Centro",
    "4": "Sur"
}

tvivienda.region = tvivienda.region.apply(lambda codigo: regiones[codigo])

#### Tabla de Estudio Socioeconómico

In [179]:
tsdem = pd.read_csv("../../datos/original_raw/TSDEM.csv", dtype="str")

Renombrar las columnas de Nemónicos a nombres mas amigables para el modelo

In [180]:
nuevos_nombres = {'LLAVESDE': 'LLAVE_SOCIODEMOGRAFICA', 'LLAVEVIV': 'LLAVE_VIVIENDA', 'LLAVEHOG': 'LLAVE_HOGAR','PAREN': 'parentesco', 'SEXO': 'sexo', 'EDAD': 'edad', 'P3_6_1': 'dia_nacimiento',
       'P3_6_2': 'mes_nacimiento', 'P3_6_3': 'elegibilidad', 'P3_7': 'asiste_a_escuela', 'NIV': 'nivel_escolar',
        'GRA': 'grado_escolar', 'P3_9': 'se_dedica', 'P3_10': 'ultima_actividad_economica',
       'VIV_SEL': 'vivienda_seleccionada', 'HOGAR': 'numero_hogar', 'N_REN': 'numero_renglon', 'ENT': 'entidad', 'MUN': 'municipio', 'TLOC': 'tamaño_localidad', 'REGION': 'region', 'FAC_HOG': 'factor_hogar_expansion',
       'UPM_DIS': 'UPM_diseño_muestral', 'EST_DIS': 'estrato_diseño_muestral'}
tsdem.rename(columns = nuevos_nombres, inplace=True)

Utilizar el archivo descriptor de base de datos para sustituir valores numericos por categorias

In [181]:
# Parentesco
condiciones = [tsdem['parentesco'] == "1",
              tsdem['parentesco'] == "2",
              tsdem['parentesco'] == "3",
              tsdem['parentesco'] == "4",
              tsdem['parentesco'] == "5",
              tsdem['parentesco'] == "6",
              tsdem['parentesco'] == "7",
              tsdem['parentesco'] == "8"
               ]
equivalentes = ["Jefa(e) (persona de referencia)",
                "Esposa(o) o compañera(o)",
                "Hija(o)",
                "Nieta(o)",
                "Nuera o yerno",
                "Madre, padre o suegra(o)",
                "Otro parentesco",
                "Sin parentesco"
                ]

tsdem['parentesco'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [182]:
# Sexo
condiciones = [tsdem['sexo'] == "1", tsdem['sexo'] == "2"]
equivalentes = ["Hombre", "Mujer"]

tsdem['sexo'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)


In [183]:
# Años cumplidos, Edad
condiciones = [ tsdem['edad'] == '00',
                tsdem['edad'] == '97',
                tsdem['edad'] == '98',
                tsdem['edad'] == '99'
              ]
equivalentes = [ "Menos de un año",
                "97 años y más",
                "No sabe, en personas de 18 años y más",
                "No sabe, en personas menores de 18 años"
                ]
tsdem['edad'] = np.select(condiciones, equivalentes, "Años cumplidos")


In [184]:
# Dia de nacimiento
def dato_indefinido(dato):
    if dato == '99':
        return np.nan
    else:
        return dato

tsdem.dia_nacimiento = tsdem.dia_nacimiento.apply(dato_indefinido)

In [185]:
# Mes de nacimiento

tsdem.mes_nacimiento = tsdem.mes_nacimiento.apply(dato_indefinido)

In [186]:
# Elegibilidad
condiciones = [tsdem['elegibilidad'] == '1', tsdem['elegibilidad'] == '2']
equivalentes = ["Persona elegida (del cumpleaños inmediato posterior a la fecha de la entrevista)",
                "Resto de las personas de 18 años y más"]

tsdem.elegibilidad = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [187]:
# Asistencia a escuela
condiciones = [tsdem['asiste_a_escuela'] == '1', tsdem['asiste_a_escuela'] == '2', tsdem['asiste_a_escuela'] == '9']
equivalentes = ["Si", "No", "No especificado"]
tsdem['asiste_a_escuela'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [188]:
# Grado de estudios
condiciones = [tsdem.nivel_escolar == '00',
               tsdem.nivel_escolar == '01',
               tsdem.nivel_escolar == '02',
               tsdem.nivel_escolar == '03',
               tsdem.nivel_escolar == '04',
               tsdem.nivel_escolar == '05',
               tsdem.nivel_escolar == '06',
               tsdem.nivel_escolar == '07',
               tsdem.nivel_escolar == '08',
               tsdem.nivel_escolar == '09',
               tsdem.nivel_escolar == '10',
               tsdem.nivel_escolar == '11',
               tsdem.nivel_escolar == '99']
equivalentes = ["Ninguno",
                "Preescolar o kinder",
                "Primaria",
                "Secundaria",
                "Normal básica",
                "Estudios técnicos con secundaria terminada",
                "Preparatoria o bachillerato",
                "Estudios técnicos con preparatoria terminada",
                "Licenciatura o Ingenieria (profesional)",
                "Especialidad",
                "Maestría",
                "Doctorado",
                "No sabe"]

tsdem.nivel_escolar = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [189]:
# Máximo grado aprobado

tsdem.grado_escolar = tsdem.grado_escolar.apply(lambda g: "Ninguno" if g == "0" else g)

In [190]:
condiciones = [tsdem.se_dedica == '1',
               tsdem.se_dedica == '2',
               tsdem.se_dedica == '3',
               tsdem.se_dedica == '4',
               tsdem.se_dedica == '5',
               tsdem.se_dedica == '6',
               tsdem.se_dedica == '7',
               tsdem.se_dedica == '8',
               tsdem.se_dedica == '9',
               ]
equivalentes = ["Trabajó",
                "Tenía trabajo, pero no trabajó",
                "Buscó trabajo",
                "Trámites para iniciar un negocio",
                "Jubilado/Pensionado",
                "Estudiante",
                "Se dedica a quehaceres del hogar o cuidad de algun familiar",
                "Limitacion fisica permanente que le impide trabajar",
                "Situacion diferente"]
tsdem.se_dedica = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [191]:
# Última actividad económica

condiciones = [tsdem.ultima_actividad_economica == '1',
               tsdem.ultima_actividad_economica == '2',
               tsdem.ultima_actividad_economica == '3',
               tsdem.ultima_actividad_economica == '4',
               tsdem.ultima_actividad_economica == '5',
               tsdem.ultima_actividad_economica == '6',
               tsdem.ultima_actividad_economica == '7']
equivalentes = ["Ayudó en un negocio",
                "Vendió algún producto",
                "Hizo algún producto",
                "Labores de campo",
                "Realizó alguna actividad por dinero",
                "De aprendiz",
                "No realizo actividad"]

tsdem.ultima_actividad_economica = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [192]:
# Entidades federativas
tsdem.entidad = tsdem.entidad.apply(lambda codigo: entidades[codigo])

In [193]:
# Tamaño de la localidad

poblacion = {"1": "100 000 y más habitantes",
             "2": "15 000 a 99 999 habitantes",
             "3": "2 500 a 14 999 habitantes",
             "4": "menor a 2 500 habitantes"}

tsdem['tamaño_localidad'] = tsdem['tamaño_localidad'].apply(lambda valor: poblacion[valor])

In [194]:
# Región del país

regiones = {
    "1": "Norte",
    "2": "Centro-Norte",
    "3": "Centro",
    "4": "Sur"
}

tsdem.region = tsdem.region.apply(lambda valor: regiones[valor])