In [181]:
import pandas as pd
import numpy as np
pd.options.display.max_info_columns = 50

VALOR_PARA_INDEFINIDOS = "No especificado"

In [182]:
tsdem = pd.read_csv("../../datos/original_raw/TSDEM.csv", dtype="str")

Renombrar las columnas de Nemónicos a nombres mas amigables para el modelo

In [183]:
nuevos_nombres = {'LLAVESDE': 'LLAVE_SOCIODEMOGRAFICA', 'LLAVEVIV': 'LLAVE_VIVIENDA', 'LLAVEHOG': 'LLAVE_HOGAR','PAREN': 'parentesco', 'SEXO': 'sexo', 'EDAD': 'edad', 'P3_6_1': 'dia_nacimiento',
       'P3_6_2': 'mes_nacimiento', 'P3_6_3': 'elegibilidad', 'P3_7': 'asiste_a_escuela', 'NIV': 'nivel_escolar',
        'GRA': 'grado_escolar', 'P3_9': 'se_dedica', 'P3_10': 'ultima_actividad_economica',
       'VIV_SEL': 'vivienda_seleccionada', 'HOGAR': 'numero_hogar', 'N_REN': 'numero_renglon', 'ENT': 'entidad', 'MUN': 'municipio', 'TLOC': 'tamaño_localidad', 'REGION': 'region', 'FAC_HOG': 'factor_vivienda_expansion',
       'UPM_DIS': 'UPM_diseño_muestral', 'EST_DIS': 'estrato_diseño_muestral'}
tsdem.rename(columns = nuevos_nombres, inplace=True)

Utilizar el archivo descriptor de base de datos para sustituir valores numericos por categorias

In [184]:
# Parentesco
condiciones = [tsdem['parentesco'] == "1",
              tsdem['parentesco'] == "2",
              tsdem['parentesco'] == "3",
              tsdem['parentesco'] == "4",
              tsdem['parentesco'] == "5",
              tsdem['parentesco'] == "6",
              tsdem['parentesco'] == "7",
              tsdem['parentesco'] == "8"
               ]
equivalentes = ["Jefa(e) (persona de referencia)",
                "Esposa(o) o compañera(o)",
                "Hija(o)",
                "Nieta(o)",
                "Nuera o yerno",
                "Madre, padre o suegra(o)",
                "Otro parentesco",
                "Sin parentesco"
                ]

tsdem['parentesco'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [185]:
# Sexo
condiciones = [tsdem['sexo'] == "1", tsdem['sexo'] == "2"]
equivalentes = ["Hombre", "Mujer"]

tsdem['sexo'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)


In [186]:
# Años cumplidos, Edad
condiciones = [ tsdem['edad'] == '00',
                tsdem['edad'] == '97',
                tsdem['edad'] == '98',
                tsdem['edad'] == '99'
              ]
equivalentes = [ "Menos de un año",
                "97 años y más",
                "No sabe, en personas de 18 años y más",
                "No sabe, en personas menores de 18 años"
                ]
tsdem['edad'] = np.select(condiciones, equivalentes, "Años cumplidos")


In [187]:
# Dia de nacimiento
def dato_indefinido(dato):
    if dato == '99':
        return np.nan
    else:
        return dato

tsdem.dia_nacimiento = tsdem.dia_nacimiento.apply(dato_indefinido)

In [188]:
# Mes de nacimiento

tsdem.mes_nacimiento = tsdem.mes_nacimiento.apply(dato_indefinido)

In [189]:
# Elegibilidad
condiciones = [tsdem['elegibilidad'] == '1', tsdem['elegibilidad'] == '2']
equivalentes = ["Persona elegida (del cumpleaños inmediato posterior a la fecha de la entrevista)",
                "Resto de las personas de 18 años y más"]

tsdem.elegibilidad = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [190]:
# Asistencia a escuela
condiciones = [tsdem['asiste_a_escuela'] == '1', tsdem['asiste_a_escuela'] == '2', tsdem['asiste_a_escuela'] == '9']
equivalentes = ["Si", "No", "No especificado"]
tsdem['asiste_a_escuela'] = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [191]:
# Grado de estudios
condiciones = [tsdem.nivel_escolar == '00',
               tsdem.nivel_escolar == '01',
               tsdem.nivel_escolar == '02',
               tsdem.nivel_escolar == '03',
               tsdem.nivel_escolar == '04',
               tsdem.nivel_escolar == '05',
               tsdem.nivel_escolar == '06',
               tsdem.nivel_escolar == '07',
               tsdem.nivel_escolar == '08',
               tsdem.nivel_escolar == '09',
               tsdem.nivel_escolar == '10',
               tsdem.nivel_escolar == '11',
               tsdem.nivel_escolar == '99']
equivalentes = ["Ninguno",
                "Preescolar o kinder",
                "Primaria",
                "Secundaria",
                "Normal básica",
                "Estudios técnicos con secundaria terminada",
                "Preparatoria o bachillerato",
                "Estudios técnicos con preparatoria terminada",
                "Licenciatura o Ingenieria (profesional)",
                "Especialidad",
                "Maestría",
                "Doctorado",
                "No sabe"]

tsdem.nivel_escolar = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [192]:
# Máximo grado aprobado

tsdem.grado_escolar = tsdem.grado_escolar.apply(lambda g: "Ninguno" if g == "0" else g)

In [193]:
condiciones = [tsdem.se_dedica == '1',
               tsdem.se_dedica == '2',
               tsdem.se_dedica == '3',
               tsdem.se_dedica == '4',
               tsdem.se_dedica == '5',
               tsdem.se_dedica == '6',
               tsdem.se_dedica == '7',
               tsdem.se_dedica == '8',
               tsdem.se_dedica == '9',
               ]
equivalentes = ["Trabajó",
                "Tenía trabajo, pero no trabajó",
                "Buscó trabajo",
                "Trámites para iniciar un negocio",
                "Jubilado/Pensionado",
                "Estudiante",
                "Se dedica a quehaceres del hogar o cuidad de algun familiar",
                "Limitacion fisica permanente que le impide trabajar",
                "Situacion diferente"]
tsdem.se_dedica = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [194]:
# Última actividad económica

condiciones = [tsdem.ultima_actividad_economica == '1',
               tsdem.ultima_actividad_economica == '2',
               tsdem.ultima_actividad_economica == '3',
               tsdem.ultima_actividad_economica == '4',
               tsdem.ultima_actividad_economica == '5',
               tsdem.ultima_actividad_economica == '6',
               tsdem.ultima_actividad_economica == '7']
equivalentes = ["Ayudó en un negocio",
                "Vendió algún producto",
                "Hizo algún producto",
                "Labores de campo",
                "Realizó alguna actividad por dinero",
                "De aprendiz",
                "No realizo actividad"]

tsdem.ultima_actividad_economica = np.select(condiciones, equivalentes, VALOR_PARA_INDEFINIDOS)

In [195]:
# Entidad Federativa
entidades = {
    "01":"Aguascalientes",
    "02":"Baja California",
    "03":"Baja California Sur",
    "04":"Campeche",
    "05":"Coahuila de Zaragoza",
    "06":"Colima",
    "07":"Chiapas",
    "08":"Chihuahua",
    "09":"Ciudad de México",
    "10":"Durango",
    "11":"Guanajuato",
    "12":"Guerrero",
    "13":"Hidalgo",
    "14":"Jalisco",
    "15":"Estado de México",
    "16":"Michoacán de Ocampo",
    "17":"Morelos",
    "18":"Nayarit",
    "19":"Nuevo León",
    "20":"Oaxaca",
    "21":"Puebla",
    "22":"Querétaro",
    "23":"Quintana Roo",
    "24":"San Luis Potosí",
    "25":"Sinaloa",
    "26":"Sonora",
    
    "27":"Tabasco",
    "28":"Tamaulipas",
    "29":"Tlaxcala",
    "30":"Veracruz",
    "31":"Yucatán",
    "32":"Zacatecas"
}
tsdem.entidad = tsdem.entidad.apply(lambda codigo: entidades[codigo])

In [196]:
# Tamaño de la localidad

poblacion = {"1": "100 000 y más habitantes",
             "2": "15 000 a 99 999 habitantes",
             "3": "2 500 a 14 999 habitantes",
             "4": "menor a 2 500 habitantes"}

tsdem['tamaño_localidad'] = tsdem['tamaño_localidad'].apply(lambda valor: poblacion[valor])

In [197]:
# Región del país

regiones = {
    "1": "Norte",
    "2": "Centro-Norte",
    "3": "Centro",
    "4": "Sur"
}

tsdem.region = tsdem.region.apply(lambda valor: regiones[valor])

In [None]:
tsdem.sample(n= 9)