## Preprocessing for ENSANUT 2012 - Componente de SALUD 

https://ensanut.insp.mx/encuestas/ensanut2012/descargas.php

- Información sobre el hogar
- Información sobre los integrantes del hogar
- Relación entre folio de hogar y folio de vivenda
- Cuestionario individual: Menores de 0 a 9 años de edad

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import sys
import os


---

### folio_vivienda


In [2]:
# read csv
folio_vivienda= pd.read_csv("../data/raw_salud/folio_vivienda.csv")

In [3]:
folio_vivienda.columns

Index(['folio_c', 'folio_v'], dtype='object')

Vars: 
- folio_c = folio consecutivo
- folio_v = folio de vivienda

In [4]:
folio_vivienda.isna().sum()

folio_c    0
folio_v    0
dtype: int64

In [5]:
folio_vivienda = folio_vivienda.rename(columns={
    "folio_c": "folio_consecutivo",
    "folio_v": "folio_vivienda"
})

folio_vivienda

Unnamed: 0,folio_consecutivo,folio_vivienda
0,10321,010321M
1,10322,010321M
2,10800,010800M
3,10801,010800M
4,10842,010842M
...,...,...
50523,321855,321855
50524,321857,321857
50525,321858,321858
50526,321860,321860


In [6]:
folio_vivienda.dtypes

folio_consecutivo     int64
folio_vivienda       object
dtype: object

In [7]:
folio_vivienda["folio_consecutivo"] = folio_vivienda["folio_consecutivo"].astype(str)
folio_vivienda["folio_vivienda"] = folio_vivienda["folio_vivienda"].astype(str)

print(folio_vivienda.dtypes)

folio_consecutivo    object
folio_vivienda       object
dtype: object


In [8]:
folio_vivienda.shape

(50528, 2)

---

### Hogar_hogar

In [9]:
Hogar_hogar = pd.read_csv(
    "../data/raw_salud/Hogar_hogar.csv",
    encoding="latin1",  # ← este sí lo lee completo sin error
    na_values=["", " ", "NA"],
    low_memory=False
)


In [10]:
Hogar_hogar.columns = Hogar_hogar.columns.str.replace("ï»¿", "")


In [11]:
Hogar_hogar

Unnamed: 0,folio,entidad,munici,locali,deciles,quintiles,h101,h102,h103,h205,...,h812a,h812b,h812esp,h813,code_upm,est_dis,est_urb,est_marg,pondeh,est_var
0,10001,1,1,1,9.0,5.0,5,1,,5,...,,,,,M0101,5,3,1,288.355596,15
1,10003,1,1,1,10.0,5.0,5,1,,5,...,,,,,M0101,5,3,1,288.355596,15
2,10005,1,1,1,8.0,4.0,2,1,,2,...,,,,,M0101,5,3,1,244.989431,15
3,10006,1,1,1,9.0,5.0,2,1,,2,...,,,,,M0101,5,3,1,244.989431,15
4,10007,1,1,1,6.0,3.0,5,1,,5,...,,,,,M0101,5,3,1,288.355596,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50523,321855,32,57,1,8.0,4.0,4,1,,4,...,,,,13.0,M3248,3,2,1,278.904307,323
50524,321857,32,57,1,2.0,1.0,5,1,,5,...,,,,3.0,M3248,3,2,1,333.941077,323
50525,321858,32,57,1,6.0,3.0,6,1,,6,...,,,,6.0,M3248,3,2,1,278.904307,323
50526,321860,32,57,1,7.0,4.0,5,1,,5,...,,,,,M3248,3,2,1,333.941077,323


In [12]:
# Filtra columnas tipo texto
cols_obj = Hogar_hogar.select_dtypes(include="object").columns

# Buscar valores con caracteres extraños
for col in cols_obj:
    raros = Hogar_hogar[col].dropna().astype(str).str.contains("�", regex=False).sum()
    if raros > 0:
        print(f"{col}: {raros} valores con caracteres extraños")


In [13]:
Hogar_hogar.columns.tolist()

['folio',
 'entidad',
 'munici',
 'locali',
 'deciles',
 'quintiles',
 'h101',
 'h102',
 'h103',
 'h205',
 'h206',
 'h501',
 'h502',
 'h503',
 'h504',
 'h505',
 'h506',
 'h507',
 'h508',
 'h509',
 'h510',
 'h511',
 'h512',
 'h513',
 'h514',
 'h515',
 'h516',
 'h516a',
 'h517',
 'h518',
 'h519',
 'h519esp',
 'h520',
 'h521',
 'h521esp',
 'h522',
 'h522esp',
 'h523',
 'h524a',
 'h524b',
 'h524c',
 'h524d',
 'h524e',
 'h60101',
 'h60102',
 'h60103',
 'h60104',
 'h60105',
 'h60106',
 'h60107',
 'h60108',
 'h60109',
 'h60110',
 'h60111',
 'h60112',
 'h60113',
 'h60114',
 'h60115',
 'h60116',
 'h60117',
 'h60118',
 'h60119',
 'h60120',
 'h60121',
 'h60122',
 'h60123',
 'h60124',
 'h60125',
 'h70101',
 'h70102',
 'h70103',
 'h70104',
 'h70105',
 'h70106',
 'h70107',
 'h70108',
 'h70109',
 'h70110',
 'h70111',
 'h70112',
 'h70113',
 'h70114',
 'h70115',
 'h70116',
 'h70117',
 'h70201',
 'h70202',
 'h70203',
 'h70204',
 'h70205',
 'h70206',
 'h70207',
 'h70301',
 'h70302',
 'h70303',
 'h70304',

In [14]:
columnas_utiles = ['folio', 'entidad', 'munici', 'locali', 'deciles', 'est_urb', 'est_marg', 'pondeh']
hogar_util = Hogar_hogar[columnas_utiles]

hogar_util = hogar_util.rename(columns={
    "folio": "folio_consecutivo"})

Vars:
- folio_consecutivo = identificador unico del hogar
- entidad = clave de la entidad federativa (estado)
- munici = clave del municipio
- locali = clave de la localidad
- deciles = decil de ingreso del hogar
- est_urb = indicador de zona urbana (1 si es urbano, 0 si no)
- est_marg = indicador de marginacion de la zona
- pondeh = ponderador del hogar (factor de expansion muestral)

In [15]:
hogar_util.isna().sum().sort_values(ascending=False)

deciles              2
folio_consecutivo    0
entidad              0
munici               0
locali               0
est_urb              0
est_marg             0
pondeh               0
dtype: int64

In [16]:
hogar_util.shape


(50528, 8)

In [17]:
for col in hogar_util.columns:
    print(f"{col}: {hogar_util[col].nunique()} valores únicos")


folio_consecutivo: 50528 valores únicos
entidad: 32 valores únicos
munici: 177 valores únicos
locali: 323 valores únicos
deciles: 10 valores únicos
est_urb: 3 valores únicos
est_marg: 2 valores únicos
pondeh: 2833 valores únicos


In [18]:
hogar_util['folio_consecutivo'].duplicated().sum()


0

---

### Hogar_integrantes


In [19]:
Hogar_integrantes = pd.read_csv(
    "../data/raw_salud/Hogar_integrantes.csv",
    encoding="latin1",  # ← este sí lo lee completo sin error
    na_values=["", " ", "NA"],
    low_memory=False
)

Hogar_integrantes.columns = Hogar_integrantes.columns.str.replace("ï»¿", "")

In [20]:
Hogar_integrantes

Unnamed: 0,folio,intp,entidad,munici,locali,edad,meses,dia_nac,mes_nac,anio_nac,...,h401f,h401esp,code_upm,est_dis,est_urb,est_marg,pondei,est_var,afilia_1ra,afilia_tras
0,10001,1,1,1,1,41,10,20,1,1970,...,,,M0101,5,3,1,275.654006,15,1,1
1,10001,2,1,1,1,41,8,1,4,1970,...,,,M0101,5,3,1,264.538414,15,1,1
2,10001,3,1,1,1,19,1,6,11,1992,...,,,M0101,5,3,1,270.517139,15,1,1
3,10001,4,1,1,1,17,9,26,2,1994,...,,,M0101,5,3,1,252.312714,15,1,1
4,10001,5,1,1,1,9,2,6,10,2002,...,,,M0101,5,3,1,297.620993,15,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
194918,321861,1,32,57,1,30,6,9,5,1981,...,,,M3248,3,2,1,372.818917,323,0,0
194919,321861,2,32,57,1,28,5,18,6,1983,...,,,M3248,3,2,1,372.796918,323,0,0
194920,321861,3,32,57,1,9,8,8,3,2002,...,,,M3248,3,2,1,407.707324,323,0,0
194921,321861,4,32,57,1,8,9,11,2,2003,...,,,M3248,3,2,1,407.707324,323,0,0


In [21]:
print(Hogar_integrantes.columns.tolist())


['folio', 'intp', 'entidad', 'munici', 'locali', 'edad', 'meses', 'dia_nac', 'mes_nac', 'anio_nac', 'nac', 'sexo', 'h207', 'h207esp', 'h208', 'h208q', 'h209', 'h209q', 'h210a', 'h210b', 'h210esp', 'h211a', 'h211b', 'h211a1', 'h211a2', 'h211c', 'h211b1a', 'h211b1b', 'h212', 'h213a', 'h213b', 'h213esp', 'h214', 'h215', 'h216', 'h217', 'h218a', 'h218b', 'h218a1', 'h219', 'h220', 'h220q', 'h221', 'h222', 'h223', 'h224a', 'h224b', 'h224c', 'h224d', 'h224e', 'h224f', 'h224g', 'h224h', 'h225', 'h226a', 'h226b', 'h227a', 'h227b', 'h227c', 'h227d', 'h227e', 'h227f', 'h301', 'h302', 'h302esp', 'h302a', 'h302b', 'h302c', 'h303', 'h304a', 'h304b', 'h304esp', 'h305a', 'h305b', 'h305c', 'h305esp', 'h305a1', 'h306', 'h306esp', 'h307a', 'h307b', 'h307c', 'h307d', 'h307e', 'h307f', 'h307g', 'h307h', 'h307i', 'h307a1', 'h307a2', 'h307a3', 'h307a4', 'h307a5', 'h307a6', 'h307a7', 'h307a8', 'h308', 'h309a', 'h309b', 'h309c', 'h309esp', 'h310', 'h310a', 'h310aesp', 'h311', 'h312', 'h312esp', 'h313', 'h313es

In [22]:
# Definir columnas relevantes
columnas_utiles_integrantes = [
    'folio',         # folio de vivienda (clave para merge)
    'intp',          # número de persona en el hogar
    'entidad',       # entidad federativa
    'munici',        # municipio
    'locali',        # localidad
    'sexo',          # sexo
    'edad',          # edad en años
    'meses',         # edad en meses
    'dia_nac',       # día de nacimiento
    'mes_nac',       # mes de nacimiento
    'anio_nac',      # año de nacimiento
    'afilia_1ra',    # institución principal de afiliación
    'afilia_tras',   # institución secundaria de afiliación
    'est_urb',       # urbano/rural
    'est_marg',      # nivel de marginación
    'pondei'         # ponderador individual
]

# 3. Filtrar DataFrame con esas columnas
integrantes_util = Hogar_integrantes[columnas_utiles_integrantes].copy()

# 4. Verifica primeras filas y columnas
print(integrantes_util.head())
print(integrantes_util.dtypes)

   folio  intp  entidad  munici  locali  sexo  edad  meses  dia_nac  mes_nac  \
0  10001     1        1       1       1     1    41     10       20        1   
1  10001     2        1       1       1     2    41      8        1        4   
2  10001     3        1       1       1     1    19      1        6       11   
3  10001     4        1       1       1     2    17      9       26        2   
4  10001     5        1       1       1     1     9      2        6       10   

   anio_nac  afilia_1ra  afilia_tras  est_urb  est_marg      pondei  
0      1970           1            1        3         1  275.654006  
1      1970           1            1        3         1  264.538414  
2      1992           1            1        3         1  270.517139  
3      1994           1            1        3         1  252.312714  
4      2002           1            1        3         1  297.620993  
folio            int64
intp             int64
entidad          int64
munici           int64
locali 

Vars:
- folio = folio consecutivo
- intp = identificador de la persona dentro del hogar
- entidad = clave de la entidad federativa (estado)
- munici = clave del municipio
- locali = clave de la localidad
- sexo = sexo de la persona (1 = hombre, 2 = mujer)
- edad = edad en años cumplidos
- meses = edad en meses (útil si edad < 1 año)
- dia_nac = dia de nacimiento
- mes_nac = mes de nacimiento
- anio_nac = año de nacimiento
- afilia_1ra = institucion principal a la que esta afiliada la persona (IMSS, ISSSTE, etc.)
- afilia_tras = institucion secundaria de afiliación (si tiene doble cobertura)
- est_urb = indicador de zona urbana (1 si es urbano, 0 si no)
- est_marg = nivel de marginación de la zona
- pondei = ponderador del individuo (factor de expansión muestral)


In [23]:
# nulos por columna
integrantes_util.isnull().sum().sort_values(ascending=False)


folio          0
intp           0
entidad        0
munici         0
locali         0
sexo           0
edad           0
meses          0
dia_nac        0
mes_nac        0
anio_nac       0
afilia_1ra     0
afilia_tras    0
est_urb        0
est_marg       0
pondei         0
dtype: int64

In [24]:
# Dimensiones 
integrantes_util.shape


(194923, 16)

In [25]:
integrantes_util["intp"].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19])

---

### Menores

In [26]:
Menores = pd.read_csv(
    "../data/raw_salud/Menores.csv",
    encoding="latin1",  # ← este sí lo lee completo sin error
    na_values=["", " ", "NA"],
    low_memory=False
)

Menores.columns = Menores.columns.str.replace("ï»¿", "")

In [27]:
Menores

Unnamed: 0,folio,intp,entidad,munici,locali,sexo,edad,dia_nac,mes_nac,anio_nac,...,m507,m508,m509,m510,code_upm,est_dis,est_urb,est_marg,pondef,est_var
0,10001,5,1,1,1,1,9,6,10,2002,...,1.0,1.0,2.0,1.0,M0101,5,3,1,322.875051,15
1,10003,5,1,1,1,1,2,13,10,2009,...,1.0,1.0,2.0,1.0,M0101,5,3,1,275.785859,15
2,10007,5,1,1,1,2,4,25,2,2007,...,1.0,1.0,2.0,1.0,M0101,5,3,1,277.627299,15
3,10008,4,1,1,1,2,9,3,12,2002,...,1.0,1.0,2.0,1.0,M0101,5,3,1,380.995753,15
4,10008,5,1,1,1,2,4,25,9,2007,...,1.0,1.0,2.0,1.0,M0101,5,3,1,277.627299,15
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28197,321852,4,32,57,1,1,2,24,8,2009,...,2.0,2.0,1.0,2.0,M3248,3,2,1,414.266695,323
28198,321857,5,32,57,1,1,6,26,10,2005,...,1.0,1.0,2.0,1.0,M3248,3,2,1,457.265859,323
28199,321860,4,32,57,1,2,4,15,5,2007,...,1.0,1.0,2.0,1.0,M3248,3,2,1,699.028622,323
28200,321861,4,32,57,1,2,8,11,2,2003,...,1.0,1.0,2.0,1.0,M3248,3,2,1,886.244854,323


In [28]:
print(Menores.columns.tolist())

['folio', 'intp', 'entidad', 'munici', 'locali', 'sexo', 'edad', 'dia_nac', 'mes_nac', 'anio_nac', 'maa', 'msexo', 'medad', 'mfnaca', 'mfnacb', 'mfnacc', 'm001a', 'm001b', 'm003', 'm004', 'm005a', 'm005b', 'm005c', 'm005d', 'm005e', 'm005f', 'm005es', 'm101', 'm101es', 'm102', 'm103', 'm104', 'm105', 'm105es', 'm106a', 'm106b', 'm106c', 'm106d', 'm107a', 'm107b', 'm107c', 'm107d', 'm107e', 'm107f', 'm107g', 'm107h', 'm107i', 'm107aa', 'm107ab', 'm107ac', 'm107ad', 'm107ae', 'm107af', 'm107ag', 'm107ah', 'm108a', 'm108b', 'm108c', 'm108d', 'm108e', 'm108f', 'm108g', 'm108h', 'm109a', 'm109b', 'm109c', 'm109d', 'm109e', 'm109f', 'm109aa', 'm109ab', 'm109ac', 'm109ad', 'm109ae', 'm110a', 'm110b', 'm110c', 'm110d', 'm110e', 'm111a', 'm111b', 'm111c', 'm111d', 'm111e', 'm111esp', 'm112_1a', 'm112_1b', 'm112_1c', 'm112_1d', 'm112_1e', 'm112_1esp', 'm112_2a', 'm112_2b', 'm112_2c', 'm112_2d', 'm112_2e', 'm112_2esp', 'm112_3a', 'm112_3b', 'm112_3c', 'm112_3d', 'm112_3e', 'm112_3esp', 'm113_1a',

In [29]:
# Definir columnas relevantes para menores
columnas_utiles_menores = [
    'folio',         # folio consecutivo de vivienda (clave para merge)
    'intp',          # número de persona en el hogar
    'entidad',       # entidad federativa
    'munici',        # municipio
    'locali',        # localidad
    'sexo',          # sexo
    'edad',          # edad en años
    'dia_nac',       # día de nacimiento
    'mes_nac',       # mes de nacimiento
    'anio_nac',      # año de nacimiento
    'est_urb',       # urbano/rural (1 si urbano)
    'est_marg',      # nivel de marginación
    'pondef'         # ponderador individual
]

# Filtrar DataFrame Menores
menores_util = Menores[columnas_utiles_menores].copy()

# Verificar primeras filas y tipos de dato
print(menores_util.head())
print(menores_util.dtypes)


   folio  intp  entidad  munici  locali  sexo  edad  dia_nac  mes_nac  \
0  10001     5        1       1       1     1     9        6       10   
1  10003     5        1       1       1     1     2       13       10   
2  10007     5        1       1       1     2     4       25        2   
3  10008     4        1       1       1     2     9        3       12   
4  10008     5        1       1       1     2     4       25        9   

   anio_nac  est_urb  est_marg      pondef  
0      2002        3         1  322.875051  
1      2009        3         1  275.785859  
2      2007        3         1  277.627299  
3      2002        3         1  380.995753  
4      2007        3         1  277.627299  
folio         int64
intp          int64
entidad       int64
munici        int64
locali        int64
sexo          int64
edad          int64
dia_nac       int64
mes_nac       int64
anio_nac      int64
est_urb       int64
est_marg      int64
pondef      float64
dtype: object


Vars

- `folio` = identificador único del hogar (folio de vivienda)
- `intp` = identificador de la persona dentro del hogar
- `entidad` = clave de la entidad federativa (estado)
- `munici` = clave del municipio
- `locali` = clave de la localidad
- `sexo` = sexo de la persona (1 = hombre, 2 = mujer)
- `edad` = edad en años cumplidos
- `dia_nac` = día de nacimiento
- `mes_nac` = mes de nacimiento
- `anio_nac` = año de nacimiento
- `est_urb` = indicador de zona urbana (1 = urbano, 0 = rural)
- `est_marg` = nivel de marginación del área
- `pondef` = ponderador del individuo (factor de expansión muestral)


In [30]:
menores_util.shape

(28202, 13)

In [31]:
menores_util.isnull().sum().sort_values(ascending=False)

folio       0
intp        0
entidad     0
munici      0
locali      0
sexo        0
edad        0
dia_nac     0
mes_nac     0
anio_nac    0
est_urb     0
est_marg    0
pondef      0
dtype: int64

----

## Merge tables and create unique ID for each individual 

En menores_util, hay identificadores como folio (hogar) e intp (persona dentro del hogar), pero estos no identifican de forma única a la persona a nivel nacional.

Necesitamos un ID único por persona para poder usar esta tabla en análisis individuales (modelo de curvas de crecimiento).

Además, queremos agrupar por hogar para hacer modelos jerárquicos (por ejemplo, agrupar por folio_vivienda).

In [32]:
print("folio_vivienda:", folio_vivienda.columns.tolist())
print("hogar_util:", hogar_util.columns.tolist())
print("integrantes_util:", integrantes_util.columns.tolist())
print("menores_util:", menores_util.columns.tolist())


folio_vivienda: ['folio_consecutivo', 'folio_vivienda']
hogar_util: ['folio_consecutivo', 'entidad', 'munici', 'locali', 'deciles', 'est_urb', 'est_marg', 'pondeh']
integrantes_util: ['folio', 'intp', 'entidad', 'munici', 'locali', 'sexo', 'edad', 'meses', 'dia_nac', 'mes_nac', 'anio_nac', 'afilia_1ra', 'afilia_tras', 'est_urb', 'est_marg', 'pondei']
menores_util: ['folio', 'intp', 'entidad', 'munici', 'locali', 'sexo', 'edad', 'dia_nac', 'mes_nac', 'anio_nac', 'est_urb', 'est_marg', 'pondef']


In [33]:
# 1. Renombrar 'folio' como 'folio_consecutivo' en donde sea necesario
for df in [integrantes_util, menores_util]:
    if 'folio' in df.columns:
        df.rename(columns={'folio': 'folio_consecutivo'}, inplace=True)

# 2. Convertir identificadores a string para merge
for df in [folio_vivienda, hogar_util, integrantes_util, menores_util]:
    for col in ['folio_consecutivo', 'intp']:
        if col in df.columns:
            df[col] = df[col].astype(str)

# 3. Crear id_persona (único por hogar y persona)
for df in [integrantes_util, menores_util]:
    if 'folio_consecutivo' in df.columns and 'intp' in df.columns:
        df['id_persona'] = df['folio_consecutivo'] + "_" + df['intp']

# 4. Agregar folio_vivienda a integrantes y menores
integrantes_util = integrantes_util.merge(
    folio_vivienda, on="folio_consecutivo", how="left"
)

menores_util = menores_util.merge(
    folio_vivienda, on="folio_consecutivo", how="left"
)

# 5. Agregar variables individuales a menores_util desde integrantes
menores_util = menores_util.merge(
    integrantes_util[["id_persona", "meses", "afilia_1ra", "afilia_tras", "pondei"]],
    on="id_persona",
    how="left"
)

# 6. Agregar variables de hogar desde hogar_util
menores_util = menores_util.merge(
    hogar_util[["folio_consecutivo", "deciles", "pondeh"]],
    on="folio_consecutivo",
    how="left"
)

# 7. Validaciones finales
print("Columnas finales:", menores_util.columns.tolist())
print("Duplicados en id_persona:", menores_util["id_persona"].duplicated().sum())
print("Filas totales:", len(menores_util))


Columnas finales: ['folio_consecutivo', 'intp', 'entidad', 'munici', 'locali', 'sexo', 'edad', 'dia_nac', 'mes_nac', 'anio_nac', 'est_urb', 'est_marg', 'pondef', 'id_persona', 'folio_vivienda', 'meses', 'afilia_1ra', 'afilia_tras', 'pondei', 'deciles', 'pondeh']
Duplicados en id_persona: 0
Filas totales: 28202


In [34]:
menores_final = menores_util


In [35]:
print(menores_final.shape)
print(menores_final["id_persona"].nunique())

(28202, 21)
28202


In [36]:
# Guardar en csv en data/processed

output_path = "../data/processed/menores_final.csv"
menores_final.to_csv(output_path, index=False)

output_path

'../data/processed/menores_final.csv'