## Preprocessing for ENSANUT 2012 - Componente de NUTRICION (Bases trabajadas)

https://ensanut.insp.mx/encuestas/ensanut2012/descargas.php


- `actividad_fisica_menores.csv`  
  → Información sobre actividad física en menores de edad

- `antropometria_escolares.csv`  
  → Mediciones antropométricas de niños en edad escolar

- `antropometria_preesc.csv`  
  → Mediciones antropométricas de niños en edad preescolar

- `frecuencia_escolares_colapsada.csv`  
  → Frecuencia alimentaria de escolares (tabla colapsada)

- `frecuencia_escolares_nutrimentos.csv`  
  → Frecuencia de consumo de nutrimentos en escolares

- `frecuencia_preescolares_colapsada.csv`  
  → Frecuencia alimentaria de preescolares (tabla colapsada)

- `frecuencia_preescolares_nutrimentos.csv`  
  → Frecuencia de consumo de nutrimentos en preescolares

- `Frecuencia-dias-Escolares1.csv`  
  → Registro detallado de días de consumo para escolares (parte 1)

- `Frecuencia-dias-Escolares2.csv`  
  → Registro detallado de días de consumo para escolares (parte 2)

- `Frecuencia-dias-Preescolares1.csv`  
  → Registro detallado de días de consumo para preescolares (parte 1)

- `Frecuencia-dias-Preescolares2.csv`  
  → Registro detallado de días de consumo para preescolares (parte 2)

- `practicas_alim_inf_2012_F.csv`  
  → Prácticas de alimentación infantil

- `recordatorio_de_24_horas_1.csv`  
  → Recordatorio de 24 horas de consumo (parte 1)

- `recordatorio_de_24_horas_2.csv`  
  → Recordatorio de 24 horas de consumo (parte 2)

- `sangre_anemia_escolar.csv`  
  → Resultados de hemoglobina en escolares

- `sangre_anemia_preescol.csv`  
  → Resultados de hemoglobina en preescolares


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import sys
import os

---

### actividad_fisica_menores

In [2]:
actividad_fisica = pd.read_csv(
    "../data/raw_nutricion/actividad_fisica_menores.csv",
    encoding="latin1",
    na_values=["", " ", "NA"],
    low_memory=False
)

actividad_fisica.columns = actividad_fisica.columns.str.replace("ï»¿", "")

In [3]:
actividad_fisica

Unnamed: 0,folio,intp,entidad,desc_ent,munici,desc_mun,locali,desc_loc,manzana,ageb,...,an405cat,ur_ru,catmon2,imc_cat,nsef,nse5f,indicef,nse10f,escolari,region
0,10001,,,,,,,,,,...,,,,,,5.0,3.310654,10.0,,
1,10003,,,,,,,,,,...,,,,,,5.0,3.310654,10.0,,
2,10005,,,,,,,,,,...,,,,,,5.0,2.397098,10.0,,
3,10006,,,,,,,,,,...,,,,,,5.0,2.397098,10.0,,
4,10007,,,,,,,,,,...,,,,,,4.0,1.644975,8.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50549,321855,,,,,,,,,,...,,,,,,2.0,-1.379055,3.0,,
50550,321857,,,,,,,,,,...,,,,,,4.0,1.027074,7.0,,
50551,321858,,,,,,,,,,...,,,,,,2.0,-1.376276,3.0,,
50552,321860,,,,,,,,,,...,,,,,,3.0,0.363410,6.0,,


In [11]:
actividad_fisica.isna().sum().sort_values(ascending=False)

manzana     50554
an405esp    50512
an408esp    50462
an408j      49127
an408i      49127
            ...  
an405com    47134
nse5f          26
indicef        26
nse10f         26
folio           0
Length: 93, dtype: int64

In [4]:
actividad_fisica.columns

Index(['folio', 'intp', 'entidad', 'desc_ent', 'munici', 'desc_mun', 'locali',
       'desc_loc', 'manzana', 'ageb', 'maq', 'completa', 'sexo', 'edad_i',
       'edad', 'intsel', 'intsel2', 'an401a', 'an401b', 'an402a', 'an402b',
       'an403', 'an404', 'an405', 'an405esp', 'an406a', 'an406b', 'an407',
       'an408a', 'an408b', 'an408c', 'an408d', 'an408e', 'an408f', 'an408g',
       'an408h', 'an408i', 'an408j', 'an408k', 'an408l', 'an408m', 'an408n',
       'an408o', 'an408p', 'an408q', 'an408r', 'an408s', 'an408t', 'an408esp',
       'code_upm', 'est_dis', 'est_urb', 'est_marg', 'pondef', 'est_var',
       'an405com', 'an408u', 'an408v', 'an408w', 'an408x', 'an408y', 'an408z',
       'an408aa', 'an408ab', 'an408ac', 'an408ad', 'an408ae', 'an408af',
       'an408ag', 'an408ah', 'hrsuesem', 'hrsuefnsem', 'hrsuesemh',
       'hrsuefnsemh', 'an403m', 'an403ms', 'an404m', 'an404ms', 'an403mst',
       'an406amt', 'an406mtc', 'an407cat1', 'an403cat2', 'an405cat', 'ur_ru',
       'catmon

In [5]:
# Seleccionar y renombrar columnas clave
cols_utiles = {
    'folio': 'folio',
    'intp': 'intp',
    'entidad': 'entidad',
    'munici': 'munici',
    'locali': 'locali',
    'sexo': 'sexo',
    'edad': 'edad',

    # Tiempo frente a pantallas
    'an403': 'minutos_tv_dia_semana',
    'an404': 'minutos_tv_dia_finsemana',
    'an405': 'tipo_contenido_visto',

    # Actividad física
    'an406a': 'dias_act_fisica_semana',
    'an406b': 'minutos_act_fisica_dia',
    'an407': 'tipo_actividad',

    # Sueño
    'hrsuesem': 'horas_sueno_semana',
    'hrsuefnsem': 'horas_sueno_finsemana',

    # Contexto y expansión
    'est_urb': 'zona_urbana',
    'est_marg': 'nivel_marginacion',
    'pondef': 'ponderador',

    # Variables sociodemográficas
    'nse5f': 'nivel_socioeconomico',
    'escolari': 'escolaridad_madre',
    'region': 'region'
}

# 3. Crear dataframe con variables renombradas
actividad_fisica_clean = actividad_fisica[list(cols_utiles.keys())].rename(columns=cols_utiles).copy()


In [6]:
actividad_fisica_clean

Unnamed: 0,folio,intp,entidad,munici,locali,sexo,edad,minutos_tv_dia_semana,minutos_tv_dia_finsemana,tipo_contenido_visto,...,minutos_act_fisica_dia,tipo_actividad,horas_sueno_semana,horas_sueno_finsemana,zona_urbana,nivel_marginacion,ponderador,nivel_socioeconomico,escolaridad_madre,region
0,10001,,,,,,,,,,...,,,,,,,,5.0,,
1,10003,,,,,,,,,,...,,,,,,,,5.0,,
2,10005,,,,,,,,,,...,,,,,,,,5.0,,
3,10006,,,,,,,,,,...,,,,,,,,5.0,,
4,10007,,,,,,,,,,...,,,,,,,,4.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50549,321855,,,,,,,,,,...,,,,,,,,2.0,,
50550,321857,,,,,,,,,,...,,,,,,,,4.0,,
50551,321858,,,,,,,,,,...,,,,,,,,2.0,,
50552,321860,,,,,,,,,,...,,,,,,,,3.0,,


In [7]:
actividad_fisica_clean.isna().sum().sort_values(ascending=False)

dias_act_fisica_semana      47271
minutos_act_fisica_dia      47271
tipo_contenido_visto        47155
escolaridad_madre           47155
ponderador                  47155
nivel_marginacion           47155
zona_urbana                 47155
tipo_actividad              47155
intp                        47155
region                      47155
minutos_tv_dia_finsemana    47155
minutos_tv_dia_semana       47155
edad                        47155
sexo                        47155
locali                      47155
munici                      47155
entidad                     47155
horas_sueno_semana          47154
horas_sueno_finsemana       47153
nivel_socioeconomico           26
folio                           0
dtype: int64

In [9]:
# Filas donde todo está vacío (puede haber artefactos)
actividad_fisica_clean = actividad_fisica_clean.dropna(how='all')


In [8]:
# Tipos de variables
actividad_fisica_clean.dtypes


folio                         int64
intp                        float64
entidad                     float64
munici                      float64
locali                      float64
sexo                        float64
edad                        float64
minutos_tv_dia_semana       float64
minutos_tv_dia_finsemana    float64
tipo_contenido_visto        float64
dias_act_fisica_semana      float64
minutos_act_fisica_dia      float64
tipo_actividad              float64
horas_sueno_semana          float64
horas_sueno_finsemana       float64
zona_urbana                 float64
nivel_marginacion           float64
ponderador                  float64
nivel_socioeconomico        float64
escolaridad_madre           float64
region                      float64
dtype: object

In [10]:
actividad_fisica_clean.shape

(50554, 21)

In [13]:
print(actividad_fisica_clean.columns.tolist())


['folio', 'intp', 'entidad', 'munici', 'locali', 'sexo', 'edad', 'minutos_tv_dia_semana', 'minutos_tv_dia_finsemana', 'tipo_contenido_visto', 'dias_act_fisica_semana', 'minutos_act_fisica_dia', 'tipo_actividad', 'horas_sueno_semana', 'horas_sueno_finsemana', 'zona_urbana', 'nivel_marginacion', 'ponderador', 'nivel_socioeconomico', 'escolaridad_madre', 'region']


In [14]:
# Definir variables clave con los nombres correctos
vars_clave = ['dias_act_fisica_semana', 'minutos_act_fisica_dia', 'edad', 'sexo']

# Filtrar registros completos
actividad_fisica_valid = actividad_fisica_clean.dropna(subset=vars_clave)

# Verificar dimensiones resultantes
print(actividad_fisica_valid.shape)


(3283, 21)


In [15]:
actividad_fisica_clean[vars_clave].isna().sum()


dias_act_fisica_semana    47271
minutos_act_fisica_dia    47271
edad                      47155
sexo                      47155
dtype: int64

In [16]:
actividad_fisica_clean[vars_clave].notna().sum()


dias_act_fisica_semana    3283
minutos_act_fisica_dia    3283
edad                      3399
sexo                      3399
dtype: int64

#### ESTA TABLA NO SIRVE DE NADA

✅ Tiene 50,554 filas, pero

❌ Sólo ~3,283 filas (~6.5%) tienen datos completos en las variables clave (edad, sexo, días y minutos de actividad física).

❌ La mayoría de las variables específicas de actividad (an408a a an408t, etc.) están vacías o casi vacías (>97% nulos).

❌ Campos geográficos como manzana y ageb están totalmente vacíos.

🧺 En la práctica, es una tabla con buena estructura pero mal capturada o muy incompleta.

---

### antropometria_escolares

In [17]:
antropometria_escolares = pd.read_csv(
    "../data/raw_nutricion/antropometria_escolares.csv",
    encoding="latin1",
    na_values=["", " ", "NA"],
    low_memory=False
)

antropometria_escolares.columns = antropometria_escolares.columns.str.replace("ï»¿", "")

In [18]:
antropometria_escolares

Unnamed: 0,folio,intp,entidad,desc_ent,munici,desc_mun,locali,desc_loc,code_upm,est_dis,...,peso,talla,BAZ_valid,BAZ_CLAS_NUM_SP_OB,indiceF,nseF,nse5F,nse10F,NindiceF,afilia_1ra_x
0,10001,5,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,5,...,28.400,133.55,-0.14,4,3.310654,3,5,10,4,1
1,10008,4,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,5,...,27.775,129.05,0.26,4,-0.281082,2,3,5,2,1
2,10011,4,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,5,...,46.550,146.70,1.63,6,2.565220,3,5,10,4,1
3,10011,5,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,5,...,33.350,128.30,2.24,5,2.565220,3,5,10,4,1
4,10015,6,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,5,...,40.700,148.50,0.91,4,2.666162,3,5,10,4,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16346,321845,3,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,3,...,16.900,107.90,-0.53,4,-3.078561,1,1,1,1,6
16347,321849,7,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,3,...,27.000,119.90,1.55,6,-1.455542,1,1,2,1,6
16348,321857,5,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,3,...,26.450,122.20,1.54,6,1.027074,3,4,7,3,6
16349,321858,6,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,3,...,28.100,135.60,-0.78,4,-1.376276,1,2,3,1,6


In [19]:
antropometria_escolares.columns

Index(['folio', 'intp', 'entidad', 'desc_ent', 'munici', 'desc_mun', 'locali',
       'desc_loc', 'code_upm', 'est_dis', 'est_urb', 'est_marg', 'est_var',
       'pondef', 'sexo', 'Fecha_NAC', 'fech_ter', 'Edad_Meses_calc',
       'edad_anios', 'area', 'region', 'peso', 'talla', 'BAZ_valid',
       'BAZ_CLAS_NUM_SP_OB', 'indiceF', 'nseF', 'nse5F', 'nse10F', 'NindiceF',
       'afilia_1ra_x'],
      dtype='object')

In [20]:
# Definir columnas útiles y nombres más descriptivos
cols_utiles = {
    'folio': 'folio',  # ID del hogar, folio consecutivo
    'intp': 'id_persona',  # ID de la persona dentro del hogar (nominal- util para id)
    'entidad': 'entidad',  # Clave del estado
    'munici': 'municipio',  # Clave del municipio
    'locali': 'localidad',  # Clave de la localidad
    'sexo': 'sexo',  # 1 = Hombre, 2 = Mujer
    'Edad_Meses_calc': 'edad_meses',  # Edad calculada en meses
    'edad_anios': 'edad_anios',  # Edad en años completos
    'peso': 'peso_kg',  # Peso corporal en kilogramos
    'talla': 'talla_cm',  # Talla en centímetros
    'BAZ_valid': 'zscore_imc_para_edad',  # BAZ: Z-score de IMC para la edad según estándares OMS
    'BAZ_CLAS_NUM_SP_OB': 'clasificacion_imc',  # Clasificación del IMC: bajo peso, normal, sobrepeso, obesidad
    'pondef': 'ponderador',  # Ponderador muestral
    'region': 'region'  # Región geográfica
}

# Crear DataFrame limpio con columnas renombradas
antropometria_escolares_clean = (
    antropometria_escolares[list(cols_utiles.keys())]
    .rename(columns=cols_utiles)
    .copy()
)

# Verifica dimensiones y muestra primeras filas
print(antropometria_escolares_clean.shape)
antropometria_escolares_clean.head()


(16351, 14)


Unnamed: 0,folio,id_persona,entidad,municipio,localidad,sexo,edad_meses,edad_anios,peso_kg,talla_cm,zscore_imc_para_edad,clasificacion_imc,ponderador,region
0,10001,5,1,1,1,1,111.507187,108119,28.4,133.55,-0.14,4,643.3107,2
1,10008,4,1,1,1,2,109.601643,108119,27.775,129.05,0.26,4,726.0302,2
2,10011,4,1,1,1,1,138.940452,132143,46.55,146.7,1.63,6,666.4679,2
3,10011,5,1,1,1,1,95.080082,8495,33.35,128.3,2.24,5,602.1836,2
4,10015,6,1,1,1,2,114.398357,108119,40.7,148.5,0.91,4,726.0302,2


In [21]:
antropometria_escolares_clean.isna().sum().sort_values(ascending=False)

folio                   0
id_persona              0
entidad                 0
municipio               0
localidad               0
sexo                    0
edad_meses              0
edad_anios              0
peso_kg                 0
talla_cm                0
zscore_imc_para_edad    0
clasificacion_imc       0
ponderador              0
region                  0
dtype: int64

In [22]:
antropometria_escolares.shape

(16351, 31)

---

### antropometria_preesc

In [23]:
antropometria_preesc = pd.read_csv(
    "../data/raw_nutricion/antropometria_preesc.csv",
    encoding="latin1",
    na_values=["", " ", "NA"],
    low_memory=False
)

antropometria_preesc.columns = antropometria_preesc.columns.str.replace("ï»¿", "")

In [24]:
antropometria_preesc

Unnamed: 0,folio,intp,entidad,desc_ent,munici,desc_mun,locali,desc_loc,code_upm,est_var,...,BAZ_valid,WHZ_CLAS_NUM,HAZ_CLAS_NUM,WAZ_CLAS_NUM,BAZ_CLAS_PREESC_NUM,indiceF,nseF,nse5F,nse10F,NindiceF
0,10008,5,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,15,...,1.21,3,3,3,3,-0.281082,2,3,5,2
1,10011,6,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,15,...,2.00,2,3,3,3,2.565220,3,5,10,4
2,10015,8,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,15,...,0.11,3,3,3,3,2.666162,3,5,10,4
3,10033,7,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,15,...,0.88,3,2,3,3,1.671566,3,5,9,3
4,10035,6,1,01 AGUASCALIENTES,1,001 AGUASCALIENTES,1,0001 AGUASCALIENTES,M0101,15,...,0.42,3,3,3,3,2.371507,3,5,10,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10653,321837,4,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,323,...,1.71,3,1,3,3,-0.549147,2,2,4,2
10654,321838,6,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,323,...,-0.63,3,3,3,3,-0.202596,2,3,5,2
10655,321843,4,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,323,...,1.29,3,3,3,3,1.061353,3,4,8,3
10656,321860,4,32,32 ZACATECAS,57,057 TRANCOSO,1,0001 TRANCOSO,M3248,323,...,2.70,2,3,3,5,0.363410,2,3,6,2


In [25]:
antropometria_preesc.columns

Index(['folio', 'intp', 'entidad', 'desc_ent', 'munici', 'desc_mun', 'locali',
       'desc_loc', 'code_upm', 'est_var', 'est_dis', 'est_urb', 'est_marg',
       'pondef', 'sexo', 'Fecha_NAC', 'fech_ter', 'EDAD_ANIOS',
       'Edad_Meses_calc', 'area', 'region', 'Peso', 'Talla', 'WHZ_Valid',
       'HAZ_valid', 'WAZ_valid', 'BAZ_valid', 'WHZ_CLAS_NUM', 'HAZ_CLAS_NUM',
       'WAZ_CLAS_NUM', 'BAZ_CLAS_PREESC_NUM', 'indiceF', 'nseF', 'nse5F',
       'nse10F', 'NindiceF'],
      dtype='object')