# Exploración inicial – ENNyS2

Objetivo: validar estructura, tipos de datos y calidad general de los microdatos antes de la limpieza y modelado analítico.


In [2]:
import zipfile
import os


In [3]:
zip_path = "ennys2_encuesta.zip"
extract_path = "ennys2_encuesta"

with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    zip_ref.extractall(extract_path)

os.listdir(extract_path)


['ENNyS2_encuesta.csv']

In [6]:
import pandas as pd

df = pd.read_csv("ennys2_encuesta/ENNyS2_encuesta.csv", low_memory=False)


In [5]:
df.shape


(21358, 1830)

In [8]:
df.columns

Index(['id', 'Srvyr', 'Duration', 'Upload', 'Status', 'VStart', 'VEnd',
       'MHDR_KEY', 'E_CUEST', 'C1_FECHA',
       ...
       'TL_semanal_min_adol', 'TL_finde_min_adol', 'TL_semanal_tot_min_adol',
       'TOL_semanal_min_adol', 'TOL_finde_min_adol',
       'TOL_semanal_tot_min_adol', 'ESC_semanal_min_adol',
       'ESC_finde_min_adol', 'ESC_semanal_tot_min_adol', 'activo_OMS_adol'],
      dtype='object', length=1830)

In [9]:
df.dtypes


Unnamed: 0,0
id,int64
Srvyr,object
Duration,object
Upload,int64
Status,object
...,...
TOL_semanal_tot_min_adol,object
ESC_semanal_min_adol,object
ESC_finde_min_adol,object
ESC_semanal_tot_min_adol,object


### Tipos de datos – observaciones iniciales

- Se identifican múltiples variables numéricas cargadas como texto.
- Existen columnas con codificaciones técnicas que requerirán recodificación.
- El dataset requiere una etapa de limpieza y selección de variables para análisis analítico.


In [10]:
[col for col in df.columns if "edad" in col.lower()]


['Edadd', 'Edadm', 'edad_m_tramo', 'edad_m2_tramo', 'edad_salida']

### Identificación de la variable edad

Se identificaron múltiples variables relacionadas con la edad:

- `Edadd`: edad en días (población infantil)
- `Edadm`: edad en meses (población infantil)
- `edad_m_tramo`: edad agrupada en tramos
- `edad_m2_tramo`: variante de agrupación etaria
- `edad_salida`: edad final validada por el estudio

Para el análisis poblacional general se utilizará `edad_salida` como variable principal de edad, y `edad_m_tramo` para segmentaciones.


In [11]:
df.isnull().mean().sort_values(ascending=False).head(10)


Unnamed: 0,0
C4_PC_3_5_OtherS,1.0
C1_PC_5_5_OtherS,1.0
C3_PC_3_5_OtherS,1.0
C2_PC_3_5_OtherS,0.99986
C2_V_2_7_OtherS,0.999766
C1_EP_1_19_OtherS,0.999719
C1_SP_3_OtherS,0.999672
SD_3_13_OtherS,0.999485
C2_VINCULO_OtherS,0.999391
C2_V_2_6_OtherS,0.999251


### Valores faltantes – observaciones iniciales

Se identificaron múltiples variables con una proporción de valores faltantes cercana al 100%, lo que indica que corresponden a preguntas aplicadas a subgrupos muy específicos de la población. Estas variables no serán consideradas en el análisis principal y podrán ser excluidas en la etapa de limpieza de datos.
