# Análisis Exploratorio de Datos - Encuesta CASEN

Este notebook tiene como objetivo explorar una base de datos CASEN en formato `.dta`, identificar variables relevantes para el estudio de **migración y salud**, y generar un subset para análisis posteriores.

In [None]:
# Librerías necesarias
import pandas as pd
import pyreadstat

# Ruta al archivo .dta
ruta = 'datos/CASEN_2022.dta'

# Cargar datos sin aplicar etiquetas (para evitar errores)
df = pd.read_stata(ruta, convert_categoricals=False)

print(f"Shape: {df.shape}")
df.head()

## Revisión General de Columnas

In [None]:
# Lista de nombres de columnas
df.columns.tolist()[:30]  # Mostrar las primeras 30

## Buscar Variables Relevantes (Migración y Salud)

In [None]:
# Columnas relacionadas con salud
salud_cols = [col for col in df.columns if 'salud' in col.lower()]
print("Columnas relacionadas con salud:", salud_cols)

# Columnas relacionadas con migración o nacionalidad
mig_cols = [col for col in df.columns if 'migra' in col.lower() or 'nacion' in col.lower()]
print("Columnas relacionadas con migración:", mig_cols)

## Valores Nulos y Distribución de Variables Clave

In [None]:
# Porcentaje de valores nulos
df.isnull().mean().sort_values(ascending=False).head(20)

## Guardar Subconjunto de Columnas Relevantes

In [None]:
# Selección manual de columnas clave (modificar según resultados anteriores)
cols_interes = ['region', 'comuna', 'sexo', 'edad', 'nacionalidad']  # ejemplo
subset = df[cols_interes].copy()

# Guardar como CSV
subset.to_csv('../data/procesed_data/casen_subset.csv', index=False)