# 📊 Análisis Exploratorio y Preprocesamiento

Este notebook corresponde al proyecto de clasificación del estado laboral utilizando datos de la Encuesta Permanente de Hogares (EPH). Aquí se realiza la carga, exploración, limpieza y preparación de los datos.

In [None]:
# 📦 Carga de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split

pd.set_option('display.max_columns', None)
sns.set(style="whitegrid")

## 📁 Cargar datos

Asegurate de que el archivo `.csv` esté ubicado en `../data/raw/`

In [None]:
# Ruta al archivo CSV (modificá el nombre si usás otro trimestre)
ruta = '../data/raw/usu_individual_T123.csv'
df = pd.read_csv(ruta, sep=';', encoding='latin1')
df.shape

## 🔍 Exploración inicial

In [None]:
# Ver columnas y muestra
df.columns.tolist()[:15]

In [None]:
# Ver distribución de la variable objetivo (estado laboral)
df['ESTADO'].value_counts(dropna=False)

## 🧼 Preprocesamiento de variables

In [None]:
# Selección de columnas de interés
df = df[['CH04', 'P21', 'NIVEL_ED', 'ESTADO', 'CAT_OCUP', 'RAMAC']].copy()

# Eliminar filas con valores faltantes en estas columnas
df = df.dropna()

# Filtrar solo personas económicamente activas (estado 1 y 2)
df = df[df['ESTADO'].isin([1, 2])]

# Codificar target: 1 = Ocupado, 0 = Desocupado
df['TARGET'] = df['ESTADO'].apply(lambda x: 1 if x == 1 else 0)

## ✂️ División en train/test

In [None]:
# Variables predictoras (features)
X = df.drop(columns=['ESTADO', 'TARGET'])
y = df['TARGET']

# Convertir variables categóricas a dummies (one-hot encoding)
X = pd.get_dummies(X, drop_first=True)

# División train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train.shape, X_test.shape