# Sesión 1 - Apartado 5: Taller completo

En este taller aplicaremos todo lo aprendido hasta ahora:

- Limpieza de datos.
- Preprocesamiento de variables numéricas y categóricas.
- Ingeniería de características.
- Construcción de un pipeline completo.
- Evaluación inicial del modelo.


In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.base import BaseEstimator, TransformerMixin

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LogisticRegression

import joblib

## 1. Carga de datos y visualización

- Usaremos el dataset `../data/raw/mini_titanic.csv` (columnas: sex, class, age, fare, survived).
- Carga el CSV con pandas y echa un vistazo con `head()` y `info()`.

In [None]:
# Dataset
# TODO: Carga el dataset mini_titanic
df = None

# TODO: Visualiza las primeras filas

# TODO (opcional): Revisa tipos y nulos rápidos

In [None]:
# Visualización de datos

#TODO: Visualiza la distribución de 'age' y 'fare' con histogramas

#TODO: Visualiza la relación entre 'age' y 'fare' con un scatter plot, coloreado por 'survived'


## 2. Preparación del dataset

- Define las variables de entrada X y la variable objetivo y.
- Usa columnas numéricas y categóricas: ['age','fare'] y ['sex','class'] respectivamente.
- Objetivo: 'survived'.

In [None]:
# TODO: Define columnas y separa X e y
# Pista:
# target = 'survived'
# feature_cols = ['age','fare','sex','class']

X = None
y = None

## 3. Ingeniería de características personalizada

- Crea un transformador `FeatureEngineer` que añada features simples basadas en columnas existentes.
- Ideas (elige 1-2):
  - `Age_Fare` = age * fare (interacción numérica)
  - `Class_initial` = primera letra de `class`
  - `Fare_log` = log1p(fare)
- Implementa en el método `transform` y devuelve un DataFrame con las nuevas columnas.

In [None]:
# TODO: Implementa un transformador de ingeniería de características

class FeatureEngineer(BaseEstimator, TransformerMixin):
    def fit(self, X, y=None):
        return self
    
    def transform(self, X):
        X_ = X.copy()
        # TODO: Crea 1-2 nuevas columnas. Ejemplos:
        return X_

## 4. Construcción del pipeline
Incluye:
- Imputación de nulos (numéricas: mediana; categóricas: más frecuente).
- Escalado de numéricas con StandardScaler.
- Codificación OneHot de categóricas con handle_unknown='ignore'.
- Ingeniería de características personalizada.
- Modelo final: LogisticRegression.

Notas:
- Columnas numéricas: `['age','fare']`
- Columnas categóricas: `['sex','class', 'Class_initial' (si la creaste)]`

In [None]:
# TODO: Define columnas por tipo (usa nombres correctos)
num_cols = []
# Si agregaste 'Class_initial' en FeatureEngineer, inclúyela aquí
cat_cols = []  # + ['Class_initial'] opcional

num_transformer = None

# TODO: Preprocesamiento categórico
cat_transformer = None

# TODO: ColumnTransformer
preprocessor = None

# TODO: Pipeline completo
pipe = Pipeline(steps=[
    ('feature_engineer', FeatureEngineer()),
    # preprocessor
    ('model', LogisticRegression(max_iter=1000))
])

## 5. Evaluación con conjunto de prueba

- Separa train/test (20%) con `train_test_split`.
- Considera `stratify=y` para clases balanceadas.
- Entrena el pipeline y reporta `accuracy` en test.
- Extiende con métricas extra (opcional): matriz de confusión y classification_report.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

pipe.fit(X_train, y_train)
print("Score en test:", pipe.score(X_test, y_test))

## 6. Guardar y cargar el pipeline (opcional)

- Guarda el pipeline entrenado con `joblib.dump` en `../data/processed/titanic_pipeline.joblib`.
- Carga el pipeline y verifica el `score` en test.
- Esto simula el flujo de producción (S1_A3).

In [None]:
# TODO: Guardar el pipeline entrenado

# TODO: Cargar el pipeline y evaluar