<a href="https://colab.research.google.com/github/ejyepezm/PPIA/blob/main/unidad_3_aplicaciones_python/1_Pipelines_ScikitLearn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üíä C√°psula 1: El Modelo Robusto (ML Pipelines)
**Tema:** Scikit-learn Pipelines, ColumnTransformer y Prevenci√≥n de Data Leakage.

## 1. El enemigo silencioso: Data Leakage

Cuando entrenas un modelo, sigues pasos: Imputar nulos -> Escalar datos -> Entrenar.
El error novato #1 es hacer esto:
1.  Escalar TODO el dataset.
2.  Dividir en Train/Test.

**¬øEl problema?** Al escalar todo junto, el conjunto de Test (el futuro) "contamin√≥" el promedio y la desviaci√≥n est√°ndar del conjunto de Train. Tu modelo sabe cosas del futuro que no deber√≠a saber.

### La Soluci√≥n: Scikit-learn Pipeline
Un `Pipeline` encadena estos pasos en un solo objeto.
*   Cuando llamas `fit()`: Aprende los promedios SOLO de los datos de entrenamiento.
*   Cuando llamas `predict()`: Aplica esas transformaciones guardadas a los nuevos datos autom√°ticamente.

**ColumnTransformer:** Nos permite aplicar transformaciones diferentes a columnas num√©ricas (Escalar) y categ√≥ricas (OneHotEncoding) en el mismo flujo.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# --- DATOS DE JUGUETE ---
# Imaginemos datos m√©dicos: Edad (num√©rico) y Resultado (Target)
data = pd.DataFrame({
    'Edad': [25, 30, 45, 35, 60, None, 22, 50], # Tiene un nulo
    'Colesterol': [180, 200, 240, 210, 290, 190, 170, 250],
    'Enfermedad': [0, 0, 1, 0, 1, 0, 0, 1]
})

# Dividimos ANTES de tocar nada (Regla de oro)
X = data[['Edad', 'Colesterol']]
y = data['Enfermedad']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print("--- CONSTRUYENDO PIPELINE ---")

# Creamos el tubo de procesamiento
# Paso 1: Rellenar nulos con la media
# Paso 2: Escalar (StandardScaler)
# Paso 3: Modelo (Regresi√≥n Log√≠stica)
pipeline_medico = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler()),
    ('model', LogisticRegression())
])

# Entrenamos TODO el flujo de una vez
pipeline_medico.fit(X_train, y_train)
print("‚úÖ Pipeline entrenado exitosamente.")

# Predecimos (El pipeline se encarga de imputar y escalar el test set autom√°ticamente)
predicciones = pipeline_medico.predict(X_test)
print(f"Predicciones: {predicciones}")
print(f"Accuracy: {accuracy_score(y_test, predicciones):.2f}")

## üî• Micro-Desaf√≠o: El "ColumnTransformer"

En la vida real, los datos son mixtos. Tienes columnas num√©ricas (Edad) y categ√≥ricas (Ciudad). No puedes escalar una ciudad ("Madrid"), y no puedes hacer OneHotEncoding de una edad.

**Tu Misi√≥n:**
Tienes un dataset de Clientes con:
*   Num√©ricas: `Gasto`, `Visitas`
*   Categ√≥ricas: `Genero`

Construye un **Preprocesador H√≠brido** usando `ColumnTransformer`:
1.  A las num√©ricas: Aplica `SimpleImputer` (media) y `StandardScaler`.
2.  A las categ√≥ricas: Aplica `SimpleImputer` (moda/most_frequent) y `OneHotEncoder`.
3.  Une todo en un Pipeline final con un modelo `RandomForestClassifier`.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestClassifier

# Datos mixtos
df_reto = pd.DataFrame({
    'Gasto': [100, 200, None, 300, 150],
    'Visitas': [1, 5, 2, 8, 3],
    'Genero': ['F', 'M', 'F', None, 'M'],
    'Compra': [0, 1, 0, 1, 0]
})

X = df_reto.drop('Compra', axis=1)
y = df_reto['Compra']

# Definimos qu√© columnas son cu√°les
cols_num = ['Gasto', 'Visitas']
cols_cat = ['Genero']

# --- TU C√ìDIGO AQU√ç ---

# 1. Pipeline para Num√©ricas
pipe_num = Pipeline([
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# 2. Pipeline para Categ√≥ricas
pipe_cat = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('encoder', OneHotEncoder(handle_unknown='ignore')) # handle_unknown es clave en producci√≥n
])

# 3. El Transformador de Columnas (El cerebro que divide)
# TODO: Completa el ColumnTransformer
# preprocesador = ColumnTransformer([
#     ('num', pipe_num, cols_num),
#     ('cat', ..., ...)
# ])
preprocesador = None # REEMPLAZA ESTO

# 4. Pipeline Final (Preprocesador + Modelo)
# TODO: Crea el Pipeline final usando RandomForestClassifier
pipeline_final = None # REEMPLAZA ESTO

# --- VALIDACI√ìN (No tocar) ---
try:
    if pipeline_final:
        pipeline_final.fit(X, y)
        print("‚úÖ ¬°√âxito! El pipeline h√≠brido entren√≥ correctamente.")
        print("Clases del modelo:", pipeline_final.named_steps['model'].classes_)
    else:
        print("‚ùå Falta definir el pipeline_final.")
except Exception as e:
    print(f"‚ùå Error: {e}")
    print("Pista: Revisa los nombres de las columnas y los pasos del ColumnTransformer.")