
# Pipelines, ColumnTransformer y Preprocesamiento de Datos

En Machine Learning, preparar correctamente los datos es crucial. Los **pipelines** permiten encadenar transformaciones y modelos, manteniendo el código limpio y reproducible.

El **ColumnTransformer** permite aplicar diferentes transformaciones a columnas específicas (numéricas, categóricas, fechas, etc.).

---

## Objetivos del notebook

- Usar `Pipeline` para encadenar pasos de transformación y modelado.
- Usar `ColumnTransformer` para transformar columnas por tipo.
- Aplicar transformaciones a variables numéricas, categóricas y de fecha.


In [None]:

import pandas as pd
import numpy as np

# Dataset simulado
df = pd.DataFrame({
    'edad': [25, 32, 47, 51, 62],
    'salario': [50000, 64000, 120000, 98000, 150000],
    'genero': ['M', 'F', 'F', 'M', 'F'],
    'ciudad': ['Bogotá', 'Medellín', 'Cali', 'Bogotá', 'Cali'],
    'fecha_ingreso': pd.to_datetime(['2020-01-01', '2019-05-21', '2018-07-10', '2021-03-15', '2017-11-30']),
    'compró': [0, 1, 1, 0, 1]
})

df.head()



## Tipos de variables y transformaciones aplicables

| Tipo          | Ejemplo        | Transformación Sugerida         |
|---------------|----------------|----------------------------------|
| Numérica      | Edad, Salario  | Escalado (StandardScaler, MinMax) |
| Categórica    | Género, Ciudad | Codificación (OneHotEncoder, OrdinalEncoder) |
| Fecha         | Fecha Ingreso  | Extracción de año, mes, día, antigüedad |



In [None]:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, FunctionTransformer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression

# Función para transformar fecha a antigüedad en días
def calcular_antiguedad(X):
    return (pd.Timestamp('2024-01-01') - pd.to_datetime(X)).dt.days.to_frame()

preprocesador = ColumnTransformer(transformers=[
    ('num', StandardScaler(), ['edad', 'salario']),
    ('cat', OneHotEncoder(), ['genero', 'ciudad']),
    ('fecha', FunctionTransformer(calcular_antiguedad, validate=False), ['fecha_ingreso'])
])


In [None]:

# Pipeline completo con modelo
pipeline = Pipeline(steps=[
    ('preprocesamiento', preprocesador),
    ('clasificador', LogisticRegression())
])

# Separar X e y
X = df.drop(columns='compró')
y = df['compró']

# Ajustar modelo
pipeline.fit(X, y)
print("Modelo entrenado con éxito.")


In [None]:

# Transformar datos y mostrar
X_transformado = pipeline.named_steps['preprocesamiento'].transform(X)
print("Forma de X transformado:", X_transformado.shape)



## Ejercicio Final

1. Agrega una nueva variable categórica o de texto al dataset (ej. ocupación).
2. Añade una transformación específica para esa nueva columna.
3. Cambia el modelo final del pipeline a un árbol de decisión (`DecisionTreeClassifier`) y entrena nuevamente.

¿Puedes visualizar cómo cambia la forma de los datos transformados?
