# Preprocesamiento de Datos - Pipeline I  
Este notebook carga los datos de Ames Housing, aplica transformaciones necesarias y guarda el preprocesador para ser utilizado en Pipeline II.

In [4]:
import os
import pandas as pd
import numpy as np
import joblib
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer

In [5]:
# 📂 Definir ruta relativa a los datos
DATA_PATH = os.path.join("..", "data", "AmesHousing_train.csv")

In [6]:
# Cargar datos
df = pd.read_csv(DATA_PATH)

In [7]:
# Separar features y target
X = df.drop(columns=["SalePrice"])  # Variables predictoras
y = df["SalePrice"]  # Variable objetivo

In [8]:
# Identificar tipos de variables
num_features = X.select_dtypes(include=["int64", "float64"]).columns
cat_features = X.select_dtypes(include=["object"]).columns

In [9]:
# 1️⃣ Preprocesamiento de variables numéricas
num_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median")),  # Rellena valores nulos con la mediana
    ("scaler", StandardScaler())  # Normalización/Estandarización
])

In [10]:
# 2️⃣ Preprocesamiento de variables categóricas
cat_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),  # Rellena valores nulos con el más frecuente
    ("onehot", OneHotEncoder(handle_unknown="ignore"))  # Evita errores con nuevas categorías
])

In [11]:
# 3️⃣ Combinar transformadores en un ColumnTransformer
preprocessor = ColumnTransformer(transformers=[
    ("num", num_transformer, num_features),
    ("cat", cat_transformer, cat_features)
])

In [12]:
# 4️⃣ Guardar preprocesador para uso en Pipeline II
PREPROCESSOR_PATH = os.path.join("..", "models", "preprocessor.pkl")
joblib.dump(preprocessor, PREPROCESSOR_PATH)

print(f"✅ Preprocesador guardado en {PREPROCESSOR_PATH}")

✅ Preprocesador guardado en ..\models\preprocessor.pkl


In [13]:
# Prueba el preprocesador con una muestra de datos
X_transformed = preprocessor.fit_transform(X)

print(f"✅ Preprocesador probado con éxito. Dimensión de salida: {X_transformed.shape}")

✅ Preprocesador probado con éxito. Dimensión de salida: (2197, 305)
