# Préprocessing des données

## Objectif
Préparer les données pour la phase de modélisation :
- séparation des variables explicatives et de la variable cible
- Avoir un pipeline adaptable et ré-utilisable : encodage des variables catégorielles



In [11]:
import pandas as pd
import numpy as np
import joblib
import os

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer



In [12]:
train_df = pd.read_csv("../data/processed/train_clean.csv")

Separation X/Y

In [13]:
# Variable cible
y = train_df["SalePrice"]

# Variables explicatives
X = train_df.drop("SalePrice", axis=1)

print(X.shape, y.shape)


(1460, 71) (1460,)


Séparation train / validation

In [14]:
X_train, X_valid, y_train, y_valid = train_test_split(
    X, y, test_size=0.2, random_state=42
)

Préprocessing

In [15]:

# Séparer les types de variables
numeric_features = train_df.select_dtypes(include=["int64", "float64"]).drop(columns=['SalePrice']).columns
categorical_features = train_df.select_dtypes(include=["object"]).columns

# Pipeline pour les numériques
numeric_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="median"))
])

# Pipeline pour les catégorielles
categorical_transformer = Pipeline(steps=[
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("encoder", OneHotEncoder(handle_unknown="ignore"))
])

# Préprocesseur complet
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features)
    ]
)


Sauvegarder le préprocesseur

In [16]:

os.makedirs("jobs", exist_ok=True)

# Sauvegarde du pipeline
joblib.dump(preprocessor, "jobs/preprocessor.joblib")

print("Préprocesseur sauvegardé dans 'jobs/preprocessor.joblib'")


Préprocesseur sauvegardé dans 'jobs/preprocessor.joblib'
