In [1]:
# Séparation Features / Target
import pandas as pd

df = pd.read_csv("../data/train.csv")

# Séparation X / y
X = df.drop(columns=["target"])
y = df["target"]

# Suppression de l'identifiant (non informatif)
X = X.drop(columns=["ID_code"])

X.shape, y.shape


((200000, 200), (200000,))

In [2]:
# Train / Validation Split (80/20 stratifié)
from sklearn.model_selection import train_test_split

X_train, X_val, y_train, y_val = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

y_train.value_counts(normalize=True), y_val.value_counts(normalize=True)

(target
 0    0.899513
 1    0.100487
 Name: proportion, dtype: float64,
 target
 0    0.8995
 1    0.1005
 Name: proportion, dtype: float64)

In [3]:
# Standardisation (StandardScaler)
from sklearn.preprocessing import StandardScaler
import joblib

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

# Sauvegarde du scaler
joblib.dump(scaler, "../models/scaler.pkl")

X_train_scaled.shape, X_val_scaled.shape

((160000, 200), (40000, 200))

In [4]:
# Feature Selection (OPTIONNEL – simple et propre)
from sklearn.feature_selection import VarianceThreshold

selector = VarianceThreshold(threshold=0.0)
X_train_var = selector.fit_transform(X_train_scaled)
X_val_var = selector.transform(X_val_scaled)

X_train_var.shape

(160000, 200)

### Prétraitement des données

Les données ont été préparées pour l’entraînement des modèles en séparant les
features de la variable cible. L’identifiant ID_code a été supprimé car il n’apporte
aucune information prédictive. Les données ont ensuite été divisées en ensembles
d’entraînement et de validation selon une proportion 80/20, en conservant la
distribution des classes à l’aide d’un échantillonnage stratifié. Une
standardisation des variables a été appliquée à l’aide d’un StandardScaler afin de
rendre les modèles sensibles à l’échelle plus performants. Le déséquilibre des
classes sera pris en compte lors de la phase de modélisation.