# J2PM — Généralisation & Scikit-Learn
## Breast Cancer — Classification binaire

Objectif : construire un pipeline de classification, comparer plusieurs modèles avec cross-validation, tuner les hyperparamètres, et évaluer sur le test set.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix, ConfusionMatrixDisplay

## Partie 1 — Exploration

In [None]:
data = load_breast_cancer()
X, y = data.data, data.target

print(f"Shape      : {X.shape}")
print(f"Classes    : {data.target_names}")
print(f"Effectifs  : malignant={np.sum(y==0)}, benign={np.sum(y==1)}")
print(f"Features   : {list(data.feature_names[:5])} ...")

In [None]:
df = pd.DataFrame(X, columns=data.feature_names)
df["target"] = y
df.describe().round(2)

## Partie 2 — Split Train / Test

`stratify=y` garantit que la proportion de classes est preservée dans chaque split.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Train : {X_train.shape[0]} exemples — malignant={np.sum(y_train==0)}, benign={np.sum(y_train==1)}")
print(f"Test  : {X_test.shape[0]}  exemples — malignant={np.sum(y_test==0)},  benign={np.sum(y_test==1)}")

## Partie 3 — Pipeline : Preprocessing + Modèle

Un `Pipeline` enchaîne les étapes de preprocessing et le modèle en un seul objet.
Avantages :
- Le scaler est fitté **uniquement sur le train fold** lors de la cross-validation → pas de data leakage
- Compatible directement avec `cross_val_score` et `GridSearchCV`

Pour référencer un hyperparamètre du modèle dans `GridSearchCV`, on utilise la notation `étape__paramètre` (ex: `clf__C`).

In [None]:
# Construire un Pipeline StandardScaler + LogisticRegression
# Evaluer avec cross_val_score(cv=5, scoring="f1_macro")
raise NotImplementedError

## Partie 4 — Comparaison de modèles

Construire un pipeline pour chaque modèle et les comparer avec une 5-fold cross-validation.

> **Note :** certains modèles sont sensibles à l'échelle des features (SVC, KNN, LogisticRegression) → scaling nécessaire. D'autres non (RandomForest, GradientBoosting).

In [None]:
# Construire au moins 3 pipelines et les évaluer avec cross_val_score(cv=5, scoring="f1_macro")
# Pour chaque modèle, réfléchir si un StandardScaler est nécessaire
# Doc : https://scikit-learn.org/stable/supervised_learning.html

models = {
    # "NomModele": Pipeline([...]),
}

results = {}
for name, pipe in models.items():
    raise NotImplementedError

In [None]:
names = list(results.keys())
means = [results[n].mean() for n in names]
stds  = [results[n].std()  for n in names]

fig, ax = plt.subplots(figsize=(7, 3.5))
ax.barh(names, means, xerr=stds, color="steelblue", alpha=0.8, capsize=4)
ax.set_xlabel("CV F1 (macro)")
ax.set_title("Comparaison des modèles — 5-fold CV")
ax.set_xlim(0.88, 1.01)
plt.tight_layout()
plt.show()

## Partie 5 — Recherche d'hyperparamètres

Appliquer `GridSearchCV` sur le meilleur modèle de la partie précédente.
Utiliser la notation `clf__param` pour cibler les paramètres du modèle dans le pipeline.

In [None]:
# Définir un pipeline pour le meilleur modèle
# Définir param_grid avec au moins 2 hyperparamètres (notation clf__param)
# Lancer GridSearchCV(cv=5, scoring="f1_macro") et afficher best_params_ et best_score_
raise NotImplementedError

## Partie 6 — Évaluation finale

On évalue le meilleur modèle sur le **test set**, utilisé pour la première (et unique) fois.

In [None]:
best = grid.best_estimator_
y_pred = best.predict(X_test)

print(classification_report(y_test, y_pred, target_names=data.target_names))

In [None]:
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(cm, display_labels=data.target_names)
disp.plot(colorbar=False, cmap="Blues")
plt.title("Matrice de confusion — Test set")
plt.tight_layout()
plt.show()