🧠 Feature Engineering — Fiche de Révision
📌 Définition

Le Feature Engineering consiste à transformer les données brutes pour extraire des variables (features) plus pertinentes et plus informatives pour un modèle ML. Cela revient à "donner des super-pouvoirs" à ton modèle en le guidant vers les bons signaux.

Exemple : Créer une variable "Surface Totale" à partir de plusieurs surfaces de pièces pour un modèle de prédiction de prix de maison.
🎯 Pourquoi c’est important ?

    Une bonne feature > un modèle complexe mal alimenté

    C’est l'étape qui permet aux algorithmes de capter les patterns pertinents.

    Elle impacte fortement la performance, la précision, la robustesse du modèle.

🛠️ Techniques classiques
1. Imputation (Traitement des valeurs manquantes)

    Moyenne : df["col"].fillna(df["col"].mean())

    Valeur la plus fréquente : df["col"].fillna(df["col"].value_counts().idxmax())

    Zéro : df.fillna(0)

2. Gestion des Outliers

    Suppression (risqué si dataset petit)

    Remplacement (imputation après détection)

    Capping (ex: limiter à P1/P99)

    Discrétisation : découper les données continues en intervalles (binning)

3. Encodage des variables catégorielles (One-hot encoding)

Transforme chaque catégorie d’une variable en colonne binaire (0/1).
Utilisé pour éviter les biais d'ordre implicite (problème de label encoding).

pd.get_dummies(df, columns=["Couleur"], prefix=["Color"])

✅ Utile pour tous les modèles qui nécessitent des entrées numériques
✅ Préserve l’indépendance des catégories
✅ Évite d’introduire une fausse hiérarchie entre les valeurs
❓ Mini Quiz

Quel est l’objectif principal du one-hot encoding ?
✅ Représenter les variables catégorielles sous forme de colonnes binaires.

🔍 Modèles de Classification — Fiche de Révision
🍏 Exemple utilisé :

Un dataset de fruits avec deux features : Poids et Couleur

X = df[['Poids (g)', 'Couleur (1=Rouge, 0=Orange)']]
y = df['Fruit']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

🌲 Random Forest
🧠 Idée

Un ensemble d’arbres de décision entraînés sur des sous-échantillons du dataset → vote majoritaire.
✅ Avantages

    Rapide, robuste, peu sensible à l’overfitting

    Gère les données manquantes et les features non normalisées

    Fonctionne bien avec beaucoup de features

📦 Exemple

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train, y_train)
accuracy_score(y_test, model.predict(X_test))

🔁 Gradient Boosting
🧠 Idée

Construction séquentielle d'arbres où chaque nouveau arbre corrige les erreurs du précédent.
✅ Avantages

    Très précis

    Réduit le biais

    Bon sur les petits datasets bien préparés

from sklearn.ensemble import GradientBoostingClassifier
model = GradientBoostingClassifier()
model.fit(X_train, y_train)

⚡ XGBoost (Extreme Gradient Boosting)
🧠 Idée

Version optimisée du Gradient Boosting, avec régularisation, gestion des valeurs manquantes, parallélisme, etc.
✅ Avantages

    Ultra performant

    Efficace pour données structurées

    Favori dans les compétitions Kaggle

from xgboost import XGBClassifier
model = XGBClassifier()
model.fit(X_train, y_train)

✴️ Support Vector Classifier (SVC)
🧠 Idée

Cherche la meilleure frontière de décision (maximiser la marge entre classes). Peut être non-linéaire avec les kernels.
📌 Hyperparamètres clés

    C (régularisation)

    kernel (linear, rbf, poly)

    gamma (influence d’un point d’apprentissage)

✅ Avantages

    Excellente performance si les données sont bien préparées

    Efficace en haute dimension

    Sensible au scaling !

from sklearn.svm import SVC
model = SVC()
model.fit(X_train, y_train)

Voici la Partie 3 : Hyperparameter Tuning — Fiche de Révision, centrée sur les définitions, méthodes, et exemples pratiques à retenir.
🧪 Hyperparameter Tuning — Fiche de Révision
📌 Définition

Les hyperparamètres sont des paramètres fixés avant l’entraînement. Contrairement aux paramètres appris (comme les poids dans une régression), ils contrôlent le comportement de l’apprentissage.
🔧 Exemples d’hyperparamètres
🔷 Support Vector Machine (SVC)

    C : contrôle la régularisation (trade-off entre marge large et erreurs)

    kernel : fonction de transformation (lineaire, rbf, poly, etc.)

    gamma : influence des points d’apprentissage (petit = global, grand = local)

🔷 XGBoost

    learning_rate : taux d’apprentissage

    n_estimators : nombre d’arbres

    max_depth : profondeur maximale

    min_child_weight : minimum de poids par noeud

    subsample : proportion d’échantillons utilisée

🧭 Méthodes de Tuning
🔍 GridSearchCV

🧠 Approche exhaustive : teste toutes les combinaisons possibles
📌 Coût élevé si la grille est grande

from sklearn.model_selection import GridSearchCV

param_grid = {'C': [0.1, 1, 10]}
grid = GridSearchCV(SVC(), param_grid, cv=5)
grid.fit(X, y)
print(grid.best_params_)

🎲 RandomizedSearchCV

🧠 Approche plus rapide : teste un sous-ensemble aléatoire de combinaisons
✅ Plus scalable sur gros espaces d’hyperparamètres

from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

param_dist = {
    "max_depth": [None, 10, 20],
    "min_samples_split": randint(2, 10)
}
search = RandomizedSearchCV(RandomForestClassifier(), param_dist, cv=5)
search.fit(X, y)
print(search.best_params_)

🧠 Résumé Comparatif
Méthode	Stratégie	Vitesse	Précision potentielle
GridSearchCV	Exhaustive	Lente	Haute si espace réduit
RandomizedSearchCV	Aléatoire (sampling)	Rapide	Très bonne si bien configurée
💪 Exercice à compléter

Remplis les lignes manquantes pour entraîner un RandomForest avec RandomizedSearchCV :

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import RandomizedSearchCV

param_dist = {
    "n_estimators": [10, 50, 100],
    "max_depth": [None, 10, 20],
    "min_samples_split": [2, 5],
    "min_samples_leaf": [1, 2],
    "max_features": ["auto", "sqrt"]
}

rf = RandomForestClassifier()
rf_cv = RandomizedSearchCV(rf, param_dist, cv=5)
rf_cv.fit(X, y)

print("Tuned Parameters:", rf_cv.best_params_)
print("Best score:", rf_cv.best_score_)

🔄 Cross-Validation (CV) — Fiche de Révision
📌 Définition

Le Cross-Validation est une technique d’évaluation qui consiste à diviser les données en plusieurs sous-ensembles (folds) pour entraîner et tester un modèle de façon plus robuste et réaliste que le simple train/test split.
🎯 Pourquoi c’est crucial ?

    ✅ Mieux estimer la performance généralisable (non biaisée)

    ✅ Réduire la variance d’évaluation

    ✅ Éviter le surapprentissage (overfitting) à un seul jeu de test

    ✅ Évaluer différents modèles / hyperparamètres de façon équitable

📦 Méthode la plus courante : K-Fold Cross-Validation
🔧 Fonctionnement

    Diviser les données en k groupes (folds) égaux

    Pour chaque fold :

        Entraîner le modèle sur k-1 folds

        Tester sur le fold restant

    Répéter k fois

    Calculer la moyenne des scores

📌 Exemple : k=5

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
scores = cross_val_score(model, X, y, cv=5)
print("Scores pour chaque fold :", scores)
print("Score moyen :", scores.mean())

⚠️ Attention

    CV doit être utilisé avant le test final, sinon risque de fuite de données.

    Pour un tuning fiable : intégrer CV dans le GridSearch ou RandomizedSearch.

🧠 Bonus : Stratified K-Fold

Utilisé pour les problèmes de classification :

    Garantit que chaque fold contient la même proportion de classes

    Evite un déséquilibre classe majoritaire / minoritaire

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=5)
for train_index, test_index in skf.split(X, y):
    print("Fold:", train_index, test_index)

🔍 À retenir pour l'entretien ou l’examen :

    "J’utilise toujours le cross-validation pour m’assurer que la performance du modèle est stable et généralisable. J’intègre généralement une K-Fold CV avec k=5 ou 10 dans mes GridSearch pour le tuning."

⚔️ Comparaison de Modèles avec Cross-Validation

On va comparer trois modèles sur un même dataset (classification binaire) :

    RandomForest

    GradientBoosting

    SVC

🧪 Code complet :

from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC

# Générer un dataset artificiel
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, n_classes=2, random_state=42)

# Définir les modèles
models = {
    "Random Forest": RandomForestClassifier(),
    "Gradient Boosting": GradientBoostingClassifier(),
    "SVC": SVC()
}

# Appliquer Cross-Validation et comparer les performances
for name, model in models.items():
    scores = cross_val_score(model, X, y, cv=5)
    print(f"{name} - Accuracy moyenne : {scores.mean():.3f} (écart-type : {scores.std():.3f})")

💪 Exercice corrigé

Objectif : Compléter un comparatif entre LogisticRegression et RandomForestClassifier sur un dataset simulé, avec CV à 10 folds.

from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

# Dataset
X, y = make_classification(n_samples=1000, n_features=10, n_informative=5, random_state=42)

# Modèles
logreg = LogisticRegression()
rf = RandomForestClassifier()

# CV sur 10 folds
logreg_scores = cross_val_score(logreg, X, y, cv=10)
rf_scores = cross_val_score(rf, X, y, cv=10)

# Résultats
print(f"LogisticRegression - Moyenne : {logreg_scores.mean():.3f}")
print(f"RandomForest - Moyenne : {rf_scores.mean():.3f}")