# Exercices - Preprocessing et pipeline

Ce notebook contient des exercices progressifs pour pratiquer le ML.

Regle importante: **aucune solution complete n'est fournie ici**.


## A. Preprocessing (scikit-learn)
### Objectifs pedagogiques

A la fin de ces exercices, vous devez etre capable de:
- traiter les valeurs manquantes (imputation simple et KNN)
- supprimer des lignes/colonnes trop incompletes
- detecter et traiter les outliers (Z-Score et IQR)
- encoder les variables categorielles
- appliquer un scaling adapte
- creer de nouvelles features utiles
- discretiser une variable continue
- assembler un preprocessing propre avec `Pipeline` et `ColumnTransformer`


In [None]:
# Imports de base pour tous les exercices
import numpy as np
import pandas as pd

from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler
from sklearn.preprocessing import KBinsDiscretizer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split

from scipy import stats


In [None]:
# Jeu de donnees de depart (intentionnellement imparfait)
data = {
    'animal': ['Chien', 'Chat', 'Cheval', 'Chien', 'Chat', 'Elephant', 'Girafe', 'Chien', 'Cheval', 'Elephant'],
    'couleur': ['Brun', 'Blanc', 'Noir', 'Noir', 'Roux', 'Gris', 'Jaune', 'Blanc', 'Brun', 'Gris'],
    'taille_cm': [60, 30, 180, 50, np.nan, 300, 500, 55, np.nan, 310],
    'poids_kg': [25, 4, 450, 20, 5, np.nan, 800, 22, 400, 5000],
    'age_annees': [5, 3, 12, 2, 7, 25, 10, np.nan, 8, 30],
    'vitesse_kmh': [40, 30, 70, 35, 32, 25, 50, 38, 75, 30]
}

df = pd.DataFrame(data)
print(df.head())
print('\nShape:', df.shape)
print('\nValeurs manquantes:')
print(df.isnull().sum())


### Partie 1 - Data Cleaning


#### Exercice 1.1 - Imputation simple (mean, median, mode)

**Consigne**
1. Faites une copie du dataframe en `df_simple`.
2. Appliquez `SimpleImputer(strategy="mean")` sur `taille_cm`, `poids_kg`, `age_annees`.
3. Recommencez avec `median`, puis `most_frequent`.
4. Comparez les valeurs imputees obtenues.

**Question de reflexion**
- Dans ce dataset, quel choix vous semble le plus robuste et pourquoi ?


In [None]:
# TODO Exercice 1.1
# 1) Creer les 3 versions imputees: mean, median, most_frequent
# 2) Afficher les statistiques d'imputation et comparer

# Exemple de variables utiles:
# cols_num = ['taille_cm', 'poids_kg', 'age_annees']

# Ecrivez votre code ici


#### Exercice 1.2 - KNN Imputer

**Consigne**
1. Utilisez `KNNImputer(n_neighbors=3)` sur les colonnes numeriques.
2. Comparez les lignes qui contenaient des NaN avant/apres.
3. Testez ensuite `n_neighbors=2` puis `n_neighbors=5`.

**Question de reflexion**
- Quel est l'impact du choix de `k` sur les valeurs imputees ?


In [None]:
# TODO Exercice 1.2
# 1) Definir numeric_cols
# 2) Imputer avec KNN
# 3) Comparer avant/apres sur les lignes incompletes

# Ecrivez votre code ici


#### Exercice 1.3 - Suppression de lignes/colonnes trop manquantes

**Consigne**
1. Creez `df_na` en ajoutant volontairement des NaN (sur 1-2 colonnes).
2. Supprimez les lignes avec plus de 30% de valeurs manquantes.
3. Supprimez les colonnes avec plus de 30% de valeurs manquantes.
4. Affichez les dimensions avant/apres.

**Question de reflexion**
- Quand preferer suppression plutot que imputation ?


In [None]:
# TODO Exercice 1.3
# 1) Creer df_na avec plus de NaN
# 2) Utiliser dropna(thresh=...)
# 3) Comparer dimensions et colonnes supprimees

# Ecrivez votre code ici


#### Exercice 1.4 - Outliers (Z-Score et IQR)

**Consigne**
1. Ajoutez 1-2 valeurs aberrantes dans une copie `df_outliers`.
2. Detectez les outliers avec la methode Z-Score (`|z| > 3`).
3. Detectez les outliers avec la methode IQR.
4. Comparez les index detectes par chaque methode.

**Question de reflexion**
- Dans quel cas IQR est-il souvent plus robuste que Z-Score ?


In [None]:
# TODO Exercice 1.4
# 1) Ajouter des outliers
# 2) Detection Z-Score
# 3) Detection IQR
# 4) Afficher les index detectes

# Ecrivez votre code ici


### Partie 2 - Preprocessing


#### Exercice 2.1 - Encoding

**Consigne**
1. Faites un `LabelEncoder` sur `animal` (demo).
2. Faites un `OneHotEncoder` sur `animal` et/ou `couleur`.
3. (Optionnel) Simulez un target encoding simple avec `groupby().mean()`.

**Question de reflexion**
- Pourquoi `OneHotEncoder` est generalement prefere pour les features nominales ?


In [None]:
# TODO Exercice 2.1
# 1) Label encoding
# 2) One-hot encoding (avec handle_unknown='ignore')
# 3) Optionnel: target encoding pedagogique

# Ecrivez votre code ici


#### Exercice 2.2 - Scaling

**Consigne**
1. Selectionnez les variables numeriques.
2. Appliquez `StandardScaler` puis `MinMaxScaler`.
3. Comparez les statistiques (`describe`) des colonnes transformees.

**Question de reflexion**
- Quel scaling est le plus adapte pour KNN ? pour un modele lineaire ?


In [None]:
# TODO Exercice 2.2
# 1) Definir numeric_cols
# 2) Appliquer StandardScaler
# 3) Appliquer MinMaxScaler
# 4) Comparer les resultats

# Ecrivez votre code ici


#### Exercice 2.3 - Feature Engineering

**Consigne**
1. Creez au moins 3 nouvelles variables derivees:
   - un ratio (ex: poids/taille)
   - une transformation non lineaire (ex: log)
   - une feature "metier" de votre choix
2. Affichez le dataframe avec les nouvelles colonnes.

**Question de reflexion**
- Quelle feature creee vous semble la plus informative pour predire `vitesse_kmh` ?


In [None]:
# TODO Exercice 2.3
# 1) Creer des variables derivees
# 2) Verifier qu'il n'y a pas d'erreur numerique
# 3) Afficher un extrait du resultat

# Ecrivez votre code ici


#### Exercice 2.4 - Discretisation

**Consigne**
1. Discretisez `taille_cm` avec `pd.cut` (bins manuels).
2. Discretisez `taille_cm` avec `KBinsDiscretizer` (`uniform`, `quantile`, `kmeans`).
3. Comparez les bornes des classes selon la strategie.

**Question de reflexion**
- Quelle strategie vous semble la plus interpretable pour ce dataset ?


In [None]:
# TODO Exercice 2.4
# 1) pd.cut avec labels
# 2) KBinsDiscretizer avec plusieurs strategies
# 3) Comparer bin_edges_

# Ecrivez votre code ici


## B. Pipeline complet

**Objectif**
Construire un preprocessing complet et propre avec scikit-learn.

**Consigne**
1. Definir `X` et `y` (ex: `y = vitesse_kmh`).
2. Faire un `train_test_split`.
3. Creer un pipeline numerique: imputation + scaling.
4. Creer un pipeline categoriel: imputation + one-hot.
5. Assembler avec `ColumnTransformer`.
6. Faire `fit_transform` sur train, puis `transform` sur test.

**Livrable attendu**
- Shapes de `X_train_prep` et `X_test_prep`
- Liste des colonnes numeriques/categorielles choisies
- Une phrase expliquant comment vous evitez le data leakage


In [None]:
# TODO Exercice final
# 1) Definir X/y
# 2) Split train/test
# 3) Construire les pipelines
# 4) Assembler ColumnTransformer
# 5) Fit sur train uniquement

# Ecrivez votre code ici


## Auto-evaluation rapide

Avant de passer a la suite, verifiez que vous savez:
- expliquer la difference mean vs median vs KNN imputation
- choisir une strategie de traitement des outliers
- justifier un type d'encoding
- justifier un type de scaling
- construire un preprocessing reproductible avec `Pipeline`

Si un point n'est pas clair, revenez sur le notebook de cours et refaites l'exercice correspondant.
