#  Exercices Pratiques : Modèles de Machine Learning
## Master 1 - Data Science & IA

---

**Durée estimée** : 2 heures minimum  
**Niveau** : Autonome - SANS AIDE  
**Dataset** : Global Air Pollution (Kaggle)

---

##  Objectifs

Ce notebook vous permettra de maîtriser :
1. **Préparation ML** (split, normalisation, validation)
2. **Modèles de Classification** (10+ algorithmes)
3. **Modèles de Régression** (8+ algorithmes)
4. **Évaluation** (métriques, validation croisée)
5. **Optimisation** (GridSearch, RandomSearch)
6. **Ensemble Methods** (Voting, Stacking, Bagging, Boosting)

---

##  Règles du Jeu

-  **PAS D'AIDE** : Pas de code fourni, vous devez chercher
-  **Documentation** : Utilisez scikit-learn.org
-  **Réflexion** : Comprenez chaque algorithme avant de l'utiliser
-  **Validation** : Comparez les performances

---

**Bon courage ! **

##  Imports et Configuration

In [None]:
# TODO: Importer TOUTES les bibliothèques nécessaires
# Data manipulation
import pandas as pd
import numpy as np

# Visualisation
import matplotlib.pyplot as plt
import seaborn as sns

# TODO: Importer depuis sklearn :
# - model_selection (train_test_split, cross_val_score, GridSearchCV, etc.)
# - preprocessing (StandardScaler, LabelEncoder, etc.)
# - metrics (accuracy_score, classification_report, confusion_matrix, etc.)
# - Tous les modèles que vous allez utiliser

# Votre code ici


---
#  PARTIE 1 : Préparation des Données pour ML (20 min)
---

## Exercice 1.1 : Chargement et Préparation Initiale

**Objectif** : Préparer le dataset pour le Machine Learning.

**Tâches** :
1. Charger le dataset Global Air Pollution
2. Afficher les informations de base (shape, colonnes, types)
3. Gérer les valeurs manquantes :
   - Supprimer les lignes avec plus de 50% de valeurs manquantes
   - Imputer le reste avec la médiane (numériques) ou mode (catégorielles)
4. Supprimer les doublons
5. Afficher la shape finale

In [None]:
# Votre code ici


## Exercice 1.2 : Création de la Variable Cible (Classification)

**Objectif** : Créer une variable cible binaire pour la classification.

**Tâches** :
1. Créer une colonne 'Air_Quality_Binary' :
   - 0 (Good Air) : AQI < 100
   - 1 (Bad Air) : AQI >= 100
2. Afficher la distribution de cette variable
3. Vérifier l'équilibre des classes (% de chaque classe)
4. Si déséquilibre > 70/30, noter qu'il faudra gérer ça

In [None]:
# Votre code ici


## Exercice 1.3 : Sélection et Encodage des Features

**Objectif** : Préparer les features pour les modèles.

**Tâches** :
1. Sélectionner les features numériques pertinentes :
   - CO AQI Value, Ozone AQI Value, NO2 AQI Value, PM2.5 AQI Value
   - Latitude, Longitude (optionnel)
2. Encoder les variables catégorielles si vous voulez les utiliser :
   - Country : Label Encoding ou One-Hot (attention à la dimension !)
3. Créer X (features) et y (target)
4. Afficher les shapes de X et y

In [None]:
# Votre code ici


## Exercice 1.4 : Split Train/Test et Normalisation

**Objectif** : Diviser les données et normaliser.

**Tâches** :
1. Splitter X et y en train/test (70/30)
   - Utiliser random_state=42
   - Utiliser stratify=y pour préserver la distribution
2. Normaliser les features avec StandardScaler :
   - Fitter UNIQUEMENT sur X_train
   - Transformer X_train et X_test
3. Afficher les shapes de tous les ensembles
4. Vérifier que la moyenne de X_train_scaled ≈ 0 et std ≈ 1

In [None]:
# Votre code ici


---
#  PARTIE 2 : Modèles de Classification (40 min)
---

## Exercice 2.1 : Baseline - Dummy Classifier

**Objectif** : Créer un modèle de référence.

**Tâches** :
1. Créer un DummyClassifier (strategy='most_frequent')
2. Entraîner sur X_train_scaled, y_train
3. Prédire sur X_test_scaled
4. Calculer et afficher :
   - Accuracy
   - Classification report
   - Confusion matrix
5. Sauvegarder le score dans un dictionnaire pour comparaison

In [None]:
# Votre code ici


## Exercice 2.2 : Régression Logistique

**Objectif** : Implémenter un modèle linéaire.

**Tâches** :
1. Créer un LogisticRegression (random_state=42, max_iter=1000)
2. Entraîner et prédire
3. Calculer toutes les métriques :
   - Accuracy, Precision, Recall, F1-Score
   - ROC-AUC
   - Confusion Matrix
4. Tracer la courbe ROC
5. Sauvegarder les scores

In [None]:
# Votre code ici


## Exercice 2.3 : K-Nearest Neighbors (KNN)

**Objectif** : Implémenter un modèle basé sur la distance.

**Tâches** :
1. Tester KNN avec différentes valeurs de k : [3, 5, 7, 10, 15]
2. Pour chaque k :
   - Entraîner le modèle
   - Calculer l'accuracy sur train et test
3. Tracer une courbe : k vs accuracy (train et test)
4. Identifier le meilleur k
5. Entraîner le modèle final avec le meilleur k
6. Calculer toutes les métriques et sauvegarder

In [None]:
# Votre code ici


## Exercice 2.4 : Support Vector Machine (SVM)

**Objectif** : Implémenter un SVM.

**Tâches** :
1. Tester SVM avec différents noyaux :
   - 'linear'
   - 'rbf'
   - 'poly'
2. Pour chaque noyau :
   - Entraîner (attention : peut être lent !)
   - Calculer accuracy
3. Comparer les performances
4. Garder le meilleur noyau
5. Calculer toutes les métriques

In [None]:
# Votre code ici


## Exercice 2.5 : Decision Tree

**Objectif** : Implémenter un arbre de décision.

**Tâches** :
1. Créer un DecisionTreeClassifier (random_state=42)
2. Entraîner et prédire
3. Calculer les métriques
4. Afficher l'importance des features (feature_importances_)
5. Créer un barplot des feature importances
6. Visualiser l'arbre (limité à 3 niveaux de profondeur)
7. Comparer accuracy train vs test (overfitting ?)

In [None]:
# Votre code ici


## Exercice 2.6 : Random Forest

**Objectif** : Implémenter une forêt aléatoire.

**Tâches** :
1. Créer un RandomForestClassifier :
   - n_estimators=100
   - random_state=42
2. Entraîner et prédire
3. Calculer toutes les métriques
4. Afficher l'importance des features
5. Comparer avec Decision Tree :
   - Quelle amélioration ?
   - Moins d'overfitting ?

In [None]:
# Votre code ici


## Exercice 2.7 : Gradient Boosting

**Objectif** : Implémenter le boosting.

**Tâches** :
1. Tester 3 algorithmes de boosting :
   - GradientBoostingClassifier
   - AdaBoostClassifier
   - XGBoost (si installé : xgboost.XGBClassifier)
2. Pour chaque algorithme :
   - Entraîner avec paramètres par défaut
   - Calculer accuracy
3. Comparer les 3 algorithmes
4. Garder le meilleur et calculer toutes les métriques

In [None]:
# Votre code ici


## Exercice 2.8 : Naive Bayes

**Objectif** : Implémenter un classificateur probabiliste.

**Tâches** :
1. Tester 2 variantes :
   - GaussianNB
   - MultinomialNB (attention : nécessite features >= 0)
2. Entraîner et comparer
3. Calculer les métriques du meilleur

In [None]:
# Votre code ici


## Exercice 2.9 : Neural Network (MLP)

**Objectif** : Implémenter un réseau de neurones.

**Tâches** :
1. Créer un MLPClassifier :
   - hidden_layer_sizes=(100, 50)
   - max_iter=500
   - random_state=42
2. Entraîner et prédire
3. Calculer toutes les métriques
4. Tracer la courbe de loss (loss_curve_)

In [None]:
# Votre code ici


## Exercice 2.10 : Comparaison de TOUS les Modèles

**Objectif** : Créer un tableau comparatif.

**Tâches** :
1. Créer un DataFrame avec TOUS les modèles testés
2. Colonnes : Model, Accuracy, Precision, Recall, F1, ROC-AUC, Train Time
3. Trier par accuracy décroissante
4. Afficher le tableau
5. Créer un barplot comparatif des accuracies
6. Identifier le meilleur modèle

In [None]:
# Votre code ici


---
#  PARTIE 3 : Modèles de Régression (30 min)
---

## Exercice 3.0 : Préparation pour la Régression

**Objectif** : Préparer les données pour prédire l'AQI (régression).

**Tâches** :
1. Créer une nouvelle target : y_reg = AQI Value (continue)
2. Utiliser les mêmes features que pour la classification
3. Splitter en train/test (même split que classification)
4. Normaliser (réutiliser le même scaler ou en créer un nouveau)

In [None]:
# Votre code ici


## Exercice 3.1 : Linear Regression

**Objectif** : Régression linéaire simple.

**Tâches** :
1. Créer un LinearRegression()
2. Entraîner et prédire
3. Calculer les métriques de régression :
   - R² Score
   - Mean Absolute Error (MAE)
   - Mean Squared Error (MSE)
   - Root Mean Squared Error (RMSE)
4. Tracer : y_true vs y_pred (scatterplot)
5. Afficher les coefficients du modèle

In [None]:
# Votre code ici


## Exercice 3.2 : Ridge et Lasso Regression

**Objectif** : Régression avec régularisation.

**Tâches** :
1. Tester Ridge avec différents alpha : [0.1, 1, 10, 100]
2. Tester Lasso avec différents alpha : [0.1, 1, 10, 100]
3. Pour chaque modèle, calculer R² score
4. Comparer Ridge vs Lasso vs Linear
5. Identifier le meilleur modèle

In [None]:
# Votre code ici


## Exercice 3.3 : Decision Tree Regressor

**Objectif** : Arbre de décision pour la régression.

**Tâches** :
1. Créer un DecisionTreeRegressor (random_state=42)
2. Entraîner et prédire
3. Calculer toutes les métriques
4. Afficher l'importance des features
5. Comparer train vs test score (overfitting ?)

In [None]:
# Votre code ici


## Exercice 3.4 : Random Forest Regressor

**Objectif** : Forêt aléatoire pour la régression.

**Tâches** :
1. Créer un RandomForestRegressor (n_estimators=100, random_state=42)
2. Entraîner et prédire
3. Calculer toutes les métriques
4. Comparer avec DecisionTreeRegressor
5. Afficher l'importance des features

In [None]:
# Votre code ici


## Exercice 3.5 : Gradient Boosting Regressor

**Objectif** : Boosting pour la régression.

**Tâches** :
1. Tester :
   - GradientBoostingRegressor
   - XGBoost (si installé)
2. Entraîner et calculer métriques
3. Comparer avec Random Forest

In [None]:
# Votre code ici


## Exercice 3.6 : Support Vector Regression (SVR)

**Objectif** : SVM pour la régression.

**Tâches** :
1. Créer un SVR (kernel='rbf')
2. Entraîner et prédire (peut être lent !)
3. Calculer les métriques
4. Comparer avec les autres modèles

In [None]:
# Votre code ici


## Exercice 3.7 : K-Nearest Neighbors Regressor

**Objectif** : KNN pour la régression.

**Tâches** :
1. Tester avec k=[3, 5, 7, 10]
2. Identifier le meilleur k
3. Calculer les métriques

In [None]:
# Votre code ici


## Exercice 3.8 : Neural Network Regressor (MLP)

**Objectif** : Réseau de neurones pour la régression.

**Tâches** :
1. Créer un MLPRegressor
2. Entraîner et prédire
3. Calculer les métriques
4. Tracer la courbe de loss

In [None]:
# Votre code ici


## Exercice 3.9 : Comparaison des Modèles de Régression

**Objectif** : Tableau comparatif complet.

**Tâches** :
1. Créer un DataFrame avec TOUS les modèles de régression
2. Colonnes : Model, R², MAE, MSE, RMSE, Train Time
3. Trier par R² décroissant
4. Créer un barplot comparatif
5. Identifier le meilleur modèle

In [None]:
# Votre code ici


---
#  PARTIE 4 : Optimisation des Hyperparamètres (20 min)
---

## Exercice 4.1 : GridSearchCV

**Objectif** : Optimiser un modèle avec recherche exhaustive.

**Tâches** :
1. Choisir votre meilleur modèle de classification (ex: Random Forest)
2. Définir une grille de paramètres :
   ```python
   param_grid = {
       'n_estimators': [50, 100, 200],
       'max_depth': [None, 10, 20],
       'min_samples_split': [2, 5, 10]
   }
   ```
3. Créer un GridSearchCV (cv=5)
4. Entraîner (attention : peut être long !)
5. Afficher les meilleurs paramètres
6. Afficher le meilleur score
7. Comparer avec le modèle non optimisé

In [None]:
# Votre code ici


## Exercice 4.2 : RandomizedSearchCV

**Objectif** : Optimiser avec recherche aléatoire (plus rapide).

**Tâches** :
1. Utiliser le même modèle
2. Définir des distributions de paramètres
3. Créer un RandomizedSearchCV (n_iter=20, cv=5)
4. Entraîner
5. Comparer avec GridSearchCV :
   - Temps d'exécution
   - Performance
6. Quel est le meilleur compromis temps/performance ?

In [None]:
# Votre code ici


## Exercice 4.3 : Validation Croisée Complète

**Objectif** : Évaluer la stabilité des modèles.

**Tâches** :
1. Pour vos 5 meilleurs modèles de classification :
   - Appliquer cross_val_score avec cv=10
   - Calculer mean et std des scores
2. Créer un DataFrame avec les résultats
3. Créer un boxplot des scores de validation croisée
4. Quel modèle est le plus stable ?

In [None]:
# Votre code ici


---
#  PARTIE 5 : Ensemble Methods (20 min)
---

## Exercice 5.1 : Voting Classifier

**Objectif** : Combiner plusieurs modèles.

**Tâches** :
1. Créer un VotingClassifier avec vos 3 meilleurs modèles
2. Tester 'hard' voting et 'soft' voting
3. Entraîner et prédire
4. Calculer les métriques
5. Comparer avec les modèles individuels
6. Le voting améliore-t-il les performances ?

In [None]:
# Votre code ici


## Exercice 5.2 : Bagging Classifier

**Objectif** : Bootstrap aggregating.

**Tâches** :
1. Créer un BaggingClassifier :
   - base_estimator : DecisionTreeClassifier
   - n_estimators=50
2. Entraîner et évaluer
3. Comparer avec un seul DecisionTree
4. Comparer avec Random Forest

In [None]:
# Votre code ici


## Exercice 5.3 : Stacking Classifier (Avancé)

**Objectif** : Empiler plusieurs modèles.

**Tâches** :
1. Créer un StackingClassifier :
   - estimators : liste de (nom, modèle)
   - final_estimator : LogisticRegression
2. Utiliser au moins 3 modèles de base différents
3. Entraîner et évaluer
4. Comparer avec Voting et les modèles individuels
5. Quel est le meilleur ensemble method ?

In [None]:
# Votre code ici


---
#  PARTIE 6 : Analyse Finale et Conclusions (10 min)
---

## Exercice 6.1 : Meilleur Modèle Global

**Objectif** : Identifier le champion.

**Tâches** :
1. Créer un tableau récapitulatif de TOUS les modèles testés
2. Identifier le meilleur modèle de classification
3. Identifier le meilleur modèle de régression
4. Pour chaque champion :
   - Afficher toutes les métriques
   - Afficher l'importance des features
   - Créer des visualisations

In [None]:
# Votre code ici


## Exercice 6.2 : Analyse des Erreurs

**Objectif** : Comprendre où le modèle se trompe.

**Tâches** :
1. Pour le meilleur modèle de classification :
   - Identifier les exemples mal classifiés
   - Analyser leurs caractéristiques
   - Y a-t-il des patterns ?
2. Pour le meilleur modèle de régression :
   - Calculer les résidus (erreurs)
   - Tracer un histogramme des résidus
   - Tracer résidus vs prédictions
   - Les résidus sont-ils normalement distribués ?

In [None]:
# Votre code ici


## Exercice 6.3 : Recommandations Finales

**Objectif** : Synthétiser vos apprentissages.

**Tâches** :
1. Rédiger un court rapport (markdown) avec :
   - Meilleur modèle de classification et pourquoi
   - Meilleur modèle de régression et pourquoi
   - Features les plus importantes
   - Limites et améliorations possibles
2. Si vous deviez déployer un modèle en production :
   - Lequel choisiriez-vous ?
   - Pourquoi ?
   - Quels compromis (performance vs complexité vs temps) ?

In [None]:
# Votre code ici


---
#  Félicitations !

Vous avez terminé les exercices sur les modèles de Machine Learning !

##  Modèles Maîtrisés

### Classification (10+ modèles)
 Dummy Classifier (Baseline)  
 Logistic Regression  
 K-Nearest Neighbors  
 Support Vector Machine  
 Decision Tree  
 Random Forest  
 Gradient Boosting  
 AdaBoost  
 Naive Bayes  
 Neural Network (MLP)  

### Régression (8+ modèles)
 Linear Regression  
 Ridge Regression  
 Lasso Regression  
 Decision Tree Regressor  
 Random Forest Regressor  
 Gradient Boosting Regressor  
 Support Vector Regression  
 K-Nearest Neighbors Regressor  
 Neural Network Regressor  

### Ensemble Methods
 Voting Classifier  
 Bagging  
 Stacking  

### Optimisation
 GridSearchCV  
 RandomizedSearchCV  
 Cross-Validation  

##  Vous êtes maintenant prêt(e) pour :

- Choisir le bon algorithme selon le problème
- Évaluer et comparer des modèles
- Optimiser les hyperparamètres
- Déployer des modèles en production

---

**Bravo pour votre travail ! **