# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/00_introduction/00_exercices.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)

import sys

IN_COLAB = 'google.colab' in sys.modules



if IN_COLAB:

    print('üì¶ Installation des packages...')

    

    # Packages ML de base

    !pip install -q numpy pandas matplotlib seaborn scikit-learn

    

    # D√©tection du chapitre et installation des d√©pendances sp√©cifiques

    notebook_name = '00_exercices.ipynb'  # Sera remplac√© automatiquement

    

    # Ch 06-08 : Deep Learning

    if any(x in notebook_name for x in ['06_', '07_', '08_']):

        !pip install -q torch torchvision torchaudio

    

    # Ch 08 : NLP

    if '08_' in notebook_name:

        !pip install -q transformers datasets tokenizers

        if 'rag' in notebook_name:

            !pip install -q sentence-transformers faiss-cpu rank-bm25

    

    # Ch 09 : Reinforcement Learning

    if '09_' in notebook_name:

        !pip install -q gymnasium[classic-control]

    

    # Ch 04 : Boosting

    if '04_' in notebook_name and 'boosting' in notebook_name:

        !pip install -q xgboost lightgbm catboost

    

    # Ch 05 : Clustering avanc√©

    if '05_' in notebook_name:

        !pip install -q umap-learn

    

    # Ch 11 : S√©ries temporelles

    if '11_' in notebook_name:

        !pip install -q statsmodels prophet

    

    # Ch 12 : Vision avanc√©e

    if '12_' in notebook_name:

        !pip install -q ultralytics timm segmentation-models-pytorch

    

    # Ch 13 : Recommandation

    if '13_' in notebook_name:

        !pip install -q scikit-surprise implicit

    

    # Ch 14 : MLOps

    if '14_' in notebook_name:

        !pip install -q mlflow fastapi pydantic

    

    print('‚úÖ Installation termin√©e !')

else:

    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 00 - Exercices : Introduction au Machine Learning

Ce notebook contient des exercices pratiques pour consolider les concepts du Chapitre 00.

**Instructions** :
- Compl√©tez les cellules marqu√©es `# VOTRE CODE ICI`
- Les solutions sont disponibles dans `00_exercices_solutions.ipynb`
- N'h√©sitez pas √† consulter la documentation (scikit-learn, pandas, matplotlib)

---

## Setup Initial

In [1]:
# Imports n√©cessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.data  # type: ignoresets import load_wine, load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Configuration
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)
np.random.seed(42)

print("‚úì Biblioth√®ques import√©es")

‚úì Biblioth√®ques import√©es


---

## Exercice 1 : Analyse Exploratoire (EDA)

**Dataset** : Wine (vins)

**Objectif** : Effectuer une analyse exploratoire compl√®te du dataset Wine.

### 1.1 Chargement et Exploration

In [None]:
# Chargez le dataset Wine et cr√©ez un DataFrame
# VOTRE CODE ICI

wine = None  # Remplacez par load_wine()
df_wine = None  # Cr√©ez un DataFrame avec les donn√©es et les colonnes

# Affichez les premi√®res lignes
# VOTRE CODE ICI


**Questions** :
1. Combien y a-t-il d'√©chantillons et de features ?
2. Quelles sont les classes cibles ?
3. Y a-t-il des valeurs manquantes ?

In [None]:
# R√©pondez aux questions ci-dessus
# VOTRE CODE ICI

# 1. Nombre d'√©chantillons et features

# 2. Classes cibles

# 3. Valeurs manquantes


### 1.2 Statistiques Descriptives

In [None]:
# Affichez les statistiques descriptives du DataFrame
# VOTRE CODE ICI


### 1.3 Distribution des Classes

In [None]:
# Visualisez la distribution des classes (countplot ou pie chart)
# VOTRE CODE ICI

# Question : Le dataset est-il √©quilibr√© ?


### 1.4 Matrice de Corr√©lation

In [None]:
# Calculez et visualisez la matrice de corr√©lation
# Utilisez une heatmap avec annotations
# VOTRE CODE ICI

# Question : Quelles features sont les plus corr√©l√©es ?


### 1.5 Pairplot

In [None]:
# Cr√©ez un pairplot pour les 4 premi√®res features
# VOTRE CODE ICI


---

## Exercice 2 : Pipeline ML Complet

**Dataset** : Breast Cancer (cancer du sein)

**Objectif** : Construire un pipeline complet de classification binaire.

### 2.1 Chargement des Donn√©es

In [None]:
# Chargez le dataset Breast Cancer
# VOTRE CODE ICI

cancer = None  # load_breast_cancer()
X = None
y = None

print(f"Nombre d'√©chantillons : {X.shape[0]}")
print(f"Nombre de features : {X.shape[1]}")
print(f"Classes : {cancer.target  # type: ignore_names}")

### 2.2 Split Train/Test

In [None]:
# S√©parez les donn√©es en train/test (70/30)
# Utilisez stratify=y pour pr√©server la distribution des classes
# VOTRE CODE ICI

X_train, X_test, y_train, y_test = None, None, None, None

# V√©rifiez les tailles


### 2.3 Standardisation

In [None]:
# Standardisez les features
# ATTENTION : fit uniquement sur le train set !
# VOTRE CODE ICI

scaler = StandardScaler()
X_train_scaled = None
X_test_scaled = None


### 2.4 Entra√Ænement de Mod√®les

In [None]:
# Entra√Ænez au moins 3 mod√®les diff√©rents :
# - Logistic Regression
# - Random Forest
# - SVM
# VOTRE CODE ICI

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC

# Cr√©ez un dictionnaire de mod√®les
models = {
    # VOTRE CODE ICI
}

# Entra√Ænez chaque mod√®le et stockez les r√©sultats
results = {}

for name, model in models.items():
    # VOTRE CODE ICI
    pass


### 2.5 √âvaluation et Comparaison

In [None]:
# Comparez les performances des mod√®les
# Cr√©ez un DataFrame avec les r√©sultats
# VOTRE CODE ICI

# Visualisez les performances (barplot)


### 2.6 √âvaluation D√©taill√©e du Meilleur Mod√®le

In [None]:
# S√©lectionnez le meilleur mod√®le
# VOTRE CODE ICI

best_model = None

# Affichez le classification report

# Affichez la matrice de confusion


---

## Exercice 3 : D√©tection d'Overfitting

**Objectif** : Cr√©er un sc√©nario d'overfitting et apprendre √† le d√©tecter.

### 3.1 Cr√©ation d'un Dataset avec Peu d'√âchantillons

In [None]:
# Utilisez le dataset Wine, mais ne gardez que 30 √©chantillons al√©atoires
# VOTRE CODE ICI

wine = load_wine()
# S√©lectionnez al√©atoirement 30 indices
indices = None  # np.random.choice(...)

X_small = None
y_small = None

# Split train/test (20 train, 10 test)
X_train_small, X_test_small, y_train_small, y_test_small = None, None, None, None


### 3.2 Entra√Ænement d'un Mod√®le Complexe

In [None]:
# Entra√Ænez un DecisionTreeClassifier SANS limitation de profondeur
# VOTRE CODE ICI

from sklearn.tree import DecisionTreeClassifier

tree_overfit = None  # DecisionTreeClassifier(max_depth=None)

# Calculez l'accuracy sur le train set et le test set
train_accuracy = None
test_accuracy = None

print(f"Train Accuracy : {train_accuracy:.4f}")
print(f"Test Accuracy  : {test_accuracy:.4f}")

# Question : Y a-t-il de l'overfitting ? Pourquoi ?


### 3.3 R√©gularisation pour R√©duire l'Overfitting

In [None]:
# Testez diff√©rentes valeurs de max_depth pour r√©duire l'overfitting
# VOTRE CODE ICI

max_depths = [2, 3, 4, 5, 6, 7, 8, None]
train_scores = []
test_scores = []

for depth in max_depths:
    # Entra√Ænez un arbre avec cette profondeur
    # Stockez les accuracies train et test
    pass

# Visualisez les courbes train vs test
plt.figure(figsize=(10, 6))
# VOTRE CODE ICI


---

## Exercice 4 : Feature Engineering (Bonus)

**Objectif** : Am√©liorer les performances en cr√©ant de nouvelles features.

### 4.1 Cr√©ation de Nouvelles Features

In [None]:
# Utilisez le dataset Iris
from sklearn.data  # type: ignoresets import load_iris

iris = load_iris()
df_iris = pd.DataFrame(iris.data  # type: ignore, columns=iris.feature_names  # type: ignore)
df_iris['target'] = iris.target  # type: ignore

# Cr√©ez de nouvelles features :
# 1. Ratio sepal_length / sepal_width
# 2. Ratio petal_length / petal_width
# 3. Surface des p√©tales (petal_length * petal_width)
# VOTRE CODE ICI

df_iris['sepal_ratio'] = None
df_iris['petal_ratio'] = None
df_iris['petal_area'] = None

display(df_iris.head())

### 4.2 Comparaison Avant/Apr√®s Feature Engineering

In [None]:
# Comparez les performances d'un mod√®le avec et sans les nouvelles features
# VOTRE CODE ICI

# Mod√®le sans nouvelles features
X_original = iris.data  # type: ignore
y = iris.target  # type: ignore

# Mod√®le avec nouvelles features
X_engineered = None  # df_iris[toutes les features sauf 'target']

# Entra√Ænez et comparez


---

## Exercice 5 : Interpr√©tation des R√©sultats

**Objectif** : Analyser et interpr√©ter les m√©triques de classification.

### 5.1 Analyse d'une Matrice de Confusion

In [None]:
# Voici une matrice de confusion fictive pour un probl√®me de classification binaire
# (d√©tection de spam)

cm = np.array([
    [85, 15],  # Classe 0 (non-spam) : 85 vrais n√©gatifs, 15 faux positifs
    [10, 90]   # Classe 1 (spam)     : 10 faux n√©gatifs, 90 vrais positifs
])

# Questions :
# 1. Calculez manuellement : Accuracy, Precision, Recall, F1-Score
# 2. Dans le contexte du spam, quelle m√©trique est la plus importante ? Pourquoi ?
# VOTRE CODE ICI

# True Positives (TP)
TP = None

# True Negatives (TN)
TN = None

# False Positives (FP)
FP = None

# False Negatives (FN)
FN = None

# Accuracy
accuracy = None

# Precision
precision = None

# Recall
recall = None

# F1-Score
f1 = None

print(f"Accuracy  : {accuracy:.4f}")
print(f"Precision : {precision:.4f}")
print(f"Recall    : {recall:.4f}")
print(f"F1-Score  : {f1:.4f}")

---

## Exercice 6 : Questions de R√©flexion

R√©pondez aux questions suivantes dans les cellules markdown :

### 6.1 Overfitting vs Underfitting

**Question** : Expliquez avec vos propres mots la diff√©rence entre overfitting et underfitting. Donnez un exemple concret pour chaque cas.

**VOTRE R√âPONSE ICI**

### 6.2 Choix de Mod√®le

**Question** : Vous devez pr√©dire le prix d'une maison √† partir de ses caract√©ristiques (surface, nombre de chambres, localisation, etc.). Quel(s) algorithme(s) utiliseriez-vous et pourquoi ?

**VOTRE R√âPONSE ICI**

### 6.3 √âthique en ML

**Question** : Vous d√©veloppez un syst√®me de tri de CV pour une entreprise. Quels biais potentiels pourriez-vous rencontrer ? Comment les att√©nuer ?

**VOTRE R√âPONSE ICI**

---

## Conclusion

F√©licitations pour avoir compl√©t√© ces exercices !

**Points cl√©s √† retenir** :
- L'EDA est cruciale pour comprendre les donn√©es
- Un pipeline ML structur√© am√©liore la reproductibilit√©
- La validation crois√©e donne une meilleure estimation de la performance
- L'overfitting est un probl√®me courant qu'on peut d√©tecter et att√©nuer
- Le feature engineering peut significativement am√©liorer les performances

**Prochaines √©tapes** :
- Consultez les solutions dans `00_exercices_solutions.ipynb`
- Pratiquez sur d'autres datasets (Kaggle)
- Passez au Chapitre 01 pour approfondir les fondamentaux math√©matiques

---