# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/00_introduction/00_exercices_solutions.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)import sysIN_COLAB = 'google.colab' in sys.modulesif IN_COLAB:    print('üì¶ Installation des packages...')        # Packages ML de base    !pip install -q numpy pandas matplotlib seaborn scikit-learn        # D√©tection du chapitre et installation des d√©pendances sp√©cifiques    notebook_name = '00_exercices_solutions.ipynb'  # Sera remplac√© automatiquement        # Ch 06-08 : Deep Learning    if any(x in notebook_name for x in ['06_', '07_', '08_']):        !pip install -q torch torchvision torchaudio        # Ch 08 : NLP    if '08_' in notebook_name:        !pip install -q transformers datasets tokenizers        if 'rag' in notebook_name:            !pip install -q sentence-transformers faiss-cpu rank-bm25        # Ch 09 : Reinforcement Learning    if '09_' in notebook_name:        !pip install -q gymnasium[classic-control]        # Ch 04 : Boosting    if '04_' in notebook_name and 'boosting' in notebook_name:        !pip install -q xgboost lightgbm catboost        # Ch 05 : Clustering avanc√©    if '05_' in notebook_name:        !pip install -q umap-learn        # Ch 11 : S√©ries temporelles    if '11_' in notebook_name:        !pip install -q statsmodels prophet        # Ch 12 : Vision avanc√©e    if '12_' in notebook_name:        !pip install -q ultralytics timm segmentation-models-pytorch        # Ch 13 : Recommandation    if '13_' in notebook_name:        !pip install -q scikit-surprise implicit        # Ch 14 : MLOps    if '14_' in notebook_name:        !pip install -q mlflow fastapi pydantic        print('‚úÖ Installation termin√©e !')else:    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 00 - Solutions des Exercices

Ce notebook contient les solutions d√©taill√©es des exercices du Chapitre 00.

**Remarque** : Essayez d'abord de r√©soudre les exercices par vous-m√™me avant de consulter les solutions !

---

## Setup Initial

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_wine, load_breast_cancer, load_iris
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import (
    accuracy_score, classification_report, confusion_matrix,
    ConfusionMatrixDisplay
)
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier

sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)
np.random.seed(42)

print("‚úì Biblioth√®ques import√©es")

---

## Solution Exercice 1 : Analyse Exploratoire (EDA)

### 1.1 Chargement et Exploration

In [None]:
# Chargement du dataset Wine
wine = load_wine()

# Cr√©ation du DataFrame
df_wine = pd.DataFrame(
    data=wine.data,  # type: ignore
    columns=wine.feature_names  # type: ignore
)
df_wine['target'] = wine.target  # type: ignore
df_wine['target_name'] = df_wine['target'].map(
    {i: name for i, name in enumerate(wine.target_names)}  # type: ignore
)

print("Dataset Wine charg√©")
display(df_wine.head(10))

In [None]:
# R√©ponses aux questions

# 1. Nombre d'√©chantillons et features
n_samples, n_features = wine.data.shape  # type: ignore
print(f"1. Nombre d'√©chantillons : {n_samples}")
print(f"   Nombre de features : {n_features}")

# 2. Classes cibles
print(f"\n2. Classes cibles : {wine.target_names}")  # type: ignore
print(f"   Nombre de classes : {len(wine.target_names)}")  # type: ignore

# 3. Valeurs manquantes
print(f"\n3. Valeurs manquantes :")
print(df_wine.isnull().sum())
print("   ‚Üí Aucune valeur manquante")

### 1.2 Statistiques Descriptives

In [None]:
# Statistiques descriptives
display(df_wine.describe())

print("\nObservations :")
print("- Les features ont des √©chelles tr√®s diff√©rentes (ex: proline ~746, malic_acid ~2.3)")
print("- La standardisation sera importante pour certains algorithmes")

### 1.3 Distribution des Classes

In [None]:
# Distribution des classes
print("Distribution des classes :")
print(df_wine['target_name'].value_counts())

# Visualisation
fig, ax = plt.subplots(1, 2, figsize=(14, 5))

# Countplot
sns.countplot(data=df_wine, x='target_name', hue='target_name', ax=ax[0], palette='Set2', legend=False)
ax[0].set_title('Distribution des Classes', fontsize=14, fontweight='bold')
ax[0].set_xlabel('Classe')
ax[0].set_ylabel('Nombre d\'√©chantillons')

# Pie chart
counts = df_wine['target_name'].value_counts()
ax[1].pie(
    counts,
    labels=counts.index,
    autopct='%1.1f%%',
    colors=sns.color_palette('Set2'),
    startangle=90
)
ax[1].set_title('Proportion des Classes', fontsize=14, fontweight='bold')
ax[1].set_ylabel('')

plt.tight_layout()
plt.show()

print("\nR√©ponse : Le dataset est l√©g√®rement d√©s√©quilibr√©")
print("class_0: 59 √©chantillons (33%), class_1: 71 (40%), class_2: 48 (27%)")

### 1.4 Matrice de Corr√©lation

In [None]:
# Matrice de corr√©lation
corr_matrix = df_wine[list(wine.feature_names)].corr()  # type: ignore

# Visualisation
plt.figure(figsize=(12, 10))
sns.heatmap(
    corr_matrix,
    annot=True,
    cmap='coolwarm',
    center=0,
    square=True,
    linewidths=0.5,
    cbar_kws={"shrink": 0.8},
    fmt='.2f',
    annot_kws={'size': 8}
)
plt.title('Matrice de Corr√©lation', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

# Identifier les corr√©lations les plus fortes
print("\nPaires de features les plus corr√©l√©es :")
corr_pairs = []
for i in range(len(corr_matrix.columns)):
    for j in range(i+1, len(corr_matrix.columns)):
        corr_pairs.append((
            corr_matrix.columns[i],
            corr_matrix.columns[j],
            abs(corr_matrix.iloc[i, j])
        ))

corr_pairs_sorted = sorted(corr_pairs, key=lambda x: x[2], reverse=True)
for feat1, feat2, corr in corr_pairs_sorted[:5]:
    print(f"  {feat1[:20]:20s} ‚Üî {feat2[:20]:20s} : {corr:.3f}")

### 1.5 Pairplot

In [None]:
# Pairplot pour les 4 premi√®res features
features_to_plot = wine.feature_names[:4]  # type: ignore
df_subset = df_wine[list(features_to_plot) + ['target_name']]

sns.pairplot(
    df_subset,
    hue='target_name',
    palette='Set2',
    diag_kind='kde',
    markers=['o', 's', 'D'],
    plot_kws={'alpha': 0.6}
)
plt.suptitle('Pairplot - 4 Premi√®res Features', y=1.02, fontsize=14, fontweight='bold')
plt.show()

---

## Solution Exercice 2 : Pipeline ML Complet

### 2.1 Chargement des Donn√©es

In [None]:
# Chargement du dataset Breast Cancer
cancer = load_breast_cancer()
X = cancer.data  # type: ignore
y = cancer.target  # type: ignore

print(f"Nombre d'√©chantillons : {X.shape[0]}")
print(f"Nombre de features : {X.shape[1]}")
print(f"Classes : {cancer.target_names}")  # type: ignore
print(f"Distribution : {np.bincount(y)} (0=malignant, 1=benign)")

### 2.2 Split Train/Test

In [None]:
# Split 70/30 avec stratification
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

print(f"Train set : {X_train.shape[0]} √©chantillons ({X_train.shape[0]/len(X)*100:.1f}%)")
print(f"Test set  : {X_test.shape[0]} √©chantillons ({X_test.shape[0]/len(X)*100:.1f}%)")

print(f"\nDistribution train : {np.bincount(y_train)}")
print(f"Distribution test  : {np.bincount(y_test)}")

### 2.3 Standardisation

In [None]:
# Standardisation (fit sur train uniquement)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("‚úì Standardisation effectu√©e")
print(f"Moyennes (train) : {X_train_scaled.mean(axis=0)[:5].round(2)}")
print(f"√âcart-types (train) : {X_train_scaled.std(axis=0)[:5].round(2)}")

### 2.4 Entra√Ænement de Mod√®les

In [None]:
# Dictionnaire de mod√®les
models = {
    'Logistic Regression': LogisticRegression(max_iter=10000, random_state=42),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
    'SVM': SVC(kernel='rbf', random_state=42, probability=True)
}

results = {}

print("Entra√Ænement des mod√®les...\n")

for name, model in models.items():
    print(f"‚è≥ {name}...")
    
    # Entra√Ænement
    if name in ['Logistic Regression', 'SVM']:
        model.fit(X_train_scaled, y_train)
        y_pred = model.predict(X_test_scaled)
        cv_scores = cross_val_score(model, X_train_scaled, y_train, cv=5)
    else:
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        cv_scores = cross_val_score(model, X_train, y_train, cv=5)
    
    # Calcul des m√©triques
    accuracy = accuracy_score(y_test, y_pred)
    
    # Stockage
    results[name] = {
        'model': model,
        'accuracy': accuracy,
        'cv_mean': cv_scores.mean(),
        'cv_std': cv_scores.std(),
        'y_pred': y_pred
    }
    
    print(f"   Accuracy : {accuracy:.4f}")
    print(f"   CV Score : {cv_scores.mean():.4f} (+/- {cv_scores.std():.4f})\n")

print("‚úÖ Entra√Ænement termin√©")

### 2.5 √âvaluation et Comparaison

In [None]:
# DataFrame de comparaison
comparison = pd.DataFrame({
    'Mod√®le': list(results.keys()),
    'Accuracy': [r['accuracy'] for r in results.values()],
    'CV Mean': [r['cv_mean'] for r in results.values()],
    'CV Std': [r['cv_std'] for r in results.values()]
}).sort_values('Accuracy', ascending=False)

print("Comparaison des performances :")
display(comparison)

# Visualisation
fig, ax = plt.subplots(figsize=(10, 6))
x_pos = np.arange(len(comparison))

ax.barh(
    x_pos,
    comparison['Accuracy'],
    color=sns.color_palette('viridis', len(comparison)),
    edgecolor='black'
)
ax.set_yticks(x_pos)
ax.set_yticklabels(comparison['Mod√®le'])
ax.set_xlabel('Accuracy', fontsize=12)
ax.set_title('Comparaison des Performances', fontsize=14, fontweight='bold')
ax.set_xlim([0.9, 1.0])
ax.grid(axis='x', alpha=0.3)

# Annotations
for i, v in enumerate(comparison['Accuracy']):
    ax.text(v + 0.005, i, f"{v:.4f}", va='center', fontweight='bold')

plt.tight_layout()
plt.show()

### 2.6 √âvaluation D√©taill√©e du Meilleur Mod√®le

In [None]:
# S√©lection du meilleur mod√®le
best_model_name = comparison.iloc[0]['Mod√®le']
best_model = results[best_model_name]['model']
best_y_pred = results[best_model_name]['y_pred']

print(f"üèÜ Meilleur mod√®le : {best_model_name}\n")

# Classification report
print("Classification Report :")
print(classification_report(
    y_test,
    best_y_pred,
    target_names=cancer.target_names  # type: ignore
))

# Confusion matrix
cm = confusion_matrix(y_test, best_y_pred)

fig, ax = plt.subplots(1, 2, figsize=(14, 6))

# Matrice absolue
disp1 = ConfusionMatrixDisplay(
    confusion_matrix=cm,
    display_labels=cancer.target_names  # type: ignore
)
disp1.plot(ax=ax[0], cmap='Blues', values_format='d')
ax[0].set_title('Matrice de Confusion', fontsize=12, fontweight='bold')

# Matrice normalis√©e
cm_norm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
disp2 = ConfusionMatrixDisplay(
    confusion_matrix=cm_norm,
    display_labels=cancer.target_names  # type: ignore
)
disp2.plot(ax=ax[1], cmap='Blues', values_format='.2%')
ax[1].set_title('Matrice de Confusion (Normalis√©e)', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

---

## Solution Exercice 3 : D√©tection d'Overfitting

### 3.1 Cr√©ation d'un Dataset avec Peu d'√âchantillons

In [None]:
# Dataset Wine avec seulement 30 √©chantillons
wine = load_wine()

# S√©lection al√©atoire de 30 indices
indices = np.random.choice(len(wine.data), size=30, replace=False)  # type: ignore

X_small = wine.data[indices]  # type: ignore
y_small = wine.target[indices]  # type: ignore

# Split 20/10
X_train_small, X_test_small, y_train_small, y_test_small = train_test_split(
    X_small, y_small,
    test_size=10,
    random_state=42,
    stratify=y_small
)

print(f"Train : {len(X_train_small)} √©chantillons")
print(f"Test  : {len(X_test_small)} √©chantillons")

### 3.2 Entra√Ænement d'un Mod√®le Complexe

In [None]:
# Decision Tree sans limitation de profondeur
tree_overfit = DecisionTreeClassifier(max_depth=None, random_state=42)
tree_overfit.fit(X_train_small, y_train_small)

# Accuracy sur train et test
train_accuracy = tree_overfit.score(X_train_small, y_train_small)
test_accuracy = tree_overfit.score(X_test_small, y_test_small)

print(f"Train Accuracy : {train_accuracy:.4f}")
print(f"Test Accuracy  : {test_accuracy:.4f}")

print("\nüí° Analyse :")
if train_accuracy > test_accuracy + 0.1:
    print("   ‚ö†Ô∏è OVERFITTING d√©tect√© !")
    print("   Le mod√®le a une performance parfaite sur le train (1.00)")
    print("   mais beaucoup plus faible sur le test.")
    print("   ‚Üí Le mod√®le a m√©moris√© les donn√©es d'entra√Ænement.")
else:
    print("   ‚úì Pas d'overfitting majeur d√©tect√©")

### 3.3 R√©gularisation pour R√©duire l'Overfitting

In [None]:
# Test de diff√©rentes profondeurs
max_depths = [2, 3, 4, 5, 6, 7, 8, None]
train_scores = []
test_scores = []

for depth in max_depths:
    tree = DecisionTreeClassifier(max_depth=depth, random_state=42)
    tree.fit(X_train_small, y_train_small)
    
    train_scores.append(tree.score(X_train_small, y_train_small))
    test_scores.append(tree.score(X_test_small, y_test_small))

# Visualisation
plt.figure(figsize=(12, 6))

# Conversion de None en "No limit" pour l'affichage
depths_labels = [str(d) if d is not None else "No limit" for d in max_depths]
x_pos = np.arange(len(max_depths))

plt.plot(x_pos, train_scores, 'o-', linewidth=2, markersize=8, label='Train', color='blue')
plt.plot(x_pos, test_scores, 's-', linewidth=2, markersize=8, label='Test', color='red')

plt.xticks(x_pos, depths_labels)
plt.xlabel('max_depth', fontsize=12)
plt.ylabel('Accuracy', fontsize=12)
plt.title('Train vs Test Accuracy en fonction de max_depth', fontsize=14, fontweight='bold')
plt.legend(fontsize=11)
plt.grid(alpha=0.3)
plt.ylim([0, 1.05])

# Zone d'overfitting
plt.axvspan(5.5, 7.5, alpha=0.2, color='red', label='Zone d\'overfitting')

plt.tight_layout()
plt.show()

# Meilleure profondeur
best_depth_idx = np.argmax(test_scores)
best_depth = max_depths[best_depth_idx]
print(f"\n‚úÖ Meilleure profondeur : {best_depth}")
print(f"   Test Accuracy : {test_scores[best_depth_idx]:.4f}")

---

## Solution Exercice 4 : Feature Engineering

### 4.1 Cr√©ation de Nouvelles Features

In [None]:
# Dataset Iris
iris = load_iris()
df_iris = pd.DataFrame(iris.data, columns=iris.feature_names)  # type: ignore
df_iris['target'] = iris.target  # type: ignore

# Cr√©ation de nouvelles features
df_iris['sepal_ratio'] = df_iris['sepal length (cm)'] / df_iris['sepal width (cm)']
df_iris['petal_ratio'] = df_iris['petal length (cm)'] / df_iris['petal width (cm)']
df_iris['petal_area'] = df_iris['petal length (cm)'] * df_iris['petal width (cm)']

print("Nouvelles features cr√©√©es :")
display(df_iris.head(10))

# Visualisation des nouvelles features
fig, ax = plt.subplots(1, 3, figsize=(16, 5))

for i, (col, axis) in enumerate(zip(['sepal_ratio', 'petal_ratio', 'petal_area'], ax)):
    for target in range(3):
        subset = df_iris[df_iris['target'] == target]
        axis.hist(
            subset[col],
            alpha=0.6,
            label=iris.target_names[target],  # type: ignore
            bins=15,
            edgecolor='black'
        )
    axis.set_xlabel(col, fontsize=11)
    axis.set_ylabel('Fr√©quence', fontsize=11)
    axis.set_title(f'Distribution : {col}', fontsize=12, fontweight='bold')
    axis.legend()
    axis.grid(alpha=0.3)

plt.tight_layout()
plt.show()

### 4.2 Comparaison Avant/Apr√®s Feature Engineering

In [None]:
# Mod√®le sans nouvelles features
X_original = iris.data  # type: ignore
y = iris.target  # type: ignore

model_original = RandomForestClassifier(n_estimators=100, random_state=42)
cv_original = cross_val_score(model_original, X_original, y, cv=5)

print("Sans feature engineering :")
print(f"  CV Mean : {cv_original.mean():.4f}")
print(f"  CV Std  : {cv_original.std():.4f}")

# Mod√®le avec nouvelles features
feature_cols = [col for col in df_iris.columns if col != 'target']
X_engineered = df_iris[feature_cols].values

model_engineered = RandomForestClassifier(n_estimators=100, random_state=42)
cv_engineered = cross_val_score(model_engineered, X_engineered, y, cv=5)

print("\nAvec feature engineering :")
print(f"  CV Mean : {cv_engineered.mean():.4f}")
print(f"  CV Std  : {cv_engineered.std():.4f}")

# Comparaison
improvement = cv_engineered.mean() - cv_original.mean()
print(f"\n‚úÖ Am√©lioration : {improvement:.4f} ({improvement/cv_original.mean()*100:.2f}%)")

# Visualisation
fig, ax = plt.subplots(figsize=(10, 6))

bp = ax.boxplot(
    [cv_original, cv_engineered],
    labels=['Sans FE', 'Avec FE'],
    patch_artist=True,
    boxprops=dict(facecolor='lightblue', edgecolor='black'),
    medianprops=dict(color='red', linewidth=2)
)

ax.set_ylabel('CV Accuracy', fontsize=12)
ax.set_title('Impact du Feature Engineering', fontsize=14, fontweight='bold')
ax.grid(alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

---

## Solution Exercice 5 : Interpr√©tation des R√©sultats

### 5.1 Analyse d'une Matrice de Confusion

In [None]:
# Matrice de confusion fictive
cm = np.array([
    [85, 15],  # Classe 0 (non-spam)
    [10, 90]   # Classe 1 (spam)
])

# Calcul des composantes
TN = cm[0, 0]  # True Negatives
FP = cm[0, 1]  # False Positives
FN = cm[1, 0]  # False Negatives
TP = cm[1, 1]  # True Positives

print("Composantes de la matrice de confusion :")
print(f"  TN (True Negatives)  : {TN}")
print(f"  FP (False Positives) : {FP}")
print(f"  FN (False Negatives) : {FN}")
print(f"  TP (True Positives)  : {TP}")

# Calcul des m√©triques
accuracy = (TP + TN) / (TP + TN + FP + FN)
precision = TP / (TP + FP)
recall = TP / (TP + FN)
f1 = 2 * (precision * recall) / (precision + recall)

print("\nM√©triques :")
print(f"  Accuracy  : {accuracy:.4f}")
print(f"  Precision : {precision:.4f}")
print(f"  Recall    : {recall:.4f}")
print(f"  F1-Score  : {f1:.4f}")

print("\nüí° Interpr√©tation dans le contexte du spam :")
print("\n  RECALL (Sensibilit√©) est la m√©trique la plus importante car :")
print("  - On veut d√©tecter un maximum de spams (minimiser les FN)")
print("  - Un spam non d√©tect√© (FN) peut contenir malware/phishing")
print("  - Un email l√©gitime class√© spam (FP) est moins grave")
print("    (l'utilisateur peut v√©rifier son dossier spam)")
print(f"\n  Recall actuel : {recall:.4f} (90% des spams d√©tect√©s)")
print(f"  ‚Üí 10 spams passent √† travers (10 FN)")

---

## Solution Exercice 6 : Questions de R√©flexion

### 6.1 Overfitting vs Underfitting

**R√©ponse** :

**Overfitting (Surapprentissage)** :
- Le mod√®le apprend "par c≈ìur" les donn√©es d'entra√Ænement, incluant le bruit
- Performance excellente sur le train set, mais mauvaise sur le test set
- Le mod√®le est trop complexe par rapport aux donn√©es disponibles
- **Exemple** : Un arbre de d√©cision avec une profondeur illimit√©e sur un petit dataset m√©morise chaque √©chantillon (accuracy train = 100%, test = 60%)

**Underfitting (Sous-apprentissage)** :
- Le mod√®le est trop simple pour capturer les patterns des donn√©es
- Performance faible sur le train set ET le test set
- Le mod√®le manque de capacit√© d'apprentissage
- **Exemple** : Utiliser une r√©gression lin√©aire pour mod√©liser une relation non-lin√©aire (ex: relation quadratique). Le mod√®le ne peut pas capturer la courbe.

**Solutions** :
- Overfitting : R√©gularisation (L1/L2), r√©duction de complexit√©, plus de donn√©es, dropout
- Underfitting : Mod√®le plus complexe, plus de features, moins de r√©gularisation

### 6.2 Choix de Mod√®le

**R√©ponse** :

Pour pr√©dire le prix d'une maison, je recommanderais :

**1. Gradient Boosting (XGBoost, LightGBM, CatBoost)** - Choix principal
- **Pourquoi** :
  - Excellent sur les donn√©es tabulaires
  - G√®re bien les relations non-lin√©aires
  - Robuste aux outliers
  - G√®re automatiquement les features cat√©gorielles (CatBoost)
  - Performances state-of-the-art sur ce type de probl√®me
- **Inconv√©nients** :
  - Moins interpr√©table qu'une r√©gression lin√©aire
  - N√©cessite un tuning d'hyperparam√®tres

**2. Random Forest Regressor** - Alternative solide
- **Pourquoi** :
  - Robuste, peu de risque d'overfitting
  - Fournit des feature importances
  - Moins de tuning n√©cessaire
- **Inconv√©nients** :
  - Performances l√©g√®rement inf√©rieures au Gradient Boosting

**3. Ridge Regression** - Pour la baseline et l'interpr√©tabilit√©
- **Pourquoi** :
  - Tr√®s interpr√©table (coefficients)
  - Rapide √† entra√Æner
  - Bon pour comprendre l'impact de chaque feature
- **Inconv√©nients** :
  - Assume une relation lin√©aire
  - Performances limit√©es si la relation est complexe

**Approche recommand√©e** :
1. Commencer par Ridge (baseline interpr√©table)
2. Essayer Random Forest
3. Optimiser avec Gradient Boosting (meilleure performance)
4. Comparer avec validation crois√©e
5. Feature engineering : ratios, interactions, transformations log

### 6.3 √âthique en ML

**R√©ponse** :

**Biais potentiels dans un syst√®me de tri de CV** :

1. **Biais de genre** :
   - Historique : Si l'entreprise a historiquement embauch√© plus d'hommes, le mod√®le peut apprendre ce biais
   - Indices indirects : Pr√©noms, loisirs genr√©s ("football" vs "yoga")

2. **Biais racial/ethnique** :
   - Noms de famille, √©tablissements d'enseignement dans certains quartiers
   - Langues parl√©es

3. **Biais d'√¢ge** :
   - Ann√©e de dipl√¥me, nombre d'ann√©es d'exp√©rience
   - Technologies anciennes vs r√©centes

4. **Biais socio-√©conomique** :
   - Universit√© prestigieuse vs moins connue
   - Exp√©riences √† l'√©tranger (co√ªt prohibitif pour certains)

**Solutions pour att√©nuer ces biais** :

1. **Audit des donn√©es** :
   - Analyser la distribution des candidats embauch√©s par d√©mographie
   - Identifier les d√©s√©quilibres historiques

2. **Anonymisation** :
   - Retirer nom, pr√©nom, √¢ge, photo
   - Masquer les ann√©es (remplacer par "3-5 ans d'exp√©rience")

3. **Feature selection prudente** :
   - Exclure les features sensibles (genre, ethnie, √¢ge)
   - √âviter les proxies (codes postaux, √©tablissements)

4. **Donn√©es d'entra√Ænement √©quilibr√©es** :
   - R√©√©quilibrage (oversampling/undersampling)
   - Utiliser des donn√©es synth√©tiques pour les groupes sous-repr√©sent√©s

5. **Fairness constraints** :
   - Imposer des contraintes d'√©quit√© pendant l'entra√Ænement
   - V√©rifier le taux de s√©lection par groupe d√©mographique

6. **Human-in-the-loop** :
   - Le mod√®le assiste, ne d√©cide pas seul
   - Revue humaine des candidatures recommand√©es
   - Diversit√© dans l'√©quipe de recrutement

7. **Monitoring continu** :
   - Suivre les taux d'acceptation par d√©mographie
   - Audits r√©guliers par une √©quipe ind√©pendante
   - Feedback des candidats rejet√©s

8. **Transparence** :
   - Documenter le fonctionnement du syst√®me
   - Expliquer aux candidats comment les d√©cisions sont prises
   - Droit de contestation

**Principe fondamental** : Le ML doit augmenter l'humain, pas le remplacer, surtout pour des d√©cisions impactant la vie des personnes.

---

## Conclusion

F√©licitations pour avoir compl√©t√© ces exercices !

Vous avez maintenant une bonne compr√©hension des concepts fondamentaux du Machine Learning :
- Pipeline ML complet
- EDA et visualisation
- D√©tection et pr√©vention de l'overfitting
- Validation crois√©e
- Feature engineering
- Interpr√©tation des m√©triques
- Consid√©rations √©thiques

**Prochaines √©tapes** :
1. Pratiquer sur d'autres datasets (Kaggle)
2. Approfondir les math√©matiques (Chapitre 01)
3. Explorer les algorithmes en d√©tail (Chapitres 02-10)

---