# TP 2 : Modélisation & Évaluation  
## Breast Cancer Dataset

---

##  Description du TP

**Objectif :**  
Construire, entraîner, évaluer et comparer **plusieurs modèles de classification** afin de prédire le diagnostic du cancer du sein (malin / bénin).

Ce TP met l’accent sur :
- la comparaison rigoureuse des performances,
- l’interprétation des résultats,
- la préparation à un **déploiement en contexte réel**.

---

##  Instructions du TP

### 1 Préparation des données
- Charger le dataset prétraité issu du TP 1 (`breast_cancer_clean.csv`)
- Séparer les données en :
  - variables explicatives (`X`)
  - variable cible (`y`)
- Effectuer une séparation **train / test**
- Appliquer la **standardisation** lorsque nécessaire

---

### 2 Modèles à implémenter
Implémenter **au moins cinq (05)** algorithmes de classification parmi les suivants :

- Régression Logistique
- k-Nearest Neighbors (k-NN)
- Support Vector Machine (SVM)
- Arbres de décision
- Random Forest
- Gradient Boosting
- XGBoost (optionnel)

---

### 3️ Entraînement et optimisation
- Entraîner chaque modèle sur le jeu d’apprentissage
- Optimiser les hyperparamètres à l’aide de :
  - `GridSearchCV` ou `RandomizedSearchCV`
- Utiliser la **validation croisée**

---

### 4️ Évaluation des performances
Évaluer chaque modèle à l’aide des métriques suivantes :

- Accuracy
- Precision
- Recall
- F1-score
- ROC-AUC

Outils d’analyse recommandés :
- Matrice de confusion
- Courbes ROC
- Tableaux comparatifs des performances

---

### 5️ Comparaison et interprétation
- Comparer les modèles selon plusieurs critères
- Identifier le **meilleur modèle global**
- Discuter des compromis entre :
  - performance
  - complexité
  - interprétabilité

---

### 6️ Sauvegarde et réutilisation
- Sauvegarder le **meilleur modèle** :
  ```bash
  best_model.joblib


# Partie 1 : Configuration et Baseline

In [None]:
# 1. Chargement des données préparées
from TP1 import X_train, X_test, y_train, y_test  # ou charger depuis fichier

# 2. Modèle de baseline
from sklearn.dummy import DummyClassifier
from sklearn.metrics import accuracy_score

# Questions :
# a) Quel est le score d'un modèle aléatoire ?
# b) Quel est le score d'un modèle qui prédit toujours la classe majoritaire ?
# c) Pourquoi ces baselines sont-elles importantes ?

# 3. Évaluation initiale
# Définir une fonction d'évaluation qui calcule :
# - Accuracy, Precision, Recall, F1-Score
# - Matrice de confusion
# - Rapport de classification

# Partie 2 : Implémentation des Modèles

In [None]:
# 4. Implémenter 5 algorithmes différents
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
import xgboost as xgb

# Pour chaque modèle :
# a) Initialiser avec paramètres par défaut
# b) Entraîner sur le training set
# c) Évaluer sur le test set
# d) Stocker les résultats dans un DataFrame

# 5. Analyse comparative
# a) Créer un DataFrame comparatif des performances
# b) Visualiser les résultats avec un barplot horizontal
# c) Identifier le meilleur modèle selon le F1-Score

# Partie 3 : Validation Croisée et Optimisation

In [None]:
# 6. Validation croisée
from sklearn.model_selection import cross_val_score, StratifiedKFold

# a) Implémenter une validation croisée k=5 pour les 3 meilleurs modèles
# b) Comparer les scores moyens et les écarts-types
# c) Quel modèle est le plus stable ?

# 7. Optimisation des hyperparamètres
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

# Choisir 2 modèles pour optimisation :
# Exemple pour Random Forest :
param_grid_rf = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Questions :
# a) Comparer GridSearchCV vs RandomizedSearchCV
# b) Quels sont les meilleurs hyperparamètres trouvés ?
# c) Amélioration par rapport aux paramètres par défaut ?

# Partie 4 : Analyse Approfondie

In [None]:
# 8. Feature importance
# Pour les modèles d'arbres :
# a) Extraire et visualiser les 10 features les plus importantes
# b) Ces features sont-elles cohérentes avec l'analyse EDA ?
# c) Proposer une sélection de features basée sur l'importance

# 9. Courbes d'évaluation
# a) Courbe ROC et AUC pour chaque modèle
# b) Courbe Precision-Recall (important pour classes déséquilibrées)
# c) Learning curves pour vérifier le surapprentissage

# 10. Analyse des erreurs
# a) Quels échantillons sont mal classés par tous les modèles ?
# b) Y a-t-il des patterns dans les erreurs ?
# c) Proposer des améliorations possibles

# Partie 5 : Pipeline de Production

In [None]:
# 11. Création d'un pipeline complet
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# a) Créer un pipeline avec preprocessing + modèle
# b) Entraîner le pipeline sur toutes les données
# c) Sauvegarder le modèle avec joblib

# 12. Fonction de prédiction
def predict_breast_cancer(features, model_path='best_model.joblib'):
    """
    Fonction pour prédire le diagnostic d'une tumeur
    """
    # Charger le modèle
    # Prétraiter les features
    # Faire la prédiction
    # Retourner : diagnostic, probabilité, interprétation
    pass

# 13. Tests unitaires
# Créer des tests pour vérifier :
# - Format des inputs
# - Plages de valeurs attendues
# - Performance minimum acceptable

---

#  Questions d’Analyse – TP 2 (produire un document) 
## Évaluation, Interprétation & Déploiement des Modèles

---

##  Performance des modèles

1. Quel modèle a obtenu les **meilleures performances globales** ?
   - Sur quelles métriques vous basez-vous ?
   - Pourquoi ce modèle performe-t-il mieux selon vous ?

2. Comment les **métriques d’évaluation** (Accuracy, Precision, Recall, F1-score, ROC-AUC) diffèrent-elles entre les modèles ?
   - Quels compromis observez-vous ?

---

##  Overfitting / Underfitting

3. Observez-vous des signes de **surapprentissage (overfitting)** ou de **sous-apprentissage (underfitting)** ?
   - Comment les avez-vous détectés ?
     - comparaison train/test
     - validation croisée
     - courbes d’apprentissage

4. Quelles **stratégies** avez-vous mises en œuvre pour réduire ces phénomènes ?
   - régularisation
   - validation croisée
   - réduction de features
   - data augmentation / rééquilibrage

---

##  Importance des features

5. Les **features importantes** sont-elles identiques pour tous les modèles ?
   - Comparez les méthodes basées sur :
     - coefficients
     - importance des arbres
     - méthodes globales

6. Est-il possible de **réduire le nombre de variables** sans perte significative de performance ?
   - Quelles techniques avez-vous testées ?
     - sélection de variables
     - PCA
     - importance cumulée

---

##  Cas difficiles à classer

7. Quels sont les **échantillons mal classés ou incertains** ?
   - Comment les avez-vous identifiés ?
     - probabilités proches du seuil
     - faux positifs / faux négatifs

8. Proposez des **explications possibles** à ces erreurs :
   - similarité morphologique
   - bruit dans les données
   - limites du modèle

---

##  Déploiement & interprétation

9. Quelles sont les **considérations éthiques** liées à l’utilisation de ce modèle en milieu médical ?
   - faux diagnostics
   - biais
   - responsabilité humaine

10. Comment **présenteriez-vous les résultats à un médecin** ?
    - choix des métriques
    - visualisations adaptées
    - interprétabilité

---

##  Livrables attendus

- ✅ **Notebook Jupyter** avec implémentation complète et commentée
- ✅ **Modèle entraîné sauvegardé** : `best_model.joblib`
- ✅ **Rapport comparatif des modèles**
  - tableaux récapitulatifs
  - graphiques et interprétations
- ✅ **Code de prédiction documenté**
- ✅ **Présentation synthétique** (5 slides maximum)

---

##  Critères d’Évaluation

###  TP 1 – /20 points

| Critère              | Points | Description                                   |
|----------------------|--------|-----------------------------------------------|
| Complétude           | 5      | Toutes les étapes réalisées                   |
| Qualité du code      | 4      | Code propre, commenté, conforme PEP8          |
| Analyse statistique  | 4      | Statistiques pertinentes calculées            |
| Visualisations       | 4      | Graphiques clairs et informatifs              |
| Rapport écrit        | 3      | Réponses structurées et argumentées           |

---

###  TP 2 – /20 points

| Critère               | Points | Description                                         |
|-----------------------|--------|-----------------------------------------------------|
| Diversité des modèles | 4      | ≥ 5 algorithmes implémentés                         |
| Optimisation          | 4      | Hyperparamètres + validation croisée               |
| Évaluation complète  | 4      | Métriques multiples, ROC, matrices de confusion    |
| Analyse critique     | 4      | Interprétation, limites, justification des choix   |
| Pipeline production  | 4      | Code robuste, tests, documentation                 |

---

###  Bonus – /5 points

- ✅ Techniques avancées : **SMOTE, PCA**
- ✅ Interfac
