# Exercises XP Gold
Done 2025-07-01

## What will you create
calculation sheets for metrics like Accuracy, Precision, Recall, and F1-Score based on given confusion matrix values.
develop strategic proposals that address specific challenges posed by these issues.
build frameworks for evaluating classification models in different scenarios, especially focusing on the impact of class imbalance and the role of threshold tuning.


## What will you learn
Understand and interpret the confusion matrix in different scenarios.
Understand the trade-offs between different evaluation metrics.
Explore the concepts of cross-validation and learning curves.

## **Exercise 1 : Analyzing Confusion Matrix**
* Instructions, Imagine you have a dataset for a binary classification problem, such as email spam detection, where emails are classified as either ‘Spam’ or ‘Not Spam’. You are provided with the confusion matrix results of a classifier.
- Define in your own words what True Positives, True Negatives, False Positives, and False Negatives mean in the context of this email spam detection problem.
- Given a confusion matrix with specific values for TP, TN, FP, FN, calculate the Accuracy, Precision, Recall, and F1-Score.
- Discuss how the classifier’s performance would change with a higher number of False Positives compared to False Negatives, and vice versa.

## **Analyse d’une matrice de confusion dans un problème de détection de spam** :

---

## **Définitions dans le contexte "Spam / Pas Spam"**

* **True Positives (TP)** : Emails correctement identifiés comme **Spam**
  * Exemple : un vrai spam détecté comme tel.

* **True Negatives (TN)** : Emails correctement identifiés comme **Non Spam**
  * Exemple : un email légitime qui n’est pas marqué spam.

* **False Positives (FP)** : Emails **non spam** mal classés comme **Spam**
  * Exemple : un email important mis en spam par erreur.

* **False Negatives (FN)** : Emails **spam** mal classés comme **Non Spam**
  * Exemple : un spam qui atterrit dans la boîte de réception.

---

## **Calcul des métriques** (avec valeurs fictives)

**Exemple** :

* TP = 80
* TN = 90
* FP = 20
* FN = 10

Formules :

* **Accuracy** = (TP + TN) / (TP + TN + FP + FN)
  \= (80 + 90) / (80 + 90 + 20 + 10) = 170 / 200 = **0.85**

* **Precision** = TP / (TP + FP)
  \= 80 / (80 + 20) = **0.80**

* **Recall** = TP / (TP + FN)
  \= 80 / (80 + 10) = **0.89**

* **F1-Score** = 2 × (Precision × Recall) / (Precision + Recall)
  \= 2 × (0.80 × 0.89) / (0.80 + 0.89) ≈ **0.84**

---

## **Impact des erreurs FP vs FN**

* **Trop de FP (faux positifs)** :
  * Trop d’emails **légitimes** marqués comme spam
  * Cela peut faire **perdre des messages importants** → mauvaise expérience utilisateur.

* **Trop de FN (faux négatifs)** :
  * Trop de **spams** non détectés
  * Cela **pollue la boîte de réception**, mais moins grave si le filtre est globalement bon.

## **Conclusion** :

* Si l’enjeu est **ne pas rater des emails importants** → il faut **minimiser les FP** (favoriser la **précision**).
* Si l’enjeu est **filtrer tous les spams à tout prix** → il faut **minimiser les FN** (favoriser le **rappel**).



## **Exercise 2 : Evaluating Trade-offs in Metrics**
### Instructions
Consider a medical diagnosis application where a model predicts whether patients have a certain disease.
- Explain why high recall is more important than high precision in this medical diagnosis context.
- Describe a scenario where precision becomes more important than recall.
- Discuss the potential consequences of focusing solely on improving accuracy in imbalanced datasets.

## **Évaluer les compromis entre les métriques dans un contexte médical** :

---

## **1. Pourquoi le rappel (Recall) est plus important que la précision dans ce cas médical ?**

* **Rappel élevé** = détecter **le plus grand nombre possible de malades**
* Dans un contexte médical, **rater un patient malade (FN)** peut entraîner un **retard de diagnostic** ou **mettre sa vie en danger**.
* Il vaut mieux **faux alarmer** un patient sain (FP) que **louper un vrai cas**.

**Mieux vaut alerter à tort qu’ignorer un malade.**

---

## **2. Quand la précision devient-elle plus importante ?**

**Exemple** : Une alerte automatique pour déclencher un traitement coûteux, invasif ou risqué (ex : chimiothérapie, chirurgie).

* **Précision élevée** = on veut **éviter les faux positifs**
* On veut être sûr que **les cas détectés sont réellement positifs** avant d’agir lourdement.

**Mieux vaut ne rien faire que de faire du mal inutilement.**

---

## **3. Problèmes si on optimise uniquement l’Accuracy sur un jeu déséquilibré**

* Si 99 % des patients sont sains, un modèle qui prédit "sain" pour tout le monde aura **99 % de précision**... mais il **rate tous les malades** !
* L’accuracy **masque les erreurs critiques** dans des cas déséquilibrés.

**Conséquence** : modèle apparemment performant, mais **inutilisable en pratique**.

---

Il est donc **essentiel de choisir la bonne métrique** selon le **contexte, le risque et les conséquences** des erreurs. 


## **Exercise 3 : Understanding Cross-Validation and Learning Curves**
### Instructions
You are working on a project with a large dataset that involves predicting housing prices based on various features.
- Explain the difference between K-Fold Cross-Validation and Stratified K-Fold Cross-Validation. Which one would you choose for this task and why?
- Describe what learning curves are and how they can help in understanding the performance of your model.
- Discuss the implications of underfitting and overfitting as observed from learning curves, and how you might address these issues.

## **Validation croisée et courbes d’apprentissage (projet de prédiction de prix immobiliers)** :

---

## **1. Différence entre K-Fold et Stratified K-Fold**

### **K-Fold Cross-Validation**

* Divise les données en *k* sous-ensembles.
* À chaque itération, un pli est utilisé pour tester, les autres pour entraîner.
* Utilisé pour évaluer la stabilité d’un modèle.

### **Stratified K-Fold Cross-Validation**

* Même principe, **mais en conservant la proportion des classes** (utile pour classification).
* Assure un bon équilibre entre classes dans chaque pli.

**Choix ici** : **K-Fold classique**, car **la régression (prix)** ne nécessite pas de balance entre classes.

---

## **2. Courbes d’apprentissage (Learning Curves)**

Les **courbes d’apprentissage** montrent l’évolution des performances du modèle en fonction de la taille de l’échantillon d’entraînement.

* Deux courbes : **erreur d’entraînement** et **erreur de validation**
* Permettent de diagnostiquer :

  * Si le modèle apprend correctement
  * Si plus de données améliorent la performance

---

##  **3. Underfitting vs Overfitting selon les courbes**

| Situation        | Symptômes sur les courbes                      | Solutions possibles                                             |
| ---------------- | ---------------------------------------------- | --------------------------------------------------------------- |
| **Underfitting** | Erreurs élevées sur train **et** validation    | ➤ Modèle trop simple<br>➤ Ajouter features ou complexité        |
| **Overfitting**  | Erreur faible sur train, élevée sur validation | ➤ Modèle trop complexe<br>➤ Regularisation<br>➤ Plus de données |

---

Les courbes d’apprentissage aident à **ajuster la complexité du modèle** et **guider les améliorations**.



## **Exercise 4 : Impact of Class Imbalance on Model Evaluation**
### Instructions
Imagine you are working on a dataset for detecting a rare disease where only 2% of the instances are positive cases (have the disease).
- Explain why using accuracy as an evaluation metric might be misleading in this scenario.
- Discuss the importance of precision and recall in the context of this imbalanced dataset.
- Propose strategies you could use to more effectively evaluate and improve the model’s performance in this scenario, considering the imbalance in the dataset.

## **Impact du déséquilibre des classes sur l’évaluation du modèle** (détection d’une maladie rare à 2 %) :

---

## **1. Pourquoi l’accuracy est trompeuse ici**

* Si 98 % des cas sont négatifs (sains), un modèle qui prédit "négatif" pour tous aura **98 % d’accuracy**…
  **Mais il ne détecte aucun malade.**

**Accuracy** donne donc une **illusion de performance** dans les jeux de données déséquilibrés.

---

## **2. Importance de la précision et du rappel**

* **Recall (rappel)** : détecter un maximum de cas malades (éviter les faux négatifs)
  * Crucial ici pour **ne pas manquer de vrais patients malades**

* **Precision (précision)** : assurer que les cas prédits positifs sont réellement malades
  * Évite les fausses alertes médicales

**F1-score** (harmonique entre précision et rappel) est une bonne métrique synthétique ici.

---

## **3. Stratégies pour évaluer et améliorer le modèle**

### Évaluation :

* Utiliser **Recall, Precision, F1-score, ROC-AUC, PR-AUC**
* Travailler avec une **matrice de confusion** pour voir les vrais résultats

### Améliorations :

1. **Rééchantillonnage des données** :

   * **Oversampling** des cas positifs (ex : SMOTE)
   * **Undersampling** des cas négatifs

2. **Ajustement des poids de classes** dans les algorithmes
   * Exemple : `class_weight="balanced"` (Scikit-learn)

3. **Seuil de décision ajusté**
   * Baisser le seuil de prédiction pour augmenter le rappel

4. **Modèles robustes** aux déséquilibres : XGBoost, LightGBM, etc.

---


## Exercise 5 : Role of Threshold Tuning in Classification Models
### Instructions
You are evaluating a binary classification model that predicts whether a bank’s client will default on a loan. The model outputs a probability score between 0 and 1.
- Describe how changing the threshold for classifying a positive case (default) from 0.5 to 0.7 might affect the model’s precision and recall.
- Discuss the potential consequences of setting the threshold too high or too low in the context of loan default prediction.
- Explain how ROC (Receiver Operating Characteristic) curves and AUC (Area Under the Curve) can assist in finding the optimal threshold.

## **Rôle du réglage du seuil dans les modèles de classification** (prédiction de défaut de prêt) :

---

## **1. Effet d’un changement de seuil (ex : de 0.5 à 0.7)**

* **Seuil = 0.5** : standard, au-dessus = défaut
* **Seuil = 0.7** : il faut une probabilité plus élevée pour classer "défaut"

### Conséquences :

* **Précision augmente** (moins de faux positifs)
* **Rappel diminue** (plus de vrais défauts sont manqués)

---

## **2. Risques selon le réglage du seuil**

| Seuil trop **élevé** (ex : 0.9)                    | Seuil trop **bas** (ex : 0.2)                        |
| -------------------------------------------------- | ---------------------------------------------------- |
| * Peu de défauts détectés (faible **recall**)      | * Trop de clients classés "à risque" (**FP élevés**) |
| * La banque prête à des gens qui vont faire défaut | * Trop de bons clients refusés ou pénalisés          |
| * Risque financier élevé                           | * Perte de chiffre d’affaires ou d’image             |

---

## **3. Utilité de la courbe ROC et de l’AUC**

* **Courbe ROC** : trace le **taux de rappel (TPR)** contre le **taux de faux positifs (FPR)** pour différents seuils.
* **AUC (Area Under Curve)** : indique la capacité globale du modèle à distinguer les classes.

### Utilité :

* Aide à **choisir un seuil équilibré** selon l’objectif (maximiser le rappel, la précision ou le compromis).
* Permet de **visualiser la performance** sans se fixer un seuil arbitraire à 0.5.

---
