#### **1. Sélection des Modèles donnant les Meilleures Performances avec les Hyperparamètres par Défaut :**

Quand on compares plusieurs modèles (par exemple ``LinearRegression``, ``SVR``, ``RandomForest``, ``XGBoost``…) avec leurs hyperparamètres par défaut, on veux sélectionner celui qui s’adapte le mieux aux données.

##### **Sur quelles métriques se baser ?**

- **``R²`` (Coefficient de détermination)** :

    - Reflète la proportion de variance de la cible expliquée par le modèle.

    - Plus proche de 1, meilleur est le modèle.

    - _**Problème**_ : un R² élevé ne veut pas toujours dire que le modèle prédit bien (peut surajuster ou être influencé par outliers).

- **``MAE`` (Mean Absolute Error) :**

    - Donne l’erreur moyenne absolue (en unités réelles de la cible).

    - Plus faible, meilleur est le modèle.

    - Facile à interpréter.

- **``RMSE`` (Root Mean Squared Error) :**

    - Comme ``MAE`` mais pénalise davantage les grosses erreurs.

    - Plus faible, meilleur est le modèle.

    - Utile si tu veux éviter des grosses erreurs isolées.

##### **Conclusion :**

- Il ne faut pas se baser uniquement sur ``R²``. 

- Le mieux est de comparer les trois métriques.

- Choisir le modèle avec le plus grand ``R²``, et les plus petits ``MAE`` & ``RMSE``.

- Parfois, on auras un compromis :

    - _**Exemple**_ : un modèle avec R² élevé mais RMSE trop grand → pas optimal.

In [None]:
import pandas as pd

performances = pd.read_csv("../reports/performance.csv")

print(performances)

Voyons les résultats :

| Modèle               | MAE ↓      | RMSE ↓     | R² ↑       |
| -------------------- | ---------- | ---------- | ---------- |
| **LinearRegression** | 0.2713     | 0.4187     | 0.8050     |
| **Random Forest**    | 0.1862     | 0.3709     | 0.8470     |
| **XGBoost**          | 0.2168     | 0.4065     | 0.8161     |
| **SVR**              | **0.1704** | **0.3596** | **0.8561** |

##### Analyse :

- LinearRegression : le plus faible des quatre, erreurs élevées, ``R²`` plus faible.

- XGBoost : meilleur que LinearRegression, mais moins bon que ``Random Forest`` et ``SVR``.

- Random Forest : très bon compromis, ``R²`` assez élevé et erreurs réduites.

- SVR : meilleur ``MAE``, meilleur ``RMSE`` et meilleur ``R²`` → il bat tous les autres modèles.


**Conclusion :** le meilleur modèle (avec hyperparamètres par défaut) est ``SVR``.
