# Sélection de modèle

Ce notebook est dédié à la recherche de modèle d'entrainement concernant notre problématique.

## Problématique

L'objectif du projet est de permettre à un producteur d'énergie dans la région de Montpellier d'estimer la production énergétique de 3 types d'installation : hydro-electrique, solaire et éolien

Nous sommes donc dans un travail d'obtention de valeurs continues, ce qui implique l'emploi d'un modèle de regression.

## Contraintes

**Volume de données**

Pour chaque type d'énergie, le volume de données est <5k (~3k). Ainsi, le modèle devra être adapté à un dataset réduit.

**Features**

Dans nos cas respectifs, nous estimons le nombre de features pour l'entrainement et prédiction entre 2 et 5.

## Modèles suggérés


### Scikit-learn

**Linear Regressor** -> Pas adapté

- Simple, rapide
- Risque de ne pas bien capturer les relations non-linéaires

**Arbre de décision** -> Utilisé

- Adapté aux données tabulaires
- Captent les relations non-linéaires
- Adapté aux datasets avec peu de volume

**XGBoost** -> Testé

- Version regression
- Gère les relations non linéaire entre les variables
- Gère les interactions complexes entre les features
- Adapté aux datasets de taille moyenne

## Métriques

### Mean Absolute Error/Erreur Absolue Moyenne (MAE)

- Erreur moyenne en valeur absolue

Si le MAE = 50, cela signifique que le modèle se trompe de 50KWh par prédiction.

### Mean Squared Error/Erreur Quadratique Moyenne (MSE)

- Erreur moyenne au carré, les 'grosses' erreurs sont pénalisées plus fortement

Permet de vérifier le nombre de erreur ayant un fort impact sur la prédiction

### R2-score

- Coefficient de détermination

Plus le R² est proche de 1, plus le modèle est précis
Plus il est proche de 0, plus il se rapproche de la moyenne.

=================================================================================

## Résumé de la phase de test des modèles

Dans un premier temps, l'utilisation du modèle de regression linéaire (Linear Regression de sklearn) a permis de découvrir les problématiques de régression:

- **Est-ce que les données utilisées sont linéaires ou non-linéaires ?**

Dans notre cas, il a été nécessaire de se pencher sur nos données et d'en déduire la qualité. En effet, du point de vue de la réalité, certaines données n'évoluait pas de manière linéaire, continue mais prenait la forme d'une courbe (donc non-linéaire).

Ainsi, les modèles linéaires (Linear Regression, Ridge, Lasso) étaient à abandonner.

Nous avons donc opté pour deux autres modèles de régression selon deux critères :

- Le modèle doit prendre en compte la non-linéarité des données
- Le modèle doit être adapté à un volume de données moyennement bas (<5K)

Le modèle Random Forest Regressor et XGBoost Regressor ont été choisis. D'une part, nous connaissions déjà ces modèles pour des projets différents (bien qu'utilisés pour une problématique de classification), leurs hyperparamètres sont connus et d'autre part, ils conviennent et répondent à nos critères et problématiques.

Après tests et optimisation d'hyperparamètres, nous avons constaté des résultats similaires pour les deux modèles et ainsi, nous avons opté pour le modèle Random Forest qui accuse de résultats sensiblement meilleurs.
