<a href="https://colab.research.google.com/github/SIDIBEMoussa/DataHubNational/blob/main/Epreuve_v_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

# **Challenge DataTour 2024 : Prévision de la production d’énergie solaire en Afrique**

---

### **Contexte**

L’accès à une énergie fiable reste un défi de taille en Afrique subsaharienne, où de nombreuses régions dépendent de générateurs ou de systèmes solaires autonomes. Cependant, la production d’énergie solaire peut fluctuer sous l’effet de multiples facteurs : conditions météorologiques, demande locale, infrastructures disponibles, etc.

Ce défi de prévision est essentiel pour permettre aux décideurs d’allouer au mieux l’énergie disponible et d’identifier les zones prioritaires pour les installations solaires supplémentaires. En travaillant sur ce problème, vous contribuez à la mission de transformer l’accès à l’électricité en Afrique !

---

### **Objectif de la Compétition**
Développer un modèle de régression performant pour prédire la **demande énergétique projetée** (`demande_energetique_projectee`) dans différentes régions. Les modèles les plus précis permettront de prioriser les zones où les infrastructures énergétiques pourraient être optimisées.

---

### **Structure des Données**

Les données sont divisées en trois fichiers distincts :

1. **Données d’entraînement** (`train.csv`) :
   - **Taille** : 150 000 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ces données servent à entraîner les modèles.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv

2. **Données de test** (`test.csv`) :
   - **Taille** : 62 500 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier est fourni pour ajuster et évaluer la performance du modèle avant la soumission finale.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv

3. **Fichier de soumission** (`submission.csv`) :
   - **Taille** : 25 000 lignes.
   - **Colonnes** : Contient toutes les caractéristiques sauf la colonne cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier doit être utilisé pour générer les prédictions finales, sans accès à la colonne cible.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv

---

### **Description des colonnes**

| Colonne                              | Description                                                                                                    |
|--------------------------------------|----------------------------------------------------------------------------------------------------------------|
| `country`                            | Le pays où se situe la région.                                                                                 |
| `lat`, `lon`                         | Latitude et longitude de la région, permettant d'analyser les conditions géographiques.                        |
| `population`                         | Population de la région, un indicateur de la demande énergétique potentielle.                                  |
| `taux_ensoleillement`                | Moyenne du taux d'ensoleillement annuel, indiquant le potentiel solaire de la région.                          |
| `demande_energetique_actuelle`       | La demande énergétique actuelle de la région.                                                                  |
| `demande_energetique_projectee`      | **Variable cible** – La demande énergétique projetée pour la région (à prédire dans le fichier de soumission). |
| `capacite_installee_actuelle`        | La capacité énergétique actuelle installée dans la région.                                                     |
| `duree_ensoleillement_annuel`        | Nombre moyen d'heures d'ensoleillement annuel, influençant le potentiel de production solaire.                 |
| `cout_installation_solaire`          | Coût moyen pour installer des infrastructures solaires dans la région.                                        |
| `proximite_infrastructures_energetiques` | Distance aux infrastructures énergétiques existantes, influençant l'accès à l'énergie.                    |
| `taux_adoption_energies_renouvelables` | Pourcentage de la population utilisant des énergies renouvelables.                                         |
| `stabilite_politique`                | Score de stabilité politique, un facteur pouvant affecter les investissements énergétiques.                    |
| `taux_acces_energie`                 | Pourcentage de la population ayant actuellement accès à l'énergie.                                            |
| `niveau_urbanisation`                | Niveau d'urbanisation de la région, lié à l'infrastructure et à la demande en énergie.                        |
| `potentiel_investissement`           | Indicateur de l'intérêt potentiel pour des investissements énergétiques dans la région.                        |
| `types_sols`                         | Type de sol dans la région, pouvant affecter la faisabilité des infrastructures solaires.                      |
| `emissions_co2_evitees`              | Estimation des émissions de CO₂ évitées grâce aux énergies renouvelables installées.                          |
| `idh`                                | Indice de développement humain, un facteur socio-économique influençant la demande énergétique.                |
| `habit_de_mariage`                   | Tradition vestimentaire locale lors des mariages, incluse pour ajouter de la variété dans les données.         |
| `nombre_animaux_domestiques`         | Nombre moyen d'animaux domestiques par foyer, inclus pour ajouter de la variété dans les données.              |

---

### **Tâches pour les participants**

1. **Analyse Exploratoire des Données (EDA)** :
   - Analyser les relations entre les caractéristiques et identifier celles qui influencent le plus `demande_energetique_projectee`.
   - Examiner les distributions, les valeurs manquantes, et les éventuels prétraitements nécessaires.

2. **Développement et ajustement du modèle** :
   - Utiliser les données d’entraînement (`train.csv`) pour construire un modèle de prédiction de la demande énergétique.
   - Ajuster le modèle en utilisant les données de test (`test.csv`), qui inclut la cible `demande_energetique_projectee`, pour maximiser la précision du modèle.
   - **Note** : Bien que le fichier de test contienne la cible, les participants doivent éviter le surajustement en utilisant des méthodes de validation appropriées (cross-validation, etc.).

3. **Prédictions sur le fichier de soumission** :
   - Appliquer le modèle optimisé au fichier `submission.csv` pour prédire la `demande_energetique_projectee`.
   - Générer un fichier de soumission avec les identifiants et les prédictions, conformément au format spécifié ci-dessous.

---

### **Format de la soumission**
Les participants doivent soumettre un fichier CSV avec exactement les colonnes suivantes :

- **`id`** : L'identifiant de chaque ligne dans `submission.csv`.
- **`demande_energetique_projectee`** : La prédiction de la demande énergétique projetée pour chaque ligne.

Exemple de format attendu :
```csv
id,demande_energetique_projectee
1,12345.67
2,8910.11
3,34567.89
...
```

---

### **Critères d'évaluation**

1. **Métrique de performance** :
   - La précision des prédictions sera évaluée à l'aide de la **Root Mean Squared Error (RMSE)**, une métrique standard pour mesurer les erreurs de régression.
   - La RMSE sera calculée en comparant les prédictions avec les valeurs réelles de `demande_energetique_projectee`, que seules les équipes organisatrices possèdent.

2. **Classement** :
   - Les scores RMSE seront utilisés pour classer les participants. Les équipes avec les scores les plus bas, indiquant une meilleure précision, seront classées en tête.

---

### **Consignes supplémentaires**
- **Utilisation des données de test** : Les participants sont autorisés à utiliser le fichier `test.csv` pour ajuster leur modèle, mais doivent veiller à ne pas surajuster pour garantir une bonne généralisation sur le fichier de soumission.
- **Conformité du fichier de soumission** : Les fichiers qui ne respectent pas le format spécifié seront rejetés. Assurez-vous que les prédictions sont alignées correctement avec les identifiants des lignes dans `submission.csv`.

---

Cette épreuve encourage une compréhension approfondie des caractéristiques et une modélisation rigoureuse pour optimiser les prédictions de la demande énergétique en Afrique.

**Prêts à relever le défi et à transformer l'accès à l'électricité en Afrique ? Rejoignez la compétition DataTour 2024 dès aujourd’hui et faites partie de cette révolution énergétique !**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

In [None]:
train_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv")
test_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv")
sub_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv")

In [None]:
train_data.sort_values(by="country")

Unnamed: 0,country,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,...,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,niveau_urbanisation,potentiel_investissement,types_sols,emissions_co2_evitees,idh,habit_de_mariage,nombre_animaux_domestiques
66394,Algeria,28.0339,1.6596,43851044,6.758918,1267.410646,2308.837812,1241.894505,2152.554067,1147.725180,...,0.873722,5.048964,66.298763,69.831696,5,sablonneux,5306.570166,0.343220,moderne,9
146815,Algeria,28.0339,1.6596,43851044,5.217584,4740.309733,6361.901040,117.377823,2463.487055,1192.112247,...,0.116436,2.612401,37.048052,49.124291,3,argileux,79.949747,0.669183,moderne,9
119057,Algeria,28.0339,1.6596,43851044,5.466421,1411.683706,2719.292948,523.109318,2409.495888,1153.482936,...,20.100429,9.551589,81.296631,38.231664,4,sablonneux,7033.471252,0.589047,traditionnel,0
138119,Algeria,28.0339,1.6596,43851044,6.696933,1153.466664,1540.881876,532.572358,3149.637794,1449.718020,...,7.053447,3.419058,61.360971,43.208165,5,sablonneux,6915.180646,0.624059,moderne,2
80839,Algeria,28.0339,1.6596,43851044,6.832798,4754.473287,5068.976232,1109.761864,3160.502732,1082.169382,...,39.383536,2.875934,73.502258,58.269960,3,argileux,4243.209290,0.465973,traditionnel,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64795,Zimbabwe,-19.0154,29.1549,14862924,5.331201,3888.724031,4312.636861,350.876704,2830.399623,1272.403883,...,41.637714,1.481079,73.503691,60.355758,5,rocheux,3964.686630,0.420552,moderne,6
64811,Zimbabwe,-19.0154,29.1549,14862924,5.334036,4974.736273,8739.833589,1393.188940,2982.392220,864.702964,...,35.133381,5.311073,55.535949,48.946030,4,rocheux,1474.196313,0.631491,traditionnel,4
146023,Zimbabwe,-19.0154,29.1549,14862924,5.929239,929.532585,1236.279829,161.350591,2389.846065,1363.070922,...,3.357352,7.908840,44.100319,53.077493,4,rocheux,6028.825214,0.705369,moderne,9
10388,Zimbabwe,-19.0154,29.1549,14862924,4.658024,4059.490788,7687.956205,1570.623924,3237.381657,1497.514090,...,,9.965163,87.792284,21.575828,2,argileux,655.263004,0.335466,moderne,9


* Nous remarquons qu'il y'a une répétition de coordonnées `lon, lat, population, country`, quelque soit la region du pays

 - Solution: Puisqu'il existe assez de données pour chaque pays alors il faut créer un model par pays permettant de prendre en compte la spécifité par rapport au pays car les variables sont justes spécifique au pays
 - Alternative: Les éliminées car elles n'apportent pas assez de pouvoir prédictive aux données

In [None]:
train_country = train_data.country
test_country = test_data.country
sub_country = sub_data.country

def drop_unuseful_col(data, cols):
  dfs = []
  for df in data:

      df = df.drop(columns = cols)

      dfs.append(df)

  return dfs

cols = ['country','lat', 'lon']#, 'population']
if cols[0] in train_data.columns:

    train_data, test_data, sub_data = drop_unuseful_col([train_data, test_data, sub_data],cols)

In [None]:
train_data.head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,niveau_urbanisation,potentiel_investissement,types_sols,emissions_co2_evitees,idh,habit_de_mariage,nombre_animaux_domestiques
0,-19.0154,29.1549,14862924,5.00487,485.085906,544.232257,583.128945,3936.978948,926.985577,15.450396,14.282752,2.575677,67.501053,35.733884,4,rocheux,555.209808,0.441787,traditionnel,2
1,-0.228,15.8277,5518092,4.609972,1422.802172,1864.04829,163.908475,3753.749894,862.739803,1.461833,41.408913,2.747196,61.851008,40.134654,2,sablonneux,3722.310275,0.380139,traditionnel,5
2,-22.9576,18.4904,2540905,5.792826,4711.082367,5525.433108,1404.435659,3804.854034,1298.932535,17.135819,41.25917,3.09199,17.384882,46.964564,5,argileux,9824.421047,0.678362,moderne,0
3,5.1521,46.1996,15893222,4.10403,799.426659,1447.543617,1370.179083,2047.305693,1256.611785,24.705938,21.930857,3.639728,21.744383,40.211287,1,rocheux,9407.183123,0.731126,moderne,7
4,-4.0383,21.7587,89561403,6.103335,2526.920477,3029.604497,962.398626,3421.335117,1484.398731,59.177555,37.127657,6.572047,47.679339,63.20123,3,argileux,9184.154421,0.357112,moderne,2


In [None]:
def my_fillna(data):

    dfs = []

    for df in data:

        df = df.fillna(0)

        dfs.append(df)

    return dfs

if train_data.isna().sum().sum() != 0:

    train_data, test_data, sub_data = my_fillna([train_data, test_data, sub_data])

In [None]:
train_data.isna().sum().sum()

0

#Enrichir les données

In [None]:
def enrichir(data):
    dfs = []
    for df in data:
        df["taux_duree_ensoleillement"] = df['duree_ensoleillement_annuel'] * df['taux_ensoleillement']
        df["ratios_capa_population"] = df["capacite_installee_actuelle"] / df["population"]
        df["ratios_demande_population"] = df["demande_energetique_actuelle"] / df["population"]
        dfs.append(df)
    return dfs

# The following line was incorrectly indented. It should align with the 'def enrichir(data):' line.
train_data, test_data, sub_data = enrichir([train_data, test_data, sub_data])

In [None]:
def encodage(data):

  dfs = []

  for df in data:

      df = pd.get_dummies(df,dtype='float')

      dfs.append(df)

  return dfs

train_data, test_data, sub_data = encodage([train_data, test_data, sub_data])

In [None]:
train_data.iloc[1:].head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
1,-0.228,15.8277,5518092,4.609972,1422.802172,1864.04829,163.908475,3753.749894,862.739803,1.461833,...,0.380139,5,17304.682602,3e-05,0.000258,0.0,0.0,1.0,0.0,1.0
2,-22.9576,18.4904,2540905,5.792826,4711.082367,5525.433108,1404.435659,3804.854034,1298.932535,17.135819,...,0.678362,0,22040.85597,0.000553,0.001854,1.0,0.0,0.0,1.0,0.0
3,5.1521,46.1996,15893222,4.10403,799.426659,1447.543617,1370.179083,2047.305693,1256.611785,24.705938,...,0.731126,7,8402.204211,8.6e-05,5e-05,0.0,1.0,0.0,1.0,0.0
4,-4.0383,21.7587,89561403,6.103335,2526.920477,3029.604497,962.398626,3421.335117,1484.398731,59.177555,...,0.357112,2,20881.553043,1.1e-05,2.8e-05,1.0,0.0,0.0,1.0,0.0
5,9.9456,-9.6966,13132795,6.770375,3622.6724,6520.360284,1430.913277,2315.427418,1122.833457,20.293734,...,0.466865,3,15676.311188,0.000109,0.000276,1.0,0.0,0.0,0.0,1.0


In [None]:
sub_data.head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
0,8.4606,-11.7799,7976983,6.01631,2288.20583,1506.365949,3856.453895,1453.281847,56.433841,25.196118,...,0.722109,3,23201.622424,0.000189,0.000287,0.0,0.0,1.0,0.0,1.0
1,8.4606,-11.7799,7976983,6.410925,2402.680846,1878.297944,3652.332264,1076.560589,46.100498,27.037202,...,0.518997,3,23414.829703,0.000235,0.000301,1.0,0.0,0.0,0.0,1.0
2,6.8769,31.3069,11193725,4.642565,3996.471566,344.400305,3810.507756,980.596863,88.583926,47.880078,...,0.785365,9,17690.528709,3.1e-05,0.000357,0.0,0.0,1.0,1.0,0.0
3,-18.6657,35.5296,31255435,5.704522,3134.406856,1614.664206,3319.984749,1373.043279,45.876645,40.282065,...,0.400865,9,18938.924623,5.2e-05,0.0001,0.0,0.0,1.0,0.0,1.0
4,-19.0154,29.1549,14862924,6.581508,2560.551232,1151.776893,2829.581194,895.661665,91.039562,10.630429,...,0.516602,6,18622.909872,7.7e-05,0.000172,0.0,1.0,0.0,0.0,1.0


In [None]:
col_to_stan = []

for col in train_data.columns.difference(['demande_energetique_projectee']):

    if max(train_data[col])>1:

        col_to_stan.append(col)

In [None]:
col_to_stan

['capacite_installee_actuelle',
 'cout_installation_solaire',
 'demande_energetique_actuelle',
 'duree_ensoleillement_annuel',
 'emissions_co2_evitees',
 'lat',
 'lon',
 'niveau_urbanisation',
 'nombre_animaux_domestiques',
 'population',
 'potentiel_investissement',
 'proximite_infrastructures_energetiques',
 'stabilite_politique',
 'taux_acces_energie',
 'taux_adoption_energies_renouvelables',
 'taux_duree_ensoleillement',
 'taux_ensoleillement']

In [None]:
def standardization(data,cols):
    dfs = []
    for df in data:

        scaler = StandardScaler()
        df[cols]= scaler.fit_transform(df[cols])

        dfs.append(df)
    return dfs

train_data_s, test_data_s, sub_data_s = standardization([train_data, test_data, sub_data],col_to_stan)

In [None]:
train_data_s ["country"] = train_country
test_data_s ["country"] = test_country
sub_data_s ["country"] = sub_country

In [None]:
train_data_s.head()

# Modelisation

In [None]:
from sklearn.linear_model import ridge_regression, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor, BaggingRegressor
from sklearn.metrics import mean_squared_error

In [None]:
X_train, y_train = train_data_s.drop(columns = "demande_energetique_projectee"), train_data_s["demande_energetique_projectee"]
X_test, y_test = test_data_s.drop(columns = "demande_energetique_projectee"), test_data_s["demande_energetique_projectee"]

In [None]:
from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
import numpy as np
import joblib  # Importer joblib

def train_ridge_lasso_with_test(X_train, y_train, X_test, y_test, model_type='ridge', param_grid=None, save_model=True):
    """
    Entraîne un modèle Ridge ou Lasso, trouve les meilleurs hyperparamètres avec GridSearchCV,
    et évalue le modèle sur les données de test en utilisant le RMSE sur l'échelle réelle
    après une transformation logarithmique.

    Args:
        X_train: Les données d'entraînement (features).
        y_train: Les valeurs cibles pour l'entraînement (échelle originale).
        X_test: Les données de test (features).
        y_test: Les valeurs cibles pour le test (échelle originale).
        model_type: Le type de modèle à entraîner ('ridge' ou 'lasso'). Par défaut 'ridge'.
        param_grid: Un dictionnaire contenant les hyperparamètres à tester pour GridSearchCV.
                    Par défaut, utilise une grille de valeurs pour 'alpha'.

    Returns:
        Un tuple contenant :
            - Le meilleur modèle Ridge ou Lasso entraîné.
            - Le RMSE sur les données de test (échelle originale).
    """

    if param_grid is None:
        param_grid = {'alpha':[0.05, 0.075, 0.1, 0.125, 0.15]}

    if model_type == 'ridge':
        model = Ridge()
    elif model_type == 'lasso':
        model = Lasso()
    else:
        raise ValueError("model_type doit être 'ridge' ou 'lasso'")

    # Transformation logarithmique de la variable cible pour l'entraînement

    grid_search = GridSearchCV(model, param_grid, scoring='neg_mean_squared_error', cv=5)
    grid_search.fit(X_train, y_train)  # Entraînement sur l'échelle logarithmique

    best_model = grid_search.best_estimator_

    # Prédictions sur l'échelle logarithmique
    y_pred = best_model.predict(X_test)

    # Revenir à l'échelle originale pour calculer le RMSE
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))

    print(f"Meilleurs hyperparamètres: {grid_search.best_params_}")
    print(f"Meilleur score (MSE négatif): {grid_search.best_score_}")
    print(f"RMSE sur les données de test (échelle originale): {rmse}")

    if save_model:
        filename = f"{model_type}_model.joblib"
        joblib.dump(best_model, filename)
        print(f"Modèle sauvegardé sous : {filename}")

    return best_model, rmse

In [None]:
best_model_ridge, rmse = train_ridge_lasso_with_test(X_train, y_train, X_test, y_test, model_type='ridge', param_grid=None,save_model=True)

Meilleurs hyperparamètres: {'alpha': 0.15}
Meilleur score (MSE négatif): -640130.9376451871
RMSE sur les données de test (échelle originale): 796.748449944232
Modèle sauvegardé sous : ridge_model.joblib


In [None]:
best_model_lasso, rmse = train_ridge_lasso_with_test(X_train, y_train, X_test, y_test, model_type='lasso', param_grid=None,save_model=True)

Meilleurs hyperparamètres: {'alpha': 0.15}
Meilleur score (MSE négatif): -640090.1604497989
RMSE sur les données de test (échelle originale): 796.7460507756991
Modèle sauvegardé sous : lasso_model.joblib


# Prediction

In [None]:
# Charger les modèles Lasso et Ridge
lasso_model = joblib.load('lasso_model.joblib')
ridge_model = joblib.load('ridge_model.joblib')

# Générer des prédictions avec le modèle Lasso
lasso_predictions = lasso_model.predict(sub_data_s)

# Générer des prédictions avec le modèle Ridge
ridge_predictions = ridge_model.predict(sub_data_s)

# Créer un DataFrame avec les prédictions de Lasso
lasso_submission_df = pd.DataFrame({'id': sub_data_s.index, 'demande_energetique_projectee': lasso_predictions})

# Créer un DataFrame avec les prédictions de Ridge
ridge_submission_df = pd.DataFrame({'id': sub_data_s.index, 'demande_energetique_projectee': ridge_predictions})

# Enregistrer les prédictions de Lasso dans un fichier CSV
lasso_submission_df.to_csv('lasso_submission.csv', index=False)

# Enregistrer les prédictions de Ridge dans un fichier CSV
ridge_submission_df.to_csv('ridge_submission.csv', index=False)

In [None]:
lasso_submission_df.head()

Unnamed: 0,id,demande_energetique_projectee
0,0,3479.380696
1,1,3658.45724
2,2,6113.163492
3,3,4781.320806
4,4,3904.947697


In [None]:
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor, BaggingRegressor

def train_and_evaluate_regressors(X_train, y_train, X_test, y_test, model_type='random_forest', param_grid=None,save_model=True):
    """
    Entraîne et évalue les modèles de régression spécifiés, trouve les meilleurs hyperparamètres
    avec GridSearchCV, et calcule le RMSE sur l'échelle réelle après une transformation
    logarithmique.

    Args:
        X_train: Les données d'entraînement (features).
        y_train: Les valeurs cibles pour l'entraînement (échelle originale).
        X_test: Les données de test (features).
        y_test: Les valeurs cibles pour le test (échelle originale).
        model_type: Le type de modèle à entraîner ('random_forest', 'gradient_boosting',
                    'ada_boost', ou 'bagging'). Par défaut 'random_forest'.
        param_grid: Un dictionnaire contenant les hyperparamètres à tester pour GridSearchCV.
                    Si None, utilise une grille par défaut pour chaque type de modèle.

    Returns:
        Un tuple contenant :
            - Le meilleur modèle entraîné.
            - Le RMSE sur les données de test (échelle originale).
    """

    # Grilles d'hyperparamètres par défaut pour chaque modèle
    default_param_grids = {
        'random_forest': {'n_estimators': [100, 200, 300], 'max_depth': [None, 5, 10]},
        'gradient_boosting': {'n_estimators': [100, 200, 300], 'learning_rate': [0.01, 0.1, 0.2]},
        'ada_boost': {'n_estimators': [50, 100, 200], 'learning_rate': [0.01, 0.1, 1]},
        'bagging': {'n_estimators': [10, 20, 30], 'max_samples': [0.5, 0.7, 1.0]}
    }

    if param_grid is None:
        param_grid = default_param_grids[model_type]

    # Choix du modèle
    if model_type == 'random_forest':
        model = RandomForestRegressor()
    elif model_type == 'gradient_boosting':
        model = GradientBoostingRegressor()
    elif model_type == 'ada_boost':
        model = AdaBoostRegressor()
    elif model_type == 'bagging':
        model = BaggingRegressor()
    else:
        raise ValueError("model_type doit être 'random_forest', 'gradient_boosting', 'ada_boost', ou 'bagging'")

    grid_search = GridSearchCV(model, param_grid, scoring='neg_mean_squared_error', cv=5)
    grid_search.fit(X_train, y_train)

    best_model = grid_search.best_estimator_
    y_pred = best_model.predict(X_test)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))

    print(f"Meilleurs hyperparamètres pour {model_type}: {grid_search.best_params_}")
    print(f"Meilleur score (MSE négatif): {grid_search.best_score_}")
    print(f"RMSE sur les données de test (échelle originale): {rmse}")
    if save_model:
        filename = f"{model_type}_model.joblib"
        joblib.dump(best_model, filename)
        print(f"Modèle sauvegardé sous : {filename}")
    return best_model, rmse

In [None]:
rf_best_model = train_and_evaluate_regressors(X_train, y_train, X_test, y_test, model_type='random_forest', param_grid=None)

Meilleurs hyperparamètres pour random_forest: {'max_depth': 5, 'n_estimators': 200}
Meilleur score (MSE négatif): -641496.2885275878
RMSE sur les données de test (échelle originale): 797.7720418294464
Modèle sauvegardé sous : random_forest_model.joblib


In [None]:
gb_best_model = train_and_evaluate_regressors(X_train, y_train, X_test, y_test, model_type='gradient_boosting', param_grid=None)

In [None]:
ada_best_model = train_and_evaluate_regressors(X_train, y_train, X_test, y_test, model_type='ada_boost', param_grid=None)

In [None]:
bag_best_model = train_and_evaluate_regressors(X_train, y_train, X_test, y_test, model_type='bagging', param_grid=None)

# Prediction

In [None]:
# Charger les modèles Lasso et Ridge
rf_model = joblib.load('random_forest_model.joblib')
# Générer des prédictions avec le modèle rf
rf_predictions = rf_model.predict(sub_data_s)

# Créer un DataFrame avec les prédictions de rf
rf_submission_df = pd.DataFrame({'id': sub_data_s.index, 'demande_energetique_projectee': rf_predictions})

# Enregistrer les prédictions de Lasso dans un fichier CSV
rf_submission_df.to_csv('rf_submission.csv', index=False)