<a href="https://colab.research.google.com/github/SIDIBEMoussa/DataHubNational/blob/main/Epreuve_v_5_stacking.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

# **Challenge DataTour 2024 : Prévision de la production d’énergie solaire en Afrique**

---

### **Contexte**

L’accès à une énergie fiable reste un défi de taille en Afrique subsaharienne, où de nombreuses régions dépendent de générateurs ou de systèmes solaires autonomes. Cependant, la production d’énergie solaire peut fluctuer sous l’effet de multiples facteurs : conditions météorologiques, demande locale, infrastructures disponibles, etc.

Ce défi de prévision est essentiel pour permettre aux décideurs d’allouer au mieux l’énergie disponible et d’identifier les zones prioritaires pour les installations solaires supplémentaires. En travaillant sur ce problème, vous contribuez à la mission de transformer l’accès à l’électricité en Afrique !

---

### **Objectif de la Compétition**
Développer un modèle de régression performant pour prédire la **demande énergétique projetée** (`demande_energetique_projectee`) dans différentes régions. Les modèles les plus précis permettront de prioriser les zones où les infrastructures énergétiques pourraient être optimisées.

---

### **Structure des Données**

Les données sont divisées en trois fichiers distincts :

1. **Données d’entraînement** (`train.csv`) :
   - **Taille** : 150 000 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ces données servent à entraîner les modèles.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv

2. **Données de test** (`test.csv`) :
   - **Taille** : 62 500 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier est fourni pour ajuster et évaluer la performance du modèle avant la soumission finale.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv

3. **Fichier de soumission** (`submission.csv`) :
   - **Taille** : 25 000 lignes.
   - **Colonnes** : Contient toutes les caractéristiques sauf la colonne cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier doit être utilisé pour générer les prédictions finales, sans accès à la colonne cible.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv

---

### **Description des colonnes**

| Colonne                              | Description                                                                                                    |
|--------------------------------------|----------------------------------------------------------------------------------------------------------------|
| `country`                            | Le pays où se situe la région.                                                                                 |
| `lat`, `lon`                         | Latitude et longitude de la région, permettant d'analyser les conditions géographiques.                        |
| `population`                         | Population de la région, un indicateur de la demande énergétique potentielle.                                  |
| `taux_ensoleillement`                | Moyenne du taux d'ensoleillement annuel, indiquant le potentiel solaire de la région.                          |
| `demande_energetique_actuelle`       | La demande énergétique actuelle de la région.                                                                  |
| `demande_energetique_projectee`      | **Variable cible** – La demande énergétique projetée pour la région (à prédire dans le fichier de soumission). |
| `capacite_installee_actuelle`        | La capacité énergétique actuelle installée dans la région.                                                     |
| `duree_ensoleillement_annuel`        | Nombre moyen d'heures d'ensoleillement annuel, influençant le potentiel de production solaire.                 |
| `cout_installation_solaire`          | Coût moyen pour installer des infrastructures solaires dans la région.                                        |
| `proximite_infrastructures_energetiques` | Distance aux infrastructures énergétiques existantes, influençant l'accès à l'énergie.                    |
| `taux_adoption_energies_renouvelables` | Pourcentage de la population utilisant des énergies renouvelables.                                         |
| `stabilite_politique`                | Score de stabilité politique, un facteur pouvant affecter les investissements énergétiques.                    |
| `taux_acces_energie`                 | Pourcentage de la population ayant actuellement accès à l'énergie.                                            |
| `niveau_urbanisation`                | Niveau d'urbanisation de la région, lié à l'infrastructure et à la demande en énergie.                        |
| `potentiel_investissement`           | Indicateur de l'intérêt potentiel pour des investissements énergétiques dans la région.                        |
| `types_sols`                         | Type de sol dans la région, pouvant affecter la faisabilité des infrastructures solaires.                      |
| `emissions_co2_evitees`              | Estimation des émissions de CO₂ évitées grâce aux énergies renouvelables installées.                          |
| `idh`                                | Indice de développement humain, un facteur socio-économique influençant la demande énergétique.                |
| `habit_de_mariage`                   | Tradition vestimentaire locale lors des mariages, incluse pour ajouter de la variété dans les données.         |
| `nombre_animaux_domestiques`         | Nombre moyen d'animaux domestiques par foyer, inclus pour ajouter de la variété dans les données.              |

---

### **Tâches pour les participants**

1. **Analyse Exploratoire des Données (EDA)** :
   - Analyser les relations entre les caractéristiques et identifier celles qui influencent le plus `demande_energetique_projectee`.
   - Examiner les distributions, les valeurs manquantes, et les éventuels prétraitements nécessaires.

2. **Développement et ajustement du modèle** :
   - Utiliser les données d’entraînement (`train.csv`) pour construire un modèle de prédiction de la demande énergétique.
   - Ajuster le modèle en utilisant les données de test (`test.csv`), qui inclut la cible `demande_energetique_projectee`, pour maximiser la précision du modèle.
   - **Note** : Bien que le fichier de test contienne la cible, les participants doivent éviter le surajustement en utilisant des méthodes de validation appropriées (cross-validation, etc.).

3. **Prédictions sur le fichier de soumission** :
   - Appliquer le modèle optimisé au fichier `submission.csv` pour prédire la `demande_energetique_projectee`.
   - Générer un fichier de soumission avec les identifiants et les prédictions, conformément au format spécifié ci-dessous.

---

### **Format de la soumission**
Les participants doivent soumettre un fichier CSV avec exactement les colonnes suivantes :

- **`id`** : L'identifiant de chaque ligne dans `submission.csv`.
- **`demande_energetique_projectee`** : La prédiction de la demande énergétique projetée pour chaque ligne.

Exemple de format attendu :
```csv
id,demande_energetique_projectee
1,12345.67
2,8910.11
3,34567.89
...
```

---

### **Critères d'évaluation**

1. **Métrique de performance** :
   - La précision des prédictions sera évaluée à l'aide de la **Root Mean Squared Error (RMSE)**, une métrique standard pour mesurer les erreurs de régression.
   - La RMSE sera calculée en comparant les prédictions avec les valeurs réelles de `demande_energetique_projectee`, que seules les équipes organisatrices possèdent.

2. **Classement** :
   - Les scores RMSE seront utilisés pour classer les participants. Les équipes avec les scores les plus bas, indiquant une meilleure précision, seront classées en tête.

---

### **Consignes supplémentaires**
- **Utilisation des données de test** : Les participants sont autorisés à utiliser le fichier `test.csv` pour ajuster leur modèle, mais doivent veiller à ne pas surajuster pour garantir une bonne généralisation sur le fichier de soumission.
- **Conformité du fichier de soumission** : Les fichiers qui ne respectent pas le format spécifié seront rejetés. Assurez-vous que les prédictions sont alignées correctement avec les identifiants des lignes dans `submission.csv`.

---

Cette épreuve encourage une compréhension approfondie des caractéristiques et une modélisation rigoureuse pour optimiser les prédictions de la demande énergétique en Afrique.

**Prêts à relever le défi et à transformer l'accès à l'électricité en Afrique ? Rejoignez la compétition DataTour 2024 dès aujourd’hui et faites partie de cette révolution énergétique !**

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

In [3]:
train_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv")
test_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv")
sub_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv")

In [4]:
train_data.sort_values(by="country")

Unnamed: 0,country,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,...,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,niveau_urbanisation,potentiel_investissement,types_sols,emissions_co2_evitees,idh,habit_de_mariage,nombre_animaux_domestiques
66394,Algeria,28.0339,1.6596,43851044,6.758918,1267.410646,2308.837812,1241.894505,2152.554067,1147.725180,...,0.873722,5.048964,66.298763,69.831696,5,sablonneux,5306.570166,0.343220,moderne,9
146815,Algeria,28.0339,1.6596,43851044,5.217584,4740.309733,6361.901040,117.377823,2463.487055,1192.112247,...,0.116436,2.612401,37.048052,49.124291,3,argileux,79.949747,0.669183,moderne,9
119057,Algeria,28.0339,1.6596,43851044,5.466421,1411.683706,2719.292948,523.109318,2409.495888,1153.482936,...,20.100429,9.551589,81.296631,38.231664,4,sablonneux,7033.471252,0.589047,traditionnel,0
138119,Algeria,28.0339,1.6596,43851044,6.696933,1153.466664,1540.881876,532.572358,3149.637794,1449.718020,...,7.053447,3.419058,61.360971,43.208165,5,sablonneux,6915.180646,0.624059,moderne,2
80839,Algeria,28.0339,1.6596,43851044,6.832798,4754.473287,5068.976232,1109.761864,3160.502732,1082.169382,...,39.383536,2.875934,73.502258,58.269960,3,argileux,4243.209290,0.465973,traditionnel,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64795,Zimbabwe,-19.0154,29.1549,14862924,5.331201,3888.724031,4312.636861,350.876704,2830.399623,1272.403883,...,41.637714,1.481079,73.503691,60.355758,5,rocheux,3964.686630,0.420552,moderne,6
64811,Zimbabwe,-19.0154,29.1549,14862924,5.334036,4974.736273,8739.833589,1393.188940,2982.392220,864.702964,...,35.133381,5.311073,55.535949,48.946030,4,rocheux,1474.196313,0.631491,traditionnel,4
146023,Zimbabwe,-19.0154,29.1549,14862924,5.929239,929.532585,1236.279829,161.350591,2389.846065,1363.070922,...,3.357352,7.908840,44.100319,53.077493,4,rocheux,6028.825214,0.705369,moderne,9
10388,Zimbabwe,-19.0154,29.1549,14862924,4.658024,4059.490788,7687.956205,1570.623924,3237.381657,1497.514090,...,,9.965163,87.792284,21.575828,2,argileux,655.263004,0.335466,moderne,9


* Nous remarquons qu'il y'a une répétition de coordonnées `lon, lat, population, country`, quelque soit la region du pays

 - Solution: Puisqu'il existe assez de données pour chaque pays alors il faut créer un model par pays permettant de prendre en compte la spécifité par rapport au pays car les variables sont justes spécifique au pays
 - Alternative: Les éliminées car elles n'apportent pas assez de pouvoir prédictive aux données

In [5]:
train_country = train_data.country
test_country = test_data.country
sub_country = sub_data.country

def drop_unuseful_col(data, cols):
  dfs = []
  for df in data:

      df = df.drop(columns = cols)

      dfs.append(df)

  return dfs

cols = ['country']#,'lat', 'lon', 'population']
if cols[0] in train_data.columns:

    train_data, test_data, sub_data = drop_unuseful_col([train_data, test_data, sub_data],cols)

In [6]:
train_data.head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,niveau_urbanisation,potentiel_investissement,types_sols,emissions_co2_evitees,idh,habit_de_mariage,nombre_animaux_domestiques
0,-19.0154,29.1549,14862924,5.00487,485.085906,544.232257,583.128945,3936.978948,926.985577,15.450396,14.282752,2.575677,67.501053,35.733884,4,rocheux,555.209808,0.441787,traditionnel,2
1,-0.228,15.8277,5518092,4.609972,1422.802172,1864.04829,163.908475,3753.749894,862.739803,1.461833,41.408913,2.747196,61.851008,40.134654,2,sablonneux,3722.310275,0.380139,traditionnel,5
2,-22.9576,18.4904,2540905,5.792826,4711.082367,5525.433108,1404.435659,3804.854034,1298.932535,17.135819,41.25917,3.09199,17.384882,46.964564,5,argileux,9824.421047,0.678362,moderne,0
3,5.1521,46.1996,15893222,4.10403,799.426659,1447.543617,1370.179083,2047.305693,1256.611785,24.705938,21.930857,3.639728,21.744383,40.211287,1,rocheux,9407.183123,0.731126,moderne,7
4,-4.0383,21.7587,89561403,6.103335,2526.920477,3029.604497,962.398626,3421.335117,1484.398731,59.177555,37.127657,6.572047,47.679339,63.20123,3,argileux,9184.154421,0.357112,moderne,2


In [7]:
def my_fillna(data):

    dfs = []

    for df in data:

        df = df.fillna(0)

        dfs.append(df)

    return dfs

if train_data.isna().sum().sum() != 0:

    train_data, test_data, sub_data = my_fillna([train_data, test_data, sub_data])

In [8]:
train_data.isna().sum().sum()

0

#Enrichir les données

In [9]:
def enrichir(data):
    dfs = []
    for df in data:
        df["taux_duree_ensoleillement"] = df['duree_ensoleillement_annuel'] * df['taux_ensoleillement']
        df["ratios_capa_population"] = df["capacite_installee_actuelle"] / df["population"]
        df["ratios_demande_population"] = df["demande_energetique_actuelle"] / df["population"]
        dfs.append(df)
    return dfs

# The following line was incorrectly indented. It should align with the 'def enrichir(data):' line.
train_data, test_data, sub_data = enrichir([train_data, test_data, sub_data])

In [10]:
def encodage(data):

  dfs = []

  for df in data:

      df = pd.get_dummies(df,dtype='float')

      dfs.append(df)

  return dfs

train_data, test_data, sub_data = encodage([train_data, test_data, sub_data])

In [11]:
train_data.iloc[1:].head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
1,-0.228,15.8277,5518092,4.609972,1422.802172,1864.04829,163.908475,3753.749894,862.739803,1.461833,...,0.380139,5,17304.682602,3e-05,0.000258,0.0,0.0,1.0,0.0,1.0
2,-22.9576,18.4904,2540905,5.792826,4711.082367,5525.433108,1404.435659,3804.854034,1298.932535,17.135819,...,0.678362,0,22040.85597,0.000553,0.001854,1.0,0.0,0.0,1.0,0.0
3,5.1521,46.1996,15893222,4.10403,799.426659,1447.543617,1370.179083,2047.305693,1256.611785,24.705938,...,0.731126,7,8402.204211,8.6e-05,5e-05,0.0,1.0,0.0,1.0,0.0
4,-4.0383,21.7587,89561403,6.103335,2526.920477,3029.604497,962.398626,3421.335117,1484.398731,59.177555,...,0.357112,2,20881.553043,1.1e-05,2.8e-05,1.0,0.0,0.0,1.0,0.0
5,9.9456,-9.6966,13132795,6.770375,3622.6724,6520.360284,1430.913277,2315.427418,1122.833457,20.293734,...,0.466865,3,15676.311188,0.000109,0.000276,1.0,0.0,0.0,0.0,1.0


In [12]:
sub_data.head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
0,8.4606,-11.7799,7976983,6.01631,2288.20583,1506.365949,3856.453895,1453.281847,56.433841,25.196118,...,0.722109,3,23201.622424,0.000189,0.000287,0.0,0.0,1.0,0.0,1.0
1,8.4606,-11.7799,7976983,6.410925,2402.680846,1878.297944,3652.332264,1076.560589,46.100498,27.037202,...,0.518997,3,23414.829703,0.000235,0.000301,1.0,0.0,0.0,0.0,1.0
2,6.8769,31.3069,11193725,4.642565,3996.471566,344.400305,3810.507756,980.596863,88.583926,47.880078,...,0.785365,9,17690.528709,3.1e-05,0.000357,0.0,0.0,1.0,1.0,0.0
3,-18.6657,35.5296,31255435,5.704522,3134.406856,1614.664206,3319.984749,1373.043279,45.876645,40.282065,...,0.400865,9,18938.924623,5.2e-05,0.0001,0.0,0.0,1.0,0.0,1.0
4,-19.0154,29.1549,14862924,6.581508,2560.551232,1151.776893,2829.581194,895.661665,91.039562,10.630429,...,0.516602,6,18622.909872,7.7e-05,0.000172,0.0,1.0,0.0,0.0,1.0


In [13]:
col_to_stan = []

for col in train_data.columns.difference(['demande_energetique_projectee']):

    if max(train_data[col])>1:

        col_to_stan.append(col)

In [14]:
col_to_stan

['capacite_installee_actuelle',
 'cout_installation_solaire',
 'demande_energetique_actuelle',
 'duree_ensoleillement_annuel',
 'emissions_co2_evitees',
 'lat',
 'lon',
 'niveau_urbanisation',
 'nombre_animaux_domestiques',
 'population',
 'potentiel_investissement',
 'proximite_infrastructures_energetiques',
 'stabilite_politique',
 'taux_acces_energie',
 'taux_adoption_energies_renouvelables',
 'taux_duree_ensoleillement',
 'taux_ensoleillement']

In [15]:
def standardization(data,cols):
    dfs = []
    for df in data:

        scaler = StandardScaler()
        df[cols]= scaler.fit_transform(df[cols])

        dfs.append(df)
    return dfs

train_data_s, test_data_s, sub_data_s = standardization([train_data, test_data, sub_data],col_to_stan)

In [16]:
sub_data_s.head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
0,0.340144,-1.451294,-0.480066,0.600029,-0.190103,0.851653,1.474273,1.500304,0.220338,0.169266,...,0.722109,-0.523303,1.613886,0.000189,0.000287,0.0,0.0,1.0,0.0,1.0
1,0.340144,-1.451294,-0.480066,1.054774,-0.108945,1.50978,1.121152,-0.355348,-0.137078,0.286739,...,0.518997,-0.523303,1.665322,0.000235,0.000301,1.0,0.0,0.0,0.0,1.0
2,0.23816,0.770649,-0.388079,-0.983043,1.020988,-1.204426,1.394788,-0.828046,1.332366,1.61665,...,0.785365,1.565397,0.284346,3.1e-05,0.000357,0.0,0.0,1.0,1.0,0.0
3,-1.406692,0.98841,0.185613,0.240731,0.409819,1.043285,0.546205,1.105065,-0.144821,1.131847,...,0.400865,1.565397,0.585519,5.2e-05,0.0001,0.0,0.0,1.0,0.0,1.0
4,-1.429211,0.659673,-0.283154,1.251349,0.002979,0.224213,-0.302172,-1.246419,1.417303,-0.76012,...,0.516602,0.521047,0.509281,7.7e-05,0.000172,0.0,1.0,0.0,0.0,1.0


In [17]:
import numpy as np
def log_transform_target(data, col):

    dfs=[]

    for df in data :

        df[col] = df[col].apply(lambda x: np.log(x))

        dfs.append(df)
    if len(dfs) == 1:
        return dfs[0]
    return dfs

#train_data_s= log_transform_target(train_data_s,col = "demande_energetique_projectee")

In [18]:
train_data_s.head()

Unnamed: 0,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
0,-1.433976,0.654435,-0.28986,-0.569996,-1.461526,544.232257,-0.784949,1.618573,-1.10161,-1.194405,...,0.441787,-0.871847,0.774854,3.9e-05,3.3e-05,0.0,1.0,0.0,0.0,1.0
1,-0.2215,-0.034429,-0.551316,-1.026153,-0.799374,1864.04829,-1.530768,1.301619,-1.419612,-1.679158,...,0.380139,0.173544,0.194318,3e-05,0.000258,0.0,0.0,1.0,0.0,1.0
2,-1.688392,0.103203,-0.634614,0.340192,1.522586,5525.433108,0.676206,1.39002,0.739441,-1.136,...,0.678362,-1.568774,1.340244,0.000553,0.001854,1.0,0.0,0.0,1.0,0.0
3,0.125714,1.535451,-0.261034,-1.61058,-1.23956,1447.543617,0.615261,-1.650229,0.529964,-0.873669,...,0.731126,0.870471,-1.959653,8.6e-05,5e-05,0.0,1.0,0.0,1.0,0.0
4,-0.467404,0.272136,1.800107,0.698869,-0.019721,3029.604497,-0.110205,0.7266,1.657456,0.320893,...,0.357112,-0.871847,1.059749,1.1e-05,2.8e-05,1.0,0.0,0.0,1.0,0.0


# Modelisation

In [19]:
from sklearn.linear_model import ridge_regression, Lasso
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor, BaggingRegressor
from sklearn.metrics import mean_squared_error

In [20]:
X_train, y_train = train_data_s.drop(columns = "demande_energetique_projectee"), train_data_s["demande_energetique_projectee"]
X_test, y_test = test_data_s.drop(columns = "demande_energetique_projectee"), test_data_s["demande_energetique_projectee"]

In [38]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
import numpy as np
from tqdm import tqdm
from sklearn.pipeline import Pipeline

def stacked_model_with_gridsearch(X_train, y_train, X_test, y_test):
    """
    Entraîne un modèle empilé (stacked) avec Ridge et RandomForest,
    recherche d'hyperparamètres pour les deux modèles et affichage de la progression.

    Args:
        X_train: Les données d'entraînement (features).
        y_train: Les valeurs cibles pour l'entraînement.
        X_test: Les données de test (features).
        y_test: Les valeurs cibles pour le test.

    Returns:
        Un tuple contenant :
            - Le meilleur méta-modèle entraîné (Ridge).
            - Le RMSE sur les données de test.
    """

    # Define base models
    base_models = [
        ('rf', RandomForestRegressor()),
        ('ridge', Ridge())
    ]

    # Define meta-model
    meta_model = Ridge()

    # Define parameter grids for base models
    param_grids = {
        'rf': {'rf__n_estimators': [100, 200, 300], 'rf__max_depth': [None, 5, 10]},
        'ridge': {'ridge__alpha': [0.1, 1, 10]}
    }

    # Train and evaluate stacked model
    best_meta_model = None  # Initialize best_meta_model
    best_rmse = float('inf')

    for model_name, model in base_models:
        # Create pipeline
        pipeline = Pipeline([(model_name, model)])

        # Create GridSearchCV object
        grid_search = GridSearchCV(pipeline, param_grids[model_name], scoring='neg_mean_squared_error', cv=5)

        # Train model
        grid_search.fit(X_train, y_train)

        # Make predictions using the trained model
        y_pred = grid_search.predict(X_test)

        # Calculez le RMSE
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))


        # Update best model if current model is better
        if rmse < best_rmse:
            best_rmse = rmse
            best_meta_model = grid_search.best_estimator_  # Assign best_meta_model here

    # Affichez le RMSE
    print(f"RMSE : {best_rmse}")  # Print the best RMSE

    return best_meta_model, best_rmse  # Return the best model and RMSE

In [39]:
best_meta_model, rmse = stacked_model_with_gridsearch(X_train, y_train, X_test, y_test)

RMSE : 796.7474989252737


In [40]:
rmse

796.7474989252737

In [49]:
# Assuming 'demande_energetique_projectee' is the column to drop:
X_sub = sub_data_s#.drop(columns=['demande_energetique_projectee'])  # Features for prediction

# Use the best_meta_model to predict on X_sub
sub_predictions = best_meta_model.predict(X_sub)

sub_predictions_df = pd.DataFrame({'id': sub_data_s.index, 'demande_energetique_projectee': sub_predictions})

In [50]:
sub_predictions_df.head()

Unnamed: 0,id,demande_energetique_projectee
0,0,3483.879022
1,1,3659.584375
2,2,6126.494113
3,3,4785.556364
4,4,3904.842061


In [51]:
sub_predictions_df.to_csv('stacking_model_v_5.csv', index=False)