<a href="https://colab.research.google.com/github/SIDIBEMoussa/DataHubNational/blob/main/Epreuve_v_4_playing_with_robustscaler.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

# **Challenge DataTour 2024 : Prévision de la production d’énergie solaire en Afrique**

---

### **Contexte**

L’accès à une énergie fiable reste un défi de taille en Afrique subsaharienne, où de nombreuses régions dépendent de générateurs ou de systèmes solaires autonomes. Cependant, la production d’énergie solaire peut fluctuer sous l’effet de multiples facteurs : conditions météorologiques, demande locale, infrastructures disponibles, etc.

Ce défi de prévision est essentiel pour permettre aux décideurs d’allouer au mieux l’énergie disponible et d’identifier les zones prioritaires pour les installations solaires supplémentaires. En travaillant sur ce problème, vous contribuez à la mission de transformer l’accès à l’électricité en Afrique !

---

### **Objectif de la Compétition**
Développer un modèle de régression performant pour prédire la **demande énergétique projetée** (`demande_energetique_projectee`) dans différentes régions. Les modèles les plus précis permettront de prioriser les zones où les infrastructures énergétiques pourraient être optimisées.

---

### **Structure des Données**

Les données sont divisées en trois fichiers distincts :

1. **Données d’entraînement** (`train.csv`) :
   - **Taille** : 150 000 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ces données servent à entraîner les modèles.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv

2. **Données de test** (`test.csv`) :
   - **Taille** : 62 500 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier est fourni pour ajuster et évaluer la performance du modèle avant la soumission finale.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv

3. **Fichier de soumission** (`submission.csv`) :
   - **Taille** : 25 000 lignes.
   - **Colonnes** : Contient toutes les caractéristiques sauf la colonne cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier doit être utilisé pour générer les prédictions finales, sans accès à la colonne cible.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv

---

### **Description des colonnes**

| Colonne                              | Description                                                                                                    |
|--------------------------------------|----------------------------------------------------------------------------------------------------------------|
| `country`                            | Le pays où se situe la région.                                                                                 |
| `lat`, `lon`                         | Latitude et longitude de la région, permettant d'analyser les conditions géographiques.                        |
| `population`                         | Population de la région, un indicateur de la demande énergétique potentielle.                                  |
| `taux_ensoleillement`                | Moyenne du taux d'ensoleillement annuel, indiquant le potentiel solaire de la région.                          |
| `demande_energetique_actuelle`       | La demande énergétique actuelle de la région.                                                                  |
| `demande_energetique_projectee`      | **Variable cible** – La demande énergétique projetée pour la région (à prédire dans le fichier de soumission). |
| `capacite_installee_actuelle`        | La capacité énergétique actuelle installée dans la région.                                                     |
| `duree_ensoleillement_annuel`        | Nombre moyen d'heures d'ensoleillement annuel, influençant le potentiel de production solaire.                 |
| `cout_installation_solaire`          | Coût moyen pour installer des infrastructures solaires dans la région.                                        |
| `proximite_infrastructures_energetiques` | Distance aux infrastructures énergétiques existantes, influençant l'accès à l'énergie.                    |
| `taux_adoption_energies_renouvelables` | Pourcentage de la population utilisant des énergies renouvelables.                                         |
| `stabilite_politique`                | Score de stabilité politique, un facteur pouvant affecter les investissements énergétiques.                    |
| `taux_acces_energie`                 | Pourcentage de la population ayant actuellement accès à l'énergie.                                            |
| `niveau_urbanisation`                | Niveau d'urbanisation de la région, lié à l'infrastructure et à la demande en énergie.                        |
| `potentiel_investissement`           | Indicateur de l'intérêt potentiel pour des investissements énergétiques dans la région.                        |
| `types_sols`                         | Type de sol dans la région, pouvant affecter la faisabilité des infrastructures solaires.                      |
| `emissions_co2_evitees`              | Estimation des émissions de CO₂ évitées grâce aux énergies renouvelables installées.                          |
| `idh`                                | Indice de développement humain, un facteur socio-économique influençant la demande énergétique.                |
| `habit_de_mariage`                   | Tradition vestimentaire locale lors des mariages, incluse pour ajouter de la variété dans les données.         |
| `nombre_animaux_domestiques`         | Nombre moyen d'animaux domestiques par foyer, inclus pour ajouter de la variété dans les données.              |

---

### **Tâches pour les participants**

1. **Analyse Exploratoire des Données (EDA)** :
   - Analyser les relations entre les caractéristiques et identifier celles qui influencent le plus `demande_energetique_projectee`.
   - Examiner les distributions, les valeurs manquantes, et les éventuels prétraitements nécessaires.

2. **Développement et ajustement du modèle** :
   - Utiliser les données d’entraînement (`train.csv`) pour construire un modèle de prédiction de la demande énergétique.
   - Ajuster le modèle en utilisant les données de test (`test.csv`), qui inclut la cible `demande_energetique_projectee`, pour maximiser la précision du modèle.
   - **Note** : Bien que le fichier de test contienne la cible, les participants doivent éviter le surajustement en utilisant des méthodes de validation appropriées (cross-validation, etc.).

3. **Prédictions sur le fichier de soumission** :
   - Appliquer le modèle optimisé au fichier `submission.csv` pour prédire la `demande_energetique_projectee`.
   - Générer un fichier de soumission avec les identifiants et les prédictions, conformément au format spécifié ci-dessous.

---

### **Format de la soumission**
Les participants doivent soumettre un fichier CSV avec exactement les colonnes suivantes :

- **`id`** : L'identifiant de chaque ligne dans `submission.csv`.
- **`demande_energetique_projectee`** : La prédiction de la demande énergétique projetée pour chaque ligne.

Exemple de format attendu :
```csv
id,demande_energetique_projectee
1,12345.67
2,8910.11
3,34567.89
...
```

---

### **Critères d'évaluation**

1. **Métrique de performance** :
   - La précision des prédictions sera évaluée à l'aide de la **Root Mean Squared Error (RMSE)**, une métrique standard pour mesurer les erreurs de régression.
   - La RMSE sera calculée en comparant les prédictions avec les valeurs réelles de `demande_energetique_projectee`, que seules les équipes organisatrices possèdent.

2. **Classement** :
   - Les scores RMSE seront utilisés pour classer les participants. Les équipes avec les scores les plus bas, indiquant une meilleure précision, seront classées en tête.

---

### **Consignes supplémentaires**
- **Utilisation des données de test** : Les participants sont autorisés à utiliser le fichier `test.csv` pour ajuster leur modèle, mais doivent veiller à ne pas surajuster pour garantir une bonne généralisation sur le fichier de soumission.
- **Conformité du fichier de soumission** : Les fichiers qui ne respectent pas le format spécifié seront rejetés. Assurez-vous que les prédictions sont alignées correctement avec les identifiants des lignes dans `submission.csv`.

---

Cette épreuve encourage une compréhension approfondie des caractéristiques et une modélisation rigoureuse pour optimiser les prédictions de la demande énergétique en Afrique.

**Prêts à relever le défi et à transformer l'accès à l'électricité en Afrique ? Rejoignez la compétition DataTour 2024 dès aujourd’hui et faites partie de cette révolution énergétique !**

In [2]:
import warnings

warnings.filterwarnings("ignore")

In [3]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

In [4]:
train_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv")
test_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv")
sub_data = pd.read_csv("https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv")

In [5]:
train_data.sort_values(by="country")

Unnamed: 0,country,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,...,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,niveau_urbanisation,potentiel_investissement,types_sols,emissions_co2_evitees,idh,habit_de_mariage,nombre_animaux_domestiques
66394,Algeria,28.0339,1.6596,43851044,6.758918,1267.410646,2308.837812,1241.894505,2152.554067,1147.725180,...,0.873722,5.048964,66.298763,69.831696,5,sablonneux,5306.570166,0.343220,moderne,9
146815,Algeria,28.0339,1.6596,43851044,5.217584,4740.309733,6361.901040,117.377823,2463.487055,1192.112247,...,0.116436,2.612401,37.048052,49.124291,3,argileux,79.949747,0.669183,moderne,9
119057,Algeria,28.0339,1.6596,43851044,5.466421,1411.683706,2719.292948,523.109318,2409.495888,1153.482936,...,20.100429,9.551589,81.296631,38.231664,4,sablonneux,7033.471252,0.589047,traditionnel,0
138119,Algeria,28.0339,1.6596,43851044,6.696933,1153.466664,1540.881876,532.572358,3149.637794,1449.718020,...,7.053447,3.419058,61.360971,43.208165,5,sablonneux,6915.180646,0.624059,moderne,2
80839,Algeria,28.0339,1.6596,43851044,6.832798,4754.473287,5068.976232,1109.761864,3160.502732,1082.169382,...,39.383536,2.875934,73.502258,58.269960,3,argileux,4243.209290,0.465973,traditionnel,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
64795,Zimbabwe,-19.0154,29.1549,14862924,5.331201,3888.724031,4312.636861,350.876704,2830.399623,1272.403883,...,41.637714,1.481079,73.503691,60.355758,5,rocheux,3964.686630,0.420552,moderne,6
64811,Zimbabwe,-19.0154,29.1549,14862924,5.334036,4974.736273,8739.833589,1393.188940,2982.392220,864.702964,...,35.133381,5.311073,55.535949,48.946030,4,rocheux,1474.196313,0.631491,traditionnel,4
146023,Zimbabwe,-19.0154,29.1549,14862924,5.929239,929.532585,1236.279829,161.350591,2389.846065,1363.070922,...,3.357352,7.908840,44.100319,53.077493,4,rocheux,6028.825214,0.705369,moderne,9
10388,Zimbabwe,-19.0154,29.1549,14862924,4.658024,4059.490788,7687.956205,1570.623924,3237.381657,1497.514090,...,,9.965163,87.792284,21.575828,2,argileux,655.263004,0.335466,moderne,9


* Nous remarquons qu'il y'a une répétition de coordonnées `lon, lat, population, country`, quelque soit la region du pays

 - Solution: Puisqu'il existe assez de données pour chaque pays alors il faut créer un model par pays permettant de prendre en compte la spécifité par rapport au pays car les variables sont justes spécifique au pays
 - Alternative: Les éliminées car elles n'apportent pas assez de pouvoir prédictive aux données

In [6]:
train_country = train_data.country
test_country = test_data.country
sub_country = sub_data.country

def drop_unuseful_col(data, cols):
  dfs = []
  for df in data:

      df = df.drop(columns = cols)

      dfs.append(df)

  return dfs

cols = ['country','lat', 'lon']#, 'population']
if cols[0] in train_data.columns:

    train_data, test_data, sub_data = drop_unuseful_col([train_data, test_data, sub_data],cols)

In [7]:
train_data.head()

Unnamed: 0,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,niveau_urbanisation,potentiel_investissement,types_sols,emissions_co2_evitees,idh,habit_de_mariage,nombre_animaux_domestiques
0,14862924,5.00487,485.085906,544.232257,583.128945,3936.978948,926.985577,15.450396,14.282752,2.575677,67.501053,35.733884,4,rocheux,555.209808,0.441787,traditionnel,2
1,5518092,4.609972,1422.802172,1864.04829,163.908475,3753.749894,862.739803,1.461833,41.408913,2.747196,61.851008,40.134654,2,sablonneux,3722.310275,0.380139,traditionnel,5
2,2540905,5.792826,4711.082367,5525.433108,1404.435659,3804.854034,1298.932535,17.135819,41.25917,3.09199,17.384882,46.964564,5,argileux,9824.421047,0.678362,moderne,0
3,15893222,4.10403,799.426659,1447.543617,1370.179083,2047.305693,1256.611785,24.705938,21.930857,3.639728,21.744383,40.211287,1,rocheux,9407.183123,0.731126,moderne,7
4,89561403,6.103335,2526.920477,3029.604497,962.398626,3421.335117,1484.398731,59.177555,37.127657,6.572047,47.679339,63.20123,3,argileux,9184.154421,0.357112,moderne,2


In [8]:
def my_fillna(data):

    dfs = []

    for df in data:

        df = df.fillna(0)

        dfs.append(df)

    return dfs

if train_data.isna().sum().sum() != 0:

    train_data, test_data, sub_data = my_fillna([train_data, test_data, sub_data])

In [9]:
train_data.isna().sum().sum()

0

#Enrichir les données

In [10]:
def enrichir(data):
    dfs = []
    for df in data:
        df["taux_duree_ensoleillement"] = df['duree_ensoleillement_annuel'] * df['taux_ensoleillement']
        df["ratios_capa_population"] = df["capacite_installee_actuelle"] / df["population"]
        df["ratios_demande_population"] = df["demande_energetique_actuelle"] / df["population"]
        dfs.append(df)
    return dfs

# The following line was incorrectly indented. It should align with the 'def enrichir(data):' line.
train_data, test_data, sub_data = enrichir([train_data, test_data, sub_data])

In [11]:
def encodage(data):

  dfs = []

  for df in data:

      df = pd.get_dummies(df,dtype='float')

      dfs.append(df)

  return dfs

train_data, test_data, sub_data = encodage([train_data, test_data, sub_data])

In [12]:
train_data.iloc[1:].head()

Unnamed: 0,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,stabilite_politique,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
1,5518092,4.609972,1422.802172,1864.04829,163.908475,3753.749894,862.739803,1.461833,41.408913,2.747196,...,0.380139,5,17304.682602,3e-05,0.000258,0.0,0.0,1.0,0.0,1.0
2,2540905,5.792826,4711.082367,5525.433108,1404.435659,3804.854034,1298.932535,17.135819,41.25917,3.09199,...,0.678362,0,22040.85597,0.000553,0.001854,1.0,0.0,0.0,1.0,0.0
3,15893222,4.10403,799.426659,1447.543617,1370.179083,2047.305693,1256.611785,24.705938,21.930857,3.639728,...,0.731126,7,8402.204211,8.6e-05,5e-05,0.0,1.0,0.0,1.0,0.0
4,89561403,6.103335,2526.920477,3029.604497,962.398626,3421.335117,1484.398731,59.177555,37.127657,6.572047,...,0.357112,2,20881.553043,1.1e-05,2.8e-05,1.0,0.0,0.0,1.0,0.0
5,13132795,6.770375,3622.6724,6520.360284,1430.913277,2315.427418,1122.833457,20.293734,41.975177,1.023729,...,0.466865,3,15676.311188,0.000109,0.000276,1.0,0.0,0.0,0.0,1.0


In [13]:
sub_data.head()

Unnamed: 0,population,taux_ensoleillement,demande_energetique_actuelle,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,...,idh,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel
0,7976983,6.01631,2288.20583,1506.365949,3856.453895,1453.281847,56.433841,25.196118,9.187338,35.022992,...,0.722109,3,23201.622424,0.000189,0.000287,0.0,0.0,1.0,0.0,1.0
1,7976983,6.410925,2402.680846,1878.297944,3652.332264,1076.560589,46.100498,27.037202,5.307233,52.154399,...,0.518997,3,23414.829703,0.000235,0.000301,1.0,0.0,0.0,0.0,1.0
2,11193725,4.642565,3996.471566,344.400305,3810.507756,980.596863,88.583926,47.880078,1.462924,79.302572,...,0.785365,9,17690.528709,3.1e-05,0.000357,0.0,0.0,1.0,1.0,0.0
3,31255435,5.704522,3134.406856,1614.664206,3319.984749,1373.043279,45.876645,40.282065,5.420247,47.551657,...,0.400865,9,18938.924623,5.2e-05,0.0001,0.0,0.0,1.0,0.0,1.0
4,14862924,6.581508,2560.551232,1151.776893,2829.581194,895.661665,91.039562,10.630429,3.5273,75.120867,...,0.516602,6,18622.909872,7.7e-05,0.000172,0.0,1.0,0.0,0.0,1.0


In [14]:
col_to_stan = []

for col in train_data.columns.difference(['demande_energetique_projectee']):

    if max(train_data[col])>1:

        col_to_stan.append(col)

In [15]:
col_to_stan

['capacite_installee_actuelle',
 'cout_installation_solaire',
 'demande_energetique_actuelle',
 'duree_ensoleillement_annuel',
 'emissions_co2_evitees',
 'niveau_urbanisation',
 'nombre_animaux_domestiques',
 'population',
 'potentiel_investissement',
 'proximite_infrastructures_energetiques',
 'stabilite_politique',
 'taux_acces_energie',
 'taux_adoption_energies_renouvelables',
 'taux_duree_ensoleillement',
 'taux_ensoleillement']

In [16]:
from sklearn.preprocessing import RobustScaler

def standardization(data,cols):
    dfs = []
    for df in data:

        scaler = RobustScaler()
        df[cols]= scaler.fit_transform(df[cols])

        dfs.append(df)
    return dfs

train_data_s, test_data_s, sub_data_s = standardization([train_data, test_data, sub_data],col_to_stan)

In [17]:
train_data_s ["country"] = train_country
test_data_s ["country"] = test_country
sub_data_s ["country"] = sub_country

In [18]:
train_data_s.head()

Unnamed: 0,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,proximite_infrastructures_energetiques,taux_adoption_energies_renouvelables,stabilite_politique,...,nombre_animaux_domestiques,taux_duree_ensoleillement,ratios_capa_population,ratios_demande_population,types_sols_argileux,types_sols_rocheux,types_sols_sablonneux,habit_de_mariage_moderne,habit_de_mariage_traditionnel,country
0,0.062853,-0.329604,-0.844074,544.232257,-0.453157,0.931606,-0.63605,-0.691956,-0.285099,-0.651512,...,-0.4,0.607855,3.9e-05,3.3e-05,0.0,1.0,0.0,0.0,1.0,Zimbabwe
1,-0.276632,-0.59268,-0.462134,1864.04829,-0.883882,0.748845,-0.819784,-0.972231,0.693522,-0.613327,...,0.2,0.205277,3e-05,0.000258,0.0,0.0,1.0,0.0,1.0,Congo (Brazzaville)
2,-0.384789,0.195323,0.87721,5525.433108,0.390688,0.799819,0.427666,-0.658186,0.688119,-0.536566,...,-0.8,0.999929,0.000553,0.001854,1.0,0.0,0.0,1.0,0.0,Namibia
3,0.100283,-0.929733,-0.716041,1447.543617,0.355491,-0.953243,0.306635,-0.506511,-0.009181,-0.414623,...,0.6,-1.288412,8.6e-05,5e-05,0.0,1.0,0.0,1.0,0.0,Somalia
4,2.776546,0.40218,-0.012418,3029.604497,-0.06348,0.417279,0.958074,0.184164,0.539068,0.238199,...,-0.4,0.805417,1.1e-05,2.8e-05,1.0,0.0,0.0,1.0,0.0,Congo (Kinshasa)


# Modelisation

In [19]:
import pandas as pd
from sklearn.linear_model import Lasso
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
import numpy as np
import joblib


def train_lasso_by_country(train_data, test_data):
    """
    Crée et entraîne un modèle Lasso pour chaque pays, évalue sur les données de test,
    et stocke les modèles.

    Args:
        train_data: DataFrame des données d'entraînement.
        test_data: DataFrame des données de test.

    Returns:
        Un dictionnaire contenant les modèles Lasso pour chaque pays, indexés par nom de pays.
    """
    countries = train_data['country'].unique()
    models = {}
    rmse_values = []

    for country in countries:
        X_train = train_data[train_data['country'] == country].drop(columns=['demande_energetique_projectee', 'country'])
        y_train = train_data[train_data['country'] == country]['demande_energetique_projectee']
        X_test = test_data[test_data['country'] == country].drop(columns=['demande_energetique_projectee', 'country'])
        y_test = test_data[test_data['country'] == country]['demande_energetique_projectee']

        #param_grid = {'alpha': [0.05, 0.075, 0.1, 0.125, 0.15]}  # Grille d'hyperparamètres pour alpha
        param_grid = {'alpha': np.logspace(-4, 0, 50)}
        lasso = Lasso()
        grid_search = GridSearchCV(lasso, param_grid, scoring='neg_mean_squared_error', cv=5)
        grid_search.fit(X_train, y_train)
        best_model = grid_search.best_estimator_

        models[country] = best_model  # Stocke le meilleur modèle pour le pays

        # Évaluation sur les données de test et stockage du RMSE
        y_pred = best_model.predict(X_test)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        rmse_values.append((country, rmse))

        # Sauvegarde du modèle
        filename = f"lasso_model_{country}.joblib"
        joblib.dump(best_model, filename)
        print(f"Modèle Lasso pour {country} sauvegardé sous : {filename}")

    # Affichage des RMSE pour chaque pays
    #print("\nRMSE pour chaque pays:")
    #for country, rmse in rmse_values:
    #    print(f"{country}: {rmse}")

    return models, rmse_values

In [20]:
models, rmse_values = train_lasso_by_country(train_data_s, test_data_s)

Modèle Lasso pour Zimbabwe sauvegardé sous : lasso_model_Zimbabwe.joblib
Modèle Lasso pour Congo (Brazzaville) sauvegardé sous : lasso_model_Congo (Brazzaville).joblib
Modèle Lasso pour Namibia sauvegardé sous : lasso_model_Namibia.joblib
Modèle Lasso pour Somalia sauvegardé sous : lasso_model_Somalia.joblib
Modèle Lasso pour Congo (Kinshasa) sauvegardé sous : lasso_model_Congo (Kinshasa).joblib
Modèle Lasso pour Guinea sauvegardé sous : lasso_model_Guinea.joblib
Modèle Lasso pour Djibouti sauvegardé sous : lasso_model_Djibouti.joblib
Modèle Lasso pour Ethiopia sauvegardé sous : lasso_model_Ethiopia.joblib
Modèle Lasso pour Eswatini (Swaziland) sauvegardé sous : lasso_model_Eswatini (Swaziland).joblib
Modèle Lasso pour Sierra Leone sauvegardé sous : lasso_model_Sierra Leone.joblib
Modèle Lasso pour Cape Verde sauvegardé sous : lasso_model_Cape Verde.joblib
Modèle Lasso pour Chad sauvegardé sous : lasso_model_Chad.joblib
Modèle Lasso pour Senegal sauvegardé sous : lasso_model_Senegal.jo

In [21]:
def rmse_mean(rmse_values):
    total_rmse = sum(rmse for _, rmse in rmse_values)
    mean_rmse = total_rmse / len(rmse_values)
    return mean_rmse

mean_rmse = rmse_mean(rmse_values)

mean_rmse

798.8570506238883

In [22]:
import pandas as pd
import joblib

def predict_on_sub_data(sub_data, models, name="Lasso"):
    """
    Makes predictions on sub_data using the trained models.

    Args:
        sub_data: DataFrame of data to predict on.
        models: Dictionary of trained models, indexed by country name.
        name: The name of the model type (default: "Lasso").

    Returns:
        A DataFrame with the predictions for sub_data.
    """

    # Create a copy of sub_data to store predictions
    sub_data_with_predictions = pd.DataFrame({"id": sub_data.index, "demande_energetique_projectee": 0})

    # Loop through each country and make predictions
    for country in models.keys():
        # Filter sub_data for the current country
        country_data = sub_data[sub_data['country'] == country]

        # Get the model for the current country
        model = models[country]  # Corrected the truncated variable name

        # Make predictions for the current country's data
        # Removed 'demande_energetique_projectee' from drop as it's not expected in sub_data
        X_country = country_data.drop(columns=['country'])  # Features for prediction
        predictions = model.predict(X_country)

        # Update predictions in sub_data_with_predictions
        sub_data_with_predictions.loc[country_data.index, 'demande_energetique_projectee'] = predictions

    # Save the predictions to a CSV file after processing all countries
    sub_data_with_predictions.to_csv(name+"_sub_data_with_predictions.csv", index=False)

    return sub_data_with_predictions  # Return only id and predictions

In [23]:
sub_data_with_predictions = predict_on_sub_data(sub_data, models)

Augmentations des données par pays venant de traindata

In [24]:
import pandas as pd

def augment_train_data_and_get_remaining_test(train_data, test_data, fraction=0.5):
    """
    Augments the training data with a fraction of the test data, stratified by country,
    and returns the remaining test data.

    Args:
        train_data: DataFrame of the training data.
        test_data: DataFrame of the test data.
        fraction: The fraction of test data to add to the training data (default: 0.5).

    Returns:
        A tuple containing the augmented training data and the remaining test data.
    """

    augmented_data = train_data.copy()
    remaining_test_data = test_data.copy()  # Initialize remaining test data

    for country in train_data['country'].unique():
        # Get test data for the current country
        country_test_data = test_data[test_data['country'] == country]

        # Sample a fraction of the country's test data
        num_samples = int(len(country_test_data) * fraction)
        sampled_data = country_test_data.sample(n=num_samples, random_state=42)

        # Append sampled data to augmented data
        augmented_data = pd.concat([augmented_data, sampled_data])

        # Remove sampled data from remaining test data
        remaining_test_data = remaining_test_data.drop(sampled_data.index)

    return augmented_data, remaining_test_data

augmented_data, remaining_test_data = augment_train_data_and_get_remaining_test(train_data_s, test_data_s, fraction=0.5)

In [25]:
models, rmse_values = train_lasso_by_country(augmented_data, remaining_test_data)

Modèle Lasso pour Zimbabwe sauvegardé sous : lasso_model_Zimbabwe.joblib
Modèle Lasso pour Congo (Brazzaville) sauvegardé sous : lasso_model_Congo (Brazzaville).joblib
Modèle Lasso pour Namibia sauvegardé sous : lasso_model_Namibia.joblib
Modèle Lasso pour Somalia sauvegardé sous : lasso_model_Somalia.joblib
Modèle Lasso pour Congo (Kinshasa) sauvegardé sous : lasso_model_Congo (Kinshasa).joblib
Modèle Lasso pour Guinea sauvegardé sous : lasso_model_Guinea.joblib
Modèle Lasso pour Djibouti sauvegardé sous : lasso_model_Djibouti.joblib
Modèle Lasso pour Ethiopia sauvegardé sous : lasso_model_Ethiopia.joblib
Modèle Lasso pour Eswatini (Swaziland) sauvegardé sous : lasso_model_Eswatini (Swaziland).joblib
Modèle Lasso pour Sierra Leone sauvegardé sous : lasso_model_Sierra Leone.joblib
Modèle Lasso pour Cape Verde sauvegardé sous : lasso_model_Cape Verde.joblib
Modèle Lasso pour Chad sauvegardé sous : lasso_model_Chad.joblib
Modèle Lasso pour Senegal sauvegardé sous : lasso_model_Senegal.jo

In [28]:
mean_rmse = rmse_mean(rmse_values)
mean_rmse

795.5786422753337

In [30]:
sub_data_with_predictions = predict_on_sub_data(sub_data, models,name="lasso_aug_data_v4_robust")

# Rf

In [None]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
import numpy as np
import joblib

def train_random_forest_by_country(train_data, test_data):
    """
    Creates and trains a Random Forest model for each country, evaluates on test data,
    and stores the models.

    Args:
        train_data: DataFrame of training data.
        test_data: DataFrame of test data.

    Returns:
        A dictionary containing the Random Forest models for each country, indexed by country name.
    """
    countries = train_data['country'].unique()
    models = {}
    rmse_values = []

    for country in countries:
        X_train = train_data[train_data['country'] == country].drop(columns=['demande_energetique_projectee', 'country'])
        y_train = train_data[train_data['country'] == country]['demande_energetique_projectee']
        X_test = test_data[test_data['country'] == country].drop(columns=['demande_energetique_projectee', 'country'])
        y_test = test_data[test_data['country'] == country]['demande_energetique_projectee']

        # Define the parameter grid for Random Forest
        param_grid = {
            'n_estimators': [100, 200, 300],
            'max_depth': [None, 5, 10],
            'min_samples_split': [2, 5, 10],
            'min_samples_leaf': [1, 2, 4]
        }

        # Create and train the Random Forest model
        rf_model = RandomForestRegressor(random_state=42)  # Set random_state for reproducibility
        grid_search = GridSearchCV(rf_model, param_grid, scoring='neg_mean_squared_error', cv=5)
        grid_search.fit(X_train, y_train)

        # Get the best model and store it
        best_model = grid_search.best_estimator_
        models[country] = best_model

        # Evaluate on test data and store RMSE
        y_pred = best_model.predict(X_test)
        rmse = np.sqrt(mean_squared_error(y_test, y_pred))
        rmse_values.append((country, rmse))

        # Save the model
        filename = f"rf_model_{country}.joblib"
        joblib.dump(best_model, filename)
        print(f"Random Forest model for {country} saved as: {filename}")

    # Print RMSE values for each country
    print("\nRMSE for each country:")
    for country, rmse in rmse_values:
        print(f"{country}: {rmse}")

    return models, rmse_values

In [None]:
models_rf, rmse_values_rf = train_random_forest_by_country(train_data_s, test_data_s)
mean_rmse_rf = rmse_mean(rmse_values_rf)

mean_rmse_rf

KeyboardInterrupt: 