---

# **Challenge DataTour 2024 : Prévision de la production d’énergie solaire en Afrique**

---

### **Contexte**

L’accès à une énergie fiable reste un défi de taille en Afrique subsaharienne, où de nombreuses régions dépendent de générateurs ou de systèmes solaires autonomes. Cependant, la production d’énergie solaire peut fluctuer sous l’effet de multiples facteurs : conditions météorologiques, demande locale, infrastructures disponibles, etc.

Ce défi de prévision est essentiel pour permettre aux décideurs d’allouer au mieux l’énergie disponible et d’identifier les zones prioritaires pour les installations solaires supplémentaires. En travaillant sur ce problème, vous contribuez à la mission de transformer l’accès à l’électricité en Afrique !

---

### **Objectif de la Compétition**
Développer un modèle de régression performant pour prédire la **demande énergétique projetée** (`demande_energetique_projectee`) dans différentes régions. Les modèles les plus précis permettront de prioriser les zones où les infrastructures énergétiques pourraient être optimisées.

---

### **Structure des Données**

Les données sont divisées en trois fichiers distincts :

1. **Données d’entraînement** (`train.csv`) :
   - **Taille** : 150 000 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ces données servent à entraîner les modèles.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv

2. **Données de test** (`test.csv`) :
   - **Taille** : 62 500 lignes.
   - **Colonnes** : Comprend toutes les colonnes, y compris la cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier est fourni pour ajuster et évaluer la performance du modèle avant la soumission finale.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv

3. **Fichier de soumission** (`submission.csv`) :
   - **Taille** : 25 000 lignes.
   - **Colonnes** : Contient toutes les caractéristiques sauf la colonne cible `demande_energetique_projectee`.
   - **Utilisation** : Ce fichier doit être utilisé pour générer les prédictions finales, sans accès à la colonne cible.
   - **Source** : https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv

---

### **Description des colonnes**

| Colonne                              | Description                                                                                                    |
|--------------------------------------|----------------------------------------------------------------------------------------------------------------|
| `country`                            | Le pays où se situe la région.                                                                                 |
| `lat`, `lon`                         | Latitude et longitude de la région, permettant d'analyser les conditions géographiques.                        |
| `population`                         | Population de la région, un indicateur de la demande énergétique potentielle.                                  |
| `taux_ensoleillement`                | Moyenne du taux d'ensoleillement annuel, indiquant le potentiel solaire de la région.                          |
| `demande_energetique_actuelle`       | La demande énergétique actuelle de la région.                                                                  |
| `demande_energetique_projectee`      | **Variable cible** – La demande énergétique projetée pour la région (à prédire dans le fichier de soumission). |
| `capacite_installee_actuelle`        | La capacité énergétique actuelle installée dans la région.                                                     |
| `duree_ensoleillement_annuel`        | Nombre moyen d'heures d'ensoleillement annuel, influençant le potentiel de production solaire.                 |
| `cout_installation_solaire`          | Coût moyen pour installer des infrastructures solaires dans la région.                                        |
| `proximite_infrastructures_energetiques` | Distance aux infrastructures énergétiques existantes, influençant l'accès à l'énergie.                    |
| `taux_adoption_energies_renouvelables` | Pourcentage de la population utilisant des énergies renouvelables.                                         |
| `stabilite_politique`                | Score de stabilité politique, un facteur pouvant affecter les investissements énergétiques.                    |
| `taux_acces_energie`                 | Pourcentage de la population ayant actuellement accès à l'énergie.                                            |
| `niveau_urbanisation`                | Niveau d'urbanisation de la région, lié à l'infrastructure et à la demande en énergie.                        |
| `potentiel_investissement`           | Indicateur de l'intérêt potentiel pour des investissements énergétiques dans la région.                        |
| `types_sols`                         | Type de sol dans la région, pouvant affecter la faisabilité des infrastructures solaires.                      |
| `emissions_co2_evitees`              | Estimation des émissions de CO₂ évitées grâce aux énergies renouvelables installées.                          |
| `idh`                                | Indice de développement humain, un facteur socio-économique influençant la demande énergétique.                |
| `habit_de_mariage`                   | Tradition vestimentaire locale lors des mariages, incluse pour ajouter de la variété dans les données.         |
| `nombre_animaux_domestiques`         | Nombre moyen d'animaux domestiques par foyer, inclus pour ajouter de la variété dans les données.              |

---

### **Tâches pour les participants**

1. **Analyse Exploratoire des Données (EDA)** :
   - Analyser les relations entre les caractéristiques et identifier celles qui influencent le plus `demande_energetique_projectee`.
   - Examiner les distributions, les valeurs manquantes, et les éventuels prétraitements nécessaires.

2. **Développement et ajustement du modèle** :
   - Utiliser les données d’entraînement (`train.csv`) pour construire un modèle de prédiction de la demande énergétique.
   - Ajuster le modèle en utilisant les données de test (`test.csv`), qui inclut la cible `demande_energetique_projectee`, pour maximiser la précision du modèle.
   - **Note** : Bien que le fichier de test contienne la cible, les participants doivent éviter le surajustement en utilisant des méthodes de validation appropriées (cross-validation, etc.).

3. **Prédictions sur le fichier de soumission** :
   - Appliquer le modèle optimisé au fichier `submission.csv` pour prédire la `demande_energetique_projectee`.
   - Générer un fichier de soumission avec les identifiants et les prédictions, conformément au format spécifié ci-dessous.

---

### **Format de la soumission**
Les participants doivent soumettre un fichier CSV avec exactement les colonnes suivantes :

- **`id`** : L'identifiant de chaque ligne dans `submission.csv`.
- **`demande_energetique_projectee`** : La prédiction de la demande énergétique projetée pour chaque ligne.

Exemple de format attendu :
```csv
id,demande_energetique_projectee
1,12345.67
2,8910.11
3,34567.89
...
```

---

### **Critères d'évaluation**

1. **Métrique de performance** :
   - La précision des prédictions sera évaluée à l'aide de la **Root Mean Squared Error (RMSE)**, une métrique standard pour mesurer les erreurs de régression.
   - La RMSE sera calculée en comparant les prédictions avec les valeurs réelles de `demande_energetique_projectee`, que seules les équipes organisatrices possèdent.

2. **Classement** :
   - Les scores RMSE seront utilisés pour classer les participants. Les équipes avec les scores les plus bas, indiquant une meilleure précision, seront classées en tête.

---

### **Consignes supplémentaires**
- **Utilisation des données de test** : Les participants sont autorisés à utiliser le fichier `test.csv` pour ajuster leur modèle, mais doivent veiller à ne pas surajuster pour garantir une bonne généralisation sur le fichier de soumission.
- **Conformité du fichier de soumission** : Les fichiers qui ne respectent pas le format spécifié seront rejetés. Assurez-vous que les prédictions sont alignées correctement avec les identifiants des lignes dans `submission.csv`.

---

Cette épreuve encourage une compréhension approfondie des caractéristiques et une modélisation rigoureuse pour optimiser les prédictions de la demande énergétique en Afrique.

**Prêts à relever le défi et à transformer l'accès à l'électricité en Afrique ? Rejoignez la compétition DataTour 2024 dès aujourd’hui et faites partie de cette révolution énergétique !**

In [1]:
import requests

In [5]:
url='https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/train.csv'

r = requests.get(url, allow_redirects=False)
train_path="train.csv"

with open(train_path, "wb") as fw:
  fw.write(r.content)

In [6]:
import pandas as pd

df = pd.read_csv('train.csv')
df.head()

Unnamed: 0,country,lat,lon,population,taux_ensoleillement,demande_energetique_actuelle,demande_energetique_projectee,capacite_installee_actuelle,duree_ensoleillement_annuel,cout_installation_solaire,...,taux_adoption_energies_renouvelables,stabilite_politique,taux_acces_energie,niveau_urbanisation,potentiel_investissement,types_sols,emissions_co2_evitees,idh,habit_de_mariage,nombre_animaux_domestiques
0,Zimbabwe,-19.0154,29.1549,14862924,5.00487,485.085906,544.232257,583.128945,3936.978948,926.985577,...,14.282752,2.575677,67.501053,35.733884,4,rocheux,555.209808,0.441787,traditionnel,2
1,Congo (Brazzaville),-0.228,15.8277,5518092,4.609972,1422.802172,1864.04829,163.908475,3753.749894,862.739803,...,41.408913,2.747196,61.851008,40.134654,2,sablonneux,3722.310275,0.380139,traditionnel,5
2,Namibia,-22.9576,18.4904,2540905,5.792826,4711.082367,5525.433108,1404.435659,3804.854034,1298.932535,...,41.25917,3.09199,17.384882,46.964564,5,argileux,9824.421047,0.678362,moderne,0
3,Somalia,5.1521,46.1996,15893222,4.10403,799.426659,1447.543617,1370.179083,2047.305693,1256.611785,...,21.930857,3.639728,21.744383,40.211287,1,rocheux,9407.183123,0.731126,moderne,7
4,Congo (Kinshasa),-4.0383,21.7587,89561403,6.103335,2526.920477,3029.604497,962.398626,3421.335117,1484.398731,...,37.127657,6.572047,47.679339,63.20123,3,argileux,9184.154421,0.357112,moderne,2


In [7]:
url ='https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/test.csv' 

r = requests.get(url, allow_redirects = False)
test_path = "test.csv"

with open(test_path, "wb") as file:
    file.write(r.content)

In [8]:
url ='https://raw.githubusercontent.com/dataafriquehub/energy_data/refs/heads/main/submission.csv' 

r = requests.get(url, allow_redirects = False)
submission_path = "submission.csv"

with open(submission_path, "wb") as file:
    file.write(r.content)