# Notebook pour la transformation des données liées a la production d'électricité

In [1]:
import pandas as pd
import numpy as np


In [2]:
# import du fichier excel
data = pd.read_excel('/Users/yibtv/Espace-travail/projet_jhipster/data/raw/prod_elect_fromEIA.xlsx')
# affichage
data.head(100)

Unnamed: 0,countryRegionName,period,productName,value
0,Benin,2023,Nuclear,0.000
1,Benin,2022,Nuclear,0.000
2,Benin,2021,Nuclear,0.000
3,Benin,2020,Nuclear,0.000
4,Benin,2019,Nuclear,0.000
...,...,...,...,...
95,Benin,2016,Natural gas,0.007
96,Benin,2015,Natural gas,0.111
97,Benin,2014,Natural gas,0.104
98,Benin,2013,Natural gas,0.038


In [3]:
#changement des noms de colonne 
data = data.rename (columns={
    'countryRegionName':  'country',
    'period':'year',
    'productName':'technology',
    'value': 'value(GWh)'
    })


# Conversion de billion kWh en GWh
data['value(GWh)'] = data['value(GWh)'] * 1000 

data.head(100)

Unnamed: 0,country,year,technology,value(GWh)
0,Benin,2023,Nuclear,0.0
1,Benin,2022,Nuclear,0.0
2,Benin,2021,Nuclear,0.0
3,Benin,2020,Nuclear,0.0
4,Benin,2019,Nuclear,0.0
...,...,...,...,...
95,Benin,2016,Natural gas,7.0
96,Benin,2015,Natural gas,111.0
97,Benin,2014,Natural gas,104.0
98,Benin,2013,Natural gas,38.0


Normalisation de noms de certain pays pour correspondre a la base de donnée

In [4]:
country_mapping = {
    'Burkina Faso': 'Burkina_faso',
    'Cabo Verde':'Cape_verde',
    "Cote d'Ivoire":'Cote_d_ivoir',
    'Gambia, The':'Gambia',
    'Guinea-Bissau':'Guinea_bissau',
    'Sierra Leone': 'Sierra_leone',
}

# Remplacement des termes dans la colonne 'Technology'
data['country'] = data['country'].replace(country_mapping)

print(data.country.unique())

['Benin' 'Burkina_faso' 'Cape_verde' 'Cote_d_ivoir' 'Gambia' 'Ghana'
 'Guinea' 'Guinea_bissau' 'Liberia' 'Mali' 'Mauritania' 'Niger' 'Nigeria'
 'Senegal' 'Sierra_leone' 'Togo']


Normalisation des noms des technologies pour une correspondance avec la base de données

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5544 entries, 0 to 5543
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   country     5544 non-null   object 
 1   year        5544 non-null   int64  
 2   technology  5544 non-null   object 
 3   value(GWh)  4584 non-null   float64
dtypes: float64(1), int64(1), object(2)
memory usage: 173.4+ KB


In [5]:
tech_mapping = {
    'Nuclear':'p_nuclear',
    'Solar': 'p_solar',
    'Natural gas': 'p_gas',
    'Oils': 'p_oil',
    'Coal': 'p_coal',
    'Wind': 'p_wind',
    'Hydroelectricity': 'p_nuclear',
    'Biomass and waste':'p_biomass'
}

# Remplacement des termes dans la colonne 'Technology'
data['technology'] = data['technology'].replace(tech_mapping)

print(data.technology.unique())


['p_nuclear' 'p_coal' 'p_gas' 'Oil' 'p_solar' 'p_wind' 'p_biomass']


Verification des donnée du Senegal

In [6]:
senegal_data = data[data['country']== 'Senegal']
senegal_data_2020 = senegal_data[senegal_data['year']== 2020]

senegal_data_2020.head(100)

print("\nTotal production d'electricité :")
print(senegal_data_2020['value(GWh)'].sum())


Total production d'electricité :
6070.4


# Sauvegarde du Dataset apres transformation dans le repertoir des données pret a etre charger dans la base de donnée

In [7]:
import os
import pandas as pd

# Définir le chemin du fichier
output_dir = "/Users/yibtv/Espace-travail/projet_jhipster/data/processed"  # Chemin absolu sur macOS/Linux
output_file = os.path.join(output_dir, "prod_elect_processed.xlsx")

# Créer le répertoire s'il n'existe pas
os.makedirs(output_dir, exist_ok=True)

# Sauvegarder dans un fichier Excel
try:
    data.to_excel(output_file, index=False)
    print("Données sauvegardées avec succès dans", output_file)
except Exception as e:
    print(f"Erreur lors de la sauvegarde : {e}")

Données sauvegardées avec succès dans /Users/yibtv/Espace-travail/projet_jhipster/data/processed/prod_elect_processed.xlsx
