# Projet : Consommation et production électrique en France

<img width=400 src="https://1.bp.blogspot.com/-_cw5mPFrxmc/XtuawSHRV0I/AAAAAAAAEWQ/52ff8l3-MKI0_ZdlJpwwyrH6tgh9diaOQCLcBGAsYHQ/s1600/uses-of-electricity-in-our-daily-life.jpg">
<p style="text-align: left"> Une  photo kitsch du réseau électrique </p>

## Présentation Du Dataset


<img src="./assets/image1.png" width="300"/>
<img src="./assets/image2.png" width="300"/>

**Informations issues du site (allez voir vous même également) :**

Ce jeu de données, rafraîchi une fois par jour, présente les données régionales de janvier 2013 à 2023. Elles sont issues de l'application éCO2mix. Elles sont élaborées à partir des comptages et complétées par des forfaits. 

Vous y trouverez au pas quart d'heure :

- Les prévisions de consommation établies la veille (J-1) et celles réactualisées le jour même (J).

Vous y trouverez au pas demi-heure :

- La consommation réalisée.
- La production selon les différentes filières composant le mix énergétique.
- La consommation des pompes dans les Stations de Transfert d'Energie par Pompage (STEP).
- Les échanges physiques aux frontières.
- Une estimation des émissions de carbone générées par la production d'électricité en France.
- Les échanges commerciaux aux frontières.
- Le découpage des filières par technologie du mix de production (débute en 2013).



<img src="./assets/image3.png" width="800"/>


## Objectifs et modalités de l'étude

**Modalités de l'étude :** 

- Vous travaillerez en groupe de 2 à 3.    
   
- Une présentation de votre travail sur une question sera effectuée en fin du projet. 
   
**Les objectifs de cette étude sont multiples :** 

- Apprendre à charger et manipuler des données réelles complexes avec Pandas. 

- Manipuler des séries temporelles. 

- Analyser des données pour répondre à une question exploratoire. 

- Présenter et vulgariser votre recherche exploratoire. 

**Notes sur les données RTE** :

- Elles proviennent du (génial) site éCO2mix et sont disponibles pour tout le monde (opendata) : https://www.rte-france.com/eco2mix 
- Données agrégées au niveau national : https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-national-cons-def/information/?disjunctive.nature 
- Données agrégées au niveau régional : https://opendata.reseaux-energies.fr/explore/dataset/eco2mix-regional-cons-def/information/?disjunctive.libelle_region&disjunctive.nature

## Conseils & Remarques sur l'exploration des données

- La première étape de chargement, exploration et nettoyage de données peut être chronophage lorsqu'on traite des sets de données **réels**... Cela fait partie du travail de data scientist, il faut s'y faire :-)

> It takes less than five lines of code to train a basic machine learning algorithm. Exploratory data analysis and data preparation in comparison take longer and comprise of 80% of the data scientist’s time."  https://towardsdatascience.com/build-the-story-around-data-using-exploratory-data-analysis-and-pandas-c85bf3beff87

- Quand vous faîtes des recherches et que vous manipulez les données, n'oubliez pas de clarifier : **Quelle question/ hypothèse essayez-vous de résoudre/de prouver/ d'invalider ?**

- Votre notebook doit être **compréhensible**. Il doit vous permettre de partager vos recherches. Le lecteur final doit pouvoir le lire comme une histoire (collègue, vous dans un futur proche, etc.). Utilisez du **markdown** pour commenter votre code, discuter des résultats, insérer des images, ...

- **Table of Content** : mettez vous une table des matières et activez le **synchronize collapse state**. Ca vous permettre de vous y retrouver plus facilement. 

   
- Garantissez la **causalité** de votre notebook : l'ordre d'exécution des cellules dans un notebook est complexe. Ne faîtes pas l'erreur de ne pas vérifier que vous pouvez exécuter l'ensemble de vos cellules dans l'ordre. Sinon vous n'arriverez plus à exécuter votre notebook. 

- N'oubliez pas de reprendre les étapes d'exploration classiques des données vues précédemment (projets GapMinder, Arbres de Grenoble, ...) : afficher les informations sur vos dataframes, regardez les données, faites des sauvegardes intermédiaires (format .pkl par exemple), cherchez les outliers, les données manquantes, etc... 

- C'est une analyse exploratoire : **tatonnez**, **faîtes des graphiques**, ... 


- Lorsque c'est nécessaire (selon ce que vous cherchez) penser à normaliser/standardiser les données

- N'hésitez pas à **consulter l'aide de Pandas** ou à chercher la réponse à vos questions sur internet (quasiment tous les bugs que vous observerez on déjà fait l'objet d'un post sur **stackoverflow**)

**Ressources** :
-  Markdown : https://jupyter-notebook.readthedocs.io/en/stable/examples/Notebook/Working%20With%20Markdown%20Cells.html
-  Table of content : https://jupyterlab.readthedocs.io/en/stable/user/toc.html. 

# Chargement et préparation des données

&#x1F4A5; **To Do** 

- Charger les données nationales.
 
- Regarder les colonnes, sélectionner les données intéressantes.
 
- Les types inférés semblent-ils corrects ? Corriger si nécessaire (datetime, object, int, float, etc.)

- Choisir des noms de colonnes plus faciles à manipuler (espaces, accents...). <br/>Ressource : https://www.dataschool.io/pandas-dot-notation-vs-brackets/

- Choisir un index adéquat pour votre dataframe. Les lignes ont un comportement étrange, choisissez les lignes qui vous arrangent.

- Quelle période temporelle couvrent les données ?

- Faîtes un choix par rapport aux valeurs manquantes. Les garder sous forme de NaN ou une autre valeur ?

- Simplifiez le DataFrame : regardez vos colonnnes, cherchez à les comprendre et rassemblez celles que vous pouvez rassembler. 

- Sauvegardez vos données sous format **pkl** pour ne pas devoir refaire les pré-traitements à chaque fois que vous redémarrez le kernel.  


&#x1F4A5; **Ressources**

- La doc de pandas.

- Voici quelques fonctions en vrac dont vous aurez besoin (read_csv,  info,  drop, to_datetime, astype, nunique, set_index)

In [None]:
# importer les modules et les packages
import numpy as np
import pandas as pd # type: ignore
import matplotlib.pyplot as plt
import matplotlib.dates as dat
import datetime as dt

In [None]:
# définir les fonctions souvent appelées
def print_horizontal_line():
    print("\u2500" * 120)

def plot_stat_curves(national_df: pd.DataFrame, year_mask: bool, dark_colour: str, lite_colour: str, axe: plt.Axes | np.ndarray):
    weekly_x0 = national_df.loc[year_mask].resample("W")["Date et Heure"].mean()
    weekly_y1 = national_df.loc[year_mask].resample("W")["Consommation (MW)"].mean()
    weekly_y2 = national_df.loc[year_mask].resample("W")["Consommation (MW)"].std()
    axe.plot(weekly_x0, (weekly_y1 / 1000.0), color = dark_colour, linewidth = 3.0)
    axe.fill_between(weekly_x0, (weekly_y1 - weekly_y2) / 1000.0, (weekly_y1 + weekly_y2) / 1000.0, color = lite_colour, alpha = 0.5)

def calculate_autonomy(national_df: pd.DataFrame, date_mask: bool) -> pd.Series:
    total_autonomy = 0.0
    total_autonomy += national_df.loc[date_mask].resample("ME")["Bioénergies (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Charbon (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Eolien (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Fioul (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Gaz (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Hydraulique (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Nucléaire (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Solaire (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Pompage (MW)"].mean()
    total_autonomy += national_df.loc[date_mask].resample("ME")["Ech. physiques (MW)"].mean()
    total_autonomy -= national_df.loc[date_mask].resample("ME")["Consommation (MW)"].mean()
    return total_autonomy

In [None]:
# ajuster des options d'affichage (ici toutes les colonnes des tableaux seront visibles et défilables)
pd.set_option('display.max_columns', None)

In [None]:
national_data_frame = pd.read_csv("data/eco2mix-national-cons-def.csv", sep = ";", header = 0, names = None, index_col = False, dtype = str, engine = "python")
print_horizontal_line() # type: ignore
print("Informations globales :")
print(national_data_frame.info())
# Toutes les données brutes sont des objets : il faudra les convertir pour les traiter. En plus des données manquent...
print_horizontal_line() # type: ignore
print("Description brute :")
print(national_data_frame.describe())
print_horizontal_line() # type: ignore
# Nous estimons la taille du tableau et nous parcourons toutes ses colonnes (ses champs) :
national_data_frame = national_data_frame.sort_values(by = ["Date et Heure"])
print("Ce data-frame sur les données nationales compte", national_data_frame.shape[0], "lignes et", national_data_frame.shape[1], "colonnes :")
for national_column in national_data_frame.columns:
    # Nous comptons les lignes auxquelles des données manquent, puis nous écrivons un pourcentage relatif : 
    not_applicable_rows_quantity = national_data_frame[national_column].isna().sum()
    print(national_column, ": rempli à", round(100.0 - (100.0 * float(not_applicable_rows_quantity) / float(national_data_frame.shape[0])), 1), "%")
    if national_column == "Périmètre":
        # Les données de la colonne périmètre (France) ne nous intéressent pas : nous les enlevons !
        national_data_frame.drop(national_column, axis = 1, inplace = True)
    elif national_column == "Nature":
        # Les données de la colonne nature (données définitives) ne nous intéressent pas : nous les enlevons !
        national_data_frame.drop(national_column, axis = 1, inplace = True)
    elif national_column == "Date":
        # Nous convertissons la date locale au format AAAA-MM-JJ, sans horaire :
        national_data_frame[national_column] = pd.to_datetime(national_data_frame[national_column], format = "%Y-%m-%d").dt.date
    elif national_column == "Heure":
        # Nous convertissons l'horaire local au format HH:MM:SS, sans date :
        national_data_frame[national_column] = pd.to_datetime(national_data_frame[national_column], format = "%H:%M").dt.time
    elif national_column == "Date et Heure":
        # Nous convertissons la date et l'horaire au format international ISO-8601, calé sur le fuseau horaire d'origine.
        national_data_frame[national_column] = pd.to_datetime(national_data_frame[national_column], format = "%Y-%m-%dT%H:%M:%S%z", utc = True)
    else:
        # Les autres colonnes contiennent des nombres entiers : nous filtrons les données manquantes et nous appliquons la bonne taille mémoire :
        national_data_frame[national_column] = pd.to_numeric(national_data_frame[national_column], errors = "coerce").astype("Int32")
        national_data_frame = national_data_frame[national_data_frame[national_column].notna()]
print_horizontal_line() # type: ignore
national_data_frame.to_pickle("data/national-data-frame.pkl")

In [None]:
# Nous affichons le tableau nettoyé :
national_data_frame

In [None]:
realtime_data_frame = pd.read_csv("data/eco2mix-national-tr.csv", sep = ";", header = 0, names = None, index_col = False, dtype = str, engine = "python")
print_horizontal_line() # type: ignore
print("Informations globales :")
print(realtime_data_frame.info())
# Toutes les données brutes sont des objets : il faudra les convertir pour les traiter. En plus des données manquent...
print_horizontal_line() # type: ignore
print("Description brute :")
print(realtime_data_frame.describe())
print_horizontal_line() # type: ignore
# Nous estimons la taille du tableau et nous parcourons toutes ses colonnes (ses champs) :
print("Ce data-frame sur les données en temps réel compte", realtime_data_frame.shape[0], "lignes et", realtime_data_frame.shape[1], "colonnes :")
realtime_data_frame.replace(to_replace = "ND", value = None)
realtime_data_frame.sort_values(by = ["Date - Heure"])
for realtime_column in realtime_data_frame.columns:
    not_applicable_rows_quantity = realtime_data_frame[realtime_column].isna().sum()
    print(realtime_column, ": rempli à", round(100.0 - (100.0 * float(not_applicable_rows_quantity) / float(realtime_data_frame.shape[0])), 1), "%")
    if realtime_column == "Périmètre":
        # Les données de la colonne périmètre (France) ne nous intéressent pas : nous les enlevons !
        realtime_data_frame.drop(realtime_column, axis = 1, inplace = True)
    elif realtime_column == "Nature":
        # Les données de la colonne nature (données définitives) ne nous intéressent pas : nous les enlevons !
        realtime_data_frame.drop(realtime_column, axis = 1, inplace = True)
    elif realtime_column == "Date":
        # Nous convertissons la date locale au format AAAA-MM-JJ, sans horaire :
        realtime_data_frame[realtime_column] = pd.to_datetime(realtime_data_frame[realtime_column], format = "%Y-%m-%d").dt.date
    elif realtime_column == "Heure":
        # Nous convertissons l'horaire local au format HH:MM:SS, sans date :
        realtime_data_frame[realtime_column] = pd.to_datetime(realtime_data_frame[realtime_column], format = "%H:%M").dt.time
    elif realtime_column == "Date - Heure":
        # Nous convertissons la date et l'horaire au format international ISO-8601, calé sur le fuseau horaire d'origine.
        realtime_data_frame[realtime_column] = pd.to_datetime(realtime_data_frame[realtime_column], format = '%Y-%m-%dT%H:%M:%S%z', utc = True)
    else:
        # Les autres colonnes contiennent des nombres entiers : nous filtrons les données manquantes et nous appliquons la bonne taille mémoire :
        realtime_data_frame[realtime_column] = pd.to_numeric(realtime_data_frame[realtime_column], errors = "coerce").astype("Int32")
        realtime_data_frame = realtime_data_frame[realtime_data_frame[realtime_column].notna()]
print_horizontal_line() # type: ignore
realtime_data_frame.to_pickle("data/realtime-data-frame.pkl")

In [None]:
# Nous affichons le tableau nettoyé :
realtime_data_frame

# Exploration du dataset National

## Réflexion

Avant de vous lancer dans la mise en pratique, prenez quelques minutes (max 30 minutes) pour observer les données et explorer les premières statistiques descriptives : 
- Quelles questions vous posez-vous sur les données ? 

- Qu'avez-vous envie d'explorer ? Soyez créatifs !

In [None]:
national_df = pd.read_pickle("data/national-data-frame.pkl")
date_time_index = pd.DatetimeIndex(data = national_df["Date et Heure"], dtype="datetime64[ns, UTC]")
national_df.set_index(date_time_index, inplace = True)
realtime_df = pd.read_pickle("data/realtime-data-frame.pkl")

dark_colours = ["#CC3300", "#CC9900", "#669900", "#33CC66", "#00CC33", "#0099CC", "#3366CC", "#6633CC", "#993399", "#CC0033"]
lite_colours = ["#FF6633", "#FFCC33", "#99CC33", "#66FF99", "#33FF66", "#33CCFF", "#6699FF", "#9966FF", "#CC66CC", "#FF3366"]

fig1, axe1 = plt.subplots(nrows = 10, ncols = 2, figsize = (20.0, 30.0), gridspec_kw = {"width_ratios" : [5 , 1], "height_ratios" : [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]})
for index, year_as_number in enumerate(range(2013, 2022 + 1, 1)):
    year_as_string = str(year_as_number)
    year_mask = (national_df["Date"] >= pd.to_datetime(year_as_string + "-01-01").date()) & (national_df["Date"] <= pd.to_datetime(year_as_string + "-12-31").date())

    axe1[index, 0].plot(
        national_df["Date et Heure"].loc[year_mask], 
        national_df["Taux de CO2 (g/kWh)"].loc[year_mask],  # gramme par kWh
        color = "#AAAAAA", linewidth = 0.5)    
    axe1[index, 0].plot(
        national_df["Date et Heure"].loc[year_mask], 
        national_df["Consommation (MW)"].loc[year_mask] / 1000.0, # Giga-Watts
        color = lite_colours[index], linewidth = 0.5)

    if year_as_number == 2021:
        year_mask = (national_df["Date"] >= pd.to_datetime(year_as_string + "-01-01").date()) & (national_df["Date"] <= pd.to_datetime(year_as_string + "-03-15").date())
        plot_stat_curves(national_df, year_mask, dark_colours[index], lite_colours[index], axe1[index, 0])
        year_mask = (national_df["Date"] >= pd.to_datetime(year_as_string + "-04-01").date()) & (national_df["Date"] <= pd.to_datetime(year_as_string + "-08-31").date())
        plot_stat_curves(national_df, year_mask, dark_colours[index], lite_colours[index], axe1[index, 0])
        year_mask = (national_df["Date"] >= pd.to_datetime(year_as_string + "-12-01").date()) & (national_df["Date"] <= pd.to_datetime(year_as_string + "-12-31").date())
        plot_stat_curves(national_df, year_mask, dark_colours[index], lite_colours[index], axe1[index, 0])
    else:
        plot_stat_curves(national_df, year_mask, dark_colours[index], lite_colours[index], axe1[index, 0])

    if year_as_number == 2022:
        axe1[index, 0].set_xticklabels(["J", "F", "M", "A", "M", "J", "J", "A", "S", "O", "N", "D"])
    else:
        axe1[index, 0].set_xticklabels("")

    axe1[index, 0].xaxis.set_major_locator(dat.MonthLocator())
    axe1[index, 0].xaxis.set_minor_locator(dat.WeekdayLocator(dat.SUNDAY))
    axe1[index, 0].set_title(year_as_string)
    axe1[index, 0].grid(color = "#CCCCCC", which="major", axis = "both", linewidth = 0.5)
    axe1[index, 0].grid(color = "#EEEEEE", which="minor", axis = "both", linewidth = 0.5)
    axe1[index, 0].set_xlim([pd.to_datetime(year_as_string + "-01-01").date(), pd.to_datetime(year_as_string + "-12-31").date()])
    axe1[index, 0].set_ylim([0, 120])

    pie_chart_labels = ["B", "C", "E", "F", "G", "H", "N", "S"]
    pie_chart_colours = ["#009900", "#666666", "#990033", "#330099", "#003399", "#009966", "#993300", "#666600"]

    pie_chart_quantities = [
        national_df["Bioénergies (MW)"].loc[year_mask].sum(),
        national_df["Charbon (MW)"].loc[year_mask].sum(),
        national_df["Eolien (MW)"].loc[year_mask].sum(),
        national_df["Fioul (MW)"].loc[year_mask].sum(),
        national_df["Gaz (MW)"].loc[year_mask].sum(),
        national_df["Hydraulique (MW)"].loc[year_mask].sum(),
        national_df["Nucléaire (MW)"].loc[year_mask].sum(),
        national_df["Solaire (MW)"].loc[year_mask].sum()
    ]
    axe1[index, 1].pie(pie_chart_quantities, labels = pie_chart_labels, colors = pie_chart_colours, startangle = 90)

plt.gcf().autofmt_xdate()
plt.show()

In [None]:
fig2, axe2 = plt.subplots(nrows = 1, ncols = 2, figsize = (20.0, 10.0), gridspec_kw = {"width_ratios" : [2 , 1], "height_ratios" : [1]})

date_mask_1 = (national_df["Date"] >= pd.to_datetime("2017-04-01").date()) & (national_df["Date"] <= pd.to_datetime("2020-09-30").date())
total_autonomy_1 = calculate_autonomy(national_df, date_mask_1)
axe2[0].fill_between(national_df.loc[date_mask_1].resample("ME")["Date et Heure"].mean(), 0.0, (total_autonomy_1 / 1000.0) , color = "#FFCC99", alpha = 0.5)
axe2[0].set_ylim([-0.001, 0.001])

date_mask_2 = (national_df["Date"] >= pd.to_datetime("2022-01-01").date()) & (national_df["Date"] <= pd.to_datetime("2022-12-31").date())
total_autonomy_2 = calculate_autonomy(national_df, date_mask_2)
axe2[1].fill_between(national_df.loc[date_mask_2].resample("ME")["Date et Heure"].mean(), 0.0, (total_autonomy_2 / 1000.0) , color = "#99CCFF", alpha = 0.5)
axe2[1].set_ylim([-0.1, 0.1])

plt.gcf().autofmt_xdate()
plt.show()

## Mise en application

&#x1F4A5; **To Do**
    
L'objectif ici est de **comprendre les données** présentes dans le dataset national que vous avez créé. 

---
- **Affichez vos données pour mieux les comprendre** : choisir plusieurs durées pour afficher vos données : semaine, mois, année, durée totale, faîtes des comparaisons... (pensez à utiliser des choses comme rolling mean) 
    - Tracer l'évolution de la consommation
    - Tracer l'évolution de la production par source d'énergie et au niveau global,
    - Tracer l'évolution de émissions de CO2.

---

- **Mix énergétique** :
    - Trouvez plusieurs manières de visualiser les données de production : plot, pie chart, rolling mean...
    - Quelle est la source de production largement majoritaire ?
    - Quelle est l'évolution de la part des énergies fossiles dans le mix énergétique ?  
    - Quelle est l'évolution de la part des énergies renouvelables dans le mix énergétique français ?
    - Quelle est la part de chaque filière de production d'énergies renouvelables (hydraulique, solaire, ...) 

---

- **Autonomie électrique** :
    - comparer la production totale française à la consommation totale. Quelle est le taux d'indépendance énergétique de la france au cours du temps ? C'est à dire la proportion du temps où la France est autonome en énergie. Faire le caclul sur la durée totale mais aussi par année et par mois.
    - Trouver les outliers    
---

- **Equilibre du réseau électrique** : Vérifier que la production, la consommation et les échanges commerciaux s'équilibrent en permanence. <br/> Ressource pour comprendre : https://fr.wikipedia.org/wiki/Ajustement_offre-demande_d%27%C3%A9lectricit%C3%A9 

---

- **Analyser la tendance des données** :
    - Analyser la saisonnalité des productions, comparer les mois de l'année entre eux. Quand consomme-t-on le plus ?
    - Printemps vs Eté vs Automne vs Hiver ?
    - Quelle est la tendance générale de l'évolution à long terme de la production d'énergie solaire ?
    - Quelle est la tendance générale de l'évolution à long terme de l'émission de CO2 ?

---

- **Impact des sources primaires de production sur le Taux de CO2** :
    - Corrélez les données entre elles et déduisez-en l'impact positif ou négatif de chacune des sources de production sur l'estimation du taux de CO2 émis.
    <br/> **Pandas** : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html
    <br/> **Théorie** : https://data36.com/correlation-definition-calculation-corr-pandas/

---
- [Bonus] **Analyser les périodicités des données** :
    - Réaliser une analyse de Fourier de vos séries temporelles
      <br/> **Théorie et pratique** : https://realpython.com/python-scipy-fft/

---

- **Géopolitique** :
    - Visualisez et analysez l'impact du COVID et de la guerre en Ukraine sur le réseau électrique ?

---

&#x1F4A5; **Aide**
- Ressource utile pour vous aider à analyser les données : https://www.statistiques.developpement-durable.gouv.fr/edition-numerique/bilan-energetique-2020/
- `pandas.DataFrame.rolling` vous aidera à afficher vos données et en comprendre les tendances. 
- Les `pandas.Grouper` vous aideront pour grouper les données temporelles.
- la méthode `.plot()` fonctionne parfaitement avec un datetime en index
- Corrélation : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.corr.html
- attention aux `NaN` pour les plots.