In [1]:
import pandas as pd
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from sklearn.linear_model import LinearRegression
import pytz
import datetime

In [2]:
import warnings
warnings.filterwarnings('ignore')

# Import et nettoyage #

In [3]:
df_source = pd.read_csv(
    "sources/consommation-quotidienne-brute.csv", 
    delimiter=";",
    )

In [4]:
df_source.tail(1)

Unnamed: 0,Date - Heure,Date,Heure,Consommation brute gaz (MW PCS 0°C) - GRTgaz,Statut - GRTgaz,Consommation brute gaz (MW PCS 0°C) - Teréga,Statut - Teréga,Consommation brute gaz totale (MW PCS 0°C),Consommation brute électricité (MW) - RTE,Statut - RTE,Consommation brute totale (MW)
192862,2012-01-01T00:00:00+01:00,01/01/2012,00:00,52099.0,Définitif,3254.0,Définitif,55353.0,59610.0,Définitif,114963.0


In [5]:
df_energie = df_source.drop(columns=[
    "Date","Heure",
    "Consommation brute gaz (MW PCS 0°C) - GRTgaz",
    "Statut - GRTgaz","Consommation brute gaz (MW PCS 0°C) - Teréga",
    "Statut - Teréga"])

In [6]:
df_energie.columns=["Date","Conso_gaz_totale_MW","Conso_elec_totale_MW","Statut","Conso_brute_totale_MW"]

In [7]:
# Convertit la colonne date au format Str. 
# utc n'est que True ou False
df_energie["Date"] = pd.to_datetime(df_energie["Date"], utc=True)
# On repasse donc en heure FR
df_energie["Date"] = df_energie["Date"].dt.tz_convert('Europe/Paris')

In [8]:
# Les données sont en ordre décroissant, les plus récentes en 1er.
# On se replace en ordre chronologique
df_energie.sort_values(by=["Date"], ascending=True, inplace=True)
df_energie.reset_index(drop=True, inplace=True)

In [9]:
# passage de la colonne date en index
df_energie.set_index('Date', inplace=True)

In [10]:
# Les mesures de ce Dataset sont arrêtées au 31/05/2022
df_energie = df_energie.loc [ df_energie.index < "2022-06-01" ]

In [11]:
df_energie["Conso_gaz_totale_MW"] = df_energie["Conso_gaz_totale_MW"].interpolate(method='linear', axis=0)
df_energie["Conso_brute_totale_MW"] = df_energie["Conso_brute_totale_MW"].interpolate(method='linear', axis=0)

In [12]:
df_energie.head()

Unnamed: 0_level_0,Conso_gaz_totale_MW,Conso_elec_totale_MW,Statut,Conso_brute_totale_MW
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012-01-01 00:00:00+01:00,55353.0,59610.0,Définitif,114963.0
2012-01-01 00:30:00+01:00,55398.5,58314.0,Définitif,113318.5
2012-01-01 01:00:00+01:00,55444.0,56230.0,Définitif,111674.0
2012-01-01 01:30:00+01:00,55454.5,56075.0,Définitif,111335.0
2012-01-01 02:00:00+01:00,55465.0,55531.0,Définitif,110996.0


In [13]:
# Vérification que plus aucune ligne n'est vide
df_energie.isna().sum()

Conso_gaz_totale_MW      0
Conso_elec_totale_MW     0
Statut                   0
Conso_brute_totale_MW    0
dtype: int64

In [14]:
print("Nombre de lignes sur la période 2012-2022 : ",df_energie.shape[0])

Nombre de lignes sur la période 2012-2022 :  182592


# Moyenne mobile #

In [15]:
rolling_max_7j = df_energie["Conso_elec_totale_MW"].rolling(
    window=336,       # Moyenne mobile Hebdo (48x30mn x 7j)
    center=True,      
    min_periods=168,  # débute à la moitié de la fenêtre définie
).max()

In [16]:
df_energie["MA_max_7j"] = rolling_max_7j

# Visualisation #

In [17]:
df_energie.describe()

Unnamed: 0,Conso_gaz_totale_MW,Conso_elec_totale_MW,Conso_brute_totale_MW,MA_max_7j
count,182592.0,182592.0,182592.0,182592.0
mean,54018.475664,54144.10133,108160.623171,65628.655927
std,28978.525136,12022.053534,40087.31595,11786.136991
min,1877.0,28738.0,45476.0,47454.0
25%,28523.0,44998.0,74817.0,55643.0
50%,47047.75,52510.0,97884.0,61956.0
75%,76023.125,62412.0,138092.625,75572.0
max,176040.0,101866.0,274815.0,101866.0


In [18]:
df_last_3y = df_energie.loc[ df_energie.index >= '2018-08-01' ]

In [19]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=df_last_3y.index, y=df_last_3y["Conso_elec_totale_MW"],
                    mode='markers',
                    name='Mesures brutes',
                    marker_color=df_last_3y["Conso_elec_totale_MW"],
                    marker=dict(
                        opacity=0.1,
                        size=2)
                        )
             )

fig.add_trace(go.Scatter(x=df_last_3y.index, y=df_last_3y["MA_max_7j"],
                    mode='lines',
                    name='Moy. Mobile Max hebdo')
             )

fig.update_layout(title='Consommation electrique en MW depuis 2018 en France')

fig.show()

# Export #

In [20]:
df_energie.to_csv("sources/1_conso_energies_raff.csv",header=True, index=True)