# Projet : Consommation et production électrique en France

## <a id='toc1_6_'></a>[Exploration du dataset Régional](#toc0_)

### <a id='toc1_6_1_'></a>[Réflexion](#toc0_)

Attention à bien nuancer nos propos dans cette partie là : chaque région n'est pas égale en population, en superficie,... 
- https://www.ined.fr/fr/tout-savoir-population/chiffres/france/structure-population/regions-departements/
- https://www.regions-departements-france.fr/regions-francaises.html

Pensez à réflechir à d'autres critères de comparaison reflétants ces disparités.   

### <a id='toc1_6_2_'></a>[Analyse générale](#toc0_)

On va commencer par une première exploration générale des données. 


&#x1F4A5; **To Do**


    - Tracer sur un même graphique la consommation des différentes régions en fonction du temps
    
    - Peut-on observer des différences comportementales significatives entre les régions ? (par ex entre une région du nord et une région du sud)
    
    - Quelles régions sont les plus consommatrices ? Même question en ramenant la réponse au nombre d'habitants ? Même question en ramenant la réponse au km2 ? Que pouvez-vous dire des résultats ? 
        
<br> 

**Ressources :** 
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html 
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.resample.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rolling.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.div.html

#### <a id='toc1_6_2_1_'></a>[Solutions](#toc0_)

##### <a id='toc1_6_2_1_1_'></a>[Tracer sur un même graphique la consommation des différentes régions en fonction du temps](#toc0_)

In [None]:
# En Janvier
(df_regional.loc["2015-Jan-01":"2015-Jan-10", :]
            .pivot(columns='Périmètre', values='Consommation')
            .resample('1H')      # resample to see better
            .mean()
            .plot(figsize=(14, 5),
                  lw=1,          # line width
                  cmap="Set3")   # choosing a "good colormap"
            .legend(bbox_to_anchor=(1, 1),  # placing legends
                    fontsize='small')
 )

In [None]:
# En juillet
(df_regional.loc["2015-Jul-01":"2015-Jul-30", :]
            .pivot(columns='Périmètre', values='Consommation')
            .resample('1H')      # resample to see better
            .mean()
            .plot(figsize=(14, 5),
                  lw=1,          # line width
                  cmap="Set3")   # choosing a "good colormap"
            .legend(
    bbox_to_anchor=(1, 1),  # placing legends
    fontsize='small')
 )

In [None]:
# Année 2015
(df_regional.loc["2015-Jan": "2015-Dec", :]
            .pivot(columns='Périmètre', values='Consommation')
            .resample('1D')      # resample to see better
            .sum()
            .plot(figsize=(14, 5),
                  lw=1,          # line width
                  cmap="Set3",   # choosing a "good colormap"
                  title="Conso total par jour")
            .legend(
    bbox_to_anchor=(1, 1),  # placing legends
    fontsize='small')
 )

In [None]:
df_regional.loc["2015-Jan-01":"2015-Jan-15",
                :].pivot(columns='Périmètre', values='Consommation')

L'IDF et l'AURA sont les plus gros consommateurs, tandis que le CVDL et BFC consomment moins <br/>

##### <a id='toc1_6_2_1_2_'></a>[Quelles régions sont les plus consommatrices ? Même question en ramenant la réponse au nombre d'habitants ? Même question en ramenant la réponse au km2 ?](#toc0_)

In [None]:
# Population moyenne entre 2013 et 2018
data_regions_population = pd.Series({
    "Auvergne-Rhône-Alpes": 6682755,
    "Bourgogne-Franche-Comté": 2788566,
    "Bretagne": 3336547,
    "Centre-Val de Loire": 2491894,
    "Grand-Est": 5564524,
    "Hauts-de-France": 5968186,
    "Ile-de-France": 12218464,
    "Normandie": 3387158,
    "Nouvelle-Aquitaine": 5951645,
    "Occitanie": 5883118,
    "Pays-de-la-Loire": 3740368,
    "PACA": 5074089
})

# On créé un dataframe avec Noms de région en colonne et comme valeur la consommation. Index = timestamp.
pivot = df_regional.loc["2015-Jan-01":"2015-Jan-15", :] \
                   .pivot(columns='Périmètre', values='Consommation')

# On divise la consommation par le nombre d'habitants par région
df_per_inhabitant = pivot.div(data_regions_population)

In [None]:
subset = ["Auvergne-Rhône-Alpes",
          "Centre-Val de Loire",  "Ile-de-France", "PACA"]
(df_per_inhabitant[subset]
 .resample('1H')              # resample to see better
 .sum()
 .plot(figsize=(14, 5),
       lw=1,                  # line width
       cmap="Set2")          # choosing a "good colormap"
 .legend(
    bbox_to_anchor=(1, 1),  # placing legends
    fontsize='small')
 )

### <a id='toc1_6_3_'></a>[Etude de la production non renouvelable.](#toc0_)

&#x1F4A5; **To Do**

    - Dans quelles régions produit-t-on le plus d'électricité d'origine non renouvelable ? 
    
    - Quelle est l'évolution de la production d'électricité d'origine non renouvelable ? 
    
    - Afficher la production nucléaire totale par région sur l'ensemble de la période . Dans quelles régions sont situées les centrales nucléaires ? Dans quelles régions n'y a-t-il pas de centrale nucléaire ?   

#### <a id='toc1_6_3_1_'></a>[Solution](#toc0_)

##### <a id='toc1_6_3_1_1_'></a>[Dans quelles régions produit-t-on le plus d'électricité d'origine non renouvelable ?](#toc0_)

In [None]:
sources_non_renouvelables = ['Périmètre', 'Thermique', 'Nucléaire']

(df_regional[sources_non_renouvelables]
 .groupby("Périmètre")
 .sum()
 .sum(axis=1)
 .sort_values()
 .plot.barh(
    xlabel="W",
    ylabel='Régions',
    title="Production totale d'origine thermique ou nucléaire",
    figsize=(12, 4)
)
)

plt.show()

##### <a id='toc1_6_3_1_2_'></a>[Afficher la production nucléaire totale par région sur l'ensemble de la période . Dans quelles régions sont situées les centrales nucléaires ? Dans quelles régions n'y a-t-il pas de centrale nucléaire ?](#toc0_)

In [None]:
df_regional.pivot(columns='Périmètre', values='Nucléaire')

In [None]:
(
    df_regional.pivot(columns='Périmètre', values='Nucléaire')
               .sum()
               .sort_values()
               .plot.barh(xlabel="", ylabel="Régions", title="Production nucléaire (en W) ")
)

plt.show()

### <a id='toc1_6_4_'></a>[Etude de la production renouvelable](#toc0_)


&#x1F4A5; **To Do**

    - Quelle région produit le plus d'électricité d'origine renouvelable ?

    - Quelle évolution sur les dernières années ? Faîtes un joli graphique. 
   
    - Quelle région a le meilleur taux " énergie produite VS puissance installée " ? 
    Vous pourrez assimiler la puissance installée comme étant égale au maximum produit. Attention à bien définir vos critères, cette capacité peut augmenter dans le temps...

#### <a id='toc1_6_4_1_'></a>[Solutions](#toc0_)

##### <a id='toc1_6_4_1_1_'></a>[Quelle région produit le plus d'électricité d'origine renouvelable ?](#toc0_)

In [None]:
sources_renouvelables = ['Périmètre', 'Eolien',
                         'Solaire', 'Hydraulique', 'Bioénergies']

(df_regional[sources_renouvelables]
 .groupby("Périmètre")
 .sum()
 .sum(axis=1)
 .sort_values()
 .plot.barh(
    xlabel="",
    ylabel='Régions',
    title="Production totale d'origine renouvelable (Eolien, Solaire, Hydraulique, Bioénergies)",
    figsize=(12, 4)
)
)

plt.show()

##### <a id='toc1_6_4_1_2_'></a>[Quelle évolution sur les dernières années ? Faîtes un joli graphique.](#toc0_)

In [None]:
sources_renouvelables = ['Eolien', 'Solaire', 'Hydraulique', 'Bioénergies']
sources_non_renouvelables = ['Thermique', 'Nucléaire']

df_regional["Production Renouvelable"] = df_regional[sources_renouvelables].sum(
    axis=1).abs()
df_regional["Production Non Renouvelable"] = df_regional[sources_non_renouvelables].sum(
    axis=1).abs()

df_aggrege = df_regional[[
    "Périmètre", "Production Renouvelable", "Production Non Renouvelable"]]

fig, ax = plt.subplots(6, 2, figsize=(15, 12), sharex=True)
count = 0
for label, df in df_aggrege.groupby("Périmètre"):
    (df[["Production Renouvelable", "Production Non Renouvelable"]]
        .resample("7D")
        .sum()
        .plot.area(ax=ax[int(count/2), count % 2],
                   title=label,
                   stacked=True)
        .legend(
        bbox_to_anchor=(0.75, 1),
        fontsize='small')
     )
    count += 1
fig.tight_layout()
plt.show()

##### <a id='toc1_6_4_1_3_'></a>[Quelle région a le meilleur taux " énergie produite VS puissance installée " ?](#toc0_)
Vous pourrez assimiler la puissance installée comme étant égale au maximum produit. Attention à bien définir vos critères, cette capacité peut augmenter dans le temps...

In [None]:
# To do

### <a id='toc1_6_5_'></a>[Autonomie électrique des régions](#toc0_)

&#x1F4A5; **To Do**

    - Afficher la différence entre la consommation et la production pour chaque région. 
    
    - Quelles régions sont autonomes ? En excès ? En déficit ?
    
    - Comparer ce résultat à la colonne 'Ech. physiques'
    
    - Afficher un histogramme de l'écart entre énergie produite et consommée. Calculer la moyenne et la variance de cet écart.  
        
    - Observer les informations concernant la région AuRA. Retrouver la signification du signe des échanges ? Pourquoi la région est-elle autant exportatrice ?

#### <a id='toc1_6_5_1_'></a>[Afficher la différence entre la consommation et la production pour chaque région <br> Quelles régions sont autonomes ? En excès ? En déficit ?](#toc0_)

In [None]:
production = ["Thermique", "Nucléaire", "Eolien",
              "Solaire", "Hydraulique", "Bioénergies"]
df_regional["Production totale"] = df_regional[production].sum(axis=1)

In [None]:
# C'es pas exactement la réponse à la question, mais j'aimais bien
fig, ax = plt.subplots(6, 2, figsize=(15, 12), sharex=True)
count = 0
for label, df in df_regional.groupby("Périmètre"):
    (df[["Consommation", "Production totale"]]
        .resample("7D")
        .sum()
        .plot(ax=ax[int(count/2), count % 2],
              title=label)
        .legend(
        bbox_to_anchor=(1, 1),
        fontsize='small')
     )
    count += 1
fig.tight_layout()
plt.show()

### <a id='toc1_6_6_'></a>[Solutions](#toc0_)

#### <a id='toc1_6_6_1_'></a>[Rôle de la région AURA](#toc0_)

AURA exporte car elle a beaucoup de barrages (stockage de la production nucléaire, puis redistribution quand elle exporte)

#### <a id='toc1_6_6_2_'></a>[Autonomie électrique des régions](#toc0_)

In [None]:
df_regional.columns.levels

In [None]:
prod_r = ['Thermique', 'Nucléaire', 'Eolien',
          'Solaire', 'Hydraulique', 'Pompage', 'Bioénergies']

##### <a id='toc1_6_6_2_1_'></a>[Quelles régions sont autonomes ? en exces ? en déficit ?](#toc0_)

In [None]:
diff_conso_prod_per_reg.describe()

Les régions avec des moyennes négatives sont en déficit : surtout l'IDF

In [None]:
df_regional_swaped.mean().unstack().head()

##### <a id='toc1_6_6_2_2_'></a>[Comparer ce résultat à la colonne 'Ech. physiques'](#toc0_)

In [None]:
(df_regional_swaped['Ech. physiques'] +
 diff_conso_prod_per_reg).plot(figsize=(15, 10))

On voit bien que l'IDF et CVDL ont besoin d'importer de l'électricité pour leur consommation