<font color='mediumblue'> **Projet : Consommation et production électrique en France** </font>

**Objectifs**

1. Manipulation de données avec pandas
    - Création des dataframes à partir des fichiers RTE
        - Dossier data_rte : données issues du site RTE (2012>2020) => données sur lesquelles ce notebook s'appuie
    - Exploration des données contenues dans ces dataframes   
    
2. Etude des relations entre variables



**Conseils généraux:**
- Afficher les premières lignes de la variable que vous êtes en train d'étudier peut vous aider à comprendre bien des problèmes (méthode **head** de pandas)
- De même la méthode **describe** de pandas est très précieuse pour repérer la présence de NaN, d'outliers, repérer les types de chaque variable etc. 
- Lorsque c'est nécessaire (selon ce que vous cherchez) penser à normaliser/standardiser les données
- C'est une analyse exploratoire : **tatonnez**, **faites des graphiques**, ... 
- N'hésitez pas à **consulter l'aide de Pandas** ou à chercher la réponse à vos questions sur internet (quasiment tous les bugs que vous observerez on déjà fait l'objet d'un post sur **stackoverflow**)

# Exploration des données

L'exploration des données présente différents intérêts :
- On comprend mieux nos données
- On voit déjà des premières tendances
- Elle nous donne des pistes à explorer pour la suite
- ...

Notre objectif : explorer au maximum les données pour en tirer de l'information

**L'importance de l'exploration des données**

La première étape de chargement, exploration et nettoyage de données peut être chronophage lorsqu'on traite des sets de données "réels"...  <br/> 
Cela fait partie du travail de data scientist, il faut s'y faire :-)

----------------------------------------
<font color=#66b3ff> 
    
<small> <i> 

It takes less than five lines of code to train a basic machine learning algorithm. Exploratory data analysis and data preparation in comparison take longer and comprise of 80% of the data scientist’s time.  <br/> 
https://towardsdatascience.com/build-the-story-around-data-using-exploratory-data-analysis-and-pandas-c85bf3beff87

----------------------------------------   
    
When I started learning machine learning and data science, much of it (all of it) was through online courses. I used them to create my own AI Masters Degree. All of them provided excellent curriculum along with excellent datasets. <br/> 
The datasets were excellent because they were ready to be used with machine learning algorithms right out of the box. <br/> 
You’d download the data, choose your algorithm, call the .fit() function, pass it the data and all of a sudden the loss value would start going down and you’d be left with an accuracy metric. Magic. <br/> 
This was how the majority of my learning went. Then I got a job as a machine learning engineer. I thought, finally, I can apply what I’ve been learning to real-world problems. <br/> 
Roadblock. <br/> 
The client sent us the data. I looked at it. WTF was this? <br/> 
Words, time stamps, more words, rows with missing data, columns, lots of columns. Where were the numbers? <br/> 
‘How do I deal with this data?’ I asked Athon. <br/> 
‘You’ll have to do some feature engineering and encode the categorical variables,’ he said, ‘I’ll Slack you a link.’ <br/> 
I went to my digital mentor. Google. ‘What is feature engineering?’ <br/> 
Google again. ‘What are categorical variables?’ <br/> 
Athon sent the link. I opened it. <br/> 
There it was. The next bridge I had to cross. Exploratory Data Analysis. <br/> 
You do exploratory data analysis to learn more about the data before you ever run a machine learning model. <br/> 
You create your own mental model of the data so when you run a machine learning model to make predictions, you’ll be able to recognise whether they’re BS or not.  <br/>
https://towardsdatascience.com/a-gentle-introduction-to-exploratory-data-analysis-f11d843b8184

</i> </small> </font> 

<font color='mediumblue'> **An EDA checklist**</font> 

1. Quelle(s) question(s) essayez-vous de résoudre/de prouver que vous avez tort ?
2. De quel type de données disposez-vous et comment traitez-vous les différents types ?
3. Qu'est-ce qui manque dans les données et comment y faire face ?
4. Où sont les valeurs aberrantes et pourquoi devriez-vous vous en soucier ?
5. Comment pouvez-vous ajouter, modifier ou supprimer des fonctionnalités pour tirer le meilleur parti de vos données ?
        
https://towardsdatascience.com/a-gentle-introduction-to-exploratory-data-analysis-f11d843b8184

In [1]:
import pandas as pd
from os import listdir
from matplotlib import rcParams
rcParams['figure.figsize'] = 15, 3

**Objectifs**
    
1. Charger et nettoyer des données : read_csv, parse date, concat
2. Manipuler les données pour mieux les comprendre : groupby, pivot, stack/unstack

## Création des dataframes
**TODO**
        
1. Créer deux dataframes:
    - le 1er en concaténant les données nationales annuelles 
    - le 2nd en concaténant les données régionales annuelles
    - il faudra construire un index de datetime à partir des colonnes 'Date' et 'Heures'

**Aide**
- bien lire la note sur les données RTE afin de comprendre sur quelles données on travaille ...
- la méthode read_csv (pandas) peut lire les fichiers zip ;-) (encoding: latin-1, séparateur de colonnes: \t)
- un tips pour détecter l'encoding: https://superuser.com/questions/301552/how-to-auto-detect-text-file-encoding
- la méthode listdir (os) peut vous aider à lister tous les fichiers d'un dossier, startswith à sélectionner ceux qui vous intéressent
- pensez à "droper" les colonnes qui ne contiennent pas d'information
- pour le dataframe des données régionales, vous pouvez utiliser un multiindex
- certaines colonnes sont vides ? https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

**Notes sur les données RTE** 
- Elles proviennent du (génial) site éCO2mix et sont disponibles pour tout le monde (opendata)
- Leur format n'est pas optimal : un peu de manipulation est nécessaire afin de pouvoir les exploiter. Pas de panique, il faut juste procéder par étape !
    1. Chargez un des fichiers directement avec read_csv (n'importe lequel, ils sont tous construits de la même façon)
    2. Affichez le dataframe obtenu, et essayez de comprendre ce qui cloche ...
    3. Les quelques lignes de code suivante permettent d'afficher la 1ere et la 10ème ligne contenues dans un fichier. Est-ce que le problème apparait plus clairement ? (pensez à modifier le chemin d'accès...)
    4. Ecrivez une fonction qui permet de charger correctement un des fichiers
    5. Vous pouvez maintenant utiliser cette fonction pour créer votre dataframe en concaténant les fichiers

**Plus d'informations sur les données :** <br/> 
- https://www.rte-france.com/eco2mix <br/>
- https://www.rte-france.com/eco2mix/telecharger-les-indicateurs

Les données que nous allons traiter sont sous un format nouveau, il peut s'avérer difficile de les importer pour vous : fixez vous un objectif à ne pas passer plus de 2h à les importer. Si vous dépassez ce temps, je vous conseille de vous référer aux codes cachés que je vous transmets ci-dessous et de vous replonger dedans plus tard afin que vous ayez le temps d'explorer les données.

<details><summary>Code import données nationales</summary><br>
def create_datetime_index(df):<br/>
    df['DateTime'] = pd.to_datetime(df['Date'].map(str) + ' ' + df['Heures'].map(str))<br/>
    df.drop(['Date', 'Heures'], axis=1, inplace=True)<br/>
    df.set_index('DateTime', inplace=True)<br/>
    return <br/>

def read_rte_file(file_name):<br/>
    df = pd.read_csv(file_name, encoding='ISO-8859-1', sep='\t', index_col=None, header=None, skiprows=1, na_values='ND')<br/>
    df.drop(df.columns[-1], axis=1, inplace=True)<br/>
    df_titles = pd.read_csv(file_name, encoding='ISO-8859-1', sep='\t', index_col=None, nrows=0)<br/>
    df.columns = df_titles.columns<br/>
    return df<br/>

DATA_FILE = 'data/data_rte/'<br/>

files = [f for f in listdir(DATA_FILE) if f.startswith('eCO2mix_RTE_Annuel-Definitif')]<br/>

df_all = []<br/>

for f in files:<br/>
    df = read_rte_file(DATA_FILE+f)<br/>
    df_all.append(df)<br/>
df_all = pd.concat(df_all)<br/>
df_all = df_all[(\~df_all['Date'].isna())&(~df_all['Heures'].isna())]<br/>
create_datetime_index(df_all)<br/>
df_all.describe()<br/>
</details>

**Note : In a loop it is not a good idea to concat the dataframe at each step, because it will sort each dataframe and this will takes a lot of time. A better solution is to create a list of dataframes and concat at the end of the loop (as is done here).**

<details><summary>Code import données régionales</summary><br>
files = [f for f in listdir(DATA_FILE) if not f.startswith('eCO2mix_RTE_Annuel-Definitif')]<br/>

list_reg = set([f[len('eCO2mix_RTE_'):-len('_Annuel-Definitif_2013.zip')] for f in files])<br/>

df_all_reg = {}<br/>

for reg in list_reg:<br/>
    df_reg = []<br/>
    for f in files :<br/>
        if reg in f :<br/>
            df = read_rte_file(DATA_FILE+f)<br/>
            df.drop(len(df)-1, inplace=True)<br/>
            create_datetime_index(df)<br/>
            df_reg.append(df)<br/>
    df_reg = pd.concat(df_reg)<br/>
    df_reg.drop(['Périmètre', 'Nature'], axis=1, inplace=True)<br/>
    df_reg.dropna(how='all', inplace=True)<br/>
    df_all_reg[reg] =df_reg<br/>
df_all_reg = pd.concat(df_all_reg, axis=1)<br/>
</details>

## Exploration du dataset

### Réflexion

A présent vous savez ce que vous avez dans vos données (cf. https://www.rte-france.com/eco2mix)<br/>

Avant de vous lancer dans la mise en pratique, prenez quelques minutes (max 30 minutes) pour observer les données et les premières statistiques descriptives que vous avez trouvées : quelles questions vous posez-vous sur les données ? Qu'avez-vous envie d'explorer ? (essayez de ne pas vous laisser biaiser par les titres du Notebook)

### Mise en application

**TODO**
    
L'objectif ici est de **comprendre les données** présentes dans les deux dataframes que vous avez créés. Réfléchissez aux descripteurs statistiques les plus appropiés pour chaque question.  
<br/>

1. Dataset national
    - Tracer la consommation nationale en fonction du temps
    - Tracer la production des différentes sources. Quelle est la source de production largement majoritaire ?
    - Afficher sur un même graphique : la production nucléaire, la consommation et la somme des échanges aux frontières. En déduire la signification du signe des échanges (positif ou négatif) ?
    - Quelles sources ont un fonctionnement
        - de "base" (production régulière) ?
        - de "pointe" (production ponctuelle, uniquement lorsque la base ne suffit plus) ?

 <br/>
2. Dataset régional
    - Tracer sur un même graphique la consommation des différentes régions en fonction du temps
    - Peut-on observer des différences comportementales significatives entre les régions ? (par ex entre une région du nord et une région du sud)
    - Quelles régions sont les plus consommatrices ? Y a-t-il un moment dans l'année où la région IdF n'est pas la plus consommatrice ?
    - Afficher la production nucléaire par région en ftc du temps. Dans quelles régions sont situées les centrales nucléaires ?
    - Quelles régions produisent le plus de solaire / éolien ?
    - Observer les informations concernant la région AuRA. Retrouver la signification du signe des échanges ? Pourquoi la région est-elle autant exportatrice ?

**Aide**
- la méthode **.plot()** fonctionne parfaitement avec un datetime en index
- si vous utilisez un multiindex, la méthode **swaplevel** peut vous aider
- attention aux **nan** pour les plots..

### Dataset national

#### consommation nationale en fonction du temps

#### production des différentes sources

#### production nucléaire, consommation et échanges aux frontières

#### fonctionnement de base ou ponctuel ?

### Dataset régional


Attention à bien nuancer nos propos dans cette partie là : chaque région n'est pas égale en population, en superficie,...
- https://www.ined.fr/fr/tout-savoir-population/chiffres/france/structure-population/regions-departements/
- https://www.regions-departements-france.fr/regions-francaises.html

#### Manipulation de notre dataframe avec les index : récupération de la consommation par région

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.resample.html

#### consommation en fonction du temps

#### différences comportementales entre les régions

#### les plus consommatrices

#### production nucléaire

#### production solaire / éolien


## Comparaison des situations régionales

**TODO**

1. Autonomie électrique des régions : 
    - Afficher la 'consommation - sum(productions)' pour chaque région
    - Quelles régions sont autonomes ? En excès ? En déficit ?
    - Comparer ce résultat à la colonne 'Ech. physiques'
    - Bonus: reconstruire les flux inter-régionaux ...

    
2. Etude de la production solaire :
    - Quelle région produit le plus (en moyenne et au max) ? 
    - Quelle évolution sur les dernières années ?
    - Quelle région a le meilleur taux 'énergie produite / puissance installée' ? (la puissance installée peut être assimilée au maximum produit, attention cette capacité peut augmenter dans le temps...)

    
3. Mêmes questions pour l'éolien
    

**Aide**


- Les méthodes groupby, unstack, ou pivot sont très utiles pour manipuler des dataframes


### Autonomie électrique des régions

#### Afficher la 'consommation - sum(productions)' pour chaque région

#### Quelles régions sont autonomes ? en exces ? en déficit ?

#### Comparer ce résultat à la colonne 'Ech. physiques'

#### Bonus : reconstruire les flux inter-régionaux ...

### Etude de la production solaire

### Mêmes questions pour l'éolien

## Etude des consommations 

**TODO**


1. Afficher les moyennes des consommations régionales pour chaque année, avec et sans standardisation. Quelles informations visualisez vous ?
    
2. Faire pareil avec la moyenne de consommation selon le jour de la semaine.

3. Tracer les consommations horaires (par heure) moyenne par région en décembre et en juin. Peut-on observer les différences d'ensoleillement entre les régions ?

4. Tracer ces mêmes courbes, en ne sélectionnant que les jours de semaine, puis que les jours de week end. Quelles différences de comportement peut-on observer ?


**Aide**

- un DatetimeIndex possède de nombreux attributs et méthodes utiles: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html
- Regarder la doc des méthodes groupby, unstack, pivot...
- Si besoin, utiliser la méthode seaborn.heatmap pour visualiser vos résultats (cmap="YlGnBu")



#### moyennes des consommations régionales pour chaque année, avec et sans standardisation

#### moyenne de consommation selon le jour de la semaine

#### consommations décembre vs juin

#### consommation semaine vs week end

# Relation entre les features / variables

## Liens productions / consommation

**TODO**
        
- Afficher les correlations entre toutes les productions et la consommation
- Quelles éléments sont corrélés parce que liés ? Quels éléments sont corrélés mais n'ont à priori pas de lien de cause à effet ?
- Quel indice montre que la consommation 'cause' la production avec du gaz ?
- Quels types de productions permettent de "suivre" la consommation ? Lesquels ne le permettent pas du tout (productions "fatales")
- Choisissez une ou deux régions et observez ces mêmes corrélations.

BONUS : Visualisation de la PCA :
- La consommation nationale et la production nucléaire sont fortement correlées. Tracer un scatterplot de l'une en fct de l'autre.
- Effectuer une PCA pour passer de deux dimensions à une seule, puis visualiser sur le plot précédent la composante obtenue.

Le nucléaire produit beaucoup, mais est peu pilotable. <br/>
En revanche le gaz est allumé lorsqu'il y a beaucoup de demande : la demande cause la production de gaz.

### Au niveau national

#### Afficher les correlations entre toutes les productions et la consommation

#### Quels éléments sont corrélés parce que liés ? Quels éléments sont corrélés mais n'ont à priori pas de lien de cause à effet ?

Les corrélations peuvent être dues à une relation de causalité, par exemple, une hausse rapide de la consommation va entrainer une hausse de la production avec du gaz. Ainsi on peut noter que la production de gaz suit une hausse de la consommation. Ce genre d'intuition est à l'origine de la notion de [causalité de Granger](https://en.wikipedia.org/wiki/Granger_causality)

#### Quel indice montre que la consommation 'cause' la production avec du gaz?

Ci dessous on vérifie que la production de gaz suit en moyenne la hausse de la consommation :<br/>
An idea from: https://stackoverflow.com/questions/33171413/cross-correlation-time-lag-correlation-with-pandas

#### Quels types de productions permettent de "suivre" la consommation ? Lesquels ne le permettent pas du tout (productions "fatales")

### Au niveau régional

## Prix de l'électricité

On s'intéresse maintenant aux données dans le dossier "data entsoe".<br/>
https://doc.opendatadsl.com/docs/company/ENTSOE#entsoe_el_tl_actcf

**TODO**

- Charger les prix de marché de l'électricité  (en France et en Allemagne)  <br/>
- Chercher les liens (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html) entre : 
    - Le prix de l'électricité et la consommation nationale ?
    - Le prix de l'électricité et les sources de production ? 
    - Quelles sources semblent associées aux prix élevés ? aux prix faibles ?
            
**Aide:**

- Attention aux timezone ! Les prix sont en UTC. Les méthodes **tz_localize('UTC') et tz_convert('Europe/Paris')** pourraient vous aider ...
- On ne peut pas comparer timeserie "localisée" avec une autre qui ne l'est pas ("naive")
- Pour associer le dataframe de conso/prod à une timezone : les changements d'heures ont mal été gérés (cherchez à comprendre le problème). Utliser **"ambiguous = 'NaT', nonexistent='NaT'"** pour le contourner.
- Y a-t-il des **outliers** ?

#### Charger les prix de marché de l'électricité (en France et en Allemagne)

<details><summary>Code import données électricité</summary><br>
def read_data_entsoe(file):<br/>
    df = pd.read_csv(file)<br/>
    df['start'], _ = df['MTU (UTC)'].str.split(' - ', 1).str<br/>
    df.set_index('start', inplace=True)<br/>
    df.index = pd.to_datetime(df.index, yearfirst=True)<br/>
    df.drop(columns=['MTU (UTC)'], inplace=True)<br/>
    return df<br/>
    
DATA_FILE = './data/data entsoe/France/'<br/>

def get_prices(folder, col='fr'):<br/>
    df_prices = []<br/>
    for f in listdir(folder):<br/>
        df = read_data_entsoe(folder + f)<br/>
        df.columns = [col]<br/>
        df_prices.append(df)<br/>
    df_prices= pd.concat(df_prices, axis=0)<br/>
    return df_prices<br/>

df_prices = pd.concat((get_prices('./data/data entsoe/Electricity_price/France/', 'fr'),<br/>
                         get_prices('./data/data entsoe/Electricity_price/Germany/', 'ger')), 1)<br/>
</details>

#### Recherche de liens

## Emissions de CO2

**TODO**

- Quel lien entre le taux de C02 et les différentes sources de productions ?
- Quelles sources semblent les plus émettrices ?

## Caractéristation des échanges avec les frontières
**TODO**

- A quel moment les échanges ont-il principalement lieu ?
- Quel est le prix payé par la France lorsqu'elle importe de l'électricité ? 
- Quel est le prix reçu lors des exportations ?


` >0 = importation, <0 = exportation`

#### A quel moment les échanges ont-il principalement lieu ?

#### Quel est le prix payé par la France lorsqu'elle importe / exporte de l'électricité ?