## Machine Learning pour expliquer les variations journalières des prix des contrats à terme d'électricité en France et en Allemagne

Dans ce notebook, nous allons analyser les facteurs influençant le prix de l'électricité en France et en Allemagne. Nous examinerons l'impact des variations climatiques, des matières premières et des échanges commerciaux sur les prix de l'électricité à court terme (24h). L'objectif est de construire un modèle de machine learning capable d'estimer avec précision les variations journalières des prix des contrats à terme sur l'électricité pour ces deux pays.

Ce projet sera réalisé en suivant la méthodologie CRISP-DM, qui comprend les étapes suivantes:

Business Understanding: Comprendre le contexte métier et les objectifs du projet.
Data Understanding: Explorer et analyser les données fournies pour mieux comprendre leurs caractéristiques.
Data Preparation: Préparer et nettoyer les données pour les adapter aux besoins du modèle de machine learning.
Modelling: Entraîner différents modèles de machine learning et sélectionner le meilleur en fonction des performances.
Evaluation: Évaluer les performances des modèles choisis et analyser les résultats pour en tirer des conclusions.
Après cette introduction, nous entamerons la première étape, "Business Understanding", en détaillant davantage le contexte métier et les objectifs du projet.

### Table des matières

1. [Objectif du projet](#chapter1)
2. [Imports et fonctions d'aide](chapter2)
3. [Description des données](#chapter2)
4. [Préparation des données](#chapter3)
5. [Modélisation des données](#chapter4)
6. [Evaluation](#chapter5)



## 1. Objectif du projet <a class="anchor" id="chapter1"></a>

Dans ce projet, nous cherchons à modéliser le prix de l'électricité à partir de données météorologiques, énergétiques (matières premières) et commerciales pour deux pays européens, la France et l'Allemagne. Le but est de construire un modèle capable d'estimer la variation journalière du prix des contrats à terme (futures) sur l'électricité, en France ou en Allemagne, à partir de ces variables explicatives. Ces contrats permettent d'acheter (ou de vendre) une quantité donnée d'électricité à un prix fixé par le contrat et qui sera livrée à une date future spécifiée (maturité du contrat). Les futures sont des instruments financiers qui donnent une estimation de la valeur de l'électricité au moment de la maturité du contrat à partir des conditions actuelles du marché.

L'importance de ce projet réside dans la possibilité de mieux comprendre les facteurs qui influencent les prix de l'électricité et d'aider les parties prenantes à prendre des décisions éclairées concernant l'achat, la vente ou la production d'électricité. En comprenant les facteurs qui influencent les prix de l'électricité, les entreprises et les gouvernements peuvent optimiser leurs stratégies énergétiques et leurs politiques pour réduire les coûts et favoriser le développement durable.



## 2. Imports et fonctions d'aide

### 2.1 Imports

Nous allons utiliser les bibliothèque 
- **Pandas** et **Numpy** pour la manipulation des données
- **Matplotlib** et **Seabron** pour la visualisation des données
- **Scikit-learn** pour la modelisation des données
- **IPython.display** pour afficher du texte formaté en Markdown et LaTeX

In [1]:
# Import des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sk

from IPython.display import display, Markdown, Latex

# Configuration de l'affichage des graphiques dans le notebook
%matplotlib inline

### 2.2 fonctions d'aide

In [2]:
# Fonction pour afficher le texte en utilisant le formatage Markdown
def display_m(string):
    display(Markdown(string))

## 3. Description des données <a class="anchor" id="chapter3"></a>

### 3.1 Chargement des données intiales
Nous avons trois datasets au format csv:
- **Data_x**: les données d'entrée
- **Data_y**: les données de sorties (labels)
- **DataNew_x**: les nouvelles données d'entrée a prédire (de meme format et dimensions que data_x)

In [88]:
data_x = pd.read_csv("data/Data_X.csv")
dataNew_x = pd.read_csv("data/DataNew_X.csv")
data_y = pd.read_csv("data/Data_Y.csv")


# Concaténer les deux dataframes verticalement
all_data_x = pd.concat([data_x, dataNew_x], axis=0,  ignore_index=True)
train_mask = all_data_x.index.isin(data_x.index)
test_mask = all_data_x.index.isin(dataNew_x.index)

if (all_data_x.loc[train_mask].equals(data_x)):
    print("ceci s'affiche")

if (all_data_x.loc[test_mask].equals(dataNew_x)):
    print("ceci devrait s afficher")
# display(all_data_x.loc[train_mask])
# display(data_x)
# display(all_data_x.loc[test_mask])
display(all_data_x.loc[test_mask & (all_data_x["ID"] == 2049)])
display(dataNew_x[dataNew_x["ID"] == 2049])

ceci s'affiche


Unnamed: 0,ID,DAY_ID,COUNTRY,DE_CONSUMPTION,FR_CONSUMPTION,DE_FR_EXCHANGE,FR_DE_EXCHANGE,DE_NET_EXPORT,FR_NET_EXPORT,DE_NET_IMPORT,...,FR_RESIDUAL_LOAD,DE_RAIN,FR_RAIN,DE_WIND,FR_WIND,DE_TEMP,FR_TEMP,GAS_RET,COAL_RET,CARBON_RET
1,2049,501,FR,-0.022399,-1.003452,-0.022063,0.022063,-0.57352,-1.130838,0.57352,...,-1.183194,-1.2403,-0.770457,1.522331,0.828412,0.437419,1.831241,-0.659091,0.047114,-0.490365


Unnamed: 0,ID,DAY_ID,COUNTRY,DE_CONSUMPTION,FR_CONSUMPTION,DE_FR_EXCHANGE,FR_DE_EXCHANGE,DE_NET_EXPORT,FR_NET_EXPORT,DE_NET_IMPORT,...,FR_RESIDUAL_LOAD,DE_RAIN,FR_RAIN,DE_WIND,FR_WIND,DE_TEMP,FR_TEMP,GAS_RET,COAL_RET,CARBON_RET


In [4]:
display(data_x.describe())
display(data_x.dtypes)

Unnamed: 0,ID,DAY_ID,DE_CONSUMPTION,FR_CONSUMPTION,DE_FR_EXCHANGE,FR_DE_EXCHANGE,DE_NET_EXPORT,FR_NET_EXPORT,DE_NET_IMPORT,FR_NET_IMPORT,...,FR_RESIDUAL_LOAD,DE_RAIN,FR_RAIN,DE_WIND,FR_WIND,DE_TEMP,FR_TEMP,GAS_RET,COAL_RET,CARBON_RET
count,1494.0,1494.0,1494.0,1494.0,1469.0,1469.0,1370.0,1424.0,1370.0,1424.0,...,1494.0,1400.0,1400.0,1400.0,1400.0,1400.0,1400.0,1494.0,1494.0,1494.0
mean,1072.759036,591.861446,0.427442,-0.020032,-0.145508,0.145508,-0.256332,-0.072643,0.256332,0.072643,...,-0.153688,-0.037831,0.019357,0.10948,0.123099,0.009451,0.008404,0.058126,0.061724,0.08051
std,618.013179,345.065043,0.673412,0.918995,0.970226,0.970226,0.957443,1.07583,0.957443,1.07583,...,0.896325,0.984233,1.051781,1.056243,1.054692,0.972394,1.003356,1.097768,1.033853,1.098624
min,0.0,0.0,-2.265563,-1.46235,-2.856874,-2.634831,-2.464849,-2.825331,-2.279619,-1.951516,...,-1.678936,-2.128531,-1.72642,-1.880419,-1.895319,-4.549638,-5.787097,-5.349463,-5.706442,-4.28179
25%,540.25,292.25,-0.037421,-0.716771,-0.875213,-0.638867,-0.977214,-0.8515,-0.452252,-0.794843,...,-0.802333,-0.642117,-0.503927,-0.652135,-0.672614,-0.618259,-0.647948,-0.624238,-0.458038,-0.522968
50%,1077.5,591.0,0.357061,-0.394166,-0.164287,0.164287,-0.306899,0.099455,0.306899,-0.099455,...,-0.46016,-0.274901,-0.228147,-0.261571,-0.229031,-0.026306,-0.020889,0.008493,0.063312,0.054056
75%,1597.5,885.75,0.922057,0.650533,0.638867,0.875213,0.452252,0.794843,0.977214,0.8515,...,0.382191,0.335237,0.154351,0.63505,0.824781,0.651832,0.699131,0.676415,0.641446,0.599094
max,2146.0,1215.0,2.033851,3.30064,2.634831,2.856874,2.279619,1.951516,2.464849,2.825331,...,2.918326,7.756118,9.473201,5.085624,4.965028,2.858758,2.817239,5.674778,3.746576,5.471818


ID                    int64
DAY_ID                int64
COUNTRY              object
DE_CONSUMPTION      float64
FR_CONSUMPTION      float64
DE_FR_EXCHANGE      float64
FR_DE_EXCHANGE      float64
DE_NET_EXPORT       float64
FR_NET_EXPORT       float64
DE_NET_IMPORT       float64
FR_NET_IMPORT       float64
DE_GAS              float64
FR_GAS              float64
DE_COAL             float64
FR_COAL             float64
DE_HYDRO            float64
FR_HYDRO            float64
DE_NUCLEAR          float64
FR_NUCLEAR          float64
DE_SOLAR            float64
FR_SOLAR            float64
DE_WINDPOW          float64
FR_WINDPOW          float64
DE_LIGNITE          float64
DE_RESIDUAL_LOAD    float64
FR_RESIDUAL_LOAD    float64
DE_RAIN             float64
FR_RAIN             float64
DE_WIND             float64
FR_WIND             float64
DE_TEMP             float64
FR_TEMP             float64
GAS_RET             float64
COAL_RET            float64
CARBON_RET          float64
dtype: object

### 3.2 Description des variables des datasets

#### 3.2.1 Description des variables des datasets d'entrée

In [5]:
from vars_description import x_vars_desc

nbr_columns_x = len(x_vars_desc)

display_m(f"Les dataset d'entrée **Data_x** et **DataNew_x** sont composés de **{len(data_x)}** et **{len(dataNew_x)}**\
 entrées respectivement avec **{nbr_columns_x}** variables.")

Les dataset d'entrée **Data_x** et **DataNew_x** sont composés de **1494** et **654** entrées respectivement avec **35** variables.

In [6]:
# Affichage des descriptions des colonnes pour Data_x
display_m(f"Descriptions des **{nbr_columns_x}** variables de **Data_x** et de **DataNew_x**:")
table_header = "| Colonne | Description |\n| --- | --- |"
table = "\n".join([f"| {col} | {desc} |" for col, desc in x_vars_desc.items()])
display_m(table_header + "\n" + table)

Descriptions des **35** variables de **Data_x** et de **DataNew_x**:

| Colonne | Description |
| --- | --- |
| ID | Identifiant unique pour chaque entrée |
| DAY_ID | Date de l'entrée sous forme numérique |
| COUNTRY | Pays concerné par l'entrée - DE = Allemagne, FR = France |
| DE_CONSUMPTION | Consommation d'électricité en Allemagne |
| FR_CONSUMPTION | Consommation d'électricité en France |
| DE_FR_EXCHANGE | Electricité échangée entre Allemagne et France |
| FR_DE_EXCHANGE | Electricité échangée entre France et Allemagne |
| DE_NET_EXPORT | Electricité exportée par l'Allemagne vers l'Europe |
| FR_NET_EXPORT | Electricité exportée par la France vers l'Europe |
| DE_NET_IMPORT | Electricité importée en Allemagne depuis l'Europe |
| FR_NET_IMPORT | Electricité importée en France depuis l'Europe |
| DE_GAS | Volume de gaz naturel consommé en Allemagne |
| FR_GAS | Volume de gaz naturel consommé en France |
| DE_COAL | Volume de charbon consommé en Allemagne |
| FR_COAL | Volume de charbon consommé en France |
| DE_HYDRO | Production d'électricité d'origine hydraulique en Allemagne |
| FR_HYDRO | Production d'électricité d'origine hydraulique en France |
| DE_NUCLEAR | Production d'électricité d'origine nucléaire en Allemagne |
| FR_NUCLEAR | Production d'électricité d'origine nucléaire en France |
| DE_SOLAR | Production d'électricité d'origine photovoltaïque en Allemagne |
| FR_SOLAR | Production d'électricité d'origine photovoltaïque en France |
| DE_WINDPOW | Production d'électricité d'origine éolienne en Allemagne |
| FR_WINDPOW | Production d'électricité d'origine éolienne en France |
| DE_LIGNITE | Volume de lignite consommé en Allemagne |
| DE_RESIDUAL_LOAD | Electricité consommée après utilisation des énergies renouvelables en Allemagne |
| FR_RESIDUAL_LOAD | Electricité consommée après utilisation des énergies renouvelables en France |
| DE_RAIN | Quantité de pluie tombée en Allemagne |
| FR_RAIN | Quantité de pluie tombée en France |
| DE_WIND | Vitesse du vent en Allemagne |
| FR_WIND | Vitesse du vent en France |
| DE_TEMP | Température en Allemagne |
| FR_TEMP | Température en France |
| GAS_RET | Prix journalier du gaz naturel en Europe |
| COAL_RET | Prix journalier du charbon en Europe |
| CARBON_RET | Prix journalier des émissions de carbone en Europe |

#### 3.2.2 Description des variables du datasets de sortie

In [7]:
from vars_description import y_vars_desc

nbr_columns_y = len(y_vars_desc)

display_m(f"Le dataset de sortie **Data_y** est composé de **{len(data_x)}** entrées \
avec **{nbr_columns_y}** variables.")

Le dataset de sortie **Data_y** est composé de **1494** entrées avec **2** variables.

In [8]:
    
# Affichage des descriptions des colonnes pour Data_x
display_m(f"<br>Descriptions des **{nbr_columns_y}** variables de **Data_y**:")
table_header = "| Colonne | Description |\n| --- | --- |"
table = "\n".join([f"| {col} | {desc} |" for col, desc in y_vars_desc.items()])
display_m(table_header + "\n" + table)

<br>Descriptions des **2** variables de **Data_y**:

| Colonne | Description |
| --- | --- |
| ID | Identifiant unique pour chaque entrée |
| TARGET | Variation journalière du prix de futures d'électricité (maturité 24h) |

## 4. Préparation des données

### 4.1 Vérification et traitement des valeurs manquantes

#### 4.1.1 Vérification des valeurs manquantes de des datasets d'entrée **Data_x** et **DataNew_x**

In [16]:
# Affichage du nombre 
missing_values_x = data_x.isnull().sum()
missing_values_x.loc[missing_values_x != 0]

Series([], dtype: int64)

In [12]:
# Affichage du nombre de valeurs manquantes pour chaque colonnes de data_new_x
missing_values_new_x = dataNew_x.isnull().sum()
missing_values_new_x.loc[missing_values_x != 0]

DE_FR_EXCHANGE     9
FR_DE_EXCHANGE     9
DE_NET_EXPORT     47
FR_NET_EXPORT     24
DE_NET_IMPORT     47
FR_NET_IMPORT     24
DE_RAIN           40
FR_RAIN           40
DE_WIND           40
FR_WIND           40
DE_TEMP           40
FR_TEMP           40
dtype: int64

In [None]:
On observe la proportion

In [13]:
nan_count_per_row = data_x.isnull().sum(axis=1)

max_nan_count_per_row = nan_count_per_row.max()
display_m(f"L'enregistrement comptant le plus de valeur manquante compte {max_nan_count_per_row} valeurs manquantes sur 35 valeurs.")


L'enregistrement comptant le plus de valeur manquante compte 6 valeurs manquantes sur 35 valeurs.

On observe qu'au maximum une variable peut manquer a 124 enregistrement (sur 1494) et qu'au plus un enregistrement peut 

#### 4.1.2 Traitement des valeurs manquantes de des datasets d'entrée **Data_x** et **DataNew_x**

In [14]:
# Select only numeric columns in Data_x
numeric_cols_x = data_x.select_dtypes(include=np.number).columns.tolist()
data_x[numeric_cols_x] = data_x[numeric_cols_x].fillna(data_x[numeric_cols_x].mean())

# Select only numeric columns in DataNew_x
numeric_cols_new_x = dataNew_x.select_dtypes(include=np.number).columns.tolist()
dataNew_x[numeric_cols_new_x] = dataNew_x[numeric_cols_new_x].fillna(dataNew_x[numeric_cols_new_x].median())

# Afficher le nombre de valeurs manquantes dans Data_x
display_m(f"Nombre de valeurs manquantes dans **Data_x** :\n{data_x.isnull().sum().sum()}")

# Afficher le nombre de valeurs manquantes dans DataNew_x
display_m(f"Nombre de valeurs manquantes dans **DataNew_x** :\n{dataNew_x.isnull().sum().sum()}")


Nombre de valeurs manquantes dans **Data_x** :
0

Nombre de valeurs manquantes dans **DataNew_x** :
0

#### 4.1.3 Verification des valeurs manquantes du dataset de sortie **Data_y**

In [19]:
display_m(f"Nombre de valeurs manquantes dans **Data_y** :\n{data_y.isnull().sum().sum()}")

Nombre de valeurs manquantes dans **Data_y** :
0

### 4.2 Verification de la comparabilité des variables


In [30]:
# Concaténer les deux dataframes verticalement
all_data_x = pd.concat([data_x, dataNew_x], axis=0)

# Regrouper par 'DAY_ID' et compter le nombre de lignes où 'COUNTRY' est 'DE' ou 'FR'
country_counts = all_data_x[all_data_x['COUNTRY'].isin(['DE'])].groupby('DAY_ID').size()
display(country_counts)
# country_counts = all_data_x[all_data_x['COUNTRY'].isin(['FR'])].groupby('DAY_ID').size()
all_data_x.goupby('DAY_ID')



DAY_ID
2       1
3       1
4       1
5       1
6       1
       ..
1208    1
1210    1
1211    1
1212    1
1213    1
Length: 932, dtype: int64

AttributeError: 'DataFrame' object has no attribute 'goupby'

#### 4.2.1 Distribution et échelle des variables d'entrée
Nous allons visualiser la distribution des variables d'entrée en utilisant des histogrammes et des boîtes à moustaches (boxplots) pour évaluer leur distribution, leur centralité et leur dispersion.

In [None]:
 # Effectuer des tests statistiques
from scipy import stats
# Effectuer un test t de Student entre deux colonnes
stats.ttest_ind(data_x['colonne1'], data_x['colonne2'])

In [None]:
data_x_subset = data_x.drop(columns=['ID'])

# Affichage des histogrammes pour chaque variable d'entrée
data_x_subset.hist(figsize=(20, 20))
plt.show()

# Affichage des boxplots pour chaque variable d'entrée
data_x_subset.plot(kind='box', subplots=True, layout=(7, 5), figsize=(20, 20))
plt.show()