# Machine Learning pour expliquer les variations journalières des prix des contrats à terme d'électricité en France et en Allemagne

Dans ce notebook, nous allons analyser les facteurs influençant le prix de l'électricité en France et en Allemagne. Nous examinerons l'impact des variations climatiques, des matières premières et des échanges commerciaux sur les prix de l'électricité à court terme (24h). L'objectif est de construire un modèle de machine learning capable d'estimer avec précision les variations journalières des prix des contrats à terme sur l'électricité pour ces deux pays.

Ce projet sera réalisé en suivant la méthodologie CRISP-DM, qui comprend les étapes suivantes:

Business Understanding: Comprendre le contexte métier et les objectifs du projet.
Data Understanding: Explorer et analyser les données fournies pour mieux comprendre leurs caractéristiques.
Data Preparation: Préparer et nettoyer les données pour les adapter aux besoins du modèle de machine learning.
Modelling: Entraîner différents modèles de machine learning et sélectionner le meilleur en fonction des performances.
Evaluation: Évaluer les performances des modèles choisis et analyser les résultats pour en tirer des conclusions.
Après cette introduction, nous entamerons la première étape, "Business Understanding", en détaillant davantage le contexte métier et les objectifs du projet.

### Table des matières

1. [Objectif du projet](#chapter1)
2. [Imports et fonctions d'aide](chapter2)
3. [Description des données](#chapter2)
4. [Préparation des données](#chapter3)
5. [Modélisation des données](#chapter4)
6. [Evaluation](#chapter5)



## 1. Objectif du projet <a class="anchor" id="chapter1"></a>

Dans ce projet, nous cherchons à modéliser le prix de l'électricité à partir de données météorologiques, énergétiques (matières premières) et commerciales pour deux pays européens, la France et l'Allemagne. Le but est de construire un modèle capable d'estimer la variation journalière du prix des contrats à terme (futures) sur l'électricité, en France ou en Allemagne, à partir de ces variables explicatives. Ces contrats permettent d'acheter (ou de vendre) une quantité donnée d'électricité à un prix fixé par le contrat et qui sera livrée à une date future spécifiée (maturité du contrat). Les futures sont des instruments financiers qui donnent une estimation de la valeur de l'électricité au moment de la maturité du contrat à partir des conditions actuelles du marché.

L'importance de ce projet réside dans la possibilité de mieux comprendre les facteurs qui influencent les prix de l'électricité et d'aider les parties prenantes à prendre des décisions éclairées concernant l'achat, la vente ou la production d'électricité. En comprenant les facteurs qui influencent les prix de l'électricité, les entreprises et les gouvernements peuvent optimiser leurs stratégies énergétiques et leurs politiques pour réduire les coûts et favoriser le développement durable.



## 2. Imports et fonctions d'aide

### 2.1 Imports

Nous allons utiliser les bibliothèque 
- **Pandas** et **Numpy** pour la manipulation des données
- **Matplotlib** et **Seabron** pour la visualisation des données
- **Scikit-learn** pour la modelisation des données
- **IPython.display** pour afficher du texte formaté en Markdown et LaTeX

In [1]:
# Import des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn as sk

from IPython.display import display, Markdown, Latex

# Configuration de l'affichage des graphiques dans le notebook
%matplotlib inline

### 2.2 fonctions d'aide

In [2]:
# Fonction pour afficher le texte en utilisant le formatage Markdown
def display_m(string):
    display(Markdown(string))

## 3. Description des données <a class="anchor" id="chapter3"></a>

### 3.1 Chargement des données intiales
Nous avons trois datasets au format csv:
- **Data_x**: les données d'entrée
- **Data_y**: les données de sorties (labels)
- **DataNew_x**: les nouvelles données d'entrée a prédire (de meme format et dimensions que data_x)

In [3]:
data_x = pd.read_csv("data/Data_X.csv")
dataNew_x = pd.read_csv("data/DataNew_X.csv")
data_y = pd.read_csv("data/Data_Y.csv")

### 3.2 Description des variables des datasets

#### 3.2.1 Description des variables des datasets d'entrée

In [4]:
from vars_description import x_vars_desc

nbr_columns_x = len(x_vars_desc)

display_m(f"Les dataset d'entrée **Data_x** et **DataNew_x** sont composés de **{len(data_x)}** et **{len(dataNew_x)}**\
 entrées respectivement avec **{nbr_columns_x}** variables.")

Les dataset d'entrée **Data_x** et **DataNew_x** sont composés de **1494** et **654** entrées respectivement avec **35** variables.

In [5]:
# Affichage des descriptions des colonnes pour Data_x
display_m(f"Descriptions des **{nbr_columns_x}** variables de **Data_x** et de **DataNew_x**:")
table_header = "| Colonne | Description |\n| --- | --- |"
table = "\n".join([f"| {col} | {desc} |" for col, desc in x_vars_desc.items()])
display_m(table_header + "\n" + table)

Descriptions des **35** variables de **Data_x** et de **DataNew_x**:

| Colonne | Description |
| --- | --- |
| ID | Identifiant unique pour chaque entrée |
| DAY_ID | Date de l'entrée sous forme numérique |
| COUNTRY | Pays concerné par l'entrée - DE = Allemagne, FR = France |
| DE_CONSUMPTION | Consommation d'électricité en Allemagne |
| FR_CONSUMPTION | Consommation d'électricité en France |
| DE_FR_EXCHANGE | Electricité échangée entre Allemagne et France |
| FR_DE_EXCHANGE | Electricité échangée entre France et Allemagne |
| DE_NET_EXPORT | Electricité exportée par l'Allemagne vers l'Europe |
| FR_NET_EXPORT | Electricité exportée par la France vers l'Europe |
| DE_NET_IMPORT | Electricité importée en Allemagne depuis l'Europe |
| FR_NET_IMPORT | Electricité importée en France depuis l'Europe |
| DE_GAS | Volume de gaz naturel consommé en Allemagne |
| FR_GAS | Volume de gaz naturel consommé en France |
| DE_COAL | Volume de charbon consommé en Allemagne |
| FR_COAL | Volume de charbon consommé en France |
| DE_HYDRO | Production d'électricité d'origine hydraulique en Allemagne |
| FR_HYDRO | Production d'électricité d'origine hydraulique en France |
| DE_NUCLEAR | Production d'électricité d'origine nucléaire en Allemagne |
| FR_NUCLEAR | Production d'électricité d'origine nucléaire en France |
| DE_SOLAR | Production d'électricité d'origine photovoltaïque en Allemagne |
| FR_SOLAR | Production d'électricité d'origine photovoltaïque en France |
| DE_WINDPOW | Production d'électricité d'origine éolienne en Allemagne |
| FR_WINDPOW | Production d'électricité d'origine éolienne en France |
| DE_LIGNITE | Volume de lignite consommé en Allemagne |
| DE_RESIDUAL_LOAD | Electricité consommée après utilisation des énergies renouvelables en Allemagne |
| FR_RESIDUAL_LOAD | Electricité consommée après utilisation des énergies renouvelables en France |
| DE_RAIN | Quantité de pluie tombée en Allemagne |
| FR_RAIN | Quantité de pluie tombée en France |
| DE_WIND | Vitesse du vent en Allemagne |
| FR_WIND | Vitesse du vent en France |
| DE_TEMP | Température en Allemagne |
| FR_TEMP | Température en France |
| GAS_RET | Prix journalier du gaz naturel en Europe |
| COAL_RET | Prix journalier du charbon en Europe |
| CARBON_RET | Prix journalier des émissions de carbone en Europe |

#### 3.2.2 Description des variables du datasets de sortie

In [6]:
from vars_description import y_vars_desc

nbr_columns_y = len(y_vars_desc)

display_m(f"Le dataset de sortie **Data_y** est composé de **{len(data_x)}** entrées \
avec **{nbr_columns_y}** variables.")

Le dataset de sortie **Data_y** est composé de **1494** entrées avec **2** variables.

In [7]:
    
# Affichage des descriptions des colonnes pour Data_x
display_m(f"<br>Descriptions des **{nbr_columns_y}** variables de **Data_y**:")
table_header = "| Colonne | Description |\n| --- | --- |"
table = "\n".join([f"| {col} | {desc} |" for col, desc in y_vars_desc.items()])
display_m(table_header + "\n" + table)

<br>Descriptions des **2** variables de **Data_y**:

| Colonne | Description |
| --- | --- |
| ID | Identifiant unique pour chaque entrée |
| TARGET | Variation journalière du prix de futures d'électricité (maturité 24h) |

## 4. Préparation des données

### 4.1 Classement des enregistrement par ID et mise a jour de l'index sur la colonne ID

In [8]:
data_x = data_x.sort_values(by='ID').reset_index(drop=True)
dataNew_x = dataNew_x.sort_values(by='ID').reset_index(drop=True)
data_y = data_y.sort_values(by='ID').reset_index(drop=True)

### 4.2 Concatenation de Data_x et de DataNew_x
Pour les prochaines etapes de preparation, nous avons besoin de regrouper les dataset d'entrée **Data_x** et **DataNew_x**.
Nous ajoutons une nouvelle variable catégorielle binaire **New** pour pouvoir identifier l'origine des enregistrements venant de **Data_x** ou **DataNew_x**.
Nous allons utiliser la méthode **concat()** de la bibliotheque pandas pour regrouper les dataset d'entrée.


In [9]:
# Ajouter une colonne 'New' à chaque DataFrame
# Dans le but de pouvoir les identifier apres la concaténation
data_x['New'] = True
dataNew_x['New'] = False

# Concaténation les deux DataFrames
all_data_x = pd.concat([data_x, dataNew_x], ignore_index=True).sort_values(by='ID').reset_index(drop=True)

### 4.3 Fonction de recuperation des sous-datasets
Nous avons deux fonctions pour récupérer les sous-datasets à partir du dataset concaténé all_data_x. Ces fonctions permettent de sélectionner les données en fonction de l'origine des enregistrements (Data_x ou DataNew_x) et de filtrer les données par pays (FR ou DE). 

In [10]:
# Fonction pour recuperer le sous-dataset Data_x
def get_data_x(all_data_x, country=None):
    data_x = all_data_x[all_data_x['New'] == True].drop(columns=['New']).sort_values(by='ID').reset_index(drop=True)
    if country == 'FR':
        return data_x[data_x['COUNTRY'] == 'FR']
    elif country == 'DE':
        return data_x[data_x['COUNTRY'] == 'DE']
    return data_x

# Fonction pour recuperer le sous-dataset DataNew_x
def get_dataNew_x(all_data_x, country=None):
    dataNew_x = all_data_x[all_data_x['New'] == False].drop(columns=['New']).sort_values(by='ID').reset_index(drop=True)
    if country == 'FR':
        return dataNew_x[dataNew_x['COUNTRY'] == 'FR']
    elif country == 'DE':
        return dataNew_x[dataNew_x['COUNTRY'] == 'DE']
    return dataNew_x

# Fonction pour récupérer le sous-dataset par pays
def get_all_data_x_by_country(all_data_x, country):
    if country == 'FR':
        return all_data_x[all_data_x['COUNTRY'] == 'FR'].drop(columns=['New'])
    elif country == 'DE':
        return all_data_x[all_data_x['COUNTRY'] == 'DE'].drop(columns=['New'])
    else:
        print("Error in get_all_data_x_by_country")

### 4.4 Vérification des fonctions de récupération des sous-datasets 
Dans cette partie, nous réalisons des tests pour vérifier que les fonctions **get_data_x()**, **get_dataNew_x()** et **get_all_data_x_by_country()** fonctionnent correctement. Nous comparons les sous-datasets obtenus en utilisant ces fonctions avec les sous-datasets d'origine.

In [14]:
display_m("Test de **get_data_x** pour Data_x et DataNew_x:")
data_x_from_function = get_data_x(all_data_x)
data_x_tmp = data_x.drop(columns=['New'])

display(data_x_tmp.equals(data_x_from_function))

display_m("Test pour 'FR'")
data_x_FR = data_x[data_x['COUNTRY'] == 'FR'].drop(columns=['New'])
data_x_from_function_FR = get_data_x(all_data_x, country='FR')

display(data_x_FR.equals(data_x_from_function_FR))

display_m("Test pour 'DE'")
data_x_DE = data_x[data_x['COUNTRY'] == 'DE'].drop(columns=['New'])
data_x_from_function_DE = get_data_x(all_data_x, country='DE')

display(data_x_DE.equals(data_x_from_function_DE))

display_m("Test pour **get_all_data_x_by_country** avec 'FR'")
all_data_x_FR = all_data_x[all_data_x['COUNTRY'] == 'FR'].drop(columns=['New'])
all_data_x_from_function_FR = get_all_data_x_by_country(all_data_x, country='FR')

display(all_data_x_FR.equals(all_data_x_from_function_FR))

display_m("Test pour **get_all_data_x_by_country** avec 'DE':")
all_data_x_DE = all_data_x[all_data_x['COUNTRY'] == 'DE'].drop(columns=['New'])
all_data_x_from_function_DE = get_all_data_x_by_country(all_data_x, country='DE')

display(all_data_x_DE.equals(all_data_x_from_function_DE))

Test de **get_data_x** pour Data_x et DataNew_x:

True

Test pour 'FR'

True

Test pour 'DE'

True

Test pour **get_all_data_x_by_country** avec 'FR'

True

Test pour **get_all_data_x_by_country** avec 'DE':

True

### 4.5 Vérification et traitement des valeurs manquantes

#### 4.1.1 Vérification des valeurs manquantes de des datasets d'entrée **Data_x** et **DataNew_x**

In [None]:
# Affichage du nombre 
missing_values_x = data_x.isnull().sum()
missing_values_x.loc[missing_values_x != 0]
print("NOOOOOOOOOOO")

In [None]:
# Affichage du nombre de valeurs manquantes pour chaque colonnes de data_new_x
missing_values_new_x = dataNew_x.isnull().sum()
missing_values_new_x.loc[missing_values_x != 0]

On observe que ...

In [None]:
nan_count_per_row = data_x.isnull().sum(axis=1)

max_nan_count_per_row = nan_count_per_row.max()
display_m(f"L'enregistrement comptant le plus de valeur manquante compte **{max_nan_count_per_row}** valeurs manquantes sur 35 valeurs.")


On observe qu'au maximum une variable peut manquer a **124** enregistrement (sur 1494) et qu'au plus un enregistrement peut manquer **6** valeurs (sur 35).


#### 4.1.2 Traitement des valeurs manquantes de des datasets d'entrée **Data_x** et **DataNew_x**

Nous allons remplacer les valeurs manquantes par la moyenne de la colonne en question.

In [None]:
# Select only numeric columns in Data_x
numeric_cols_x = data_x.select_dtypes(include=np.number).columns.tolist()
data_x[numeric_cols_x] = data_x[numeric_cols_x].fillna(data_x[numeric_cols_x].mean())

# Select only numeric columns in DataNew_x
numeric_cols_new_x = dataNew_x.select_dtypes(include=np.number).columns.tolist()
dataNew_x[numeric_cols_new_x] = dataNew_x[numeric_cols_new_x].fillna(dataNew_x[numeric_cols_new_x].mean())

# Afficher le nombre de valeurs manquantes dans Data_x
display_m(f"Nombre de valeurs manquantes dans **Data_x** :\n{data_x.isnull().sum().sum()}")

# Afficher le nombre de valeurs manquantes dans DataNew_x
display_m(f"Nombre de valeurs manquantes dans **DataNew_x** :\n{dataNew_x.isnull().sum().sum()}")


#### 4.1.3 Verification des valeurs manquantes du dataset de sortie **Data_y**

In [None]:
display_m(f"Nombre de valeurs manquantes dans **Data_y** :\n{data_y.isnull().sum().sum()}")

### 4.2 Verification de la comparabilité des variables


In [None]:
def get_data_x(all_data_x, country=None):
    data_x = 
    if country == 'FR':
        return data_x[data_x['COUNTRY'] == 'FR']
    elif country == 'DE':
        return data_x[data_x['COUNTRY'] == 'DE']
    return data_X

def get_dataNew_x(all_data_x, country=None):
    dataNew_x = all_data_x[all_data_x['New'] == 1].drop(columns=['New']).sort_values(by='ID').reset_index(drop=True)
    if country == 'FR':
        return dataNew_x[dataNew_x['COUNTRY'] == 'FR']
    elif country == 'DE':
        return dataNew_x[dataNew_x['COUNTRY'] == 'DE']
    return dataNew_x

# Ajouter une colonne 'New' à chaque DataFrame
data_x['New'] = 0
dataNew_x['New'] = 1

# Concaténer les deux DataFrames
all_data_x = pd.concat([data_x, dataNew_x], ignore_index=True).sort_values(by='ID')

dat_x = data_x[data_x['COUNTRY'] == 'FR'].drop(columns=['New'])
                
dat_x_bis = get_data_x(all_data_x, country='FR')

display(dat_x_bis.iloc[0].equals(dat_x.iloc[0]))
display(dat_x)
# dat_x_bis['COUNTRY'] = 'ANG'
# display(dat_x_bis.iloc[0].equals(dat_x.iloc[0]))
# dat_x['COUNTRY'] = 'ANG'
# display(dat_x_bis.iloc[0].equals(dat_x.iloc[0]))

In [None]:
# Ajouter une colonne 'New' à chaque DataFrae
data_x['New'] = 0
dataNew_x['New'] = 1

# Concaténer les deux DataFrames
all_data_x = pd.concat([data_x, dataNew_x], ignore_index=True)

# Obtenir le sous-ensemble de all_data_x où New = 0 et supprimer la colonne 'New'
subset_all_data_x = all_data_x[all_data_x['New'] == 0].drop(columns=['New'])

# Afficher le résultat
print(subset_all_data_x.equals(data_x.drop(columns=['New'])))

In [None]:
# Concaténer les deux datasets d'entrée verticalement
all_data_x = pd.concat([data_x, dataNew_x], axis=0)

# Grouper les données par DAY_ID et COUNTRY, puis compter le nombre d'enregistrements pour chaque groupe
grouped_data = all_data_x.groupby(['DAY_ID', 'COUNTRY']).size().reset_index(name='count')

# Vérifier si un groupe a plus d'un enregistrement
duplicate_rows = grouped_data[grouped_data['count'] > 1]

if duplicate_rows.empty:
    print("Il n'y a jamais plus d'un enregistrement FR ou DE pour le même jour (DAY_ID).")
else:
    print("Il y a des enregistrements FR ou DE en double pour le même jour (DAY_ID) :")
    print(duplicate_rows)

In [None]:
# Grouper les données par DAY_ID et COUNTRY
grouped_data = all_data_x.groupby(['DAY_ID', 'COUNTRY'])

# Vérifier si les valeurs des lignes pour COUNTRY=FR et COUNTRY=DE sont égales (hors colonne COUNTRY)
equal_values = True

for day_id, day_group in grouped_data:
    fr_data = day_group.loc[day_group['COUNTRY'] == 'FR']
    de_data = day_group.loc[day_group['COUNTRY'] == 'DE']

    # Si les deux lignes COUNTRY=FR et COUNTRY=DE existent, comparez leurs valeurs
    if not fr_data.empty and not de_data.empty:
        if not fr_data.drop(columns=['COUNTRY']).equals(de_data.drop(columns=['COUNTRY'])):
            equal_values = False
            break

if equal_values:
    print("Toutes les valeurs de la ligne COUNTRY=FR et de la ligne COUNTRY=DE sont égales (hors la colonne COUNTRY) pour chaque jour DAY_ID.")
else:
    print("Les valeurs de la ligne COUNTRY=FR et de la ligne COUNTRY=DE ne sont pas toujours égales (hors la colonne COUNTRY) pour chaque jour DAY_ID.")

### 4.3 Separation des datasets entre la France et l'Allemagne 

#### 4.2.1 Distribution et échelle des variables d'entrée
Nous allons visualiser la distribution des variables d'entrée en utilisant des histogrammes et des boîtes à moustaches (boxplots) pour évaluer leur distribution, leur centralité et leur dispersion.

In [None]:
 # Effectuer des tests statistiques
from scipy import stats
# Effectuer un test t de Student entre deux colonnes
stats.ttest_ind(data_x['colonne1'], data_x['colonne2'])

In [None]:
data_x_subset = data_x.drop(columns=['ID'])

# Affichage des histogrammes pour chaque variable d'entrée
data_x_subset.hist(figsize=(20, 20))
plt.show()

# Affichage des boxplots pour chaque variable d'entrée
data_x_subset.plot(kind='box', subplots=True, layout=(7, 5), figsize=(20, 20))
plt.show()