# Prévision de courbes de charge de consommation électrique

Dans ce TP nous allons travailler sur un jeu de données qui représente la consommation électrique d'un site sur une longue durée avec une résolution assez fine. L’objectif est de construire un modèle afin de **prévoir la courbe de charge** de la consommation électrique future.

Les données forment une **série temporelle**. On observe la courbe de charge à intervalle régulier (toutes les 10 minutes) sur une longue durée  et on souhaite prédire le futur.

![Série temporelle](img/timeSeries1.jpeg)

Plus précisément, nous souhaitons un modèle qui prédit la courbe de charge électrique pour le jour suivant par rapport à l'historique des données. Par exemple, si nous sommes le 09/10/2012 à 13:30, il s'agit de prévoir la courbe de charge de consommation sur les prochaines 24 heures (toutes les 10 minutes, c'est-à-dire 144 valeurs).


En statistique il existe des modèles puissants pour l'études des séries temporelles et il est également possible d'utiliser une approche deep learning pour aborder ce problème. En revanche, vu que nous n'avons pas le temps dans ce cours d'étudier ces modèles, nous commencerons par explorer l'utilisation d'un simple **modèle linéaire** et nous verrons ensuite une première applications des forêts aléatoires.



L’atelier est scindé en deux étapes :

* **Étape 1**. **Pré-traitement des données.**  
Cette étape contient :

    - L’import et l’audit des données : vérification rapide du contenu des fichiers de travail. Permet d’avoir une idée des méthodologies possibles à utiliser. 

    - Mise au format des données. En effet, pour étudier cette série temporelle, il va falloir découper les données en périodes (d'une durée à fixer) dont on va observer des réplicats (dans le temps).
    
* **Étape 2**. **Modélisation : apprentissage et test.**  
Plusieurs modélisations sont proposées :

    - Approche naïve
    - Régression linéaire
    - Random Forest
    - Gradient Boosting


## Préparation et exploration des données

Les données à disposition sont contenues dans le fichier  `Courbes_Charge08.csv` à charger et qui contient 

   - la **consommation d'éléctricité** relevée **toutes les 10 minutes sur le site ID08**
   - la **température** sur le site ID08 relevée physiquement toutes les 3 heures. Les données sur les temps intermédiaires ont été complétées par interpolation linéaire. 

Avant d'importer le fichier, on peut  afficher les premières lignes avec la commande suivante :

In [None]:
%%bash
head -10 'data/Courbes_Charge08.csv'

Si la commande précédente ne fonctionne pas sur votre OS :

In [None]:
file = open('data/Courbes_Charge08.csv', 'r')
for i, line in zip(range(5), file):
   print(i, line.strip())

Notez qu'on ne sait pas si les dates sont codées en jour/mois/année ou mois/jour/année. On peut le voir en affichant une ligne un peu plus loin : 

In [None]:
for i, line in enumerate(file):
    if i == 4000:
        print(i, line)
        break

Là on constate qu'il s'agit d'un codage jour/mois/année.

### Exercice 1


Importez les données dans un dataframe (de la bibliothèque `pandas`) nommé `df_raw` :

- L'option `parse_dates` de la fonction `read_csv` de pandas vous permet de lire correctement la variable de la date. 
- Faites attention au format de la température. 
- On transformera les noms de variables en minuscules (usage python). 

In [None]:
# Réponse

### Réponse

### Exercice 2

Nous allons créer, à partir du dataframe de départ `df_raw`, un deuxième dataframe `df` sur lequel nous allons travailler.

- Répartir l'information contenue dans la colonne `date_local` de `df_raw` en plusieurs colonnes de sorte à afficher séparement la date, le numéro de semaine, le numéro de jour, le jour de la semaine (0 pour lundi, 1 pour mardi, ...) et l'heure. Nous allons travailler uniquement sur la charge, il faut donc également supprimer la colonne des températures.

- Vérifier qu'il n'y a pas de données manquantes.

- Travailler sur des semaines complètes, qui commencent un lundi.


In [None]:
# Réponse

### Réponse

### Exercice 3

`pandas` est dit *row-major*, ce qui signifie que les éléments d'un tableau multidimensionnel sont disposés séquentiellement ligne par ligne. Ceci est cohérent avec la vision d'un dataframe comme un ensemble d'individus (ou d'observations), chacun représenté par une ligne du tableau, qui ont des caractéristiques, représentées par les colonnes. 
Dans notre exemple, pour prendre en compte la périodicité des données (qui sera de un jour ou bien d'une semaine),  il convient de transformer le dataframe pour que chaque ligne corresponde à une période.  

#### Période: 1 jour

- Créer un dataframe `df_day` avec les charges ordonnées par période d'un jour. Les colonnes de ce dataframe vont être les 144 intervals de 10 minutes qui donnent un jour. On pourra utiliser la fonction `reshape`.
- Visualiser les données de `df_day`, en affichant moyenne, min, max et déviation standard.

In [None]:
# Réponse

### Réponse

### Exercice 4

#### Période: 1 semaine

- À l'aide de la fonction `pd.MultiIndex.from_tuples` créer un multi-index pour `df_day` qui affiche le numéro de semaine et le numéro de jour de la semaine.

- Créer un dataframe `df_week` avec les charges ordonnées par période d'une semaine à partir du dataframe `df_day` en utilisant les fonctions `stack` et `unstack`. Les colonnes de ce dataframe vont être les 144 intervals de 10 minutes qui donnent un jour, répétés 7 fois, une pour chaque jour de la semaine.

- Visualiser les données de `df_week` comme fait précédemment pour `df_day`.

In [None]:
# Réponse

### Réponse

## Modélisation : prédiction niveau 0

Une approche naïve consiste à utiliser comme prédicteur :
- soit la charge moyenne par heure (prise sur tous les jours de l'année via le dataframe `df_day`) 
- soit la charge moyenne par heure et par type de jour (en utilisant la périodicité hebdomadaire de `df_week`)

### Exercice 5

Créer un premier prédicteur naïf avec la moyenne par jour et la moyenne par semaine.

- Créer un predicteur naïf avec la moyenne par heure sur l'ensemble du dataframe, et afficher l'erreur quadratique et l'erreur MAPE (erreur moyenne absolue en pourcentage)
- Faire la même chose avec une période d'une semaine, en utilisant comme prédicteur la moyenne par heure et par type de jour.

*Remarque* : Nous n'allons pas séparer les données en train set et test set, il s'agit juste de fournir un prédicteur naïf à comparer avec les suivants.

In [None]:
# Réponse

### Réponse

### Exercice 6

Faire une première analyse des résultats obtenus.

1. Une modélisation *à la journée* est-t-elle judicieuse à votre avis ?

2. Choisir de modéliser *à la semaine* plutôt qu'*à la journée* ne semble-t-il pas plus pertinent ? Pourquoi ? 

Réponse : 

## Modèle linéaire

Pour mettre en oeuvre un modèle linéaire, plusieurs approches sont possibles. 
### Modèle sans périodicité

Notons  $x_t$ pout $t=1,2,3,...,T$  la suite de  charges électriques observées, où l'indice $t$ fait référence à la plus ancienne observation et $x_T$ à la toute dernière.  L'interval de temps entre deux observations $x_t$ et $x_{t+1}$  est toujours de 10 minutes. 

Une première approche consiste à essayer de prédire la future consommation électrique en utilisant la consommation passée, à partir des $d$ observations qui précèdent l'instant actuel (nous appelons $d$ la profondeur de l'historique).
Nous cherchons alors une fonction $f$ telle que
\begin{equation}
x_{t+1} = f(x_{t-d+1}, x_{t-d+2}, ..., x_{t-1}, x_t) + \varepsilon_{t+1},
\tag{1}
\end{equation}
où $\varepsilon_{t+1}$ est un petit bruit aléatoire.


![Série temporelle](img/timeSeries2.jpeg)

Dans un modèle linéaire, on suppose que $f$ est une application linéaire de la forme
\begin{equation*}
f(\mathbf x) = \mathbf x^\top \beta = x_{t-d+1}\beta_1+ x_{t-d+2}\beta_2+...+ x_{t-1}\beta_{d-1}+x_{t}\beta_{d},
\tag{2}
\end{equation*}
où $\mathbf x=(x_{t-d+1}, x_{t-d+2}, ..., x_{t-1}, x_t)^\top$ et $\beta\in\mathbb R^d$ est un vecteur de paramètres inconnus à estimer à partir des données.  

*Remarque :* Nous pouvons bien sur ajouter un intercept $\beta_0$ à la fonction $f$. 

Or, un tel modèle ne tient pas compte de la périodicité de la série temporelle. Il est fort probable que la dépendance de la consommation au milieu de la nuit des $d$ dernières observations ne soit pas du tout la même que celle de la consommation du matin ou à midi. Cela veut dire que dans le modèle (2) il n'y a pas de vecteur $\beta$ qui donne des bonnes prédicitions quelque soit le moment de la journée (ou le jour de la semaine).
 

### Modèle avec périodicité
Pour prendre en compte une périodicité de durée $p$, nous pouvons opter pour un modèle qui cherche à exprimer la charge $x_{t+1}$ à l'instant $t+1$ en fonction des derniers instants modulo la période $p$. Par exemple, si la période $p$ est un jour et s'il est 13h30, nous allons alors chercher à exprimer $x_{t+1}$ en fonction de la charge observée les $d$ derniers jours toujours à 13h30. Si nous faisons l'hypothèse que la consommation dépend des $d$ dernières consommations à la même heure quelque soit l'heure, alors il convient d'utiliser le même $\beta$. Autrement dit, nous considérons un modèle de la forme
\begin{equation*}
x_{t+1} = f(x_{t+1-dp}, x_{t+1-(d-1)p}, ..., x_{t+1-p}) + \varepsilon_{t+1}.
\tag{3}
\end{equation*}
Dans ce modèle, il est possible de considérer n'importe quelle  périodicité (journalière ou hebdomadaire, par exemple). Remarquons que $p$ correspond au nombre de points d'observations dans une période, donc p.ex. $p=6*24=144$ pour une période d'un jour, ou bien $p=6*24*7=1008$ pour une période d'une semaine.

![Série temporelle](img/timeSeries3.jpeg)


Avec ce modèle, il sera également possible de prédire, au lieu qu'un seul point,  un nombre $\ell$ de points, en supposant $\ell\leq p$ (nous allons très souvent prendre $\ell=p$).
Il suffit en effet de poser 
\begin{equation*}
v_{t+1} = \begin{pmatrix}x_{t+1}\\ \vdots \\ x_{t+\ell} \end{pmatrix}
\quad \text{et} \quad 
v_{t-j} = \begin{pmatrix}x_{t+1 -(j+1)p}\\ \vdots \\ x_{t+\ell-(j+1)p} \end{pmatrix}
\quad \text{pour} \quad
0\leq j \leq d-1
\end{equation*}
et nous obtenons
$$v_{t+1} = \beta_1 v_{t-d+1}  + \ldots + \beta_d v_t + \tilde{\varepsilon}_{t+1}$$

où $\tilde{\varepsilon}_{t+1} = \begin{pmatrix}\varepsilon_{t+1}\\ \vdots \\ \varepsilon_{t+k} \end{pmatrix}$.
 


#### Tableau de données d'entrainement $X$

Il est clair que les observations les plus récentes sont les données les plus pertinentes pour entrainer le modèle, c'est-à-dire pour estimer $\beta$. On peut alors considérer comme vecteur $\mathbf y$ les $k$ valeurs observées :
$$\mathbf y = (x_{t-\ell+1},..., x_{t-1}, x_t)^\top,$$
où $t$ est l'instant actuel et donc la dernière valeur observée.

Maintenant il faut construire la matrice $X$ correspondante. Pour chaque entrée de $\mathbf y$ on choisit les observations qui ont "généré" cette observation selon le modèle en (3). 

Ainsi, la dernière ligne de $X$, qui correspond à l'observations $x_{t}$, est le vecteur
$$x_{t -dp}, x_{t-(d-1)p}, x_{t-(d-2)p},..., x_{t-p}
$$
Plus généralement, la $\ell-i$-ième ligne de $X$, associée à l'observations $x_{t-i+1}$, est le vecteur
$$x_{t-i -dp}, x_{t-i-(d-1)p }, x_{t-i-(d-2)p },..., x_{t-i-p}$$
 


![alternative text](img/timeSeries5bis.jpeg)

### Exercice 7

Mettre en oeuvre un prédicteur linéaire pour prédire le jour $k+1$ à partir des $d$ jours précedents.

- À l'aide de la fonction `LinearRegression` du module `sklearn.linear_model` faire une régression linéaire de la variable d'indice $k$ (qu'on renommera en `y_train`) sur les variables d'indice $k-1,\dots k-d$ (qu'on renommera en `x_train`) avec le jeu `df_day`. 
- Ensuite, grâce à cette relation apprise, prédire la variable d'indice $k+1$ (renommée `y_test`) à partir des $d$ variables immédiatement précédentes(renommées `x_test`).
- Comparer avec l'approche naïve, en affichant l'erreur quadratique et l'erreur MAPE au temps estimé $k+1$

In [None]:
# Réponse

### Réponse

### Exercice 8

Mettre en oeuvre un prédicteur linéaire pour prédire la semaine qui contient le jour $k+1$ à partir des $d$ semaines précedentes.


In [None]:
# Réponse

### Réponse

### Exercice 9

Comparer les erreurs RMSE et MAPE pour des 4 prédicteurs sur l'ensemble des données.

In [None]:
# Réponse

### Réponse

Cette approche n'utilise qu'une petite partie des données. Si on suppose que le modèle est relativement stable sur une plus longue période, on peut bien évidemment   ajuster $\beta$ sur plus de données. Pour cela, on considère pour l'entrainement un vecteur $\mathbf y$ plus long
$$\mathbf y = (x_t,x_{t-1}...,x_{t-m})^\top,$$
avec $m$ plus grand que $k$ (qui était le nombre de valeurs à prédire).
La matrice $X$ est construite de la même façon que précédemment.


## Forêts aléatoires 

Dans cette partie, on va encore chercher le lien entre  la courbe d'indice $k$ et les courbes de charges précedentes $k-1,\dots,k-d$. Mais cette fois, le lien entre ces variables sera appris par des arbres de décision ; plus précisémment, par des forêts aléatoires. 

### Exercice 10

Vous allez à présent utiliser des forêts aléatoires via le module `RandomForestRegressor` de `sklearn.ensemble` pour apprendre un modèle prédictif pour le même problème et les mêmes données qu'avant. 

Explorez les paramètres de la fonction `RandomForestRegressor`.

Procédez comme précédemment : 
- apprendre pour une semaine fixée $k$, avec un historique $d$, puis prédire la semaine $k+1$. Calculez différentes erreurs pour cette période.  
- calculer les erreurs moyennes sur toutes les périodes disponibles.

In [None]:
# Réponse

### Réponse

Maintenant qu'on a fait cela pour une période donnée, on systématise sur l'ensemble des périodes disponibles et on calcule les erreurs moyennes correspondantes. 

## Gradient Boosting

Dans cette partie, à l'aide de la fonction ` GradientBoostingRegressor` du module ` sklearn.ensemble`,  vous allez utiliser le gradient boosting pour apprendre la relation entre une courbe de charge à une période $k$ fixée, et l'historique des $d$ courbes précédentes.

 


### Exercice 11

- Commencez par utiliser les paramètres par défaut de l'algorithme. 
- Entraînez le modèle pour une période $k$ fixée et faites la prédiction de la même façon que ci-dessus. En particulier, vous présenterez les mêmes graphiques et les mêmes calculs d'erreurs. 
- Choisissez les meilleurs paramètres de l'algorithme en utilisant la fonction `GridSearchCV`, pour essayer de diminuer les erreurs. 
- Enfin, évaluez la qualité de la méthode en utilisant toutes les valeurs de $k$ possibles (selon la longueur des données dont on dispose).

In [None]:
# Réponse

### Réponse