# Le problème : la prévision de consommation électrique

Pour garantir l'équilibre offre-demande à chaque instant et gérer l'acheminement de l'électricité, RTE construit ses propres prévisions de la consommation nationale, régionale, et locale, à différentes échéances de temps (de l'infrajournalier au pluri-annuel).

Ici on se focalise sur un problème particulier : **la prévision de la consommation électrique nationale horaire à horizon J+1** (on suppose qu'on connaît toutes les données jusqu'au jour J inclus). 

## Les données : Eco2mix

La courbe de charge France est disponible sur eco2mix :
http://www.rte-france.com/fr/eco2mix/eco2mix
ou sur application mobile.

Vous pouvez naviguer sur le site pour vous familiariser avec les données sur lesquelles vous allez travailler.

## Objectif :

Au cours de ce TP, nous allons aborder les différentes étapes nécessaires à la construction d'un modèle de prévision de consommation :

1) Formalisation du problème: que souhaite-t-on prédire (quel est mon Y) ? Avec quelles variables explicatives (quel est mon X) ?

2) Collecte des données: où se trouvent les données ? Quel est le format ? Comment les récupérer ? (FACULTATIF - voir TP "TP1_Preparation_donnees")

3) Import des données et analyses descriptives : visualiser des séries temporelles, statistiques descriptives

4) Transformation des données (feature engineering) pour entrainer et tester un premier modèle

5) Création de prévision à dire d'expert pour servir de référence.

6) Découpage des données : apprentissage - test

7) Evaluer un modèle

8) Tester des algorithmes de référence : régression linéaire, forêts aléatoires, xgboost

9) Itérer à partir des modèles testés pour améliorer les prévisions

Nous verrons qu'une difficulté majeure réside dans la construction des "bonnes" variables explicatives ("garbage in, garbage out").

**Le notebook est parsemé de questions (<font color='green'>en vert</font>). Vous pouvez y répondre sur la feuille fournie.**

## Méthodes de prévision considérées

Les modèles actuels reposent sur des méthodes de régression linéaire et non-linéaire. Nous étudierons ici les limites de la régression linéaire.

Pour améliorer les prévisions, nous aurons recours aux méthodes dites de Machine Learning. Ces méthodes ne dépendent pas d'une formalisation a priori du lien entre les variables explicatives X et la variable à expliquer Y. 
Elles sont souvent moins interprétables mais peuvent être plus efficaces en prévision. Elles peuvent nécessiter plus de temps de calcul et plus de données pour cela.

Construire un bon modèle d'apprentissage nécessite en général de la connaissance experte dans le domaine d'intérêt pour créer des modèles pertinents et efficaces. 

## To be continued : deep learning

Le deuxième TP permettra d'investiguer les modèles "Deep" avec réseaux de neurones, en montrant le moindre besoin en feature engineering et leur plus grande capacité à absorber l'information grâce aux représentations hiérarchiques qu'ils créent.

# Environnement de travail 

Ceci est un notebook jupyter. Il permet d'exécuter du code python, d'afficher des résultats et d'écrire du texte pour décrire l'ensemble de l'étude.

<font color='red'>
    
**NB : L'aide de python est accessible en tapant help(nom_de_la_commande)**

</font>

## Chargement des packages

In [33]:
# Exécutez la cellule ci-dessous (par exemple avec shift-entrée)
# Si vous exécuter ce notebook depuis votre PC, il faudra peut-etre installer certaines librairies avec 
# 'pip install ma_librairie'
import os  # accès aux commandes système

import datetime  # structure de données pour gérer des objets calendaires
from datetime import timezone
import pandas as pd  # gérer des tables de données en python
import numpy as np  # librairie d'opérations mathématiques
from math import sqrt

import pytz

import sklearn  # librairie de machine learning
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn import linear_model
from sklearn.ensemble import RandomForestRegressor
import xgboost as xgb

import plotly
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot, iplot_mpl
import matplotlib.pyplot as plt  # tracer des visualisations
from pandas.plotting import register_matplotlib_converters
register_matplotlib_converters()

import zipfile  # compresser ou décompresser fichier

%matplotlib inline

%autosave 0

Autosave disabled


## Données disponibles

Choix du répertoire de travail "data_folder" dans lequel tous les fichiers csv seront entreposés. Ici le répertoire s'appelle *data*.

Ensuite on affiche les fichiers du répertoire pour vérification

In [34]:
data_folder = os.path.join(os.getcwd(), "data")

In [35]:
print("Mon repertoire est : {}".format(data_folder))
print("Fichiers contenus dans ce répertoire :")
for file in os.listdir(data_folder):
    print(" - " + file)

Mon repertoire est : D:\Users\montuelleluc\Documents\Formations-RTE\MOOC IA&DeepLearning\TP_Formation_Conso_DeepLearning\data
Fichiers contenus dans ce répertoire :
 - communes_coordonnees.csv
 - eCO2mix_RTE_tempo_2017-2018.xls
 - joursFeries.csv
 - meteoX_T0_T24.zip
 - StationsMeteoRTE.csv
 - X2input.csv
 - X2input.zip
 - Xinput.csv
 - Xinput.zip
 - Xtemperature.csv
 - Xtemperature.zip
 - Yconso.csv
 - YconsoT0.csv
 - Yconso_2014_2018.csv
 - zia00436
 - zia06312
 - zia06812


# Récupération des données dans Python

Dans cette partie nous allons charger les fichiers csv nécessaires pour l'analyse, puis les convertir en data-frame python : 
- Yconso.csv
- Xinput.csv

Rappel : Les données brutes ont été pré-traitées à l'aide du notebook *TP1_Preparation_donnees.ipynb* pour obtenir ces deux fichiers.

## import de Yconso.csv

In [36]:
Yconso_csv = os.path.join(data_folder, "Yconso.csv")
Yconso = pd.read_csv(Yconso_csv)
display(Yconso.head(5)) # affichage des premières lignes
print(Yconso.dtypes) # affichage du type de données pour chaque colonne
Yconso['ds'].max

Unnamed: 0,ds,y
0,2014-01-08 00:00:00+00:00,62008
1,2014-01-08 01:00:00+00:00,57298
2,2014-01-08 02:00:00+00:00,56216
3,2014-01-08 03:00:00+00:00,53719
4,2014-01-08 04:00:00+00:00,51798


ds    object
y      int64
dtype: object


<bound method Series.max of 0        2014-01-08 00:00:00+00:00
1        2014-01-08 01:00:00+00:00
2        2014-01-08 02:00:00+00:00
3        2014-01-08 03:00:00+00:00
4        2014-01-08 04:00:00+00:00
                   ...            
43363    2018-12-19 19:00:00+00:00
43364    2018-12-19 20:00:00+00:00
43365    2018-12-19 21:00:00+00:00
43366    2018-12-19 22:00:00+00:00
43367    2018-12-19 23:00:00+00:00
Name: ds, Length: 43368, dtype: object>

La colonne "ds" contient la date, mais celle-ci n'est pas reconnue en tant que telle mais en tant que chaîne de caractères (https://pbpython.com/pandas_dtypes.html). On va la convertir en objet de type "datetime" plus approprié pour extraire des informations comme le jour de la semaine ou l'heure.  
Pour plus d'information, voir le TP1_Preparation_donnees.

In [37]:
Yconso['ds'] = pd.to_datetime(Yconso['ds'],utc=True)
print(Yconso.dtypes)
display(Yconso.head(5))

display(Yconso.tail(5))

ds    datetime64[ns, UTC]
y                   int64
dtype: object


Unnamed: 0,ds,y
0,2014-01-08 00:00:00+00:00,62008
1,2014-01-08 01:00:00+00:00,57298
2,2014-01-08 02:00:00+00:00,56216
3,2014-01-08 03:00:00+00:00,53719
4,2014-01-08 04:00:00+00:00,51798


Unnamed: 0,ds,y
43363,2018-12-19 19:00:00+00:00,75670
43364,2018-12-19 20:00:00+00:00,73068
43365,2018-12-19 21:00:00+00:00,68589
43366,2018-12-19 22:00:00+00:00,65288
43367,2018-12-19 23:00:00+00:00,67766


Visuellemement cela ne change rien.

On peut aussi afficher la dimension du DataFrame (toujours s'assurer que cela correspond aux valeurs attendues) : 

In [38]:
print(Yconso.shape)

(43368, 2)


## Import des variables d'entrée du modèle prédictif 

**Attention : Les données présentes dans Xinput sont encryptées dans un fichier zip.**  
Pour les lire vous avez besoin d'un mot de passe qui ne peut vous être donné que dans le cadre d'un travail au sein de RTE.

Sinon, la lecture se déroule comme pour le fichier Yconso.csv : transformation en datetime de la colonne *ds* et vérification des dimensions.

In [39]:
password = 'FIFA_2020'

In [40]:
Xinput_zip = os.path.join(data_folder, "X2input.zip")
# Pour travailler avec les fichiers zip, on utilise la bibliothèque **zipfile**.
zipfile_xinput = zipfile.ZipFile(Xinput_zip)
zipfile_xinput.setpassword(bytes(password,'utf-8'))
Xinput = pd.read_csv(zipfile_xinput.open('X2input.csv'),sep=",",engine='c',header=0)

Xinput['ds'] = pd.to_datetime(Xinput['ds'],utc=True)



Vous disposez de relevés de températures en stations (voir le fichier *data/StationsMeteoRTE.csv* pour plus d'informations) ainsi que d'une température France prévue pour l'instant considéré et celle réalisée la veille.

In [41]:
print("Dimensions de X")
print(Xinput.shape)
print("")
print("Colonnes de X")
print(Xinput.columns)
print("")
print("Aperçu de X")
display(Xinput.head(35))


Dimensions de X
(43368, 81)

Colonnes de X
Index(['ds', 'holiday', '002_0', '002_24', '005_0', '005_24', '015_0',
       '015_24', '027_0', '027_24', '070_0', '070_24', '110_0', '110_24',
       '120_0', '120_24', '130_0', '130_24', '145_0', '145_24', '149_0',
       '149_24', '156_0', '156_24', '168_0', '168_24', '180_0', '180_24',
       '190_0', '190_24', '222_0', '222_24', '240_0', '240_24', '255_0',
       '255_24', '260_0', '260_24', '280_0', '280_24', '299_0', '299_24',
       '434_0', '434_24', '460_0', '460_24', '481_0', '481_24', '497_0',
       '497_24', '510_0', '510_24', '579_0', '579_24', '588_0', '588_24',
       '621_0', '621_24', '630_0', '630_24', '643_0', '643_24', '645_0',
       '645_24', '650_0', '650_24', '675_0', '675_24', '690_0', '690_24',
       '747_0', '747_24', 'Th_real_24h_avant', 'Th_prev', 'month', 'hour',
       'weekday', 'lag1H', 'lag1D', 'lag1W', 'posan'],
      dtype='object')

Aperçu de X


Unnamed: 0,ds,holiday,002_0,002_24,005_0,005_24,015_0,015_24,027_0,027_24,...,747_24,Th_real_24h_avant,Th_prev,month,hour,weekday,lag1H,lag1D,lag1W,posan
0,2014-01-08 00:00:00+00:00,,10.3,9.69,10.0,9.8,9.69,9.3,10.19,10.5,...,11.2,9.84693,9.91116,1,0,2,,,,8
1,2014-01-08 01:00:00+00:00,,10.1,9.4,9.69,9.8,9.4,9.3,10.3,10.3,...,11.1,9.8485,9.79083,1,1,2,62008.0,,,8
2,2014-01-08 02:00:00+00:00,,10.0,9.19,9.9,9.6,9.19,9.4,10.3,10.0,...,11.0,9.68158,9.63499,1,2,2,57298.0,,,8
3,2014-01-08 03:00:00+00:00,,9.9,9.0,9.5,9.19,9.19,9.19,10.19,9.8,...,10.9,9.48713,9.44536,1,3,2,56216.0,,,8
4,2014-01-08 04:00:00+00:00,,9.9,8.8,9.0,8.9,8.9,9.0,10.19,9.6,...,10.8,9.49041,9.241585,1,4,2,53719.0,,,8
5,2014-01-08 05:00:00+00:00,,9.69,9.4,9.4,9.1,9.3,9.4,10.1,9.5,...,9.19,9.34688,9.045105,1,5,2,51798.0,,,8
6,2014-01-08 06:00:00+00:00,,9.6,9.19,9.6,8.9,9.19,9.1,10.3,9.5,...,9.0,9.284855,8.915265,1,6,2,52083.0,,,8
7,2014-01-08 07:00:00+00:00,,9.6,9.5,9.5,8.6,9.19,9.5,10.5,9.6,...,9.5,9.37706,8.9641,1,7,2,56082.0,,,8
8,2014-01-08 08:00:00+00:00,,9.9,9.4,9.19,8.6,9.3,9.5,10.7,9.5,...,9.9,9.54303,9.1065,1,8,2,63083.0,,,8
9,2014-01-08 09:00:00+00:00,,10.0,9.4,10.0,9.1,9.69,9.8,10.8,9.6,...,10.7,10.10946,9.63005,1,9,2,68358.0,,,8


Dans cette étude de cas, par soucis de simplicité, nous allons travailler uniquement avec des
**températures France**. Utiliser les températures des différentes stations météo serait une piste
intéressante pour améliorer le modèle.

In [42]:
Xinput = Xinput[['ds', 'month', 'hour', 'posan', 'weekday', 'holiday', 'Th_real_24h_avant', 'Th_prev', 'lag1D', 'lag1W']]

<font color='green'>
    
* Quelles sont les variables disponibles (dans Xinput et Yconso)?
    
* Quelles sont les dimensions (nombre d’observations et de variables) de Xinput et Yconso après lecture des fichiers csv? Est-ce cohérent?

* Les données présentes dans Xinput vous semblent-elles pertinentes pour prédire la consommation nationale présente dans Yconso ?

* Que pensez-vous de cette notion de "Température France"?
</font>

# Visualisation des données 

La DataScience et le Machine Learning supposent de bien appréhender les données sur lesquelles nos modèles vont être entrainés. Pour cela, il est utile de faire des statistiques descriptives et des visualisations de nos différentes variables.

Traitant d'un problème de prévision, on visualisera en particulier des séries temporelles.

Dans les slides d'introduction, vous allez voir des :
- échantillons de données
- profils de courbe de consommation journaliers et saisonniers
- visualisations de corrélation entre conso J et conso retardée


# Outils de construction de modèle
<img src="pictures/etabli.jpg"  width=500 height=60>

## Construction des jeux d'entrainement et de test

Pour éviter de construire un modèle qui apprend "par coeur" sur ses données, et qui disposerait alors d'une capacité de généralisation faible, il est d'usage courant de disposer de plusieurs jeux de données (de caractéristiques similaires). Le minimum est de construire 

* un jeu d'entraînement, sur lequel on estime le modèle, 

* un jeu de test, jamais vu durant l'entraînement, sur lequel on va évaluer le modèle. 

Rapidement dit : un bon modèle est un modèle dont la capacité prédictive ne se dégrade pas trop sur le jeu test.

Pour cela, on crée la fonction *prepareDataSetEntrainementTest* qui va permettre de couper Y et Xinput en deux parties.

In [43]:
def prepareDataSetEntrainementTest(Xinput, Yconso, dateDebut, dateRupture, nbJourlagRegresseur=0):
    
    dateStart = Xinput.iloc[0]['ds']
    
    DateStartWithLag = dateStart + pd.Timedelta(str(nbJourlagRegresseur)+' days')  #si un a un regresseur avec du lag, il faut prendre en compte ce lag et commencer l'entrainement a la date de debut des donnees+ce lag
    XinputTest = Xinput[(Xinput.ds >= dateRupture)]    

    XinputTrain=Xinput[(Xinput.ds < dateRupture) & (Xinput.ds > DateStartWithLag) & (Xinput.ds > dateDebut)]
    YconsoTrain=Yconso[(Yconso.ds < dateRupture) & (Yconso.ds > DateStartWithLag) & (Yconso.ds > dateDebut)]
    YconsoTest=Yconso[(Xinput.ds >= dateRupture)]
    
    return XinputTrain, XinputTest, YconsoTrain, YconsoTest

## Fonctions utilitaires

Créons la fonction modelError qui va calculer pour un échantillon (Y, Y_hat) différents scores :
- erreur relative moyenne (MAPE en %)
- erreur relative max (en %)
- RMSE (en MW)

Cette fonction est ensuite utilisée par les fonctions *evaluation* et *evaluation_par* qui nous permettront d'évaluer nos modèles.

<img src="pictures/evaluation.jpg"  width=250 height=30>

In [44]:
def modelError(Y, Yhat):

    Y = Y.reset_index(drop=True)
    
    relativeErrorsTest = np.abs((Y['y'] - Yhat) /Y['y']) 
    errorMean = np.mean(relativeErrorsTest)
    errorMax = np.max(relativeErrorsTest)
    rmse = np.sqrt(mean_squared_error(Y['y'], Yhat))
   
    return relativeErrorsTest, errorMean, errorMax, rmse

In [45]:
def evaluation(YTrain, YTest, YTrainHat, YTestHat):
    # Ytrain et Ytest ont deux colonnes : ds et y
    # YtrainHat et YTestHat sont des vecteurs
    ErreursTest, ErreurMoyenneTest, ErreurMaxTest, RMSETest = modelError(YTest, YTestHat)
    print("l'erreur relative moyenne de test est de:" + str(round(ErreurMoyenneTest*100,1))+"%")
    print("l'erreur relative max de test est de:" + str(round(ErreurMaxTest*100,1)) +"%")
    print('le rmse de test est de:' + str(round(RMSETest,0)))
    print()
    ErreursTest, ErreurMoyenneTest, ErreurMaxTest, RMSETest = modelError(YTrain, YTrainHat)
    print("l'erreur relative moyenne de train est de:" + str(round(ErreurMoyenneTest*100,1))+"%")
    print("l'erreur relative max de train est de:" + str(round(ErreurMaxTest*100,1)) +"%")
    print('le rmse de test est de:' + str(round(RMSETest,0))) 

In [46]:
def evaluation_par(X, Y, Yhat,avecJF=True):
    Ytmp = Y
    Ytmp['weekday'] = Ytmp.ds.dt.weekday
    Ytmp['hour'] = Ytmp.ds.dt.hour
    if(avecJF):
        Ytmp['JoursFeries'] = X['JoursFeries']
    Ytmp['APE'] = np.abs(Ytmp['y']-Yhat)/Ytmp['y']
    dataWD = Ytmp[['weekday','APE']]
    groupedWD = dataWD.groupby(['weekday'], as_index=True)
    statsWD = groupedWD.aggregate([np.mean])
    dataHour = Ytmp[['hour','APE']]
    groupedHour = dataHour.groupby(['hour'], as_index=True)
    statsHour = groupedHour.aggregate([np.mean])
    
    if(avecJF):
        dataJF = Ytmp[['JoursFeries','APE']]
        groupedJF = dataJF.groupby(['JoursFeries'], as_index=True)
        statsJF = groupedJF.aggregate([np.mean])
    else:
        statsJF = None
    
    return statsWD, statsHour, statsJF


# Feature engineering : préparation de Xinput

L'objectif de cette partie est d'enrichir Xinput à partir des données initiales. Il s'agit notamment d'exploiter les différentes informations calendaires disponibles.

On encode les données calendaires en one-hot encoding pour le modèle. Autrement dit, on construit pour chaque modalité, une variable binaire associée.
Cet encodage est nécessaire pour que le modèle mathématique puisse appréhender la notion de date.

In [47]:
encodedWeekDay = pd.get_dummies(Xinput['weekday'],prefix="weekday")
encodedMonth = pd.get_dummies(Xinput['month'],prefix="month")
encodedHour = pd.get_dummies(Xinput['hour'],prefix="hour")

In [48]:
encodedWeekDay.head(3)

Unnamed: 0,weekday_0,weekday_1,weekday_2,weekday_3,weekday_4,weekday_5,weekday_6
0,0,0,1,0,0,0,0
1,0,0,1,0,0,0,0
2,0,0,1,0,0,0,0


In [49]:
encodedMonth.head(3)

Unnamed: 0,month_1,month_2,month_3,month_4,month_5,month_6,month_7,month_8,month_9,month_10,month_11,month_12
0,1,0,0,0,0,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0,0,0
2,1,0,0,0,0,0,0,0,0,0,0,0


In [50]:
encodedHour.head(3)

Unnamed: 0,hour_0,hour_1,hour_2,hour_3,hour_4,hour_5,hour_6,hour_7,hour_8,hour_9,...,hour_14,hour_15,hour_16,hour_17,hour_18,hour_19,hour_20,hour_21,hour_22,hour_23
0,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,1,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [51]:
Xinput = pd.concat([Xinput, encodedMonth, encodedWeekDay, encodedHour], axis=1)
Xinput = Xinput.drop(['month','weekday','hour'],axis=1)

In [52]:
print(Xinput.shape)
print(Xinput.columns)

(43368, 50)
Index(['ds', 'posan', 'holiday', 'Th_real_24h_avant', 'Th_prev', 'lag1D',
       'lag1W', 'month_1', 'month_2', 'month_3', 'month_4', 'month_5',
       'month_6', 'month_7', 'month_8', 'month_9', 'month_10', 'month_11',
       'month_12', 'weekday_0', 'weekday_1', 'weekday_2', 'weekday_3',
       'weekday_4', 'weekday_5', 'weekday_6', 'hour_0', 'hour_1', 'hour_2',
       'hour_3', 'hour_4', 'hour_5', 'hour_6', 'hour_7', 'hour_8', 'hour_9',
       'hour_10', 'hour_11', 'hour_12', 'hour_13', 'hour_14', 'hour_15',
       'hour_16', 'hour_17', 'hour_18', 'hour_19', 'hour_20', 'hour_21',
       'hour_22', 'hour_23'],
      dtype='object')


Pour les données météo, on récupère aussi la prévision effectuée pour la veille. 

In [53]:
colsToKeepWeather = [s for s in Xinput.columns.get_values() if 'Th_prev' in s]
lag_colsToKeepWeather = [ s + "_J_1" for s in colsToKeepWeather ]
Xinput[lag_colsToKeepWeather] = Xinput[colsToKeepWeather].shift(24)



The 'get_values' method is deprecated and will be removed in a future version. Use '.to_numpy()' or '.array' instead.



On crée une variable binaire associée à chaque jour férié.

In [54]:
#Récupération des jours fériés dans Xinput
encodedHolidays = pd.get_dummies(Xinput[['holiday']], prefix = "JF")
encodedHolidays['JoursFeries'] = encodedHolidays.sum(axis = 1)
Xinput = pd.concat([Xinput, encodedHolidays], axis = 1)
Xinput = Xinput.drop(['holiday'], axis = 1)

On ajoute des températures seuillées, à 15°C pour l'effet chauffage, et à 18°C pour l'effet climatisation.

In [55]:
threshold_temperature_heat = 15
threshold_temperature_cool = 18

Xinput['temp_prev_with_threshold_heat'] = np.maximum(0, threshold_temperature_heat - Xinput['Th_prev'].values)
Xinput['temp_prev_with_threshold_cool'] = np.maximum(0, Xinput['Th_prev'].values - threshold_temperature_cool)

In [56]:
#affichage de toutes les variables de base
list(Xinput) #list plutôt que print pour avoir la liste complète

['ds',
 'posan',
 'Th_real_24h_avant',
 'Th_prev',
 'lag1D',
 'lag1W',
 'month_1',
 'month_2',
 'month_3',
 'month_4',
 'month_5',
 'month_6',
 'month_7',
 'month_8',
 'month_9',
 'month_10',
 'month_11',
 'month_12',
 'weekday_0',
 'weekday_1',
 'weekday_2',
 'weekday_3',
 'weekday_4',
 'weekday_5',
 'weekday_6',
 'hour_0',
 'hour_1',
 'hour_2',
 'hour_3',
 'hour_4',
 'hour_5',
 'hour_6',
 'hour_7',
 'hour_8',
 'hour_9',
 'hour_10',
 'hour_11',
 'hour_12',
 'hour_13',
 'hour_14',
 'hour_15',
 'hour_16',
 'hour_17',
 'hour_18',
 'hour_19',
 'hour_20',
 'hour_21',
 'hour_22',
 'hour_23',
 'Th_prev_J_1',
 'JF_11Novembre',
 'JF_1erMai',
 'JF_8Mai',
 'JF_Ascension',
 'JF_Assomption',
 'JF_FeteNationale',
 'JF_Noel',
 'JF_NouvelAn',
 'JF_Paques',
 'JF_Pentecote',
 'JF_Toussaint',
 'JoursFeries',
 'temp_prev_with_threshold_heat',
 'temp_prev_with_threshold_cool']

Enfin, nous construisons les listes pour appeler plus rapidement les colonnes d'un même type.

In [57]:
colsToKeepWeather = [s for s in Xinput.columns.get_values() if 'Th_prev' in s]
colsToKeepMonth = [v for v in Xinput.columns.get_values() if 'month' in v]
colsToKeepWeekday = [v for v in Xinput.columns.get_values() if 'weekday' in v]
colsToKeepHour = [v for v in Xinput.columns.get_values() if 'hour' in v]
colsToKeepHolidays = [v for v in Xinput.columns.get_values() if 'JF_' in v]


The 'get_values' method is deprecated and will be removed in a future version. Use '.to_numpy()' or '.array' instead.


The 'get_values' method is deprecated and will be removed in a future version. Use '.to_numpy()' or '.array' instead.


The 'get_values' method is deprecated and will be removed in a future version. Use '.to_numpy()' or '.array' instead.


The 'get_values' method is deprecated and will be removed in a future version. Use '.to_numpy()' or '.array' instead.


The 'get_values' method is deprecated and will be removed in a future version. Use '.to_numpy()' or '.array' instead.



In [58]:
# on souhaite un jeu de test qui commence à partir du 1er mai 2017
dateDebut = pytz.utc.localize( datetime.datetime(year=2014, month=1, day=15))#pour éviter les NaN dans le jeu de données
dateRupture = pytz.utc.localize(datetime.datetime(year=2017, month=12, day=1))#début du challenge prevision de conso
nbJourlagRegresseur = 0

In [59]:
Yconso.tail()

Unnamed: 0,ds,y
43363,2018-12-19 19:00:00+00:00,75670
43364,2018-12-19 20:00:00+00:00,73068
43365,2018-12-19 21:00:00+00:00,68589
43366,2018-12-19 22:00:00+00:00,65288
43367,2018-12-19 23:00:00+00:00,67766


In [60]:
XinputTrain, XinputTest, YconsoTrain, YconsoTest = prepareDataSetEntrainementTest(Xinput, Yconso, 
                                                                                  dateDebut, dateRupture, 
                                                                                  nbJourlagRegresseur)

In [61]:
print('la taille de l échantillon XinputTrain est:' + str(XinputTrain.shape))
print('la taille de l échantillon XinputTest est:' + str(XinputTest.shape))
print('la taille de l échantillon YconsoTrain est:' + str(YconsoTrain.shape))
print('la taille de l échantillon YconsoTest est:' + str(YconsoTest.shape))
print("la proportion de data d'entrainement est de:" + str(YconsoTrain.shape[0] / (YconsoTrain.shape[0] + YconsoTest.shape[0])))

la taille de l échantillon XinputTrain est:(33983, 64)
la taille de l échantillon XinputTest est:(9216, 64)
la taille de l échantillon YconsoTrain est:(33983, 2)
la taille de l échantillon YconsoTest est:(9216, 2)
la proportion de data d'entrainement est de:0.7866617282807472


# Construction d'un modèle prédictif naïf

<img src="pictures/hommeNaif.png" width=500 height=60>

## Première idée, un modèle naïf : on plaque bêtement la valeur de consommation nationale de la veille

In [62]:
pred_train_naif1= XinputTrain["lag1D"]
pred_test_naif1= XinputTest["lag1D"]
evaluation(YconsoTrain, YconsoTest,  pred_train_naif1.values,pred_test_naif1.values)


l'erreur relative moyenne de test est de:5.7%
l'erreur relative max de test est de:37.8%
le rmse de test est de:4528.0

l'erreur relative moyenne de train est de:5.8%
l'erreur relative max de train est de:41.0%
le rmse de test est de:4590.0


Bon c'est pas fou...

## Deuxième idée : modèle naïf avec de l'expertise métier 

Chez RTE, on considère qu'une augmentation moyenne de 1°C conduit à une augmentation de 2400MW de la consommation nationale pour des températures inférieures à 15°C. On propose donc comme consommation prévue la consommation de la veille, corrigée par 2400 fois l'écart à la température de la veille, si l'on n'excède pas les 15°C.


<img src="pictures/ExpertJamy.jpg" width=500 height=60>

In [None]:
delta_MW_par_degre = 2400  
            
threshold_temperature = 15

In [None]:
# prévision train

temp_prev_with_threshold = np.minimum([threshold_temperature], XinputTrain['Th_prev'].values)
temp_actual_with_threshold = np.minimum([threshold_temperature], XinputTrain['Th_real_24h_avant'].values)

delta_temp = temp_prev_with_threshold - temp_actual_with_threshold
delta_MW_because_temp = delta_temp * delta_MW_par_degre

pred_train_naif2 = XinputTrain["lag1D"] - delta_MW_because_temp


# prévision test
temp_prev_with_threshold = np.minimum([threshold_temperature], XinputTest['Th_prev'].values)
temp_actual_with_threshold = np.minimum([threshold_temperature], XinputTest['Th_real_24h_avant'].values)

delta_temp = temp_prev_with_threshold - temp_actual_with_threshold
delta_MW_because_temp = delta_temp * delta_MW_par_degre
pred_test_naif2 = XinputTest["lag1D"] - delta_MW_because_temp

# scores
evaluation(YconsoTrain, YconsoTest,  pred_train_naif2.values,pred_test_naif2.values)


In [None]:
temperature_real_veille = float(Xinput.loc[Xinput['ds'] == datetime_a_predire]['Th_real_24h_avant'])
temperature_prevu_cible = float(Xinput.loc[Xinput['ds'] == datetime_a_predire]['Th_prev'])
delta_temp = min(threshold_temperature, temperature_prevu_cible) - min(threshold_temperature, temperature_real_veille)
delta_MW_because_temp = delta_temp * delta_MW_par_degre

y_pred_modele_naif_2 = float(Xinput.loc[Xinput['ds'] == datetime_a_predire]['lag1D']) - delta_MW_because_temp
pred_error = abs(y_true_point_horaire_cible - y_pred_modele_naif_2)

print("Modele 2 -- pred: {}, realisee: {}, erreur: {}%".format(y_pred_modele_naif_2, y_true_point_horaire_cible, pred_error/y_true_point_horaire_cible * 100))

Et maintenant sur l'ensemble des points horaires :

In [None]:
y_pred = Xinput["lag1D"]

temp_prev_with_threshold = np.minimum([threshold_temperature], Xinput['Th_prev'].values)
temp_actual_with_threshold = np.minimum([threshold_temperature], Xinput['Th_real_24h_avant'].values)

delta_temp = temp_prev_with_threshold - temp_actual_with_threshold
delta_MW_because_temp = delta_temp * delta_MW_par_degre

y_pred_modele_naif_2 = Xinput["lag1D"] - delta_MW_because_temp
pred_error = (np.abs(Yconso["y"] - y_pred_modele_naif_2) / Yconso["y"] * 100)

print(np.mean(pred_error))

Bon... Bien essayé avec ces modèles naïfs, mais maintenant on va être plus sérieux !

## Test des fonctions sur le modèle expert

Recalculons les prévisions à l'aide des deux modèles experts et évaluons ces deux approches :


### Modèle naïf 2


# Régression linéaire simple

Le modèle naïf avec expertise métier a été inspiré de la forme de la courbe d'évolution de la consommation en fonction de la température en France. 
Pour rappel:

In [None]:
plt.scatter(Xinput['Th_prev'], Yconso['y'], alpha=0.2)
plt.show()

La consommation pourrait être modélisée par une fonction linéaire par morceaux de la température, avec une pente plus importante pour les températures froides que pour les températures élevées. Au lieu de fixer les gradients à 2400MW/°C et 0, ceux-ci pourraient être calibrés à partir des données.


## Entrainer un modèle
Notre modèle a des paramètres qu'il va falloir maintenant apprendre au vu de notre jeu d'entrainement. Il faut donc caler notre modèle sur ce jeu d'entrainement.

In [None]:
colsLR_simple = np.concatenate(([s for s in XinputTrain.columns.get_values() if 'temp_prev_with_' in s], colsToKeepHour, colsToKeepWeekday, colsToKeepMonth))

mTrain = linear_model.LinearRegression(fit_intercept = False)
mTrain.fit(XinputTrain[colsLR_simple], YconsoTrain[['y']])


## Interpréter le modèle 

In [None]:
coef_joli = pd.DataFrame(np.concatenate(( np.array([colsLR_simple]).T,mTrain.coef_.T),axis=1),columns = ['variable','coefficient'])
print(coef_joli)


<font color='green'>

* Commentez les coefficients de régression obtenus. 
* Comparez notamment les gradients obtenus avec le modèle naïf.

</font>

## Faire des prédictions
Une fois qu'un modèle de prévision est entrainé, il ne s'avère utile que s'il est performant sur de nouvelles situations. Faisons une prévision sur notre jeu de test. Traçons les courbes obtenues et calculons les scores.

In [None]:
forecastTest = np.concatenate(mTrain.predict(XinputTest[colsLR_simple]))
forecastTrain = np.concatenate(mTrain.predict(XinputTrain[colsLR_simple]))

In [None]:
plt.scatter(forecastTest, YconsoTest[['y']])
plt.show()

plt.plot(YconsoTest['ds'], YconsoTest['y'], 'b', YconsoTest['ds'], forecastTest, 'r')
plt.show()

In [None]:
evaluation(YconsoTrain, YconsoTest, forecastTrain,  forecastTest)
evalWD,evalHour,evalJF = evaluation_par(XinputTest,YconsoTest,forecastTest,avecJF=True)
print(str(round(evalWD*100,1)))
print(str(round(evalHour*100,1)))
print(str(round(evalJF*100,1)))

### Comment se distribue l'erreur ?

In [None]:
erreur_relative_test, erreur_moyenne_test, erreur_max_test, rmse = modelError(YconsoTest, forecastTest)

In [None]:
num_bins = 100
plt.hist(erreur_relative_test, num_bins)
plt.show()

### A quel moment se trompe-t-on le plus ?

In [None]:
plt.plot(YconsoTest['ds'], erreur_relative_test, 'r')
plt.title("erreur relative sur la periode de test")
plt.show()

In [None]:
erreur_relative_test.head()

In [None]:
threshold = 0.18

mask = (erreur_relative_test >= threshold)
erreurs_df = pd.DataFrame(np.concatenate((YconsoTest[['ds','y']],np.array([forecastTest]).T),axis=1),columns=["date","y","prev"])
print(erreurs_df[mask])


Au vu des résultats précédents :
<font color= 'green'>

- que pensez-vous du modèle?
- comment se distribue l'erreur?
- quand se trompe-t-on le plus?
- quelles variables explicatives ajouter?

</font>

# Autres modèles : RandomForest et XGBoost

## Modèle RandomForest

<img src="pictures/randomForestExplain.png" width=500 height=30>

### Choix des données d'entrée

In [None]:
colsRF = np.concatenate((['lag1D','lag1W'],
                         colsToKeepWeather,colsToKeepMonth,colsToKeepWeekday,colsToKeepHour,colsToKeepHolidays))
list(colsRF)

### Entrainement du modèle

In [None]:
# La cellule peut prendre un peu de temps à exécuter
print(Xinput.head(20))
rfTrain = RandomForestRegressor(n_estimators=30, max_features=colsRF.size, n_jobs=3, oob_score = True, bootstrap = True)
rfTrain.fit(XinputTrain[colsRF], YconsoTrain['y'])

<font color='green'>

* Grâce à l'aide de la fonction, déterminer les paramètres de cette méthode

</font>

### Prediction

In [None]:
forecastTest = rfTrain.predict(XinputTest[colsRF])
forecastTrain = rfTrain.predict(XinputTrain[colsRF])

### Evaluation

In [None]:
evaluation(YconsoTrain, YconsoTest, forecastTrain, forecastTest)

# on visualise nos previsions par rapport a la realité
plt.plot(YconsoTest['ds'], YconsoTest['y'], 'b', YconsoTest['ds'], forecastTest, 'r')
plt.show()

print('R^2 Training Score: {:.2f} \nOOB Score: {:.2f} \nR^2 Validation Score: {:.2f}'.format(rfTrain.score(XinputTrain[colsRF], YconsoTrain['y']), 
                                                                                             rfTrain.oob_score_,
rfTrain.score(XinputTest[colsRF], YconsoTest['y'])))

In [None]:
evalWD,evalHour,evalJF = evaluation_par(XinputTest,YconsoTest,forecastTest)
print(str(round(evalWD*100,1)))
print(str(round(evalHour*100,1)))
print(str(round(evalJF*100,1)))

## Modèle xgboost

<img src="pictures/XGboost.png" width=500 height=30>

In [None]:
xgbTrain = xgb.XGBRegressor(objective='reg:squarederror')
xgbTrain.fit(XinputTrain[colsRF], YconsoTrain['y'].values)
forecastTestXGB = xgbTrain.predict(XinputTest[colsRF])
forecastTrainXGB = xgbTrain.predict(XinputTrain[colsRF])

<font color='green'>

* Grâce à l'aide de la fonction, déterminer les paramètres de cette méthode

</font>

In [None]:
evaluation(YconsoTrain, YconsoTest, forecastTrainXGB, forecastTestXGB)

In [None]:
evalWD,evalHour,evalJF = evaluation_par(XinputTest, YconsoTest, forecastTestXGB)
print(str(round(evalWD * 100,1)))
print(str(round(evalHour * 100,1)))
print(str(round(evalJF * 100,1)))

# Bonus: à vous de jouer

Bravo ! Vous avez déjà créé un premier modèle performant pour faire des prévisions sur une fenêtre glissante à horizon 24h !

Maintenant à vous de mettre votre expertise pour créer de nouveaux modèles.

Vous pouvez continuer à explorer le problème selon plusieurs axes:
- choix de la méthode de modélisation
- apprendre votre modèle sur une période différente
- créer de nouvelles variables explicatives ? Quid de la météo et de la température? Des jours fériés ? Du feature engineering plus complexe...
- détecter des outliers dans les données

Mettez-vous en 3 groupes, explorez pendant 30 minutes, et restituez.