# Le problème

Un tout nouveau data challenge vient d'être lancé sur la plateforme dataScience.net pour aider RTE a faire de meilleures prévisions de conso ! 
https://www.datascience.net/fr/challenge/33/details

Le premier challenge a montré que des prévisionnistes externes pouvaient faire mieux que nos meilleurs prévisionnistes à RTE... nous voilà ringardisés ! 
Une deuxième chance nous est néanmoins offerte pour montrer que quand même on s'y connait en prévision de conso :).

Nous voilà tous réunis pour prendre ce défi à bras le corps et redorer l'image de RTE. On compte sur vous !

## Un outil: Le Machine Learning
Pour cela nous allons avoir recours au Machine Learning. Cela nous permettra de créer un modèle qui apprend et s'adapte au contexte sans programmer un système expert avec des "centaines" de règles en dur par de la programmation logique . Le machine learning nécessite toutefois de la connaissance experte dans le domaine d'intérêt pour créer des modèles pertinents et efficaces. En effet, si notre modèle embarque trop de variables peu explicatives, il sera noyé dans l'information, surapprendra sur les exemples qu'on lui a montrés, et aura du mal à généraliser en prédisant avec justesse sur de nouveaux exemples. 

## Une difficulté: le feature engineering
Au-delà de la simple sélection de variables pertinentes, on fait surtout ce que l'on appelle du feature engineering avec notre expertise: on créé des variables transformées ou aggrégées, comme une consommation moyenne sur le mois précédent ou une température moyenne sur la France, pour guider l'algorithme à apprendre sur l'information la plus pertinente et synthétique.
Cela suppose de bien connaître nos données, de les traiter et de les visualiser avec différents algorithmes au préalable.

Nous allons ici voir ce que cela implique en terme de développement et d'implémentation de participer à un tel challenge, en montrant les capacités du Machine Learning sur la base de modèles "shallow", et aussi leurs limites.

## To be continued
Le deuxième TP permettra d'investiguer les modèles "Deep" avec réseaux de neurones, en montrant le moindre besoin en feature engineering et leur plus grande capacité a absorber l'information de par les représentations hiérarchiques qu'ils se créent.

# Ce qu'on va voir dans ce premier TP:
1) formaliser le problème: que souhaite-t-on prédire (quel est mon Y) ? Avec quelles variables explicatives (quel est mon X) ?

2) collecter les données: où se trouvent les données ? Quel est le format ? Comment les récupérer ?

3) investiguer les données: visualiser des séries temporelles, faire quelques statistiques descriptives

4) préparer les données: pour entrainer et tester un premier modèle

5) créer et entrainer un premier modèle simple: ce sera notre baseline

6) évaluer un modèle

7) itérer en créant de nouveaux modèles avec de nouvelles variables explicatives

8) Jouez: créer vos propres modèles, tester sur une saison différente, tester sur une région différente, faire une prévision avec incertitudes, détecter des outliers

# Dimensionnement en temps
On prévoit un TP d'environ 2h :
- 20-30 minutes pour charger et préparer les données
- 30-40 minutes pour analyser et visualiser les données
- 45-60 minutes pour créer, entrainer, évaluer et interpréter les modèles

# Se familiariser avec le problème: Eco2mix
Quand on parle de courbe de consommation France, il y a une application incontournable : eco2mix !
Allons voir à quoi ressemblent ces courbes de consommation, pour nous faire une idée du problème et se donner quelques intuitions:
http://www.rte-france.com/fr/eco2mix/eco2mix
ou sur application mobile

## Chargement des Librairies

In [None]:
# Exécutez la cellule ci-dessous (par exemple avec shift-entrée)
# Si vous exécuter ce notebook depuis votre PC, il faudra peut-etre installer certaiines librairies avec 
# 'pip install ma_librairie'
import os  # accès aux commandes système
import datetime  # structure de données pour gérer des objets calendaires
import pandas as pd  # gérer des tables de données en python
import numpy as np  # librairie d'opérations mathématiques
import matplotlib.pyplot as plt  # tracer des visualisations
import sklearn  # librairie de machine learning
from sklearn.metrics import mean_absolute_error

from fbprophet import Prophet  # un package de series temporelles mis a disposition par facebook
import urllib3  # scrapper le web
import shutil  # move ou copier fichier
import zipfile  # compresser ou décompresser fichier

# Pour visualisation sur une carte utilsons la librairie bokeh qui fait appel a une api GoogleMaps
from bokeh.palettes import inferno
from bokeh.io import show, output_notebook
from bokeh.models import (
  GMapPlot, GMapOptions, ColumnDataSource, Circle, Range1d, PanTool, WheelZoomTool, BoxSelectTool, ColorBar, LogTicker,
    LabelSet, Label,HoverTool
)
from collections import OrderedDict
import seaborn as sns
from bokeh.models.mappers import LogColorMapper

In [None]:
## Choix du répertoire de travail "data_folder" dans lequel tous les fichiers csv seront entreposés

# @Antoine : a actualiser avec le repertoire par defaut sur le serveur
data_folder = os.path.join("/local/partage/RTEConsoChallenge/data_challenge")

# Petite vérification
print("Mon repertoire est : {}".format(data_folder))
print("Fichiers contenus dans ce répertoire :")
for file in os.listdir(data_folder):
    print(" - " + file)

## Récupération des données

Dans cette partie nous allons charger les fichiers csv nécessaires pour l'analyse, puis les convertir en data-frame python.
Les données de base à récupérer sont :
- Les historiques de consommation
- Le calendrier des jours fériés
- Les données météo, ainsi que la liste des stations
- (Bonus) Le calendrier des jours TEMPO

In [None]:
## Recuperation des historiques de consommation

# Conversion en tant que data-frame
# Remarquez que l'on manipule un gros fichier, ce qui explique pourquoi l'exécution de cette cellule prend du temps
conso_csv = os.path.join(data_folder, "conso_Y.csv")
conso_df = pd.read_csv(conso_csv, sep=";", engine='c', header=0) #engine en language C et position header pour accélérer le chargement

# Regardons la tête des données, méthode head() dans librairie pandas. 1 ligne
# TODO
#
# END

In [None]:
#afficher les dimensions et le noms des colonnes de la data frame. Appel de méthodes "shape" et "columns". 2 lignes
# TODO
#
#
# END

### Questions
- Quelles variables à prévoir ont été ici formatées ?
- Quelles variables peuvent être utilisées pour faire les prévisions ?

In [None]:
# conso_Y.csv contient en particulier 2 colonnes 'date' et 'time', 
# les deux contenant des objets de type "string".
# Nous allons fusionner ces informations en une nouvelle colonne
# d'objets "ds" (dateStamp) mieux adaptés pour la manipulation de dates et d'hheures

conso_df['ds'] = pd.to_datetime(conso_df['date']+' '+conso_df['time'])

print(conso_df[['date','time','ds']].head(5))

## Tutoriel sur les méthodes datetime

In [None]:
# datetime vers string
noel_2017_date = datetime.date(2017, 12, 25)
noel_2017_str = datetime.datetime.strftime(noel_2017_date, format="%Y-%m-%d")
print("noel_2017_date vaut : {} ; et est de type {}".format(noel_2017_date, str(type(noel_2017_date))))
print("noel_2017_str vaut : {} ; et est de type {}".format(noel_2017_str, str(type(noel_2017_str))))

# Convertir la date/heure de tout de suite en string avec le pattern donné
pattern = "%Y-%m-%d - %H:%M"
### DEBUT - TO DO
now_date = datetime.datetime.now()
now_str = "A vous de jouer"
print("la_tout_de_suite_str vaut : {} ; et est de type {}".format(now_str, str(type(now_str))))
### FIN - TO DO

# string vers datetime
starwars_day_2017_str = "2017-05-04"
starwars_day_2017_date =  datetime.datetime.strptime(starwars_day_2017_str, "%Y-%m-%d")
print("starwars_day_2017_date vaut : {} ; et est de type {}".format(starwars_day_2017_date, str(type(starwars_day_2017_date))))
print("starwars_day_2017_str vaut : {} ; et est de type {}".format(starwars_day_2017_str, str(type(starwars_day_2017_str))))

# Convertir la string en datetime
fete_nationale_str = "2017_07_14"
### DEBUT - TO DO
fete_nationale_date = "A vous de jouer"
### FIN - TO DO
print(fete_nationale_date)

# Voyager dans le temps
saint_sylvestre_2017_date = datetime.date(2017, 12, 31)
bienvenu_en_2018_date = saint_sylvestre_2017_date + datetime.timedelta(days=1)
print(bienvenu_en_2018_date)

In [None]:
# Recuperation des variables calendaires

# Conversion en tant que data-frame
xCalendaire_csv = os.path.join(data_folder, "variablesCalendaires.csv")
xCalendaire_df = pd.read_csv(xCalendaire_csv, sep=";")

# Regardons la tête des données
xCalendaire_df.head(5)

In [None]:
## Recuperation des jours fériés
jours_feries_csv = os.path.join(data_folder,"joursFeries.csv")
jours_feries_df=pd.read_csv(jours_feries_csv, sep=";")

# Pour la première colonne, les dates sont au format "string"
# Nous allons les convertir en objet "datetime" mieux adaptés pour la manipulation de dates
print("Type de la date avant transformation : " + str(type(jours_feries_df.ds[42])))
jours_feries_df.ds = pd.to_datetime(jours_feries_df.ds)
print("Type de la date après transformation : " + str(type(jours_feries_df.ds[42])))

# Regardons la tête des données
jours_feries_df.head(5)

## Récupération de la dataframe de meteo

Comme d'habitude !

Nos données sont dans 'meteoX_T.csv', qui est situé dans data_folder. Importez-les dans une dataframe _meteo&#95;df_
et regardez à quoi elles ressemblent. Pensez aussi à changer les dates _string_ vers le format _datetime_

In [None]:
# TODO
#meteo_csv = 
#meteo_df = 
#meteo_df['ds'] =
# END

meteo_df.head(5)

Tant qu'on est chaud on enchaine avec les stations météo, fichier _StationsMeteoRTE.csv_.  
A importer dans _stations&#95;meteo&#95;df_.

In [None]:
# TODO
# stations_meteo_csv = 
# stations_meteo_df = 
# END

stations_meteo_df.head(5)

## Réduire notre problème
On va se concentrer sur la consommation à l'échelle nationale, au pas horaire.

In [None]:
consoFrance_df = conso_df[['ds','Consommation NAT t0']]
minutes = consoFrance_df['ds'].dt.minute

indicesHour = np.where(minutes.values==0.0)
consoFranceHoraire_df = consoFrance_df.loc[indicesHour]

consoFranceHoraire_df = consoFranceHoraire_df.reset_index(drop=True)
consoFranceHoraire_df.head(5)

In [None]:
minutes=meteo_df['ds'].dt.minute

indicesHour=np.where(minutes.values==0.0)
meteoHoraire_df=meteo_df.loc[indicesHour]
meteoHoraire_df=meteoHoraire_df.reset_index(drop=True)

## Bonus : récupération de données depuis internet

Dans le but d'automatiser un processus, nous allons faire une fonction qui ira chercher les dernières données mises à disposition sur internet.  
Pour cet exemple nous allons considérer les jours Tempo, et (si le temps le permet en fin de TP) tester si cette information permet d'améliorer la qualité des prédictions.

### Manipulation à la main

 - Recupérez à la main le calendrier TEMPO pour 2017-2018 :
 http://www.rte-france.com/fr/eco2mix/eco2mix-telechargement
 - Le déposer dans _data&#95;folder_
 - Le dézipper
 - Regarder les données dans excel ou autre. Notez en particulier la fin du fichier, la supprimer
 
Importez ces données dans une dataframe avec 'read_excel' de la librairie pandas ou autre méthode

In [None]:
# TODO
#tempo_df = 
# END

### La même chose automatisée

In [None]:
def get_tempo_data(url, data_folder, tempo_xls_zip_name):
    
    tempo_xls_zip = os.path.join(data_folder, tempo_xls_zip_name)
    
    # Récupération du fichier zip depuis internet
    urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
    http = urllib3.PoolManager()    
    with http.request('GET', url, preload_content=False) as resp, open(tempo_xls_zip, 'wb') as out_file:
        shutil.copyfileobj(resp, out_file)
        
    # On dézippe 'tempo_xls_zip' dans le repertoire 'data_folder'
    # On pourra par exemple utliser la méthode 'extractall' de la librairie zipfile
    # TODO
    #
    #
    # END

    # Petite vérification
    if not os.path.isfile(tempo_xls_zip):
        print("ERROR!! {} not found in {}".format("eCO2mix_RTE_tempo_2017-2018.xls", data_folder))
        raise RuntimeError("Tempo data not uploaded :-(")

    # Import de ces données dans une dataframe
    # (La même chose que dans la cellule ci-dessus)
    # TODO
    # tempo_df = 
    # END
        
    # Suppression du disclaimer de la dernière ligne de tempo_df, par exemple avec la méthode drop d'une dataframe
    # TODO
    # last_row =
    # tempo_df = 
    # END

    return tempo_df

In [None]:
## Test de la fonction définie ci-dessus

url = "https://eco2mix.rte-france.com/curves/downloadCalendrierTempo?season=17-18"
tempo_xls_zip_name = "eCO2mix_RTE_tempo_2017-2018.zip"

tempo_df = get_tempo_data(url, data_folder, tempo_xls_zip_name)

print(tempo_df)

# Visualisation des données 

La DataScience et le Machine Learning supposent de bien appréhender les données sur lesquelles nos modèles vont être entrainés. Pour se faire, il est utile de se faire quelques stats descriptives et des visualisations pour nos différentes variables.
Traitant d'un problème de prévisions, on visualisera en particulier des séries temporelles.

Vous allez voir:
- échantillons de données
- profils de courbe de consommation journaliers et saisonniers
- visualisation de corrélation entre conso J et conso retardée
- visualisations des stations météos
- visualisations des séries temporelles des températures
- calcul de corrélation sur la température entre les différentes stations météo

## Calcul de statistiques descriptives sur la consommation nationale
A l'aide de la fonction _describe_ appliquée à la dataframe _consoFranceHoraire&#95;df_.

In [None]:
# TODO
#
# END

## Visualiser la consommation d'un jour
Ecrire la fonction plot_load(var_load,day,month,year) qui cherche la courbe de charge d'un jour donné et en fait la représentation graphique.
On pourra utiliser la fonction _datetime.datetime_ pour construire une date et la fonction _datetime.timedelta(days=)_ pour incrémenter des dates.

In [None]:
def plot_load(var_load, year, month,day):
    dtChoose = datetime.datetime(year=year, month=month, day=day)
    dtChooseDayAfter = dtChoose + datetime.timedelta(days=1)
    # TODO
    #consoJour = consoFranceHoraire_df  # a continuer !
    # END  
    plt.plot(consoJour['ds'], consoJour[var_load],'b')
    plt.show()

In [None]:
plot_load('Consommation NAT t0', 2016, 12, 20)

## Afficher une semaine arbitraire de consommation
On pourra modifier la fonction précédente en rajoutant le timedelta en paramètre.

In [None]:
def plot_load_timedelta(var_load,year,month,day,delta_days):
    # TODO
    #
    #
    #
    #
    #
    # END 
      
plot_load_timedelta('Consommation NAT t0', 2016, 12, 20, delta_days=7)

## Calculer le profil moyen de la consommation pour les mois d'hiver et les mois d'été. Distinguer les jours de semaine des week-ends
A l'aide de la fonction groupby et de la fonction describe.  
Tracer le profil moyen ainsi que le min et le max pour avoir une idée de la variabilité du signal.

In [None]:
#on se créé des variables calendaires
consoFranceHoraire_df['month'] = consoFranceHoraire_df['ds'].dt.month
consoFranceHoraire_df['weekday'] = (consoFranceHoraire_df['ds'].dt.weekday <= 5) * 1  # conversion bool => int
consoFranceHoraire_df['hour'] = consoFranceHoraire_df['ds'].dt.hour
consoFranceHoraire_df.head(5)

In [None]:
# on fait des aggrégations
groupedHiver = consoFranceHoraire_df[(consoFranceHoraire_df.month == 12) | 
                                         (consoFranceHoraire_df.month == 1) | 
                                         (consoFranceHoraire_df.month == 2)].groupby(['weekday','hour'], as_index=True)

# TODO
#groupedEte =  # a continuer
#
#
# END

statsHiver = groupedHiver['Consommation NAT t0'].aggregate([np.mean, np.min, np.max])

# TODO
#statsEte =  # a continuer
# END

statsHiver.head(5)

In [None]:
semaine = statsEte.loc[0]  #0 pour weekend

# TODO: 3 plots semaine (mean, amin et amax), avec des couleurs
#
#
#
# END
plt.show()


## Lien avec la consommation passée
A l'aide de la fonction shift, calculez la consommation de l'heure précédente, du jour précédent, de la semaine précédente. Tracez ensuite la consommation en fonction de ces différentes variables.

In [None]:
consoFranceHoraire_df['lag1H'] = consoFranceHoraire_df['Consommation NAT t0'].shift(1)

# TODO
#consoFranceHoraire_df['lag1D'] =   # a continuer
#consoFranceHoraire_df['lag1W'] =   # a continuer
# END

consoFranceHoraire_df.head(24 * 7 + 1)

In [None]:
%matplotlib inline

def plot_scatter_load(var_x):
    plt.scatter(consoFranceHoraire_df[var_x],consoFranceHoraire_df['Consommation NAT t0'])
    plt.title(var_x)
    plt.show()
    
plot_scatter_load('lag1H')
plot_scatter_load('lag1D')
plot_scatter_load('lag1W')

Quelle variable semble être la plus explicative ?

## Visualisation des stations météo

### calculer la corrélation de la consommation avec différentes températures (en hiver)

In [None]:
#meteo_df.shape
#Extraire la météo observée, soit les prévisions h+0
meteo_obs_df = meteoHoraire_df[list(meteoHoraire_df.columns[meteoHoraire_df.columns.str.endswith("Th+0")]) + ['ds']]
meteo_obs_df.shape

In [None]:
meteo_obs_df.head()

In [None]:
matrix_correlation = meteo_obs_df.corr().as_matrix() 
meteo_obs_df.corr()

In [None]:
#heatMap pour un meilleur visuel
plt.imshow(matrix_correlation,cmap='PuBu_r', interpolation='nearest')
plt.colorbar()
plt.show()

### Question
- Que pensez-vous de ces corrélations ?

## Fusionner le jeu de données météo avec les données de consommation

A l'aide de la fonction pd.merge

In [None]:
# TODO
#conso_meteo = pd.merge(...)  # a continuer
# END
conso_meteo.shape

In [None]:
# verification
conso_meteo.columns

## Visualiser la consommation en fonction de la température de la station Paris-Montsouris

In [None]:
plt.scatter(conso_meteo['156Th+0'], conso_meteo['Consommation NAT t0'])
plt.show()

### Question
- Qu'en pensez-vous ?

## Visualisation des stations météo
pour visualiser la localisation des stations météos qui nous sont fournies, positionons ces stations avec leur localisation GPS sur une Google Map

In [None]:
nstations = stations_meteo_df.shape[0]
print(nstations)

In [None]:
from bokeh.palettes import inferno
colors=inferno(nstations)
print(colors)

from bokeh.io import show, output_notebook
from bokeh.models import (
  GMapPlot, GMapOptions, ColumnDataSource, Circle, Range1d, PanTool, WheelZoomTool, BoxSelectTool, ColorBar, LogTicker
)
from bokeh.models import LabelSet, Label
from bokeh.models import HoverTool
from collections import OrderedDict
import seaborn as sns
from bokeh.models.mappers import LogColorMapper

map_options = GMapOptions(lat=47.08, lng=2.39, map_type="roadmap", zoom=6)

plot = GMapPlot(x_range=Range1d(), y_range=Range1d(), map_options=map_options)
plot.title.text = "France"

# For GMaps to function, Google requires you obtain and enable an API key:
#
#     https://developers.google.com/maps/documentation/javascript/get-api-key
#
# Replace the value below with your personal API key:
plot.api_key = "AIzaSyC05Bs_e0q6KWyVHlmy0ymHMKMknyMbCm0"
tempInstant1=meteo_obs_df.iloc[0,np.arange(0,35)]

#nos données d'intérêt pour créer notre visualisation
data=dict(
        lat=stations_meteo_df['latitude'],
        lon=stations_meteo_df['longitude'],
        label=stations_meteo_df['Nom'],
        temp=tempInstant1)

source = ColumnDataSource(data)

#l'échelle de couleur pour la température
Tlow=0
Thigh=20
color_mapper = LogColorMapper(palette="Viridis256",low=Tlow,high=Thigh)

#la couleur de remplissage des cercles est fonction de la valeur de la temérature
circle = Circle(x="lon", y="lat", size=15, fill_color={'field': 'temp', 'transform': color_mapper}, fill_alpha=0.8, line_color=None,)

#les labels que l'on souhaite afficher en passant un curseur sur une station
labels = LabelSet(x='lon', y='lat', text='label', level='glyph',x_offset=5, y_offset=5, source=source, render_mode='canvas')

#on ajoute la layer
plot.add_glyph(source, circle)

#on plot
plot.add_tools(PanTool(), WheelZoomTool(), BoxSelectTool(),HoverTool())


color_bar = ColorBar(color_mapper=color_mapper, ticker=LogTicker(),
                 label_standoff=12, border_line_color=None, location=(0,0))
plot.add_layout(color_bar, 'right')


hover=plot.select(dict(type=HoverTool))
hover.tooltips = OrderedDict([
    ("index", "$index"),
    ("(xx,yy)", "(@lon, @lat)"),
    ("label", "@label"),
    ("T", "@temp")
])

output_notebook()#"gmap_plot.html"
show(plot)

# Construire un premier modèle autoregressif
Maintenant que nous avons préparé les données et les avons analysées, nous sommes fin prêts à créer nos premiers modèles de prévision puis à les entraîner.

## Préparer jeu d'entrainement et de test
En machine learning, il y a 2 types d'erreur que l'on peut calculer : l'erreur d'entrainement et l'erreur de test. 

Pour évaluer la capacité de notre modèle à généraliser, il est très important de se préserver un jeu de test sur lequel nous n'aurons pas appris.

Il faut donc segmenter notre dataset en 2.

In [None]:
# si un a un regresseur avec du lag, il faut prendre en compte ce lag 
# et commencer l'entrainement a la date de debut des donnees +ce lag
   
def prepareDataSetEntrainementTest(Xinput, Yconso, dateRupture, nbJourlagRegresseur=0):
    
    dateStart = Xinput.iloc[0]['ds']
    
    DateStartWithLag = dateStart + pd.Timedelta(str(nbJourlagRegresseur)+' days')  #si un a un regresseur avec du lag, il faut prendre en compte ce lag et commencer l'entrainement a la date de debut des donnees+ce lag
   
    ##scindez vos datasets X et Y selon dateRupture et DateStartWithLag
    XinputTest = Xinput[(Xinput.ds >= dateRupture)]
    
    # TODO
    #XinputTrain =
    #YconsoTrain = Yconso
    #YconsoTest = Yconso
    # END
    
    return XinputTrain, XinputTest, YconsoTrain, YconsoTest

In [None]:
# preparer les variables X de notre modèle

Yconso=consoFranceHoraire_df[['ds','Consommation NAT t0']]
Yconso.columns = ['ds','y']#Consommation NAT t0' -> y car format demandé par la librairie prophet
Xinput=Yconso #un simple modèle autoregressif, ici X=Y

# on souhaite un jeu de test qui commence le 1er mai 2017
# TODO
#dateRupture =   # au format datetime, cf. tuto plus haut !
# END 

nbJourlagRegresseur = 0  # pas de prise en compte de consommation passées pour l'instant

# créer vos jeux d'entrainement et de test avec la méthode prepareDataSetEntrainementTest
# TODO
#XinputTrain, XinputTest, YconsoTrain, YconsoTest = 
# END

In [None]:
print('la taille de l échantillon XinputTrain est:' + str(XinputTrain.shape[0]))
print('la taille de l échantillon XinputTrain est:' + str(XinputTest.shape[0]))
print('la taille de l échantillon XinputTrain est:' + str(YconsoTrain.shape[0]))
print('sla taille de l échantillon XinputTrain est:' + str(YconsoTest.shape[0]))
print('la proportion de data d entrainement est de:' + str(YconsoTrain.shape[0] / (YconsoTrain.shape[0] + YconsoTest.shape[0])))

## Créer un modèle avec Prophet
Vous allez utiliser la librairie Prophet developpée par facebook.: https://research.fb.com/prophet-forecasting-at-scale/. Elle a été publiée en 2017 et permet de faire des modèles de prévision sur des séries temporelles. En particulier, ces modèles captent surtout des saisonnalités, et peuvent également tenir compte de jours particuliers comme les jours fériés. Il est possible de rajouter d'autre variables explicatives selon un modèle statistique linéaire.

C'est une librairie relativement ergonomique et performante en terme de temps de calculs d'où son choix ici.
Un des aspects intéressant également est qu'elle repose sur un language probabiliste PyStan. Il est ainsi possible de décrire des variables selon une loi dans notre modèle et d'obtenir sans plus de développement des intervalles de confiance et incertitudes.

Pour un tutoriel bien fait pour comprendre et utiliser Prophet, je vous recommande le lien suivant: http://www.degeneratestate.org/posts/2017/Jul/24/making-a-prophet/

In [None]:
# creer un modèle prophet avec une saisonnalité journalière et une tendance nulle pour la consommation

##TO DO
#Hint: faite appel à Prophet() avec les bons parametres
#mTrain = Prophet(...)  # on considere une tendance relativement constante pour la consommation sur les 4 ans
#END

## Entrainer un modèle
Notre modèle a des paramètres tels que les saisonnalités qu'il va falloir maintenant apprendre au vu de notre jeu d'entrainement. Il faut donc caler notre modèle sur ce jeu d'entrainement.

In [None]:
# votre modèle créé, faites un apprentissage sur vos données d'entrainement XinputTrain a partir de la méthode fit

#TO DO
#
#END

## Faire des prédictions
Une fois qu'un modèle de prévision est entrainé, il ne s'avère utile que s'il est performant sur de nouvelles situations. Faisons une prévision sur notre jeu de test.

In [None]:
# Hint: prenez votre modèle et appelez la methode pour faire des prevision sur votre jeu de test XinputTest
# TO DO
#forecastTest = 
# END

In [None]:
# on visualise nos previsions avec incertitudes
dateavantRupture = dateRupture - pd.Timedelta('30 days')  # pour visualiser aussi les réalisations d'avant
print('on plot a partir de la date:' + str(dateavantRupture))
mTrain.history = mTrain.history[mTrain.history.ds >= dateavantRupture]  # pour demander à Prophet de ne plotter que notre période d'interet
mTrain.plot(forecastTest)

## Visualiser le modèle
Prophet dispose de méthodes de visualisation qui permettent d'interpreter le modèle appris, en particulier d'un point de vue des saisonalités.

In [None]:
# on visualise notre modele avec ses saisonalites 
# TODO: faites appel a une methode de prophet pour visualiser ces composantes saisonnières
#
# END

## Interpreter le modèle 
Au vu des visualisations précédentes, quelles interprétations pouvez-vous faire du modèle?
Comment varie le comportement de la courbe de consommation?
Répondez ci-dessous

## Evaluer l'erreur de prévision
Au vu de ces previsions faites par notre modèle sur de nouvelles situations, quelle est la performance de notre modèle sur ce jeu de test ?

In [None]:
 def modelError(YconsoTest,forecastTest):
    # attention cette frame est un subset d'une autre, il faut la reindexer depuis 0
    YconsoTest = YconsoTest.reset_index(drop=True)
        
    # TODO: calculer les erreurs relatives, moyenne et max avec numpy   
    #relativeErrorsTest = 
    #errorMean = 
    #errorMax = 
    # END
    
    return relativeErrorsTest, errorMean, errorMax

In [None]:
ErreursTest, ErreurMoyenneTest, ErreurMaxTest = modelError(YconsoTest, forecastTest)
print("L'erreur moyenne de test est de : " + str(ErreurMoyenneTest))
print("L'erreur max de test est de : " + str(ErreurMaxTest))

In [None]:
# on visualise nos previsions par rapport a la realité
plt.plot(YconsoTest['ds'], YconsoTest['y'], 'b')
plt.plot(forecastTest['ds'], forecastTest['yhat'], 'r')
plt.show()

## Histogramme des erreurs de prévision
### Question
- comment se distribue l'erreur ?

In [None]:
num_bins = 100
plt.hist(ErreursTest,num_bins)
plt.show()

# Feature engineering
### Question
- Quelles variables explicatives peuvent nous permettre de creer un modele plus perfomant ?

## Modèle n°2: Ajout d'un régresseur sur la consommation du jour avant

In [None]:
Xinput.head()

In [None]:
# creez une nouvelle variable J_1 pour Xinput avec un lag de 1 jour sur la consommation
# TO DO
# Xinput['J_1'] =  # a continuer
# nbJourlagRegresseur =  # a continuer
# END

XinputTrain, XinputTest, YconsoTrain, YconsoTest = prepareDataSetEntrainementTest(Xinput, Yconso, dateRupture, nbJourlagRegresseur)

In [None]:
print('shape de XinputTrain est:' + str(XinputTrain.shape[0]))
print('shape de XinputTest est:' + str(XinputTest.shape[0]))
print('shape de YconsoTrain est:' + str(YconsoTrain.shape[0]))
print('shape de YconsoTest est:' + str(YconsoTest.shape[0]))
print('la proportion de data d entrainement est de:' + str(YconsoTrain.shape[0] / (YconsoTrain.shape[0] + YconsoTest.shape[0])))

In [None]:
#creer un nouveau modèle J-1' et ajouter le regresseur 'J-1' avec "add_regressor"

#TO DO
#mTrainConsoJ_1 = Prophet(...)
#mTrainConsoJ_1.add_regressor()
#END

In [None]:
#entrainer ce nouveau model
#TO DO
#
#END

In [None]:
# faire des previsions
#TO DO
#forecastTestJ_1 = 
#END

In [None]:
ErreursTestJ_1, ErreurMoyenneTest, ErreurMaxTest = modelError(YconsoTest,forecastTestJ_1)
print("L'erreur moyenne de test est de : " + str(ErreurMoyenneTest))
print("L'erreur max de test est de : " + str(ErreurMaxTest))

En moyenne nous avons un modèle plus performant sur notre jeu de test en passant de 5,8% d'erreur a 4,8% d'erreur.  
En revanche l'erreur max reste significative.  

### Question
- Pourquoi?

### Analyse de la sensibilité de l'erreur
Nos variables sont essentiellement temporelles ici, essayons de voir si des instants sont particulierement mal prédits. Qu'est-ce qui en fait leur particularité ?

In [None]:
plt.plot(forecastTest['ds'], ErreursTestJ_1, 'r')
plt.title("erreur relative sur la periode de test")
plt.show()

In [None]:
numberMinuteDay=60*24
forecastTest['ErreursTest'] = ErreursTestJ_1
forecastTest['dayInYear'] = [el.round(freq=str(numberMinuteDay)+'min') for el in forecastTest.ds]

summaryByDay = forecastTest.groupby(forecastTest['dayInYear'])['ErreursTest'].max()
print(summaryByDay.head(5))
print(summaryByDay.describe())

plt.plot(summaryByDay.index, summaryByDay, 'r')
plt.title("erreur relative sur la periode de test")
plt.show()

In [None]:
# quels jours sont dans le quartile avec le plus d'erreur ?
threshold = 0.15
summaryByDay[summaryByDay >= threshold]

# Analyse de la dépendance de l'erreur selon les jours calendaires et les jours de la semaine

On se rend compte que les périodes de jours feries sont mal prédites

## Modèle n°3: Ajout d'un régresseur jours feriés
Les mois de mai et de juin 2017 étaient particulièrement chargés en jours feriés et ponts qui impactent fortement nos prédictions. Créons un modèle avec Prophet qui le modélise si on lui précise.

In [None]:
# créez un nouveau modèle en passant à Prophet une liste de jours feriés 
# et en ajoutant toujours le régresseur conso J-1

# TODO
#mTrainConsoJ_1Holidays = Prophet(...)
#mTrainConsoJ_1Holidays.  # ajout du regresseur
# END

In [None]:
# entrainez ce nouveau modèle

#TO DO
#
#END

In [None]:
# faire les prévisions

#TO DO
#forecastTestJ_1Holidays = 
#END

In [None]:
ErreursTestJ_1Holidays, ErreurMoyenneTest, ErreurMaxTest = modelError(YconsoTest, forecastTestJ_1Holidays)
print("L'erreur moyenne de test est de : " + str(ErreurMoyenneTest))
print("L'erreur max de test est de : " + str(ErreurMaxTest))

On a encore baissé l'erreur moyenne de cette periode test où les jours feriés sont nombreux, en passant de 4,8% a 4,1%. L'erreur max a elle aussi bien diminué, passant de 32% a 21%.

In [None]:
plt.plot(forecastTest['ds'], ErreursTestJ_1, 'r')
plt.plot(forecastTestJ_1Holidays['ds'], ErreursTestJ_1Holidays, 'b')
plt.title("Evolution de l'erreur en integrant les jours feriés")
plt.show()

Bien joué ! Vous avez déjà créé un premier modèle performant pour faire des prévisions sur une fenêtre glissante à horizon 24h !

Maintenant à vous de mettre votre expertise pour créer de nouveaux modèles !

# Bonus: à vous de jouer
Vous pouvez continuer à explorer le problème selon plusieurs axes:
- créer des modèles pour les régions françaises
- tester votre modèle sur une autre saison (lhiver par exemple)
- créer de nouvelles variables explicatives ? Quid de la météo et de la température? du feature engineering plus complexe...
- détecter des outliers dans les données
- etudiez les incertitudes et les possibilités offertes par PyStan

Mettez-vous en 3 groupes, explorez pendant 30 minutes, et restituez.