# Projet 4 : Anticiper les besoins en consommation électrique de bâtiments
*Pierre-Eloi Ragetly*

Ce projet fait parti du parcours *DataScientist* d'OpenClassrooms.

L'objectif principal est de trouver un modèle permettant de prédire **les émissions de CO2 et la consommation totale d’énergie de bâtiments non destinés à l'habitation.**

Pour cela nous disposons des données de la ville de Seattle pour les années 2015 et 2016. Ces données sont à récupérer sur le site kaggle.

# Partie III : Data modeling

Ce notebook a pour but de présenter le travail effectué sur la modélisation.

Nous commencerons par séparer notre jeu de données en deux parties distinctes:
- Le **training set**, qui va permettre d'entrainer les différents modèles;
- Le **testing set**, qui permettra de déterminer la performance du modèle finale.

Pour ce faire, la méthode `train_test_split()` de la classe *sklearn.model_selection* sera utilisée en réservant 20% des données pour le jeu de test.

Puis les modèles les plus courants seront entraînés et comparés afin de conserver les plus prometteurs. Au préalable, *une recherche par quadrillage* sera effectuée pour automatiser le choix des *hyperparamètres*, et les variables les plus pertinentes seront sélectionnées par **RFE** (Recursive Feature Elimination).

Après sélection des modèles les plus performants, nous affinerons encore les hyperparamètres à l'aide d'une *recherche aléatoire* cette fois ci, et nous en profiterons pour tester la pertinence de la variable *EnergyStarScore*.

Nous analyserons enfin les erreurs des modèles afin de déterminer s'il est pertinent d'utiliser une *méthode d'ensemble*, ie. combiner plusieurs modèles pour construire un modèle plus performant.

Le modèle final obtenu, nous pourrons évaluer sa performance à l'aide du jeu de test.

In [1]:
# Import des librairies usuelles
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import pandas as pd
import seaborn as sns

In [2]:
# Change some default parameters of matplotlib using seaborn
plt.rcParams.update(plt.rcParamsDefault)
plt.rcParams.update({'axes.titleweight': 'bold'})
sns.set(style='ticks')
current_palette = sns.color_palette('RdBu')
sns.set_palette(current_palette)

In [3]:
# import data
data = (pd.read_csv('data/data_tr.csv')
          .set_index('OSEBuildingID')
          .drop(columns='ENERGYSTARScore'))
data_ess = (pd.read_csv('data/data_tr.csv')
              .set_index('OSEBuildingID')
              .dropna(subset=['ENERGYSTARScore']))

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Modéliser-la-consommation-totale-d’énergie" data-toc-modified-id="Modéliser-la-consommation-totale-d’énergie-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Modéliser la consommation totale d’énergie</a></span><ul class="toc-item"><li><span><a href="#Créer-un-jeu-de-test" data-toc-modified-id="Créer-un-jeu-de-test-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Créer un jeu de test</a></span></li><li><span><a href="#Comparaison-des-modèles" data-toc-modified-id="Comparaison-des-modèles-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Comparaison des modèles</a></span><ul class="toc-item"><li><span><a href="#En-conservant-les-valeurs-par-défaut-des-hyperparamères" data-toc-modified-id="En-conservant-les-valeurs-par-défaut-des-hyperparamères-1.2.1"><span class="toc-item-num">1.2.1&nbsp;&nbsp;</span>En conservant les valeurs par défaut des hyperparamères</a></span></li><li><span><a href="#En-optimisant-les-hyperparamères-via-des-recherches-par-grille-ou-aléatoires" data-toc-modified-id="En-optimisant-les-hyperparamères-via-des-recherches-par-grille-ou-aléatoires-1.2.2"><span class="toc-item-num">1.2.2&nbsp;&nbsp;</span>En optimisant les hyperparamères via des recherches par grille ou aléatoires</a></span></li></ul></li><li><span><a href="#Sélection-des-trois-meilleurs-modèles" data-toc-modified-id="Sélection-des-trois-meilleurs-modèles-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Sélection des trois meilleurs modèles</a></span></li><li><span><a href="#Recherche-des-variables-les-plus-significatives" data-toc-modified-id="Recherche-des-variables-les-plus-significatives-1.4"><span class="toc-item-num">1.4&nbsp;&nbsp;</span>Recherche des variables les plus significatives</a></span></li><li><span><a href="#Modèle-final" data-toc-modified-id="Modèle-final-1.5"><span class="toc-item-num">1.5&nbsp;&nbsp;</span>Modèle final</a></span></li></ul></li></ul></div>

## Modéliser la consommation totale d’énergie

Pour pouvoir modéliser la consommation totale en énergie il faut au préalable déterminer quelle sera notra valeur cible. Sous nous avons quatre variables potentielles :
- SiteEnergyUse(kBtu)
- SiteEnergyUseWN(kBtu)
- SiteEnergyUse(kBtu)_log
- SiteEnergyUseWN(kBtu)_log

Nous avons vu lors de l'ingénierie des variable qu'il était préférable de prendre la version log pour avoir une distribution se rapprochant d'une distribution normale. On peut donc déjà écarter les deux premières.

Se pose ensuite la question de savoir s'il est préférable de garder la version normalisée ou non normalisée. Pour rappel, la version normalisée et la consommation corrigée en prenant comme référence la température des trentes dernières années. Alors que la version normalisée est la consommation moyenne sur les années 2015 et 2016. Dans le contexte de réchauffement climatique, il est fort à parier que la températures des prochaines années sera plus proche de celles de 2015 et 2016 que de la température des trentes dernières années.

Nous prendrons donc la version non normalisée **SiteEnergyUse(kBtu)_log**.

### Créer un jeu de test

In [4]:
from sklearn.model_selection import train_test_split

X = data.iloc[:, :-6].values
y = data.loc[:, 'SiteEnergyUse(kBtu)_log'].values
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.2,
                                                    random_state=42)

Le paramètre *random_state* permet de définir *le germe* (seed) du générateur de nombre aléatoires, afin qu'il génère toujours la même suite d'indices pseudo-aléatoires.

### Comparaison des modèles

Pour comparer les résultats obtenus avec les algorithmes de regression les plus courants (voir liste ci-dessous), nous utiliserons la librairie *Scikit-Learn* ainsi que la librairie *XGBoost*.
- Régression Ridge
- Régression Lasso
- Elastic Net
- Régression SVM linéaire
- Régression SVM avec noyau
- Régression kNN
- Arbre de décision
- Forêt aléatoire
- Gradient Boosting
- XG Boost
- Perceptron multi-couches

Nous utiliserons comme mesure de performance la RMSE par validation croisée.

#### En conservant les valeurs par défaut des hyperparamères

In [5]:
from functions.ml_modeling import get_models
from functions.ml_modeling import compare_models

# Create models
models = get_models(X_train, y_train)

# Compare models
df = compare_models(X_train, y_train, models)
df

Unnamed: 0,RMSE,RMSE_std,R2,R2_std
Ridge,1.167202,-0.733387,-0.083391,1.400082
Lasso,1.3024,-0.028977,-0.002535,0.004503
ElasticNet,1.274081,-0.037091,0.040808,0.015556
LinearSVR,1.222733,-0.744116,-0.171579,1.455921
SVR,0.720006,-0.052223,0.692664,0.037649
KNeighborsRegressor,0.963056,-0.044208,0.449896,0.054865
DecisionTreeRegressor,0.447765,-0.033405,0.880977,0.016466
RandomForestRegressor,0.3117,-0.034467,0.942176,0.010833
GradientBoostingRegressor,0.222014,-0.034939,0.970378,0.008904
XGBRegressor,0.23494,-0.030488,0.96708,0.007524


#### En optimisant les hyperparamères via des recherches par grille ou aléatoires

In [6]:
# Create models
models = get_models(X_train, y_train, best_hparams=True)

# Compare models
df = compare_models(X_train, y_train, models)
df

Unnamed: 0,RMSE,RMSE_std,R2,R2_std
Ridge,0.893922,-0.085935,0.524812,0.08431
Lasso,1.022367,-0.397194,0.304895,0.574523
ElasticNet,0.931766,-0.168744,0.474796,0.189525
LinearSVR,1.154367,-0.527198,0.070949,0.888902
SVR,0.602459,-0.077108,0.782863,0.049942
KNeighborsRegressor,0.950526,-0.043878,0.464462,0.050284
DecisionTreeRegressor,0.436932,-0.028644,0.886841,0.013147
RandomForestRegressor,0.30886,-0.032969,0.943266,0.01024
GradientBoostingRegressor,0.222417,-0.034477,0.970283,0.008795
XGBRegressor,0.23494,-0.030488,0.96708,0.007524


### Sélection des trois meilleurs modèles

In [7]:
# Get a score based on both RMSE and R2 scores
df['RMSE_minmax'] = (df['RMSE']-df['RMSE'].min())/(df['RMSE'].max()-df['RMSE'].min())
df['R2_minmax'] = (df['R2']-df['R2'].min())/(df['R2'].max()-df['R2'].min())
df['Score'] = df['R2_minmax'] - df['RMSE_minmax']

# Keep the 3 models with the largest score
best_models_name = df['Score'].nlargest(3).index
best_models = [m for m in models if type(m).__name__ in best_models_name]
print("The top three models are:")
for m in best_models_name:
    print(m)

The top three models are:
GradientBoostingRegressor
XGBRegressor
RandomForestRegressor


### Recherche des variables les plus significatives

Pour rechercher les variables les plus significatives, nous effectuerons une *RFE* (Recursive Feature Elimination) sur chacun des meilleurs modèles. Une validation croisée sera effectuée pour connaître quel est le meilleur nombre de variables à conserver.

Ensuite nous ne conserverons que les variables qui sont significatives pour **au moins un des modèles**, et réentrainerons les modèles avec ces variables.

In [8]:
# Run the RFE for each features
df = compare_models(X_train, y_train, best_models, rfe=True)

# Keep the most relevant features only
mask = df['mask_Features'].values.sum(axis=0)
X_rfe = X_train[:, mask]
n_features = mask.sum()
print("{} variables ont été conservées :".format(n_features))
for c in data.columns[:-6][mask]:
    print(c)

# Train the best models on the filtered data
df = compare_models(X_rfe, y_train, best_models)
df

8 variables ont été conservées :
GHGEmissionsIntensity
PropertyGFATotal
SteamUse_ratio
Electricity_ratio
NaturalGas_ratio
OtherFuel_ratio
Self-Storage Facility
Warehouse


Unnamed: 0,RMSE,RMSE_std,R2,R2_std
RandomForestRegressor,0.271224,-0.032127,0.95616,0.00917
GradientBoostingRegressor,0.216918,-0.035638,0.97166,0.009115
XGBRegressor,0.21348,-0.027429,0.972766,0.006394


### Modèle final

Maintenant que nous avons réentrainé les modèles les plus prometteurs en ne conservant que les variables significatives, nous allons pouvoir obtenir le modèle finale.

Pour ce modèle finale, nous allons reprendre l'astuce des modèles ensemblistes, nous allons chercher à obtenir le meilleur des modèles sélectionnés en les empilant de manière à former un nouveau modèle plus performant. Pour cela, nous utiliserons la classe **StackingRegressor** de *sklearn.ensemble*.

In [9]:
from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import RidgeCV

# Get a stacking ensemble of models
estimators = []
for m in best_models:
    estimators.append((type(m).__name__, m))
stack_reg = StackingRegressor(estimators=estimators,
                              final_estimator=RidgeCV(alphas=np.logspace(-2, 2, 5)))

# Get the results
best_models.append(stack_reg)
df = compare_models(X_rfe, y_train, best_models)
df

Unnamed: 0,RMSE,RMSE_std,R2,R2_std
RandomForestRegressor,0.270767,-0.03136,0.956331,0.008853
GradientBoostingRegressor,0.215727,-0.036019,0.971962,0.009191
XGBRegressor,0.21348,-0.027429,0.972766,0.006394
StackingRegressor,0.195828,-0.030581,0.97694,0.006876
