# Projet 4 : Anticiper les besoins en consommation électrique de bâtiments
*Pierre-Eloi Ragetly*

Ce projet fait parti du parcours *DataScientist* d'OpenClassrooms.

L'objectif principal est de trouver un modèle permettant de prédire **les émissions de CO2 et la consommation totale d’énergie de bâtiments non destinés à l'habitation.**

Pour cela nous disposons des données de la ville de Seattle pour les années 2015 et 2016. Ces données sont à récupérer sur le site kaggle.

# Partie I : Data Wrangling

Les données sont contenus dans 2 fichier csv :
- 2015-building-energy-benchmarking
- 2016-building-energy-benchmarking

Il n'est guère pratique d'avoir des données dans deux endroits différents, il serait donc judicieux de réunir les deux jeux de données en un seul. Chaque jeu de données correspondant à une année différente, il est fort possible que des bâtiments se retouvent dans les deux. Ainsi si on fait une simple concaténation des deux fichier csv nous allons nous retrouver avec des redondances qui vont venir polluer nos données et donc être préjudiciable au travail de modélisation. Il nous faudra préciser comment seront traiter ces redondances.

L'objectif de ce notebook est de décrire les opérations nécessaires à l'obtention d'un jeu de données de données unique, nettoyé et dépourvu de redondance.

In [1]:
# Import des librairies usuelles
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import pandas as pd
import seaborn as sns

In [2]:
# Change some default parameters of matplotlib using seaborn
plt.rcParams.update(plt.rcParamsDefault)
plt.rcParams.update({'axes.titleweight': 'bold'})
sns.set(style='ticks')
current_palette = sns.color_palette('RdBu')
sns.set_palette(current_palette)

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Récupération-des-données" data-toc-modified-id="Récupération-des-données-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Récupération des données</a></span></li><li><span><a href="#Comparaison-des-deux-jeux-de-données" data-toc-modified-id="Comparaison-des-deux-jeux-de-données-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Comparaison des deux jeux de données</a></span><ul class="toc-item"><li><span><a href="#Variables-n'étant-pas-présentes-dans-l'un-des-jeux-de-données" data-toc-modified-id="Variables-n'étant-pas-présentes-dans-l'un-des-jeux-de-données-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Variables n'étant pas présentes dans l'un des jeux de données</a></span></li><li><span><a href="#Traitement-de-la-variable-localisation" data-toc-modified-id="Traitement-de-la-variable-localisation-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Traitement de la variable localisation</a></span></li><li><span><a href="#Renommer-les-variables-de-2015-comme-celles-de-2016" data-toc-modified-id="Renommer-les-variables-de-2015-comme-celles-de-2016-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Renommer les variables de 2015 comme celles de 2016</a></span></li><li><span><a href="#Variables-non-présentes-dans-le-jeu-de-données-2016" data-toc-modified-id="Variables-non-présentes-dans-le-jeu-de-données-2016-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Variables non présentes dans le jeu de données 2016</a></span></li><li><span><a href="#Ajout-des-variables-manquantes-pour-le-jeu-de-données-de-2016" data-toc-modified-id="Ajout-des-variables-manquantes-pour-le-jeu-de-données-de-2016-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Ajout des variables manquantes pour le jeu de données de 2016</a></span></li><li><span><a href="#Traitement-de-la-variable-OtherFuelUse(kBtu)" data-toc-modified-id="Traitement-de-la-variable-OtherFuelUse(kBtu)-2.6"><span class="toc-item-num">2.6&nbsp;&nbsp;</span>Traitement de la variable OtherFuelUse(kBtu)</a></span></li><li><span><a href="#Création-d'un-pipeline" data-toc-modified-id="Création-d'un-pipeline-2.7"><span class="toc-item-num">2.7&nbsp;&nbsp;</span>Création d'un pipeline</a></span></li></ul></li><li><span><a href="#Fusion-des-deux-jeux-de-données" data-toc-modified-id="Fusion-des-deux-jeux-de-données-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Fusion des deux jeux de données</a></span><ul class="toc-item"><li><span><a href="#Concaténation-des-données-de-2015-et-de-2016" data-toc-modified-id="Concaténation-des-données-de-2015-et-de-2016-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Concaténation des données de 2015 et de 2016</a></span></li><li><span><a href="#Traitement-des-redondances" data-toc-modified-id="Traitement-des-redondances-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Traitement des redondances</a></span></li></ul></li><li><span><a href="#Sélection-des-observations" data-toc-modified-id="Sélection-des-observations-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Sélection des observations</a></span><ul class="toc-item"><li><span><a href="#Données-manquantes-des-variables-à-modéliser" data-toc-modified-id="Données-manquantes-des-variables-à-modéliser-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Données manquantes des variables à modéliser</a></span></li><li><span><a href="#Recherche-de-doublons" data-toc-modified-id="Recherche-de-doublons-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Recherche de doublons</a></span></li><li><span><a href="#Traiter-les-outliers" data-toc-modified-id="Traiter-les-outliers-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Traiter les outliers</a></span></li><li><span><a href="#Écarter-les-bâtiments-destinés-à-l'habitation" data-toc-modified-id="Écarter-les-bâtiments-destinés-à-l'habitation-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>Écarter les bâtiments destinés à l'habitation</a></span></li></ul></li><li><span><a href="#Nettoyage-des-variables-liées-à-la-consommation" data-toc-modified-id="Nettoyage-des-variables-liées-à-la-consommation-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Nettoyage des variables liées à la consommation</a></span><ul class="toc-item"><li><span><a href="#Vérifier-que-les-consommations-sont-bien-positives" data-toc-modified-id="Vérifier-que-les-consommations-sont-bien-positives-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Vérifier que les consommations sont bien positives</a></span></li><li><span><a href="#Vérifier-les-conversions" data-toc-modified-id="Vérifier-les-conversions-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Vérifier les conversions</a></span></li></ul></li><li><span><a href="#Réalisation-d'un-pipeline" data-toc-modified-id="Réalisation-d'un-pipeline-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Réalisation d'un pipeline</a></span></li></ul></div>

## Récupération des données

Une fois les données téléchargées, nous pouvons les charger dans des DataFrame.

In [3]:
raw_data_2015 = pd.read_csv('data/2015-building-energy-benchmarking.csv')
print(raw_data_2015.shape)
raw_data_2015.head()

(3340, 47)


Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,TaxParcelIdentificationNumber,Location,CouncilDistrictCode,Neighborhood,YearBuilt,...,GHGEmissionsIntensity(kgCO2e/ft2),DefaultData,Comment,ComplianceStatus,Outlier,2010 Census Tracts,Seattle Police Department Micro Community Policing Plan Areas,City Council Districts,SPD Beats,Zip Codes
0,1,2015,NonResidential,Hotel,MAYFLOWER PARK HOTEL,659000030,"{'latitude': '47.61219025', 'longitude': '-122...",7,DOWNTOWN,1927,...,2.64,No,,Compliant,,,14.0,,31.0,18081
1,2,2015,NonResidential,Hotel,PARAMOUNT HOTEL,659000220,"{'latitude': '47.61310583', 'longitude': '-122...",7,DOWNTOWN,1996,...,2.38,No,,Compliant,,,14.0,,31.0,18081
2,3,2015,NonResidential,Hotel,WESTIN HOTEL,659000475,"{'latitude': '47.61334897', 'longitude': '-122...",7,DOWNTOWN,1969,...,1.92,Yes,,Compliant,,,56.0,,31.0,18081
3,5,2015,NonResidential,Hotel,HOTEL MAX,659000640,"{'latitude': '47.61421585', 'longitude': '-122...",7,DOWNTOWN,1926,...,31.38,No,,Compliant,High Outlier,,56.0,,31.0,18081
4,8,2015,NonResidential,Hotel,WARWICK SEATTLE HOTEL,659000970,"{'latitude': '47.6137544', 'longitude': '-122....",7,DOWNTOWN,1980,...,4.02,No,,Compliant,,,56.0,,31.0,19576


In [4]:
raw_data_2016 = pd.read_csv('data/2016-building-energy-benchmarking.csv')
print(raw_data_2016.shape)
raw_data_2016.head()

(3376, 46)


Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,Address,City,State,ZipCode,TaxParcelIdentificationNumber,...,Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),DefaultData,Comments,ComplianceStatus,Outlier,TotalGHGEmissions,GHGEmissionsIntensity
0,1,2016,NonResidential,Hotel,Mayflower park hotel,405 Olive way,Seattle,WA,98101.0,659000030,...,1156514.0,3946027.0,12764.5293,1276453.0,False,,Compliant,,249.98,2.83
1,2,2016,NonResidential,Hotel,Paramount Hotel,724 Pine street,Seattle,WA,98101.0,659000220,...,950425.2,3242851.0,51450.81641,5145082.0,False,,Compliant,,295.86,2.86
2,3,2016,NonResidential,Hotel,5673-The Westin Seattle,1900 5th Avenue,Seattle,WA,98101.0,659000475,...,14515440.0,49526664.0,14938.0,1493800.0,False,,Compliant,,2089.28,2.19
3,5,2016,NonResidential,Hotel,HOTEL MAX,620 STEWART ST,Seattle,WA,98101.0,659000640,...,811525.3,2768924.0,18112.13086,1811213.0,False,,Compliant,,286.43,4.67
4,8,2016,NonResidential,Hotel,WARWICK SEATTLE HOTEL (ID8),401 LENORA ST,Seattle,WA,98121.0,659000970,...,1573449.0,5368607.0,88039.98438,8803998.0,False,,Compliant,,505.01,2.88


## Comparaison des deux jeux de données

### Variables n'étant pas présentes dans l'un des jeux de données

Les deux jeux de données possédent un nombre d'observations similaires, en revanche, nous notons qu'ils ne possédent pas le même nombre de variables. Or, il est indispensable que les deux possédent exactement les mêmes caractéristiques pour pouvoir les fusionner.

On va donc commencer par ne garder que les variables communes aux deux années.

In [5]:
features_2015 = raw_data_2015.columns.tolist()
features_2016 = raw_data_2016.columns.tolist()
features = [c for c in features_2016 if c in features_2015]
print(len(features))

37


Dix-neuf variables ne sont pas présentes dans l'un des deux jeux de données, cela représente plus de 30% de nos variables, c'est loin d'être négligeable. Avant de les écarter, regardons les en détail pour voir si elles ne contiennent pas d'éléments clés.

In [6]:
feat_to_del = [c for c in features_2015 if c not in features] + [c for c in features_2016 if c not in features]
print(len(feat_to_del))
print(feat_to_del)

19
['Location', 'OtherFuelUse(kBtu)', 'GHGEmissions(MetricTonsCO2e)', 'GHGEmissionsIntensity(kgCO2e/ft2)', 'Comment', '2010 Census Tracts', 'Seattle Police Department Micro Community Policing Plan Areas', 'City Council Districts', 'SPD Beats', 'Zip Codes', 'Address', 'City', 'State', 'ZipCode', 'Latitude', 'Longitude', 'Comments', 'TotalGHGEmissions', 'GHGEmissionsIntensity']


Nous remarquons que certaines variables semblent très proches :
- Location & Latitude/Longitude
- GHGEmissions(MetricTonsCO2e) & TotalGHGEmissions
- GHGEmissionsIntensity(kgCO2e/ft2) & GHGEmissionsIntensity
- Zip Codes & ZipCode
- Comment & Comments

Commençons par vérifier si ces variables ne seraient pas les mêmes, mais avec des noms différents.

In [7]:
feat_to_check = ['Location', 'Latitude', 'Longitude',
                 'GHGEmissions(MetricTonsCO2e)', 'TotalGHGEmissions',
                 'GHGEmissionsIntensity(kgCO2e/ft2)', 'GHGEmissionsIntensity',
                 'Zip Codes', 'ZipCode',
                 'Comment', 'Comments']
key = 'OSEBuildingID'
feat_to_check += [key]

# keep only the features to be checked for each dataset
df_2015 = raw_data_2015.loc[:, raw_data_2015.columns.isin(feat_to_check)]
df_2016 = raw_data_2016.loc[:, raw_data_2016.columns.isin(feat_to_check)]

# use the feature 'OSEBuildingID' to merge datasets
df = pd.merge(df_2015, df_2016, on=key)
df.head()

Unnamed: 0,OSEBuildingID,Location,GHGEmissions(MetricTonsCO2e),GHGEmissionsIntensity(kgCO2e/ft2),Comment,Zip Codes,ZipCode,Latitude,Longitude,Comments,TotalGHGEmissions,GHGEmissionsIntensity
0,1,"{'latitude': '47.61219025', 'longitude': '-122...",249.43,2.64,,18081,98101.0,47.6122,-122.33799,,249.98,2.83
1,2,"{'latitude': '47.61310583', 'longitude': '-122...",263.51,2.38,,18081,98101.0,47.61317,-122.33393,,295.86,2.86
2,3,"{'latitude': '47.61334897', 'longitude': '-122...",2061.48,1.92,,18081,98101.0,47.61393,-122.3381,,2089.28,2.19
3,5,"{'latitude': '47.61421585', 'longitude': '-122...",1936.34,31.38,,18081,98101.0,47.61412,-122.33664,,286.43,4.67
4,8,"{'latitude': '47.6137544', 'longitude': '-122....",507.7,4.02,,19576,98121.0,47.61375,-122.34047,,505.01,2.88


En dehors des variables ZipCodes et ZipCode, il s'agit bien des mêmes variables. En fait la variable **Localisation** de 2015 contient toutes les variables suivantes :
- Latitude
- Longitude
- Adress
- City
- State
- ZipCode

Extrayons toutes ces variables de **Localisation**.

### Traitement de la variable localisation

Comme nous avons vu précédemment, plusieurs variables de 2016 sont réunis dans la variable *Localisation* sous forme de dictionnaire. Nous allons recréer ces variables en les extrayant de *Localisation*.

In [8]:
import ast

data_2015 = pd.concat([raw_data_2015.drop('Location', axis=1), # Delete 'Location' column
                       raw_data_2015['Location'].apply(ast.literal_eval) # Convert string into dictionary
                                                .apply(pd.Series)], # Split the dictionary into columns
                      axis=1)

Il reste encore à séparer les données de human_address en plusieurs colonnes.

In [9]:
data_2015 = pd.concat([data_2015.drop('human_address', axis=1), # Delete 'human_address' column
                       data_2015['human_address'].apply(ast.literal_eval) # Convert string into dictionary
                                                 .apply(pd.Series)], # Split the dictionary into columns
                      axis=1)

### Renommer les variables de 2015 comme celles de 2016

In [10]:
data_2015.rename(columns={'GHGEmissions(MetricTonsCO2e)': 'TotalGHGEmissions',
                  'GHGEmissionsIntensity(kgCO2e/ft2)': 'GHGEmissionsIntensity',
                  'Comment': 'Comments',
                  'latitude': 'Latitude',
                  'longitude': 'Longitude',
                  'address': 'Address',
                  'city': 'City',
                  'state': 'State',
                  'zip': 'ZipCode'},
                 inplace=True)

Il ne reste plus qu'à vérifier que toutes les variables de 2016 sont bien présentes dans le jeu de données de 2015.

In [11]:
features_2015 = data_2015.columns.tolist()
features_2016 = raw_data_2016.columns.tolist()
features = [c for c in features_2016 if c in features_2015]
print(len(features))

46


C'est bon, toutes les variables de 2016 sont bien présentes dans le jeu de données de 2015. Il nous reste maintenant à traiter les variables de 2015 non présentes dans le jeu de données de 2016.

### Variables non présentes dans le jeu de données 2016

In [12]:
features = [c for c in features_2015 if c not in features_2016]
print(features)

['OtherFuelUse(kBtu)', '2010 Census Tracts', 'Seattle Police Department Micro Community Policing Plan Areas', 'City Council Districts', 'SPD Beats', 'Zip Codes']


Voici la liste des variables manquantes :

- OtherFuelUse(kBtu)
- 2010 Census Tracts
- Seattle Police Department Micro Community Policing Plan Areas
- City Council Districts
- SPD Beats (ils s'agit de zone de délimitation, elles sont au nombre de cinq à Seattle)
- Zip Codes

Les cinq dernières ne devraient pas changer d'une année à l'autre, et peuvent donc être intégrée au jeu de données de 2016 en reprenant les même valeurs que celles de 2015.

En revanche, ce n'est pas le cas pour **OtherFuelUse(kBtu)**. Il faudra vérifier si on ne peut pas l'obtenir via d'autres variables. Si ce n'est pas le cas, alors il faudra voir si ses valeurs sont négligeables par rapport aux autres sources de consommation.

### Ajout des variables manquantes pour le jeu de données de 2016

In [13]:
feat_to_add =['OSEBuildingID', '2010 Census Tracts',
              'Seattle Police Department Micro Community Policing Plan Areas',
              'City Council Districts',
              'SPD Beats',
              'Zip Codes']

data_2016 = pd.merge(raw_data_2016, data_2015[feat_to_add], how='left', on='OSEBuildingID')

### Traitement de la variable OtherFuelUse(kBtu)

Nous allons commencer par regarder s'il est possible de calculer cette variable à partir de la consommation totale et des autres sources d'énergie.

Puis nous diviserons la différence entre le calcul et la variable *OtherFuelUse(kBtu)* par la consommation totale *SiteEnergyUse(kBtu)*. Cela permettra de vérifier si la différence est négligeable et donc de valider le calcul.

In [14]:
df = data_2015[['SiteEnergyUse(kBtu)', 'SiteEnergyUseWN(kBtu)',
                'SteamUse(kBtu)', 'Electricity(kBtu)', 'NaturalGas(kBtu)', 'OtherFuelUse(kBtu)']].copy()

df['Other_calc'] = df.iloc[:, 0] - df.iloc[:, 2:].sum(axis=1)
df['Other_calc'] = df['Other_calc'] / df.iloc[:, 0]

In [15]:
df.describe()

Unnamed: 0,SiteEnergyUse(kBtu),SiteEnergyUseWN(kBtu),SteamUse(kBtu),Electricity(kBtu),NaturalGas(kBtu),OtherFuelUse(kBtu),Other_calc
count,3330.0,3330.0,3330.0,3330.0,3330.0,3330.0,3328.0
mean,4983106.0,5203055.0,250285.1,3473209.0,1253304.0,7142.301,-0.000246
std,13753300.0,14007570.0,3481900.0,9519639.0,4415142.0,196279.0,0.007625
min,0.0,0.0,0.0,0.0,0.0,0.0,-0.314228
25%,913930.0,988324.8,0.0,636332.2,0.0,0.0,-4.1e-05
50%,1776219.0,1953996.0,0.0,1160236.0,294577.0,0.0,-3.3e-05
75%,4044277.0,4368462.0,0.0,2750847.0,1115366.0,0.0,-2.2e-05
max,295812600.0,297741000.0,127869700.0,284726300.0,136448400.0,8269669.0,1e-06


Pour la majorité des bâtiments, la différence est marginale par rapport à la consommation totale (<0.1%). A noter que les valeurs obtenues après cacul sont sytématiquement plus faibles .

Nous observons de plus, que pour au moins une des observations, la différence est significative, représentant plus de 30% de la consommation totale.  
Vérifions s'il s'agit d'un cas isolé en affichant toutes les observations dont la différence représente plus de 1% de la consommation totale.

In [16]:
outliers = df[df['Other_calc'].abs()>0.001]
print(outliers.shape[0])
outliers

3


Unnamed: 0,SiteEnergyUse(kBtu),SiteEnergyUseWN(kBtu),SteamUse(kBtu),Electricity(kBtu),NaturalGas(kBtu),OtherFuelUse(kBtu),Other_calc
564,5288304.0,5288304.0,0.0,5288523.0,618364.0,0.0,-0.116972
1201,1554939.0,2129737.0,0.0,1482658.0,560886.0,0.0,-0.314228
1308,4217108.0,4217108.0,0.0,4217284.0,1201563.0,0.0,-0.284968


Ces valeurs anomaliques sont seulement au nombre de trois. En y regardant de plus près, nous notons que pour deux d'entre elles la consommation en électricité seule est supérieure à la consommation totale, ce qui est impossible. Il s'agit probablement d'outliers, vérifions s'ils ont été étiquetés comme tels grâce à la variable *Outlier*.

In [17]:
idx = outliers.index
data_2015.loc[idx, ['SiteEnergyUse(kBtu)', 'Electricity(kBtu)', 'Outlier']]

Unnamed: 0,SiteEnergyUse(kBtu),Electricity(kBtu),Outlier
564,5288304.0,5288523.0,
1201,1554939.0,1482658.0,
1308,4217108.0,4217284.0,


Ces observations n'ont pas été étiquetées comme outliers, mais elles le sont néanmoins. Il y a nécessairement une erreur lors du repport de la consommation. Cette dernière étant une des valeurs cibles que l'on cherche à modéliser, il est préférable d'écarter ces *outliers*.

In [18]:
data_2015.drop(index=idx, inplace=True)

Même sans ces outliers, nous avons pour la majorité des bâtiments une consommation totale différente de la somme des consommations, ce qui pourrait être problématique. Nous verrons comment contourner ce problème dans un autre notebook destiné à l'ingénierie de variables, pour l'instant nous allons tout simplement écarter cette variable.

### Création d'un pipeline 

Un pipeline automatisant toutes les opérations décrites ci dessus a été réalisé.  Il permet de s'assurer que le jeu de données de 2015 possède exactement les mêmes variables que celui de 2016.

In [19]:
from functions.cleaning import pipe_2015

data_2015 = pipe_2015(raw_data_2015, raw_data_2016)
data_2015.head()

Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,TaxParcelIdentificationNumber,CouncilDistrictCode,Neighborhood,YearBuilt,NumberofBuildings,...,DefaultData,Comments,ComplianceStatus,Outlier,Latitude,Longitude,Address,City,State,ZipCode
0,1,2015,NonResidential,Hotel,MAYFLOWER PARK HOTEL,659000030,7,DOWNTOWN,1927,1,...,No,,Compliant,,47.61219025,-122.33799744,405 OLIVE WAY,SEATTLE,WA,98101
1,2,2015,NonResidential,Hotel,PARAMOUNT HOTEL,659000220,7,DOWNTOWN,1996,1,...,No,,Compliant,,47.61310583,-122.33335756,724 PINE ST,SEATTLE,WA,98101
2,3,2015,NonResidential,Hotel,WESTIN HOTEL,659000475,7,DOWNTOWN,1969,1,...,Yes,,Compliant,,47.61334897,-122.33769944,1900 5TH AVE,SEATTLE,WA,98101
3,5,2015,NonResidential,Hotel,HOTEL MAX,659000640,7,DOWNTOWN,1926,1,...,No,,Compliant,High Outlier,47.61421585,-122.33660889,620 STEWART ST,SEATTLE,WA,98101
4,8,2015,NonResidential,Hotel,WARWICK SEATTLE HOTEL,659000970,7,DOWNTOWN,1980,1,...,No,,Compliant,,47.6137544,-122.3409238,401 LENORA ST,SEATTLE,WA,98121


## Fusion des deux jeux de données

### Concaténation des données de 2015 et de 2016

Les donnée de 2015 ayant maintenant le même format que ceux de 2016, Il est maintenant possible de les fusionner.

Nous commencerons par créer une nouvelle table qui sera la concaténation des deux années.

In [20]:
raw_data = pd.concat([data_2015, raw_data_2016], ignore_index=True, sort=True)

### Traitement des redondances

Comme dit au début de ce notebook, nous avons certainement des bâtiments (identifiés par OSEBuildingID) qui étaient présents à la fois dans les données de 2015 et celles de 2016. Vérifions si c'est le cas.

In [21]:
mask = (raw_data['OSEBuildingID'].duplicated())
n_dup = raw_data[mask].shape[0]
print("{} redondances sont contenues dans le jeu de données data".format(n_dup))

3284 redondances sont contenues dans le jeu de données data


On observe que c'est le cas pour une majorité des bâtiments.
Pour éviter les redondances, nous pouvons décider de prendre la **moyenne** pour les variables quantitatives, et ne garder que les données de 2016 pour les variables qualitatives.

In [22]:
# Get the mean for each quantitative features
# Gather the values into a new dataframe
df = raw_data.groupby(['OSEBuildingID']).mean()
cols = df.columns

# keep only 2016 values for duplicates
mask = (raw_data['OSEBuildingID'].duplicated(keep=False)) & \
       (raw_data['DataYear']==2015)
idx_to_del = raw_data[mask].index
raw_data = raw_data.drop(index=idx_to_del)

# replace all quantitive values by the mean
cols = df.columns
raw_data = raw_data.set_index('OSEBuildingID')\
                   .drop(columns=cols)\
                   .merge(df, left_index=True, right_index=True)

## Sélection des observations

In [23]:
data = raw_data.copy()

### Données manquantes des variables à modéliser

Bien que nous traiterons plus en détail le traitement des données manquantes lors de l'ingénierie des variables, il est important de traiter tout de suite le cas des attributs cibles que sont :
- TotalGHGEmissions --> émissions de CO2
- SiteEnergyUse(kBtu) --> consommation totale d'énergie

Commençons par utiliser la méthode `describe()` de pandas, méthode qui permet d'obtenir les principales grandeurs statistiques de chaque variable, et notamment le nombre de valeurs renseignées. 

In [24]:
print(data.shape[0])
data[['TotalGHGEmissions', 'SiteEnergyUse(kBtu)']].describe()

3432


Unnamed: 0,TotalGHGEmissions,SiteEnergyUse(kBtu)
count,3428.0,3429.0
mean,119.311982,5398222.0
std,534.287074,21528550.0
min,0.09,0.0
25%,9.56875,929327.2
50%,33.8425,1792235.0
75%,91.89,4195498.0
max,16870.98,873923700.0


Nous constatons deux points problématiques :
1. Certaines données sont manquantes
2. Certains bâtiments ne consomment ou n'émettent rien

Pour le premier point, vu qu'il s'agit des variables que nous cherchons à modéliser, il n'est pas possible d'imputer ces valeurs manquantes. Nous n'avons pas d'autre choix que de retirer les bâtiments non renseignés de l'analyse.

Pour le second point, avoir des bâtiments qui ne consomment aucune énergie semble fort peu probable. Il s'agit certainement d'anomalies et il est préférable de les retirer du jeu de données

In [25]:
# drop missing values
idx_to_keep = data[['TotalGHGEmissions', 'SiteEnergyUse(kBtu)']].dropna().index
print("{} bâtiments vont être écartés.".format(data.shape[0]-idx_to_keep.size))
data = data.loc[idx_to_keep]

# drop outliers
mask = (data['TotalGHGEmissions']==0)|(data['SiteEnergyUse(kBtu)']==0)
idx_to_del = data[mask].index
print("{} bâtiments vont être écartés.".format(len(idx_to_del)))
data.drop(index=idx_to_del, inplace=True)

4 bâtiments vont être écartés.
1 bâtiments vont être écartés.


### Recherche de doublons

In [26]:
data.index.is_unique

True

Il n'y a pas de doublons.

### Traiter les outliers

Nous avons vu précédement qu'une variable *Outlier* permettait de renseigner si des observations étaient des outliers ou non. Vérifions si beaucoup d'outliers ont été identifiés.

In [27]:
data['Outlier'].value_counts()

Low outlier     23
High outlier     9
Low Outlier      3
Name: Outlier, dtype: int64

Au vu du faible nombre d'outliers identifiés, il est préférable de les écarter.

In [28]:
idx = data[data['Outlier'].notna()].index
print("{} bâtiments vont être écartés.".format(idx.size))
data.drop(index=idx, inplace=True)

35 bâtiments vont être écartés.


N'ayant plus besoin de cette variable *Outlier* nous pouvons l'écarter.

In [29]:
data.drop(columns='Outlier', inplace=True)

### Écarter les bâtiments destinés à l'habitation

Vu qu'on s'intéresse uniquement aux bâtiments **non destinés à l'habitation**. Il va donc falloir écarter tous les bâtiments de type habitation, ou dont l'utilisation principale est l'habitation. Nous avons plusieurs variables qui nous informe sur le type de bâtiment, les plus prometteuses semblent être :
- BuildingType
- PrimaryPropertyType

Regardons les un peu plus en détail en commençant par *BuildingType*.

In [30]:
data['BuildingType'].value_counts()

NonResidential          1471
Multifamily LR (1-4)    1024
Multifamily MR (5-9)     582
Multifamily HR (10+)     109
SPS-District K-12         96
Nonresidential COS        84
Campus                    25
Nonresidential WA          1
Name: BuildingType, dtype: int64

Les bâtiments résidentiels semblent être définis sous le nom de **Multifamily**, les deux lettres qui suivent (LR, MR, HR) donnent la taille de la résidence. Ne voulant pas écarter trop vite ces bâtiments nous allons vérifier s'ils sont bien destinés à l'habitation, pour cela nous utiliserons l'autre variable *PrimaryPropertyType*.

In [31]:
data['PrimaryPropertyType'].value_counts()

Low-Rise Multifamily           993
Mid-Rise Multifamily           565
Small- and Mid-Sized Office    295
Other                          260
Warehouse                      187
Large Office                   173
K-12 School                    137
Mixed Use Property             134
High-Rise Multifamily          104
Retail Store                    92
Hotel                           76
Worship Facility                70
Distribution Center             53
Senior Care Community           45
Medical Office                  42
Supermarket / Grocery Store     40
Self-Storage Facility           28
University                      25
Residence Hall                  23
Restaurant                      12
Refrigerated Warehouse          12
Hospital                        10
Laboratory                      10
Office                           3
Non-Refrigerated Warehouse       2
Restaurant\n                     1
Name: PrimaryPropertyType, dtype: int64

Nous retrouvons nos *Multifamily*, mais nous constatons que bien plus de type de bâtiments sont présents. De plus, le nombre de bâtiments définis par la catégorie Multifamily semble être plus faible.

In [32]:
n_bt = 1024 + 582 + 109
n_ppt = 993 + 565 + 104
print("{} observations sont considérées comme des habitations par BuildingType".format(n_bt))
print("{} observations sont considérées comme des habitations par PrimaryPropertyType".format(n_ppt))

1715 observations sont considérées comme des habitations par BuildingType
1662 observations sont considérées comme des habitations par PrimaryPropertyType


Notre doute est confirmé, il y a moins de bâtiments définis comme résidentiels par la variable *PrimaryPropertyType* que par *BuildingType*.  
Essayons de comprendre pourquoi.  
Pour cela, nous filtrerons les données pour ne garder que les bâtiments associés à des petites résidences par *BuildingType*, et nous regarderons quelles sont les valeurs prises par *PrimaryPropertyType*.

In [33]:
data[data['BuildingType']=='Multifamily LR (1-4)']['PrimaryPropertyType'].value_counts()

Low-Rise Multifamily           991
Senior Care Community           16
Mixed Use Property              11
Other                            4
Small- and Mid-Sized Office      1
University                       1
Name: PrimaryPropertyType, dtype: int64

Nous constatons que la variable *BuildingType* n'est pas assez précise, pour certains bâtiments elle les définit comme étant des résidences bien que leur utilisation principale ne soit pas liée à l'habitation.

**Pour filtrer nos données nous utiliserons donc la variable *PrimaryPropertyType*.**

In [34]:
list_housing = ['Low-Rise Multifamily', 'Mid-Rise Multifamily', 'High-Rise Multifamily']
idx_to_del = data[data['PrimaryPropertyType'].isin(list_housing)].index
data.drop(index=idx_to_del, inplace=True)

## Nettoyage des variables liées à la consommation

### Vérifier que les consommations sont bien positives

In [35]:
col_conso = ['SiteEnergyUse(kBtu)',
             'SiteEnergyUseWN(kBtu)',
             'SteamUse(kBtu)', 'Electricity(kWh)',
             'Electricity(kBtu)',
             'NaturalGas(therms)',
             'NaturalGas(kBtu)']
data[col_conso].describe()

Unnamed: 0,SiteEnergyUse(kBtu),SiteEnergyUseWN(kBtu),SteamUse(kBtu),Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu)
count,1730.0,1730.0,1730.0,1730.0,1730.0,1730.0,1730.0
mean,8437938.0,8117610.0,519596.6,1705596.0,5819605.0,19963.33,1996333.0
std,29838920.0,21865190.0,5323068.0,6003405.0,20483780.0,93231.35,9323135.0
min,55267.1,0.0,0.0,2.0,7.0,0.0,0.0
25%,1258452.0,1362442.0,0.0,219084.7,747531.2,0.0,0.0
50%,2596633.0,2766642.0,0.0,496267.7,1693300.0,5236.24,523611.0
75%,6940680.0,7296196.0,0.0,1421993.0,4851950.0,15400.53,1540050.0
max,873923700.0,471613900.0,131406600.0,192577500.0,657074400.0,2979090.0,297909000.0


Les valeurs sont bien positives ou nulles

### Vérifier les conversions

En parcourant les variables de consommation disponibles, nous notons que certaines variables donnent la même information, mais avec des unités différentes :
- Electricity(kBtu) et Electricity(kWh)
- 'NaturalGas(kBtu)' et 'NaturalGas(therms)'

L'unité usuelle pour *l'éléctricité* est le *kiloWatt heure (kWh)*. La consommation énergétique totale étant exprimée en *kBtu*, la consommation électrique mesurée en kWh a certainement été convertie en kBtu pour pouvoir la comparer à la consommation totale.
Si la conversion a bien été effectuée, le ratio consommation électrique en kWh sur consommation électrique en kBtu, devrait être le même pour toute les observations, ie. *3.41214*.

In [36]:
test_elec = data['Electricity(kBtu)'] / data['Electricity(kWh)']
test_elec.describe()

count    1730.000000
mean        3.412121
std         0.002114
min         3.411906
25%         3.412068
50%         3.412071
75%         3.412073
max         3.500000
dtype: float64

Si pour la majorité le résultat obtenu est très proche de la valeur exacte, il n'est pas le même pour toutes les obervations. Cela rajoute inutilement du bruit aux données et pourrait abaisser les performances du modèle, il est donc préférable de corriger cette variable.

In [37]:
data['Electricity(kBtu)_corr'] = data['Electricity(kWh)'] * 3.41214

Regardons maintenant le *gaz naturel*.

Aux Etats-Unis, la quantité de gaz naturel consommé est exprimé en *therms* sur les factures. Là encore, cette valeur a été convertie en KBtu pour pouvoir la comparer à la consommation énergétique totale. Ici, la conversion est très simple vu qu'il suffit de multiplier par *100* pour passer des *therms* aux *kBtu*.
Verifions si la conversion a bien été effectuée.

In [38]:
test_gas = data['NaturalGas(kBtu)'] / data['NaturalGas(therms)']
test_gas.describe()

count    1270.000000
mean      100.026619
std         0.723291
min        95.489691
25%        99.999171
50%       100.000000
75%       100.000900
max       122.000000
dtype: float64

Nous observons comme pour l'électricité que la conversion n'a pas été bien effectuée pour toutes les données, là encore il faut corriger les donnée en utilisant le bon taux de conversion.

In [39]:
data['NaturalGas(kBtu)_corr'] = data['NaturalGas(therms)'] * 100

Il est en général préférable d'éviter d'avoir des variables redondantes, au risque sinon de voir des variables sur-représentés lors de la modélisation. Nous garderons que les consommations exprimées en kBtu (la version corrigée pour l'électricité et le gaz naturel)

In [40]:
col_to_del = ['Electricity(kBtu)', 'Electricity(kWh)', 'NaturalGas(kBtu)', 'NaturalGas(therms)']
data.drop(columns=col_to_del, inplace=True)

## Réalisation d'un pipeline

Un deuxième pipeline a été créé afin de réaliser toutes les modifications citées dans les parties précédentes.

In [41]:
from functions.cleaning import pipe_cleaning

data = raw_data.copy()
# Clean original datasets
data = pipe_cleaning(data)
# export in csv format the cleaned datasets
data.to_csv("data/data_cleaned.csv")

4 buildings have been discarded due to missing data for target features.
1 outliers have been dropped
There is no duplicate data
35 buildings have been discarded since considered as outliers.
1687 buildings dedicated mainly to housing have been discarded
