# Anticipez les besoins en consommation électrique de bâtiments

- **Projet 4 du parcours « Data Scientist » d’OpenClassrooms**
- **Mark Creasey**

## Partie 1 : Nettoyage et analyse exploratoire des données

<img width="200" src="https://user.oc-static.com/upload/2019/02/24/15510245026714_Seattle_logo_landscape_blue-black.png" alt="Logo seattle">


# 1. Compréhension du problème

## 1.1 Mission

À partir des [relevés déjà réalisés en 2015 et 2016](https://www.kaggle.com/city-of-seattle/sea-building-energy-benchmarking#2015-building-energy-benchmarking.csv) :

- **prédire les émissions de CO2** et la **consommation totale d’énergie** de bâtiments commerciales en Seattle pour lesquels elles n’ont pas encore été mesurées, basé sur les données déclaratives du permis d'exploitation commerciale (taille et usage des bâtiments, mention de travaux récents, date de construction…).

- **évaluer l’intérêt de l’[ENERGY STAR Score](https://www.energystar.gov/buildings/facility-owners-and-managers/existing-buildings/use-portfolio-manager/interpret-your-results/what) pour la prédiction d’émissions**.


### 1.1.1 Quelles variables pour prédire les consommations / emissions CO2 ?

Il faut prédire les targets uniquement avec les données disponibles sur le permis d'exploitation commerciale :

- on ne peut pas utiliser les relevés de consommation d'électricité, de gaz, etc comme paramètres des prévisions.
- on peut utiliser type d'usage, surface, nombre d'étages, moyenne de chauffage, ...


### 1.1.2 Quels bâtiments à inclure dans les prévisions ?

Il faut prédire les targets uniquement pour les bâtiments commerciaux.

Donc, il faut éliminer les bâtiments residential, si possible.


## 1.2 Requirements : Bibliothèques utilisées dans ce notebook

- voir [`requirements.txt`](./requirements.txt) pour les versions des bibliothèques testées avec ce notebook

### 1.2.1 Import des bibliothèques


In [23]:
import os
import json
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy


### 1.2.2 Liste des versions des bibliothèques utilisées


In [24]:
from platform import python_version

python_version()
print('versions des bibliothèques utilisées:')
print('; '.join(f'{m.__name__}=={m.__version__}' for m in globals(
).values() if getattr(m, '__version__', None)))


versions des bibliothèques utilisées:
json==2.0.9; numpy==1.21.5; pandas==1.1.5; seaborn==0.11.2; scipy==1.7.3


### 1.2.3 Configuration défauts d'affichage


In [25]:
pd.set_option('display.max_columns', 200)  # pour afficher toutes les colonnes
pd.set_option('display.max_rows', 10)  # pour afficher max 10 lignes
pd.set_option('display.max_colwidth', 800)  # pour afficher toutes la text
# pd.set_option('display.precision', 2)

%matplotlib inline
sns.set_theme(style="white", context="notebook")
sns.set_color_codes("pastel")
sns.set_palette("tab20")


## 1.3 Des fonctions utilitaires

### 1.3.1 Enregistrement des graphiques

Pour enregistrer les graphiques, define **`SAVE_IMAGES = True`**


In [26]:
SAVE_IMAGES = True
IMAGE_FOLDER = './images'
if not os.path.exists(IMAGE_FOLDER):
    os.makedirs(IMAGE_FOLDER)


def to_png(fig_name=None):
    """
    Enregistre l'image dans un fichier,
    il faut appeler avant plt.show() pour pouvoir ajuster la taille de l'image
    avec bbox_inches=tight pour être sûr d'inclure le titre / legend entier.
    """

    def get_title():
        if plt.gcf()._suptitle is None:  # noqa
            return plt.gca().get_title()
        else:
            return plt.gcf()._suptitle.get_text()  # noqa

    if SAVE_IMAGES:
        if fig_name is None:
            fig_name = get_title()
        elif len(fig_name) < 9:
            fig_name = f'{fig_name}_{get_title()}'
        fig_name = fig_name.replace(' ', '_').replace(
            ':', '-').replace('.', '-').replace('/', '_')
        print(f'"{fig_name}.png"')
        plt.gcf().savefig(
            f'{IMAGE_FOLDER}/{fig_name}.png', bbox_inches='tight')


## 1.4 Des routines statistiques

Les routines statistiques utilisées dans ce notebook sont regroupés dans cette section :

- format des outputs
- normalité d'une série
- homoscédasticité de groupes pour une série


In [27]:
def format_stat_p(stat, p, name=None):
    ch = f'{name} : ' if name else ''
    ch += f'stat={stat:.3f}, p={p:.3f}'
    if p < 0.001:
        ch += '***'
    elif p < 0.01:
        ch += '**'
    elif p < 0.05:
        ch += '*'
    return ch


### 1.4.1 Des tests de normalité

- S'il y a moins de 50 observations, utilise Shapiro test,
- Sinon, utilise 'NormalTest' fourni par scipy qui est basé sur D’Agostino et Pearson.

Un alternatif est d'utiliser le test de Kolmogorov-Smirnov avec comparaison à la distribution normal ('goodness of fit')


In [28]:
from scipy.stats import shapiro, kstest


def test_normality(series: pd.Series, alpha=0.05):
    s = series.astype(float).dropna()
    if len(s) < 3:
        # il faut au moins 3 points
        return
    if len(s) < 50:
        stat, p = shapiro(s)
        ch = format_stat_p(stat, p, name=f'Shapiro [{s.name}]')
    else:
        stat, p = kstest(s, cdf='norm')
        ch = format_stat_p(stat, p, name=f'Kolmogorov-Smirnov [{s.name}]')
        # stat, p = normaltest(s)
        # ch = format_stat_p(stat, p, name=f'NormalTest [{s.name}]')
    if p > alpha:
        choix = 'accept H0: probablement Gaussian'
    else:
        choix = 'reject H0: probablement pas Gaussian'
    return p, ch, choix


### 1.4.2 Tests d'égalité de variance des groupes (homoscédasticité)

- si les groupes ont toutes une distribution normale, utilise Bartlett (test paramétrique)
- sinon, utilise Levene (test non paramétrique)


In [29]:
def group_by_groups(df: pd.DataFrame, y_var: str, groups_var: str) -> list:
    """Créer une liste de groupes de y_var pour tests statistiques entre groupes"""
    data = df[[y_var, groups_var]].dropna()
    # certain tests n'accepte pas type int
    data[y_var] = data[y_var].astype(float)
    groups = []
    group_names = data[groups_var].unique()
    group_names.sort()
    for group_name in group_names:
        groups.append(data[data[groups_var] == group_name]
                      [y_var].rename(group_name))
    return groups


def get_grp_size(groups: list) -> str:
    group_sizes = [len(g) for g in groups]
    return f'(n={np.sum(group_sizes)}), {group_sizes}'


In [30]:

from scipy.stats import bartlett, levene


def test_homoscedascity(groups: list, normality=False, alpha=0.05):
    print(f'test_homoscedascity groups : {get_grp_size(groups)}')
    if normality:
        stat, p = bartlett(*groups)
        ch = format_stat_p(stat, p, 'Bartlett homoscédasticité')
    else:
        stat, p = levene(*groups)
        ch = format_stat_p(stat, p, 'Levene homoscédasticité')
    if p > alpha:
        choix = 'accept H0: les groupes ont un écart type similaire'
    else:
        choix = 'reject H0: les groupes ont des écart types différents'
    return p, ch, choix


# 2. Import et nettoyage des données

Les données de consommation sont à télécharger à [cette adresse](https://www.kaggle.com/city-of-seattle/sea-building-energy-benchmarking#2015-building-energy-benchmarking.csv).


## 2.1 Description des données (metadata)

- les descriptions des champs sont fournies par les fichiers metadata (format json)
- conversion en CSV pour faciliter la lecture


In [31]:
import os
import json


def create_data_dict_csv_from_json(file: str, outfile: str) -> pd.DataFrame:
    if os.path.exists(outfile):
        return pd.read_csv(outfile).iloc[:, -3:]
    data = json.loads(open(file, "r").read())
    df = pd.json_normalize([data], record_path='columns', max_level=0)
    df = df[['name', 'dataTypeName', 'description']]
    df.to_csv(outfile)
    return df


meta2015 = 'data/raw/socrata_metadata_2015-building-energy-benchmarking.json'
meta2016 = 'data/raw/socrata_metadata_2016-building-energy-benchmarking.json'

if not os.path.exists('data/out'):
    os.makedirs('data/out')
out2015 = 'data/out/datadict2015.csv'
out2016 = 'data/out/datadict2016.csv'

dict2015 = create_data_dict_csv_from_json(meta2015, out2015)
dict2016 = create_data_dict_csv_from_json(meta2016, out2016)
print(f'2015 : il y a {len(dict2015)} colonnes')
print(f'2016 : il y a {len(dict2016)} colonnes')


2015 : il y a 47 colonnes
2016 : il y a 46 colonnes


### 2.1.1 Les variables cibles (targets) à prédire

En regardent les descriptions des champs (les fichiers CSV), on voit que les champs à prédire sont :

- `SiteEnergyUse(kBtu)` = **consommation totale d’énergie**
- `TotalGHGEmissions` = **les émissions de CO2 (equivalence)**

Ces 2 champs sont probablement fortement corrélés avec `PropertyGFABuilding(s)` = le surface totale intérieure du bâtiment : On attend qu'un gros bâtiment aura plus de consommation d'énergie qu'un petit bâtiment, pour la même type d'usage.

#### 2.1.1.1 Les variables alternatifs à prédire

Sans transformation des residues d'erreur, la modèle risque de mettre trop de poids pour les gros bâtiments. Une façon de réduire le poids des grands bâtiments sera de prédire :

- `SiteEUI(kBtu/sf)` = **consommation totale d’énergie** divisé par surface totale intérieure du bâtiment
- `GHGEmissionsIntensity` = **les émissions de CO2 (equivalence)** divisé par surface totale intérieure du bâtiment

Puis, multiplié ces previsions par la surface totale du bâtiment pour arriver à la prévision de consommation totale d'énergie.

On évaluera les effets pendant la modélisation


In [32]:
target_cols = ['SiteEnergyUse(kBtu)', 'SiteEUI(kBtu/sf)',
               'TotalGHGEmissions', 'GHGEmissionsIntensity']

dict2016[dict2016['name'].isin(target_cols)]


Unnamed: 0,name,dataTypeName,description
29,SiteEUI(kBtu/sf),number,"Site Energy Use Intensity (EUI) is a property's Site Energy Use divided by its gross floor area. Site Energy Use is the annual amount of all the energy consumed by the property on-site, as reported on utility bills. Site EUI is measured in thousands of British thermal units (kBtu) per square foot."
33,SiteEnergyUse(kBtu),number,The annual amount of energy consumed by the property from all sources of energy.
44,TotalGHGEmissions,text,"The total amount of greenhouse gas emissions, including carbon dioxide, methane, and nitrous oxide gases released into the atmosphere as a result of energy consumption at the property, measured in metric tons of carbon dioxide equivalent. This calculation uses a GHG emissions factor from Seattle CIty Light's portfolio of generating resources. This uses Seattle City Light's 2015 emissions factor of 52.44 lbs CO2e/MWh until the 2016 factor is available. Enwave steam factor = 170.17 lbs CO2e/MMBtu. Gas factor sourced from EPA Portfolio Manager = 53.11 kg CO2e/MBtu."
45,GHGEmissionsIntensity,text,"Total Greenhouse Gas Emissions divided by property's gross floor area, measured in kilograms of carbon dioxide equivalent per square foot. This calculation uses a GHG emissions factor from Seattle City Light's portfolio of generating resources"


#### 2.1.1.2 Evaluation des champs associés ('Weather-Normalized') et 'SourceEUI'

Les données contiennent les champs de consommation, ajusté pour prendre en compte la météo ('Weather Normalized').

Si on utilise ces champs pour prédire la consommation énergétique on perd la variation causée par la météo, qu'on ne peut pas prévoir.

Ça peut réduire le bias causé par des années de météo exceptionnel.

Pourtant, l'objectif n'est pas de prédire la consommation énergétique ajustée à la météo des dernières 30 ans.

L'objectif n'est pas non plus d'inclure aussi les pertes d'énergie pendant transmission (sourceEUI)

Donc on ignore ces colonnes.


In [33]:
dict2016[dict2016['name'].str.contains('WN')]


Unnamed: 0,name,dataTypeName,description
30,SiteEUIWN(kBtu/sf),number,Weather Normalized (WN) Site Energy Use Intensity (EUI) is a property's WN Site Energy divided by its gross floor area (in square feet). WN Site Energy is the Site Energy Use the property would have consumed during 30-year average weather conditions. WN Site EUI is measured in measured in thousands of British thermal units (kBtu) per square foot.
32,SourceEUIWN(kBtu/sf),number,Weather Normalized (WN) Source Energy Use Intensity (EUI) is a property's WN Source Energy divided by its gross floor area. WN Source Energy is the Source Energy Use the property would have consumed during 30-year average weather conditions. WN Source EUI is measured in measured in thousands of British thermal units (kBtu) per square foot.
34,SiteEnergyUseWN(kBtu),number,"The annual amount of energy consumed by the property from all sources of energy, adjusted to what the property would have consumed during 30-year average weather conditions."


### 2.1.2 Les variables pertinentes pour prédire les variables cibles

Avant de nettoyer les données, il faut un model mental des possibles interactions

Regardent les métadonnées, les variables potentiellement intéressantes sont :

- La localisation du bâtiment (ilots de chaleur ?, effet de l'océan ?, effet de densité des bâtiments)
- Ses types d'usage et pourcentages pour chaque usage :
  - énergie = somme(%usage \* SiteEUI_par_type_usage)


In [34]:
cols_local = ['Address', 'City', 'CouncilDistrictCode',
              'Latitude', 'Longitude', 'Neighborhood', 'ZipCode']
cols_physique = ['NumberofBuildings', 'NumberofFloors',
                 'PropertyGFABuilding(s)', 'YearBuilt']
cols_surface = ['PropertyGFAParking', 'PropertyGFATotal']
cols_primary_usage = ['BuildingType', 'PrimaryPropertyType',
                      'LargestPropertyUseType', 'LargestPropertyUseTypeGFA']
cols_second_usage = ['SecondLargestPropertyUseType',
                     'SecondLargestPropertyUseTypeGFA']
cols_third_usage = ['ThirdLargestPropertyUseType',
                    'ThirdLargestPropertyUseTypeGFA']
cols_usage = ['LargestPropertyUseType']
cols_energy = ['ENERGYSTARScore']
cols_indisponible = ['Electricity(kBtu)', 'Electricity(kWh)', 'NaturalGas(kBtu)', 'NaturalGas(therms)',
                     'SteamUse(kBtu)']


### 2.1.3 Est-ce que les données de 2015 et 2016 sont compatibles ?


In [35]:
cols_commun = set(dict2015['name']).intersection(set(dict2016['name']))
cols_unique2015 = set(dict2015['name']).difference(set(dict2016['name']))
cols_unique2016 = set(dict2016['name']).difference(set(dict2015['name']))
print(f'Il y a {len(cols_commun)} colonnes commun aux données 2015 et 2016')
print(f'Colonnes unique à année 2015 : {sorted(cols_unique2015)}')
print(f'Colonnes unique à année 2016 : {sorted(cols_unique2016)}')


Il y a 37 colonnes commun aux données 2015 et 2016
Colonnes unique à année 2015 : ['2010 Census Tracts', 'City Council Districts', 'Comment', 'GHGEmissions(MetricTonsCO2e)', 'GHGEmissionsIntensity(kgCO2e/ft2)', 'Location', 'OtherFuelUse(kBtu)', 'SPD Beats', 'Seattle Police Department Micro Community Policing Plan Areas', 'Zip Codes']
Colonnes unique à année 2016 : ['Address', 'City', 'Comments', 'GHGEmissionsIntensity', 'Latitude', 'Longitude', 'State', 'TotalGHGEmissions', 'ZipCode']


### 2.1.4 Taches à faire pour pouvoir intégrer les 2 jeux de données

L'intégration des 2 jeux de données augmentera la taille du jeu de données, qui doit améliorer les capacités de prédiction. Pour le faire il faut :

1. Renommer quelque colonnes de 2015

| colonne en 2015                   | colonne en 2016       |
| --------------------------------- | --------------------- |
| GHGEmissions(MetricTonsCO2e)      | TotalGHGEmissions     |
| GHGEmissionsIntensity(kgCO2e/ft2) | GHGEmissionsIntensity |
| Zip Codes                         | ZipCode               |
| Comment                           | Comments              |

2. Voir si la colonne 'Location' de 2015 contient les champs de localisation utilisés en 2016 (Latitude, Longitude, Address, City, State), et faire l'extraction.

3. Évaluer l'utilité des colonnes présent seulement en 2015 ('2010 Census Tracts', 'City Council Districts', 'SPD Beats', 'Seattle Police Department Micro Community Policing Plan Areas')

4. Vérifier que les 2 échantillons d'observations (2015, 2016) de consommation énergétique et emissions CO2 ne sont pas significativement différents

Si ont fait l'intégration des 2 années **avant nettoyage**, on va supposer qu'ils sont de la même population pour pouvoir les nettoyer ensemble.


## 2.2 Import des données

### 2.2.1 Import des données de 2015


In [36]:
def import_donnees(filename) -> pd.DataFrame:
    return pd.read_csv(filename, encoding='utf-8')


data2015 = import_donnees('data/raw/2015-building-energy-benchmarking.csv')
print(data2015.shape)
print(data2015.info(verbose=False))
data2015.head(3)


(3340, 47)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3340 entries, 0 to 3339
Columns: 47 entries, OSEBuildingID to Zip Codes
dtypes: float64(23), int64(9), object(15)
memory usage: 1.2+ MB
None


Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,TaxParcelIdentificationNumber,Location,CouncilDistrictCode,Neighborhood,YearBuilt,NumberofBuildings,NumberofFloors,PropertyGFATotal,PropertyGFAParking,PropertyGFABuilding(s),ListOfAllPropertyUseTypes,LargestPropertyUseType,LargestPropertyUseTypeGFA,SecondLargestPropertyUseType,SecondLargestPropertyUseTypeGFA,ThirdLargestPropertyUseType,ThirdLargestPropertyUseTypeGFA,YearsENERGYSTARCertified,ENERGYSTARScore,SiteEUI(kBtu/sf),SiteEUIWN(kBtu/sf),SourceEUI(kBtu/sf),SourceEUIWN(kBtu/sf),SiteEnergyUse(kBtu),SiteEnergyUseWN(kBtu),SteamUse(kBtu),Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),OtherFuelUse(kBtu),GHGEmissions(MetricTonsCO2e),GHGEmissionsIntensity(kgCO2e/ft2),DefaultData,Comment,ComplianceStatus,Outlier,2010 Census Tracts,Seattle Police Department Micro Community Policing Plan Areas,City Council Districts,SPD Beats,Zip Codes
0,1,2015,NonResidential,Hotel,MAYFLOWER PARK HOTEL,659000030,"{'latitude': '47.61219025', 'longitude': '-122.33799744', 'human_address': '{""address"": ""405 OLIVE WAY"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98101""}'}",7,DOWNTOWN,1927,1,12.0,88434,0,88434,Hotel,Hotel,88434.0,,,,,,65.0,78.9,80.3,173.5,175.1,6981428.0,7097539.0,2023032.0,1080307.0,3686160.0,12724.0,1272388.0,0.0,249.43,2.64,No,,Compliant,,,14.0,,31.0,18081
1,2,2015,NonResidential,Hotel,PARAMOUNT HOTEL,659000220,"{'latitude': '47.61310583', 'longitude': '-122.33335756', 'human_address': '{""address"": ""724 PINE ST"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98101""}'}",7,DOWNTOWN,1996,1,11.0,103566,15064,88502,"Hotel, Parking, Restaurant",Hotel,83880.0,Parking,15064.0,Restaurant,4622.0,,51.0,94.4,99.0,191.3,195.2,8354235.0,8765788.0,0.0,1144563.0,3905411.0,44490.0,4448985.0,0.0,263.51,2.38,No,,Compliant,,,14.0,,31.0,18081
2,3,2015,NonResidential,Hotel,WESTIN HOTEL,659000475,"{'latitude': '47.61334897', 'longitude': '-122.33769944', 'human_address': '{""address"": ""1900 5TH AVE"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98101""}'}",7,DOWNTOWN,1969,1,41.0,961990,0,961990,"Hotel, Parking, Swimming Pool",Hotel,757243.0,Parking,100000.0,Swimming Pool,0.0,,18.0,96.6,99.7,242.7,246.5,73130656.0,75506272.0,19660404.0,14583930.0,49762435.0,37099.0,3709900.0,0.0,2061.48,1.92,Yes,,Compliant,,,56.0,,31.0,18081


### 2.2.2 Import des données de 2016


In [37]:
data2016 = import_donnees('data/raw/2016-building-energy-benchmarking.csv')
print(data2016.shape)
print(data2016.info(verbose=False))
data2016.head(3)


(3376, 46)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3376 entries, 0 to 3375
Columns: 46 entries, OSEBuildingID to GHGEmissionsIntensity
dtypes: bool(1), float64(22), int64(8), object(15)
memory usage: 1.2+ MB
None


Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,Address,City,State,ZipCode,TaxParcelIdentificationNumber,CouncilDistrictCode,Neighborhood,Latitude,Longitude,YearBuilt,NumberofBuildings,NumberofFloors,PropertyGFATotal,PropertyGFAParking,PropertyGFABuilding(s),ListOfAllPropertyUseTypes,LargestPropertyUseType,LargestPropertyUseTypeGFA,SecondLargestPropertyUseType,SecondLargestPropertyUseTypeGFA,ThirdLargestPropertyUseType,ThirdLargestPropertyUseTypeGFA,YearsENERGYSTARCertified,ENERGYSTARScore,SiteEUI(kBtu/sf),SiteEUIWN(kBtu/sf),SourceEUI(kBtu/sf),SourceEUIWN(kBtu/sf),SiteEnergyUse(kBtu),SiteEnergyUseWN(kBtu),SteamUse(kBtu),Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),DefaultData,Comments,ComplianceStatus,Outlier,TotalGHGEmissions,GHGEmissionsIntensity
0,1,2016,NonResidential,Hotel,Mayflower park hotel,405 Olive way,Seattle,WA,98101.0,659000030,7,DOWNTOWN,47.6122,-122.33799,1927,1.0,12,88434,0,88434,Hotel,Hotel,88434.0,,,,,,60.0,81.699997,84.300003,182.5,189.0,7226362.5,7456910.0,2003882.0,1156514.0,3946027.0,12764.5293,1276453.0,False,,Compliant,,249.98,2.83
1,2,2016,NonResidential,Hotel,Paramount Hotel,724 Pine street,Seattle,WA,98101.0,659000220,7,DOWNTOWN,47.61317,-122.33393,1996,1.0,11,103566,15064,88502,"Hotel, Parking, Restaurant",Hotel,83880.0,Parking,15064.0,Restaurant,4622.0,,61.0,94.800003,97.900002,176.100006,179.399994,8387933.0,8664479.0,0.0,950425.2,3242851.0,51450.81641,5145082.0,False,,Compliant,,295.86,2.86
2,3,2016,NonResidential,Hotel,5673-The Westin Seattle,1900 5th Avenue,Seattle,WA,98101.0,659000475,7,DOWNTOWN,47.61393,-122.3381,1969,1.0,41,956110,196718,759392,Hotel,Hotel,756493.0,,,,,,43.0,96.0,97.699997,241.899994,244.100006,72587024.0,73937112.0,21566554.0,14515440.0,49526664.0,14938.0,1493800.0,False,,Compliant,,2089.28,2.19


### 2.2.3 Combien de bâtiments en commun entre 2015 et 2016

Les premiers 3 registres de 2015 et 2016 font référence aux mêmes bâtiments (clé = `OSEBuildingID`), même si le 'PropertyName' peut changer d'une année à l'autre.

- (2016 a 36 registres plus que 2015).


In [38]:
nb_bat_commun = len(
    data2015[data2015['OSEBuildingID'].isin(data2016['OSEBuildingID'])])
nb_bat_2015_seul = len(data2015) - nb_bat_commun
nb_bat_2016_seul = len(data2016) - nb_bat_commun

print(f'bâtiments commun à 2015 et 2016 : {nb_bat_commun}')
print(f'bâtiments 2015 seul : {nb_bat_2015_seul}')
print(f'bâtiments 2016 seul : {nb_bat_2016_seul}')


bâtiments commun à 2015 et 2016 : 3284
bâtiments 2015 seul : 56
bâtiments 2016 seul : 92


- Plus que 98% des bâtiments de 2015 sont dans le jeu de données 2016 (3284/3340)

- Plus que 97% des bâtiments de 2016 sont dans le jeu de données 2015 (3284/3376)

Verifier que l'identifiant 'OSEBuildingID' est la même bâtiment en 2015 et 2016 :


In [39]:
bat_communs = (pd.merge(
    left=data2015[['OSEBuildingID', 'PropertyName']],
    right=data2016[['OSEBuildingID', 'PropertyName']],
    how='inner', on='OSEBuildingID')
    .set_index('OSEBuildingID'))

bat_communs.tail()


Unnamed: 0_level_0,PropertyName_x,PropertyName_y
OSEBuildingID,Unnamed: 1_level_1,Unnamed: 2_level_1
50049,PACIFIC CENTER CONDOMINIUM,PACIFIC CENTER CONDOMINIUM (ID50049)
50055,IDENTITY APTS 4123,129610 - Identity Seattle Building D
50057,CIRRUS,Cirrus
50058,WEDGEWOOD ESTATES BLDG A,Wedgewood Estates Building A
50059,WEDGEWOOD ESTATES BLDG B,Wedgewood Estates Building B


### 2.2.4 Vérification qu'on peut fusionner les 2 tables


In [40]:
dtypes = pd.concat([data2015.dtypes.rename('2015'),
                    data2016.dtypes.rename('2016')], axis=1)
dtypes.T


Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,TaxParcelIdentificationNumber,Location,CouncilDistrictCode,Neighborhood,YearBuilt,NumberofBuildings,NumberofFloors,PropertyGFATotal,PropertyGFAParking,PropertyGFABuilding(s),ListOfAllPropertyUseTypes,LargestPropertyUseType,LargestPropertyUseTypeGFA,SecondLargestPropertyUseType,SecondLargestPropertyUseTypeGFA,ThirdLargestPropertyUseType,ThirdLargestPropertyUseTypeGFA,YearsENERGYSTARCertified,ENERGYSTARScore,SiteEUI(kBtu/sf),SiteEUIWN(kBtu/sf),SourceEUI(kBtu/sf),SourceEUIWN(kBtu/sf),SiteEnergyUse(kBtu),SiteEnergyUseWN(kBtu),SteamUse(kBtu),Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),OtherFuelUse(kBtu),GHGEmissions(MetricTonsCO2e),GHGEmissionsIntensity(kgCO2e/ft2),DefaultData,Comment,ComplianceStatus,Outlier,2010 Census Tracts,Seattle Police Department Micro Community Policing Plan Areas,City Council Districts,SPD Beats,Zip Codes,Address,City,State,ZipCode,Latitude,Longitude,Comments,TotalGHGEmissions,GHGEmissionsIntensity
2015,int64,int64,object,object,object,object,object,int64,object,int64,int64,float64,int64,int64,int64,object,object,float64,object,float64,object,float64,object,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,object,object,object,object,float64,float64,float64,float64,int64,,,,,,,,,
2016,int64,int64,object,object,object,object,,int64,object,int64,float64,int64,int64,int64,int64,object,object,float64,object,float64,object,float64,object,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,float64,,,,bool,,object,object,,,,,,object,object,object,float64,float64,float64,float64,float64,float64


On voit que certaines colonnes n'ont pas la même type pour en 2015 et 2016 :


In [41]:
# ignore les colonnes qui ne sont pas present en 2015 ou 2016
dtypes_different = dtypes[dtypes['2015'] != dtypes['2016']].dropna()
dtypes_different


Unnamed: 0,2015,2016
NumberofBuildings,int64,float64
NumberofFloors,float64,int64
DefaultData,object,bool


Les 'dtypes_different' entre des années ne pose pas un problème :

- Quand on fait la concatenation des 2 datasets, le nouveau dataset aura le dtype qui permet de prendre toutes les données sans erreur
- _note_ : dans la version de pandas utilisés ici, 'int64' et 'bool' n'accepte pas les valeurs 'np.NaN' : les colonnes sont converties en 'float64' et 'object' quand on ajoute les NaN


In [42]:
pd.concat([data2015, data2016], axis=0)[dtypes_different.index].dtypes


NumberofBuildings    float64
NumberofFloors       float64
DefaultData           object
dtype: object

## 2.3 Description de données (après import)

- Renommer target colonnes 2015 pour comparer avec 2016
- Description des variables à prédire (plus 'ENERGYStarScore')
- Description des variables numériques
- Description des variables catégoriques


### 2.3.1 Renommer target colonnes 2015 pour comparer avec 2016


In [43]:
def renommer_cols(df):
    df = df.rename(
        columns={'GHGEmissions(MetricTonsCO2e)': 'TotalGHGEmissions'})
    df = df.rename(
        columns={'GHGEmissionsIntensity(kgCO2e/ft2)': 'GHGEmissionsIntensity'})
    df = df.rename(columns={'Zip Codes': 'ZipCode'})
    df = df.rename(columns={'Comment': 'Comments'})
    return df


data2015 = data2015.pipe(renommer_cols)


### 2.3.2 Description des variables à prédire

#### 2.3.2.1 Est-ce que la consommation énergétique et emissions CO2 sont les mêmes pour 2015 et 2016 ?

Est-ce qu'on peut fusionner les 2 jeux de données sans ajuster les valeurs de consommation ?


In [44]:
print(data2015.shape)
print(data2016.shape)
data_df = pd.concat([data2015, data2016]).reset_index(drop=True)
print(data_df.shape)

data_df.pivot(columns='DataYear')[target_cols].describe()


(3340, 47)
(3376, 46)
(6716, 52)


Unnamed: 0_level_0,SiteEnergyUse(kBtu),SiteEnergyUse(kBtu),SiteEUI(kBtu/sf),SiteEUI(kBtu/sf),TotalGHGEmissions,TotalGHGEmissions,GHGEmissionsIntensity,GHGEmissionsIntensity
DataYear,2015,2016,2015,2016,2015,2016,2015,2016
count,3330.0,3371.0,3330.0,3369.0,3330.0,3367.0,3330.0,3367.0
mean,4983106.0,5403667.0,53.626126,54.732116,110.094102,119.723971,0.985339,1.175916
std,13753300.0,21610630.0,53.893311,56.273124,409.450179,538.832227,1.637172,1.821452
min,0.0,0.0,0.0,0.0,0.0,-0.8,0.0,-0.02
25%,913930.0,925128.6,27.3,27.9,9.265,9.495,0.08,0.21
50%,1776219.0,1803753.0,37.4,38.599998,32.74,33.92,0.46,0.61
75%,4044277.0,4222455.0,59.875,60.400002,88.6425,93.94,1.18,1.37
max,295812600.0,873923700.0,800.6,834.400024,11824.89,16870.98,31.38,34.09


##### Consommation énergétique des bâtiments en commun des 2 jeux de données a légèrement augmenté en 2016 par apport à 2015

On **_voit_** que la consommation énergétique en 2016 était en moyenne 2% plus qu'en 2015 (pas statistiquement significative). Il y a une multitude de possibles raisons :

- l'hiver 2016 était plus froid que 2015 (plus de chauffage)
- l'été 2016 était plus chaud que 2016 (plus de climatisation)
- les vents étaient plus forts en 2016
- l'activité commerciale était plus important en 2016
- les horaires de travail ont augmenté
- le cout d'énergie était plus bas
- les nouveaux bâtiments ajoutés en 2016 ont augmenté la moyenne

Il y a aussi plus de variation en consommation énergétique entre les bâtiments (l'écart type a augmenté par 1.6%)

- Il peut être dû à l'isolation de certains bâtiments

L'investigation de cause de ces augmentations est hors de portée de ce projet.

## 2.4 Nettoyage des données

- importer données 2015
- renommer cols (GHGEmissions, GHGEmissionsIntensity,...)


In [45]:
data2015 = import_donnees('data/raw/2015-building-energy-benchmarking.csv')
data2015 = data2015.pipe(renommer_cols)
data2015.head()

Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,TaxParcelIdentificationNumber,Location,CouncilDistrictCode,Neighborhood,YearBuilt,NumberofBuildings,NumberofFloors,PropertyGFATotal,PropertyGFAParking,PropertyGFABuilding(s),ListOfAllPropertyUseTypes,LargestPropertyUseType,LargestPropertyUseTypeGFA,SecondLargestPropertyUseType,SecondLargestPropertyUseTypeGFA,ThirdLargestPropertyUseType,ThirdLargestPropertyUseTypeGFA,YearsENERGYSTARCertified,ENERGYSTARScore,SiteEUI(kBtu/sf),SiteEUIWN(kBtu/sf),SourceEUI(kBtu/sf),SourceEUIWN(kBtu/sf),SiteEnergyUse(kBtu),SiteEnergyUseWN(kBtu),SteamUse(kBtu),Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),OtherFuelUse(kBtu),TotalGHGEmissions,GHGEmissionsIntensity,DefaultData,Comments,ComplianceStatus,Outlier,2010 Census Tracts,Seattle Police Department Micro Community Policing Plan Areas,City Council Districts,SPD Beats,ZipCode
0,1,2015,NonResidential,Hotel,MAYFLOWER PARK HOTEL,659000030,"{'latitude': '47.61219025', 'longitude': '-122.33799744', 'human_address': '{""address"": ""405 OLIVE WAY"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98101""}'}",7,DOWNTOWN,1927,1,12.0,88434,0,88434,Hotel,Hotel,88434.0,,,,,,65.0,78.9,80.3,173.5,175.1,6981428.0,7097539.0,2023032.0,1080307.0,3686160.0,12724.0,1272388.0,0.0,249.43,2.64,No,,Compliant,,,14.0,,31.0,18081
1,2,2015,NonResidential,Hotel,PARAMOUNT HOTEL,659000220,"{'latitude': '47.61310583', 'longitude': '-122.33335756', 'human_address': '{""address"": ""724 PINE ST"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98101""}'}",7,DOWNTOWN,1996,1,11.0,103566,15064,88502,"Hotel, Parking, Restaurant",Hotel,83880.0,Parking,15064.0,Restaurant,4622.0,,51.0,94.4,99.0,191.3,195.2,8354235.0,8765788.0,0.0,1144563.0,3905411.0,44490.0,4448985.0,0.0,263.51,2.38,No,,Compliant,,,14.0,,31.0,18081
2,3,2015,NonResidential,Hotel,WESTIN HOTEL,659000475,"{'latitude': '47.61334897', 'longitude': '-122.33769944', 'human_address': '{""address"": ""1900 5TH AVE"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98101""}'}",7,DOWNTOWN,1969,1,41.0,961990,0,961990,"Hotel, Parking, Swimming Pool",Hotel,757243.0,Parking,100000.0,Swimming Pool,0.0,,18.0,96.6,99.7,242.7,246.5,73130656.0,75506272.0,19660404.0,14583930.0,49762435.0,37099.0,3709900.0,0.0,2061.48,1.92,Yes,,Compliant,,,56.0,,31.0,18081
3,5,2015,NonResidential,Hotel,HOTEL MAX,659000640,"{'latitude': '47.61421585', 'longitude': '-122.33660889', 'human_address': '{""address"": ""620 STEWART ST"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98101""}'}",7,DOWNTOWN,1926,1,10.0,61320,0,61320,Hotel,Hotel,61320.0,,,,,,1.0,460.4,462.5,636.3,643.2,28229320.0,28363444.0,23458518.0,811521.0,2769023.0,20019.0,2001894.0,0.0,1936.34,31.38,No,,Compliant,High Outlier,,56.0,,31.0,18081
4,8,2015,NonResidential,Hotel,WARWICK SEATTLE HOTEL,659000970,"{'latitude': '47.6137544', 'longitude': '-122.3409238', 'human_address': '{""address"": ""401 LENORA ST"", ""city"": ""SEATTLE"", ""state"": ""WA"", ""zip"": ""98121""}'}",7,DOWNTOWN,1980,1,18.0,119890,12460,107430,"Hotel, Parking, Swimming Pool",Hotel,123445.0,Parking,68009.0,Swimming Pool,0.0,,67.0,120.1,122.1,228.8,227.1,14829099.0,15078243.0,0.0,1777841.0,6066245.0,87631.0,8763105.0,0.0,507.7,4.02,No,,Compliant,,,56.0,,31.0,19576


# 3. Analyse Exploratoire


# 4. Feature Engineering


# 5. Enregistre les données nettoyées
