 # P4 : Anticipez les besoins en consommation électrique de bâtiments

In [1]:
import os
import wget
import pandas as pd
from ast import literal_eval
import plotly.express as px


In [2]:
write_data = True

# True : création d'un dossier Figures et Tableau
# dans lesquels seront créés les éléments qui serviront à la présentation
# et écriture des figures et tableaux dans ces dossier
#
# False : pas de création de dossier ni de figures ni de tableaux

if write_data is True:
    try:
        os.mkdir("./Figures/")
    except OSError as error:
        print(error)
    try:
        os.mkdir("./Tableaux/")
    except OSError as error:
        print(error)
else:
    print("""Visualisation uniquement dans le notebook
    pas de création de figures ni de tableaux""")


[Errno 17] File exists: './Figures/'
[Errno 17] File exists: './Tableaux/'


In [3]:
# ouverture du fichire csv
# utilise le fichier dans le répertoire si il existe
# sinon récupération avec l'url
BEB2015 = pd.read_csv("2015-building-energy-benchmarking.csv")


In [4]:
# ouverture du fichire csv
# utilise le fichier dans le répertoire si il existe
# sinon récupération avec l'url
BEB2016 = pd.read_csv("2016-building-energy-benchmarking.csv")


 Liste des colonnes présentes uniquement dans les données de 2015

In [5]:
# colonnes uniquement dans les données de 2015
BEB2015.columns.difference(BEB2016.columns)


Index(['2010 Census Tracts', 'City Council Districts', 'Comment',
       'GHGEmissions(MetricTonsCO2e)', 'GHGEmissionsIntensity(kgCO2e/ft2)',
       'Location', 'OtherFuelUse(kBtu)', 'SPD Beats',
       'Seattle Police Department Micro Community Policing Plan Areas',
       'Zip Codes'],
      dtype='object')

 Liste des colonnes présentes uniquement dans les données de 2016

In [6]:
# colonnes uniquement dans les données de 2016
BEB2016.columns.difference(BEB2015.columns)


Index(['Address', 'City', 'Comments', 'GHGEmissionsIntensity', 'Latitude',
       'Longitude', 'State', 'TotalGHGEmissions', 'ZipCode'],
      dtype='object')

 Les données de location en 2015 sont dans une seule colonne
 on va faire en sorte d'uniformiser avec les colonnes présentes en 2016

In [7]:
# extraction et ajout des données des dict (literal_eval)
# mise sous forme de serie (pd.Series)
# et suppression de la colonne d'origine
BEB2015 = pd.concat([
    BEB2015.drop(columns='Location'),
    BEB2015.Location.map(literal_eval).apply(pd.Series)
],
                    axis=1)
BEB2015 = pd.concat([
    BEB2015.drop(columns='human_address'),
    BEB2015.human_address.map(literal_eval).apply(pd.Series)
],
                    axis=1)


In [8]:
# renomages des colonnes pour correspondre aux données de 2016
BEB2015 = BEB2015.rename(
    columns={
        "latitude": "Latitude",
        "longitude": "Longitude",
        "address": "Address",
        "city": "City",
        "state": "State",
        "zip": "ZipCode"
    })


In [9]:
BEB2015.columns.difference(BEB2016.columns)

Index(['2010 Census Tracts', 'City Council Districts', 'Comment',
       'GHGEmissions(MetricTonsCO2e)', 'GHGEmissionsIntensity(kgCO2e/ft2)',
       'OtherFuelUse(kBtu)', 'SPD Beats',
       'Seattle Police Department Micro Community Policing Plan Areas',
       'Zip Codes'],
      dtype='object')

In [10]:
BEB2016.columns.difference(BEB2015.columns)

Index(['Comments', 'GHGEmissionsIntensity', 'TotalGHGEmissions'], dtype='object')

 GHGEMissions (MetricTonsCO2e) et TotalGHGEmissions renseignent les mêmes informations
 ainsi que GHGEmissionsIntesity (kgCO2e/ft2) et GHGEmissionsIntensity nous allons les
 renommer de la même manière (2016)

In [11]:
# renomages des colonnes pour correspondre aux données de 2016
BEB2015.rename(
    columns={
        "GHGEmissions(MetricTonsCO2e)": "TotalGHGEmissions",
        "GHGEmissionsIntensity(kgCO2e/ft2)": "GHGEmissionsIntensity",
    },
    inplace=True,
)


In [12]:
BEB2015.columns.difference(BEB2016.columns)

Index(['2010 Census Tracts', 'City Council Districts', 'Comment',
       'OtherFuelUse(kBtu)', 'SPD Beats',
       'Seattle Police Department Micro Community Policing Plan Areas',
       'Zip Codes'],
      dtype='object')

In [13]:
BEB2016.columns.difference(BEB2015.columns)

Index(['Comments'], dtype='object')

In [14]:
BEB2016.Comments.unique()


array([nan])

 Pas de commentaire dans les données de 2016

In [15]:
# sup. col. comments
BEB2016.drop(columns="Comments", inplace=True)

In [16]:
BEB2015.Comment.unique()

array([nan,
       'Under construction starting 6/2013 (old building demolished) and ending 9/2016. New Building re-opened 9/2016. Year built changed from 1948 to 2016.',
       "Part of McKinstry's campus, property operates a fabrication and production shop and is conditioned by natural gas overhead radiant unit heaters with no cooling. Learn more at www.mckinstry.com.",
       "One of two office buildings on McKinstry's campus partially remodeled in 2009 from warehouse to office space. Served by rooftop air handling units with underfloor VAVs.  Self-performed energy efficiency upgrades in 2015 include a long-term LED lighting re",
       'Part of McKinstry’s campus, this remodeled warehouse is mainly office but includes a full-size basketball court and gym with locker rooms, bistro with a full kitchen, and data center. Served by rooftop package units for heating and cooling. Upgrades inclu',
       'Construction completed in mid 2015. The building was unoccupied for most of 2015.',
 

 présence de commentaires dans les données de 2015

 Nous allons vérifier que les types des colonnes correspondent
 entre les deux jeux de données

In [17]:
# dataframe permettant de comparer les types des colonnes
# dans les deux jeux de donées
pd.DataFrame([BEB2015.dtypes, BEB2016.dtypes])


Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,TaxParcelIdentificationNumber,CouncilDistrictCode,Neighborhood,YearBuilt,NumberofBuildings,...,Seattle Police Department Micro Community Policing Plan Areas,City Council Districts,SPD Beats,Zip Codes,Latitude,Longitude,Address,City,State,ZipCode
0,int64,int64,object,object,object,object,int64,object,int64,int64,...,float64,float64,float64,int64,object,object,object,object,object,object
1,int64,int64,object,object,object,object,int64,object,int64,float64,...,,,,,float64,float64,object,object,object,float64


 Les colonnes latitude, longitude et zipcode de 2015
 ne sont pas reconnues comme des nombres nous allons y remédier

In [18]:
# lat, log et zip en décimaux
BEB2015[['Latitude', 'Longitude',
         'ZipCode']] = BEB2015[['Latitude', 'Longitude',
                                'ZipCode']].astype('float64')

 Nous allons joindre nos données pour n'avoir qu'un seul fichier
 sur lequel travailler lors des test de modèles

In [19]:
# jonction des deux jeux de données
BEBFull = BEB2015.merge(BEB2016, how="outer")

 Nous allons voir quelques statistiques sur chacunes de nos colonnes

In [20]:
# stats sur données catégorielles
StatsCat = BEBFull.describe(exclude='number')
StatsCat


Unnamed: 0,BuildingType,PrimaryPropertyType,PropertyName,TaxParcelIdentificationNumber,Neighborhood,ListOfAllPropertyUseTypes,LargestPropertyUseType,SecondLargestPropertyUseType,ThirdLargestPropertyUseType,YearsENERGYSTARCertified,DefaultData,Comment,ComplianceStatus,Outlier,Address,City,State
count,6716,6716,6716,6714,6716,6580,6560,3238,1156,229,6715,13,6716,116,6716,6716,6716
unique,8,32,6527,3729,19,488,57,50,45,116,4,13,5,4,6379,2,1
top,NonResidential,Low-Rise Multifamily,WAREHOUSE,3224049012,DOWNTOWN,Multifamily Housing,Multifamily Housing,Parking,Retail Store,2016,False,Under construction starting 6/2013 (old buildi...,Compliant,High Outlier,2623 NE UNIVERSITY VILLAGE ST,Seattle,WA
freq,2921,1985,9,10,1151,1728,3265,1857,217,34,3263,1,6548,46,8,3376,6716


In [21]:
# stats sur données numériques
StatsNum = BEBFull.describe()
StatsNum


Unnamed: 0,OSEBuildingID,DataYear,CouncilDistrictCode,YearBuilt,NumberofBuildings,NumberofFloors,PropertyGFATotal,PropertyGFAParking,PropertyGFABuilding(s),LargestPropertyUseTypeGFA,...,TotalGHGEmissions,GHGEmissionsIntensity,2010 Census Tracts,Seattle Police Department Micro Community Policing Plan Areas,City Council Districts,SPD Beats,Zip Codes,Latitude,Longitude,ZipCode
count,6716.0,6716.0,6716.0,6716.0,6708.0,6708.0,6716.0,6716.0,6716.0,6560.0,...,6697.0,6697.0,224.0,3338.0,213.0,3338.0,3340.0,6716.0,6716.0,6700.0
mean,20867.420488,2015.50268,4.445057,1968.101549,1.071407,4.695736,92814.1,9519.597975,83294.5,77079.36,...,114.935638,1.081154,123.0625,32.380168,1.347418,24.825644,18786.68024,47.624062,-122.334904,98116.843582
std,11878.968174,0.50003,2.123749,33.020391,1.593505,5.476218,187506.2,33868.050881,173347.0,168161.7,...,478.876573,1.734763,5.812128,19.907567,0.477272,15.006287,588.604192,0.047837,0.027185,17.730253
min,1.0,2015.0,1.0,1900.0,0.0,0.0,11285.0,-3.0,-50550.0,5656.0,...,-0.8,-0.02,116.0,1.0,1.0,1.0,17916.0,47.49917,-122.41425,98006.0
25%,19934.0,2015.0,3.0,1948.0,1.0,2.0,28487.0,0.0,27273.0,25016.0,...,9.45,0.16,117.0,14.0,1.0,10.0,18379.0,47.599857,-122.350603,98105.0
50%,23064.0,2016.0,4.0,1974.0,1.0,4.0,44008.0,0.0,42185.0,39530.0,...,33.18,0.54,123.0,33.0,1.0,26.0,18390.0,47.618608,-122.33263,98115.0
75%,25868.25,2016.0,7.0,1996.0,1.0,5.0,89431.25,0.0,81120.0,74178.0,...,91.53,1.28,125.5,50.0,2.0,38.0,19576.0,47.657135,-122.319733,98122.0
max,50226.0,2016.0,7.0,2015.0,111.0,99.0,9320156.0,512608.0,9320156.0,9320156.0,...,16870.98,34.09,135.0,61.0,2.0,51.0,19584.0,47.73387,-122.22047,98272.0


 Nous avons des valeurs de surface de batiment et de parking négatives
 nous allons supprimer ces batiments

In [22]:
# sup. val < 0 dans les valeurs de surface
BEBFullClean = BEBFull.drop(BEBFull[(BEBFull['PropertyGFABuilding(s)'] < 0)
                                    | (BEBFull.PropertyGFAParking < 0)].index)


 Nous allons supprimer les colonnes comportant moins de 50% de données
 et celles qui ne nous intéressent pas
 (1 seule valeurs dans les colonnes state/city par exemple)

In [23]:
BEBFullClean.dropna(
    axis='columns',
    thresh=(BEBFullClean.shape[0] * .5),
    # nombre de valeurs = shape * .1
    # soit 90% de NaN et 10% de valeurs
    inplace=True)


In [24]:
# liste des valeurs dans la colonne City
BEBFullClean.City.unique()

array(['SEATTLE', 'Seattle'], dtype=object)

In [25]:
BEBFullClean.drop(columns=['State', 'City'], inplace=True)

In [26]:
# graphique du nombre de données par indicateurs après filtre NaN
px.bar(x=BEBFullClean.shape[0] -
       BEBFullClean.isna().sum().sort_values(ascending=False).values,
       y=BEBFullClean.isna().sum().sort_values(ascending=False).index,
       labels=dict(x='Nombre de données', y='Indicateurs'),
       height=1000,
       width=1000)

In [27]:
BEBFullClean.Neighborhood.unique()

array(['DOWNTOWN', 'SOUTHEAST', 'NORTHEAST', 'EAST', 'CENTRAL', 'NORTH',
       'MAGNOLIA / QUEEN ANNE', 'LAKE UNION', 'GREATER DUWAMISH',
       'BALLARD', 'NORTHWEST', 'SOUTHWEST', 'DELRIDGE', 'Central',
       'Ballard', 'North', 'Delridge', 'Northwest',
       'DELRIDGE NEIGHBORHOODS'], dtype=object)

In [28]:
BEBFullClean.Neighborhood.replace('DELRIDGE NEIGHBORHOODS',
                                  'DELRIDGE',
                                  inplace=True)
BEBFullClean.Neighborhood = BEBFullClean.Neighborhood.map(lambda x: x.upper())

In [29]:
BEBFullClean.Neighborhood.unique()

array(['DOWNTOWN', 'SOUTHEAST', 'NORTHEAST', 'EAST', 'CENTRAL', 'NORTH',
       'MAGNOLIA / QUEEN ANNE', 'LAKE UNION', 'GREATER DUWAMISH',
       'BALLARD', 'NORTHWEST', 'SOUTHWEST', 'DELRIDGE'], dtype=object)