In [11]:
# Imports principaux pour l'analyse exploratoire
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# %matplotlib inline  # Permet d'afficher les graphiques directement dans le notebook au lieu d'une fenêtre separer.
%matplotlib inline


# ---------------------------------------------
# ETAPE 1 : ANALYSE EXPLORATOIRE DES BATIMENTS
# ---------------------------------------------

print("Étape 1 : Début de l'analyse exploratoire\n")

# 1. Chargement du fichier CSV
# On indique le chemin du fichier. Ici, il est dans le dossier 'data' à la racine du projet.
fichier_csv = "../data/2016_Building_Energy_Benchmarking.csv"

# On lit le CSV avec pandas pour obtenir un DataFrame, qui est une structure de données similaire à une table Excel
batiments = pd.read_csv(fichier_csv)
print(f"CSV chargé depuis : {fichier_csv}")
print(f"Nombre de bâtiments total : {batiments.shape[0]}")
print("Colonnes disponibles :", batiments.columns.tolist())
display(batiments.head(3))  # Affiche les 3 premières lignes pour vérifier

# 2. Aperçu initial des données
# .head() affiche les 5 premières lignes du tableau pour avoir une idée des colonnes et valeurs
# .info() permet de vérifier le nombre de lignes, les types de colonnes et s'il y a des valeurs manquantes
print("\nInformations générales sur le jeu de données :")
batiments.info()

# 3. Sélection des colonnes pertinentes
# On ne conserve que les colonnes utiles pour l'analyse et la modélisation
colonnes_pertinentes = [
    'PropertyName',             
    'PrimaryPropertyType',     
    'Address',                  
    'YearBuilt',                
    'PropertyGFABuilding(s)',  
    'SiteEUI(kBtu/sf)',        
    'SiteEnergyUse(kBtu)',     
    'TotalGHGEmissions'    
]
batiments = batiments[colonnes_pertinentes]
print("\nColonnes conservées :", batiments.columns.tolist())
display(batiments.head(3))  # Vérification après sélection

Étape 1 : Début de l'analyse exploratoire

CSV chargé depuis : ../data/2016_Building_Energy_Benchmarking.csv
Nombre de bâtiments total : 3376
Colonnes disponibles : ['OSEBuildingID', 'DataYear', 'BuildingType', 'PrimaryPropertyType', 'PropertyName', 'Address', 'City', 'State', 'ZipCode', 'TaxParcelIdentificationNumber', 'CouncilDistrictCode', 'Neighborhood', 'Latitude', 'Longitude', 'YearBuilt', 'NumberofBuildings', 'NumberofFloors', 'PropertyGFATotal', 'PropertyGFAParking', 'PropertyGFABuilding(s)', 'ListOfAllPropertyUseTypes', 'LargestPropertyUseType', 'LargestPropertyUseTypeGFA', 'SecondLargestPropertyUseType', 'SecondLargestPropertyUseTypeGFA', 'ThirdLargestPropertyUseType', 'ThirdLargestPropertyUseTypeGFA', 'YearsENERGYSTARCertified', 'ENERGYSTARScore', 'SiteEUI(kBtu/sf)', 'SiteEUIWN(kBtu/sf)', 'SourceEUI(kBtu/sf)', 'SourceEUIWN(kBtu/sf)', 'SiteEnergyUse(kBtu)', 'SiteEnergyUseWN(kBtu)', 'SteamUse(kBtu)', 'Electricity(kWh)', 'Electricity(kBtu)', 'NaturalGas(therms)', 'NaturalGas(kB

Unnamed: 0,OSEBuildingID,DataYear,BuildingType,PrimaryPropertyType,PropertyName,Address,City,State,ZipCode,TaxParcelIdentificationNumber,...,Electricity(kWh),Electricity(kBtu),NaturalGas(therms),NaturalGas(kBtu),DefaultData,Comments,ComplianceStatus,Outlier,TotalGHGEmissions,GHGEmissionsIntensity
0,1,2016,NonResidential,Hotel,Mayflower park hotel,405 Olive way,Seattle,WA,98101.0,659000030,...,1156514.0,3946027.0,12764.5293,1276453.0,False,,Compliant,,249.98,2.83
1,2,2016,NonResidential,Hotel,Paramount Hotel,724 Pine street,Seattle,WA,98101.0,659000220,...,950425.2,3242851.0,51450.81641,5145082.0,False,,Compliant,,295.86,2.86
2,3,2016,NonResidential,Hotel,5673-The Westin Seattle,1900 5th Avenue,Seattle,WA,98101.0,659000475,...,14515440.0,49526664.0,14938.0,1493800.0,False,,Compliant,,2089.28,2.19



Informations générales sur le jeu de données :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3376 entries, 0 to 3375
Data columns (total 46 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   OSEBuildingID                    3376 non-null   int64  
 1   DataYear                         3376 non-null   int64  
 2   BuildingType                     3376 non-null   object 
 3   PrimaryPropertyType              3376 non-null   object 
 4   PropertyName                     3376 non-null   object 
 5   Address                          3376 non-null   object 
 6   City                             3376 non-null   object 
 7   State                            3376 non-null   object 
 8   ZipCode                          3360 non-null   float64
 9   TaxParcelIdentificationNumber    3376 non-null   object 
 10  CouncilDistrictCode              3376 non-null   int64  
 11  Neighborhood                     3

Unnamed: 0,PropertyName,PrimaryPropertyType,Address,YearBuilt,PropertyGFABuilding(s),SiteEUI(kBtu/sf),SiteEnergyUse(kBtu),TotalGHGEmissions
0,Mayflower park hotel,Hotel,405 Olive way,1927,88434,81.699997,7226362.5,249.98
1,Paramount Hotel,Hotel,724 Pine street,1996,88502,94.800003,8387933.0,295.86
2,5673-The Westin Seattle,Hotel,1900 5th Avenue,1969,759392,96.0,72587024.0,2089.28
