# üìä Exploration et Analyse des Donn√©es - Seattle Building Energy## üéØ ObjectifCe notebook r√©alise l'**analyse exploratoire (EDA)** des donn√©es de consommation √©nerg√©tique des b√¢timents de Seattle.**Objectifs sp√©cifiques :**- Explorer la structure et la qualit√© des donn√©es- Identifier et traiter les valeurs aberrantes (outliers)- Cr√©er de nouvelles features pertinentes (feature engineering)- Pr√©parer les donn√©es pour la mod√©lisation**Dataset** : [2016 Building Energy Benchmarking](https://data.seattle.gov/dataset/2016-Building-Energy-Benchmarking/2bpz-gwpy)

---## 1. üì¶ Imports et Configuration

In [1]:
# =============================================================================# IMPORTS# =============================================================================# Data manipulationimport pandas as pdimport numpy as np# Visualizationimport matplotlib.pyplot as pltimport seaborn as sns# Statisticsfrom scipy import stats# Machine Learning - Preprocessingfrom sklearn.preprocessing import StandardScalerfrom sklearn.experimental import enable_iterative_imputerfrom sklearn.impute import IterativeImputer# Configurationpd.set_option('display.max_columns', 50)plt.style.use('seaborn-v0_8-whitegrid')sns.set_palette("husl")# Suppress warnings for cleaner outputimport warningswarnings.filterwarnings('ignore', category=FutureWarning)print("‚úÖ Imports charg√©s avec succ√®s")

---## 2. üìÅ Chargement des Donn√©es

In [2]:
# =============================================================================# CHARGEMENT DES DONN√âES# =============================================================================# Chemins des fichiersDATA_PATH = '../data/2016_Building_Energy_Benchmarking.csv'OUTPUT_PATH = '../data/data_cleaned.csv'# Chargementraw_data = pd.read_csv(DATA_PATH)# Aper√ßu initialprint(f"üìä Dimensions du dataset: {raw_data.shape[0]} lignes √ó {raw_data.shape[1]} colonnes")print(f"üìÅ M√©moire utilis√©e: {raw_data.memory_usage(deep=True).sum() / 1024**2:.2f} MB")raw_data.head()

In [3]:
# Informations sur les types de donn√©esraw_data.info()

---## 3. üîç Exploration Initiale### 3.1 Types de B√¢timents

In [4]:
# =============================================================================# ANALYSE DES TYPES DE B√ÇTIMENTS# =============================================================================print("üìä Distribution des types de b√¢timents:\n")print(raw_data['BuildingType'].value_counts(dropna=False))# Visualisationfig, ax = plt.subplots(figsize=(10, 5))raw_data['BuildingType'].value_counts().plot(kind='barh', ax=ax, color='steelblue')ax.set_xlabel('Nombre de b√¢timents')ax.set_title('Distribution des Types de B√¢timents')plt.tight_layout()plt.show()

### 3.2 Filtrage des Donn√©esNous nous concentrons sur les **b√¢timents non r√©sidentiels** uniquement, en excluant les "Multifamily".

In [5]:
# =============================================================================# FILTRAGE - B√ÇTIMENTS NON R√âSIDENTIELS UNIQUEMENT# =============================================================================# Copie de travaildf = raw_data.copy()# Exclusion des b√¢timents multifamiliauxmask_multifamily = df['BuildingType'].str.startswith('Multifamily', na=False)df = df[~mask_multifamily].copy()# D√©finir l'indexdf.set_index('OSEBuildingID', inplace=True)print(f"‚úÖ B√¢timents restants apr√®s filtrage: {len(df)}")print(f"   (Exclus: {mask_multifamily.sum()} b√¢timents multifamiliaux)")

---## 4. üõ†Ô∏è Feature EngineeringCr√©ation de nouvelles variables potentiellement pertinentes pour la mod√©lisation.

In [6]:
# =============================================================================# CR√âATION DE NOUVELLES FEATURES# =============================================================================# 1. √Çge du b√¢timentdf['Age'] = df['DataYear'] - df['YearBuilt']# 2. Ratios de surfacedf['PropertyGFAParking_Pct'] = (df['PropertyGFAParking'] / df['PropertyGFATotal'] * 100).fillna(0)df['PropertyGFABuilding_Pct'] = (df['PropertyGFABuilding(s)'] / df['PropertyGFATotal'] * 100).fillna(0)# 3. Pourcentages d'utilisation √©nerg√©tique par source# (√âviter division par z√©ro)energy_total = df['SiteEnergyUse(kBtu)'].replace(0, np.nan)df['SteamUse_Pct'] = (df['SteamUse(kBtu)'] / energy_total * 100)df['Electricity_Pct'] = (df['Electricity(kBtu)'] / energy_total * 100)df['NaturalGas_Pct'] = (df['NaturalGas(kBtu)'] / energy_total * 100)print("‚úÖ Nouvelles features cr√©√©es:")print("   - Age (√¢ge du b√¢timent)")print("   - PropertyGFAParking_Pct (% surface parking)")print("   - PropertyGFABuilding_Pct (% surface b√¢timent)")print("   - SteamUse_Pct, Electricity_Pct, NaturalGas_Pct (% par source d'√©nergie)")

---## 5. üßπ Nettoyage des Donn√©es### 5.1 Suppression des Outliers Flagg√©s

In [7]:
# =============================================================================# TRAITEMENT DES OUTLIERS# =============================================================================# Suppression des outliers d√©j√† identifi√©s dans le datasetoutliers_count = df['Outlier'].notna().sum()df = df[df['Outlier'].isna()].copy()print(f"‚úÖ Outliers supprim√©s: {outliers_count}")print(f"   B√¢timents restants: {len(df)}")

### 5.2 Suppression des Valeurs Aberrantes

In [8]:
# =============================================================================# SUPPRESSION DES VALEURS N√âGATIVES# =============================================================================# √âlectricit√© n√©gative n'a pas de sensnegative_electricity = (df['Electricity(kBtu)'] < 0).sum()df = df[df['Electricity(kBtu)'] >= 0].copy()# Remplacer les infinis par NaNdf.replace([np.inf, -np.inf], np.nan, inplace=True)print(f"‚úÖ Lignes avec √©lectricit√© n√©gative supprim√©es: {negative_electricity}")

### 5.3 S√©lection des Colonnes Pertinentes

In [9]:
# =============================================================================# S√âLECTION DES FEATURES# =============================================================================# Colonnes √† supprimer (m√©tadonn√©es, redondantes, ou non pertinentes)columns_to_drop = [    # M√©tadonn√©es    'DataYear', 'BuildingType', 'PropertyName', 'Address', 'City', 'State',     'ZipCode', 'TaxParcelIdentificationNumber', 'Neighborhood',     'Latitude', 'Longitude', 'Comments', 'DefaultData', 'ComplianceStatus', 'Outlier',        # Variables redondantes ou utilis√©es pour cr√©er d'autres features    'ListOfAllPropertyUseTypes', 'LargestPropertyUseType',     'SecondLargestPropertyUseType', 'SecondLargestPropertyUseTypeGFA',    'ThirdLargestPropertyUseType', 'ThirdLargestPropertyUseTypeGFA',    'YearsENERGYSTARCertified', 'YearBuilt',        # Unit√©s alternatives (garder kBtu uniquement)    'Electricity(kWh)', 'NaturalGas(therms)',        # Variables utilis√©es pour calculer les pourcentages    'SteamUse(kBtu)', 'Electricity(kBtu)', 'NaturalGas(kBtu)',    'PropertyGFAParking', 'PropertyGFABuilding(s)']# Supprimer les colonnes existantes seulementcolumns_to_drop = [col for col in columns_to_drop if col in df.columns]df.drop(columns=columns_to_drop, inplace=True)print(f"‚úÖ Colonnes restantes: {df.shape[1]}")print(f"   {list(df.columns)}")

---## 6. üìä Analyse des Types de Propri√©t√©

In [10]:
# =============================================================================# CONSOLIDATION DES TYPES DE PROPRI√âT√â# =============================================================================print("Distribution actuelle des types de propri√©t√©:\n")print(df['PrimaryPropertyType'].value_counts())# Regrouper les cat√©gories avec peu d'observations dans 'Other'rare_categories = [    'Residence Hall', 'Senior Care Community', 'Refrigerated Warehouse',    'Restaurant', 'Hospital', 'Laboratory', 'Office', 'Low-Rise Multifamily']for cat in rare_categories:    if cat == 'Low-Rise Multifamily':        # Supprimer compl√®tement (hors scope)        df = df[df['PrimaryPropertyType'] != cat].copy()    else:        # Regrouper dans 'Other'        df.loc[df['PrimaryPropertyType'] == cat, 'PrimaryPropertyType'] = 'Other'print("\n‚úÖ Distribution apr√®s consolidation:\n")print(df['PrimaryPropertyType'].value_counts())

---## 7. üî¢ Encodage des Variables Cat√©gorielles

In [11]:
# =============================================================================# ONE-HOT ENCODING# =============================================================================# Encodage des types de propri√©t√©df = pd.get_dummies(df, columns=['PrimaryPropertyType'], prefix='PropType')# Encodage des districtsdf = pd.get_dummies(df, columns=['CouncilDistrictCode'], prefix='District')# Feature indicatrice pour ENERGYSTARScore manquantdf['ENERGYSTARScore_Missing'] = df['ENERGYSTARScore'].isna().astype(int)print(f"‚úÖ Encodage termin√©")print(f"   Dimensions finales: {df.shape}")

---## 8. üìà Visualisations Exploratoires### 8.1 Distribution des Variables Num√©riques

In [12]:
# =============================================================================# HISTOGRAMMES DES VARIABLES CL√âS# =============================================================================numeric_cols = [    'NumberofFloors', 'PropertyGFATotal', 'LargestPropertyUseTypeGFA',    'ENERGYSTARScore', 'SiteEnergyUse(kBtu)', 'TotalGHGEmissions', 'Age']fig, axes = plt.subplots(3, 3, figsize=(14, 12))axes = axes.flatten()for i, col in enumerate(numeric_cols):    if col in df.columns:        ax = axes[i]        df[col].dropna().hist(bins=50, ax=ax, color='steelblue', edgecolor='white')        ax.set_title(col, fontsize=10)        ax.set_xlabel('')# Masquer les axes videsfor j in range(len(numeric_cols), len(axes)):    axes[j].set_visible(False)plt.suptitle('Distribution des Variables Num√©riques', fontsize=14, y=1.02)plt.tight_layout()plt.show()

### 8.2 Distribution de la Variable Cible (√âmissions CO2)

In [13]:
# =============================================================================# DISTRIBUTION DES √âMISSIONS CO2# =============================================================================fig, axes = plt.subplots(1, 2, figsize=(14, 5))# Distribution compl√®teax1 = axes[0]df['TotalGHGEmissions'].dropna().hist(bins=50, ax=ax1, color='coral', edgecolor='white')ax1.set_title('Distribution des √âmissions CO2 (compl√®te)')ax1.set_xlabel('TotalGHGEmissions')ax1.set_ylabel('Fr√©quence')# Distribution sans les valeurs extr√™mesax2 = axes[1]emissions_filtered = df.loc[df['TotalGHGEmissions'] < 1000, 'TotalGHGEmissions']emissions_filtered.hist(bins=50, ax=ax2, color='coral', edgecolor='white')ax2.set_title('Distribution des √âmissions CO2 (< 1000)')ax2.set_xlabel('TotalGHGEmissions')ax2.set_ylabel('Fr√©quence')plt.tight_layout()plt.show()print(f"üìä Statistiques des √©missions CO2:")print(df['TotalGHGEmissions'].describe())

---## 9. üîç Analyse des Valeurs Manquantes

In [14]:
# =============================================================================# VALEURS MANQUANTES# =============================================================================missing = df.isnull().sum()missing_pct = (missing / len(df) * 100).round(2)missing_df = pd.DataFrame({    'Missing Count': missing,    'Missing %': missing_pct}).sort_values('Missing Count', ascending=False)# Afficher seulement les colonnes avec des valeurs manquantesmissing_df = missing_df[missing_df['Missing Count'] > 0]print("üìä Colonnes avec valeurs manquantes:\n")print(missing_df)# Visualisationif len(missing_df) > 0:    fig, ax = plt.subplots(figsize=(10, 6))    missing_df['Missing %'].plot(kind='barh', ax=ax, color='tomato')    ax.set_xlabel('Pourcentage manquant (%)')    ax.set_title('Valeurs Manquantes par Colonne')    plt.tight_layout()    plt.show()

---## 10. üîß Imputation des Valeurs ManquantesUtilisation de **IterativeImputer (MICE)** pour imputer les valeurs manquantes de mani√®re plus sophistiqu√©e qu'une simple moyenne.

In [15]:
# =============================================================================# IMPUTATION AVEC ITERATIVE IMPUTER (MICE)# =============================================================================# Sauvegarder l'indexoriginal_index = df.index# Imputationimputer = IterativeImputer(max_iter=10, random_state=42, verbose=0)df_imputed = pd.DataFrame(    imputer.fit_transform(df),    columns=df.columns,    index=original_index)# Correction des valeurs n√©gatives g√©n√©r√©es par l'imputationdf_imputed[df_imputed < 0] = 0# V√©rificationprint("‚úÖ Imputation termin√©e")print(f"   Valeurs manquantes restantes: {df_imputed.isnull().sum().sum()}")

---## 11. üíæ Sauvegarde des Donn√©es Nettoy√©es

In [16]:
# =============================================================================# EXPORT DES DONN√âES# =============================================================================# Sauvegardedf_imputed.to_csv(OUTPUT_PATH)print(f"‚úÖ Donn√©es sauvegard√©es dans: {OUTPUT_PATH}")print(f"   Dimensions finales: {df_imputed.shape}")print(f"   Colonnes: {list(df_imputed.columns)}")

---## 12. üìã R√©sum√©### Transformations Appliqu√©es| √âtape | Description | Impact ||-------|-------------|--------|| Filtrage | Exclusion des b√¢timents multifamiliaux | Focus sur non-r√©sidentiel || Feature Engineering | Cr√©ation de Age, ratios, pourcentages | +6 features || Nettoyage | Suppression outliers et valeurs aberrantes | Donn√©es plus fiables || Encodage | One-Hot pour variables cat√©gorielles | ML-ready || Imputation | IterativeImputer (MICE) | Pas de valeurs manquantes |### Prochaine √âtape‚û°Ô∏è **02_prediction_energy.ipynb** : Mod√©lisation de la consommation √©nerg√©tique

In [17]:
# =============================================================================# APER√áU FINAL# =============================================================================print("üìä Aper√ßu du dataset nettoy√©:\n")df_imputed.head()