# Anticipez les besoins en consommations de b√¢timents

## Objectif

L'objectif de ce projet est de pr√©dire les √©missions de CO2 et la consommation totale d'√©nergie de b√¢timents non destin√©s √† l'habitation de la ville de Seattle √† partir de leurs donn√©es structurelles (taille, usage, date de construction, localisation) afin d'atteindre l'objectif de neutralit√© carbone de la ville en 2050.

## 1. Installation du projet et de son environnement

Afin d‚Äôutiliser correctement ce notebook, v√©rifiez que vous disposez du bon environnement pour l‚Äôex√©cuter.


### 1.1 Installation de Python

Pour ce projet, il est n√©cessaire d‚Äôavoir **au minimum Python 3.8**.  
Si ce n‚Äôest pas d√©j√† le cas, vous pouvez vous r√©f√©rer √† [la documentation officielle](https://www.python.org/downloads/).

V√©rifiez votre version de Python :

```bash
python --version
```

### 1.2 Installation de `uv`

`uv` est un gestionnaire de projets Python permettant d‚Äôinstaller et d‚Äôorganiser les d√©pendances plus rapidement et plus simplement que les outils traditionnels (`pip`, `virtualenv`, etc.).

Pour installer `uv`, veuillez suivre [la documentation officielle](https://docs.astral.sh/uv/getting-started/installation/#standalone-installer)

V√©rifiez l‚Äôinstallation :

```bash
uv --version
```

### 1.3 Cr√©ation du projet

Cr√©ez un nouveau projet Python avec `uv` :

```bash
uv init nom_du_projet
cd nom_du_projet
```

La structure de base du projet est alors g√©n√©r√©e automatiquement.


### 1.4 Cr√©ation et activation de l‚Äôenvironnement virtuel

Cr√©ez l‚Äôenvironnement virtuel :

```bash
uv venv
```

Activez-le selon votre syst√®me :

* **Linux / macOS**

```bash
source .venv/bin/activate
```

* **Windows (PowerShell)**

```powershell
.venv\Scripts\Activate.ps1
```

Voir la documentation officielle :
[https://docs.astral.sh/uv/pip/environments/#creating-a-virtual-environment](https://docs.astral.sh/uv/pip/environments/#creating-a-virtual-environment)



### 1.5 Installation des d√©pendances

> ‚ùó Assurez-vous que l‚Äôenvironnement virtuel est **activ√©** avant d‚Äôinstaller les d√©pendances.

Installez les biblioth√®ques n√©cessaires au projet :

```bash
uv add ipykernel jupyterlab seaborn matplotlib numpy pandas scikit-learn tqdm scipy
```

Ces d√©pendances sont automatiquement enregistr√©es dans le fichier `pyproject.toml`.

Vous pouvez visualiser l‚Äôensemble des d√©pendances install√©es avec la commande suivante :

```bash
uv tree


## 2. Importation des Biblioth√®ques


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy import stats

## 3. Analyse Exploratoire

### 3.1 Information g√©n√©rale sur la donn√©e

- **Jeu de donn√©es** : [2016_Building_Energy_Benchmarking.csv](https://s3.eu-west-1.amazonaws.com/course.oc-static.com/projects/Data_Scientist_P4/2016_Building_Energy_Benchmarking.csv)
- **Source officielle** : [Building Energy Benchmarking - Seattle Open Data](https://data.seattle.gov/Built-Environment/Building-Energy-Benchmarking-Data-2015-Present/teqw-tu6e/about_data)

> üìÅ **Action** : T√©l√©chargez le jeu de donn√©es et ajoutez-le dans le dossier `data/`

In [None]:
# Configuration de l'affichage pandas
pd.set_option('display.max_columns', None)  # Afficher toutes les colonnes
pd.set_option('display.width', None)         # Largeur automatique

building_consumption = pd.read_csv('data/2016_Building_Energy_Benchmarking.csv')

# On regarde comment un batiment est d√©fini dans ce jeu de donn√©es 
building_consumption.head()

#### Diff√©rences entre le CSV et la documentation officielle

##### Colonnes pr√©sentes dans le CSV (2016) mais absentes de la documentation

| Colonne | Description |
|---------|-------------|
| `PrimaryPropertyType` | Type de propri√©t√© primaire |
| `PropertyName` | Nom de la propri√©t√© (similaire mais diff√©rent de `BuildingName` dans la doc) |
| `PropertyGFABuilding(s)` | Surface brute des b√¢timents (√©quivalent √† `PropertyGFABuildings` dans la doc, mais avec une parenth√®se diff√©rente) |
| `ListOfAllPropertyUseTypes` | Liste de tous les types d'utilisation de la propri√©t√© |
| `YearsENERGYSTARCertified` | Ann√©es de certification ENERGY STAR |
| `DefaultData` | Indicateur de donn√©es par d√©faut |
| `Comments` | Commentaires |
| `Outlier` | Indicateur de valeur aberrante |

##### Colonnes pr√©sentes dans la documentation mais absentes du CSV (2016)

| Colonne | Description |
|---------|-------------|
| `BuildingName` | Nom du b√¢timent (le CSV utilise `PropertyName` √† la place) |
| `SelfReportGFATotal` | Surface brute totale auto-d√©clar√©e |
| `SelfReportGFABuildings` | Surface brute des b√¢timents auto-d√©clar√©e |
| `SelfReportParking` | Surface de stationnement auto-d√©clar√©e |
| `SecondLargestPropertyUseTypeGFA` | Nomm√©e `SecondLargestPropertyUse` dans la doc ligne 211 (incoh√©rence interne) |
| `ComplianceIssue` | Probl√®mes de conformit√© |
| `Demolished` | Indicateur de d√©molition |

---

#### Notes importantes

‚ö†Ô∏è **Points de vigilance** :
- La documentation mentionne `BuildingName` mais le CSV utilise `PropertyName`
- La documentation a `PropertyGFABuildings` alors que le CSV a `PropertyGFABuilding(s)` (avec parenth√®ses)
- Le CSV de 2016 ne contient **pas** les colonnes d'auto-d√©claration (`SelfReport*`)
- Le CSV de 2016 contient plusieurs colonnes m√©tadonn√©es (`DefaultData`, `Comments`, `Outlier`) absentes de la documentation

In [None]:
# Taille du dataset
print(building_consumption.shape)

In [None]:
# Types et valeurs manquantes
building_consumption.info()

In [None]:
# Statistiques descriptives
building_consumption.describe()

### 3.2 Filtrage des donn√©es

In [None]:
building_consumption["BuildingType"].value_counts()

#### Signification des BuildingType

- **NonResidential (1460)** : B√¢timents non r√©sidentiels  
- **Multifamily LR (1‚Äì4) (1018)** : Immeubles multifamiliaux basse densit√©  
- **Multifamily MR (5‚Äì9) (580)** : Immeubles multifamiliaux densit√© moyenne  
- **Multifamily HR (10+) (110)** : Immeubles multifamiliaux haute densit√©  
- **SPS-District K‚Äì12 (98)** : √âcoles publiques (maternelle √† lyc√©e)  
- **Nonresidential COS (85)** : B√¢timents municipaux de Seattle  
- **Campus (24)** : Ensembles de b√¢timents interconnect√©s  
- **Nonresidential WA (1)** : B√¢timent de l‚Äô√âtat de Washington

Nous avons besoins uniquement de b√¢timents non destin√©s √† l‚Äôhabitation par conc√©quent nous ne garderons que les types de batiments suivants :
- **NonResidential (1460)** : B√¢timents non r√©sidentiels
- **SPS-District K‚Äì12 (98)** : √âcoles publiques (maternelle √† lyc√©e)
- **Nonresidential COS (85)** : B√¢timents municipaux de Seattle
- **Campus (24)** : Ensembles de b√¢timents interconnect√©s

Cas a v√©rifier pour savoir si on le prend en compte ou non 
- **Nonresidential WA (1)** : B√¢timent de l‚Äô√âtat de Washington

In [None]:
print(f"Nombre de lignes avant filtrage par type de batiment : {len(building_consumption)}")

# Types de b√¢timents √† conserver
building_types_to_keep = [
    "NonResidential",
    "SPS-District K-12",
    "Nonresidential COS",
    "Campus",
    "Nonresidential WA"
]

# Filtrer les donn√©es
df_filtered = building_consumption[building_consumption['BuildingType'].isin(building_types_to_keep)]

# Documenter le nombre de lignes apr√®s filtrage
print(f"Nombre de lignes apr√®s filtrage : {len(df_filtered)}")
print(f"Nombre de lignes supprim√©es : {len(building_consumption) - len(df_filtered)}")

# Afficher la r√©partition des types de b√¢timents conserv√©s
print("\nR√©partition des types de b√¢timents conserv√©s :")
print(df_filtered['BuildingType'].value_counts())


### 3.3 Choix de la variable cible

Plusieurs variables du jeu de donn√©es permettent de repr√©senter la consommation √©nerg√©tique des b√¢timents (consommation totale, consommation normalis√©e, intensit√© √©nerg√©tique).  
Dans le cadre de ce projet, nous avons choisi d‚Äôutiliser **`SiteEnergyUseWN(kBtu)`** comme variable cible.

Cette variable correspond √† la **consommation √©nerg√©tique annuelle totale normalis√©e par les conditions m√©t√©orologiques**.  
La normalisation permet de r√©duire l‚Äôinfluence d‚Äôun facteur externe au b√¢timent (la m√©t√©o) et de mieux isoler l‚Äôimpact des **caract√©ristiques structurelles** telles que la surface, l‚Äôusage ou l‚Äôann√©e de construction.

Ce choix am√©liore :
- la **comparabilit√©** entre b√¢timents,
- la **robustesse** du mod√®le,
- et la **capacit√© de g√©n√©ralisation** des pr√©dictions √† des b√¢timents dont la consommation n‚Äôa pas encore √©t√© mesur√©e.

La variable `SiteEnergyUse(kBtu)`, repr√©sentant la consommation r√©elle mesur√©e, sera analys√©e de mani√®re compl√©mentaire √† titre de comparaison.


In [None]:
TARGET_VARIABLE = 'SiteEnergyUseWN(kBtu)'

In [None]:
# Histogramme classique

plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.hist(df_filtered[TARGET_VARIABLE].dropna(), bins=50, edgecolor='black')
plt.xlabel('SiteEnergyUseWN (kBtu)')
plt.ylabel('Fr√©quence')
plt.title('Distribution de la consommation √©nerg√©tique')

# Cr√©er le boxplot
plt.subplot(1, 2, 2)
plt.hist(df_filtered[TARGET_VARIABLE].dropna(), bins=50, edgecolor='black')
plt.xlabel('SiteEnergyUseWN (kBtu)')
plt.ylabel('Fr√©quence')
plt.title('Distribution (√©chelle log)')
plt.yscale('log')


plt.tight_layout()
plt.show()

##### Graphique de gauche (√©chelle normale)
- Une √©norme concentration des donn√©es pr√®s de z√©ro
- La grande majorit√© des sites ont une consommation tr√®s faible
- Impossible de voir les d√©tails √† cause de l'√©chelle √©cras√©e par quelques valeurs extr√™mes

##### Graphique de droite (√©chelle logarithmique)
- R√©v√®le mieux la structure de la distribution
- Montre une d√©croissance progressive : beaucoup de petits consommateurs, de moins en moins de gros consommateurs
- Quelques sites isol√©s avec des consommations tr√®s √©lev√©es √† l'extr√™me droite

In [None]:
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.boxplot(df_filtered[TARGET_VARIABLE].dropna())
plt.ylabel('SiteEnergyUseWN (kBtu)')
plt.title('Boxplot - √âchelle normale')

plt.subplot(1, 2, 2)
plt.boxplot(df_filtered[TARGET_VARIABLE].dropna())
plt.ylabel('SiteEnergyUseWN (kBtu)')
plt.yscale('log')
plt.title('Boxplot - √âchelle log')

plt.tight_layout()
plt.show()

##### Boxplot √©chelle normale (gauche)
- La bo√Æte est compl√®tement √©cras√©e pr√®s de z√©ro
- Un nuage dense de points outliers au-dessus
- Montre clairement l'asym√©trie extr√™me des donn√©es

##### Boxplot √©chelle log (droite)
- La bo√Æte s'√©tend sur environ un ordre de grandeur
- La m√©diane se situe dans la partie basse de la bo√Æte
- Les outliers s'√©talent largement au-dessus, montrant des sites exceptionnels

#### Conclusion g√©n√©rale

Vos donn√©es montrent une **distribution tr√®s d√©s√©quilibr√©e** : beaucoup de petits consommateurs et quelques tr√®s gros consommateurs. L'√©chelle logarithmique est indispensable pour bien visualiser ces donn√©es.

##### Traitement des outliers
Afin de choisir la bonne m√©thode pour traiter les outliers, nous allons comparer les m√©thode z-score et IQR

In [None]:
# ========================================
# COMPARAISON Z-SCORE vs IQR
# ========================================

# 1. Calcul Z-score
z_scores = stats.zscore(df_filtered[TARGET_VARIABLE].dropna())
abs_z_scores = np.abs(z_scores)

# 2. Calcul IQR
Q1 = df_filtered[TARGET_VARIABLE].quantile(0.25)
Q3 = df_filtered[TARGET_VARIABLE].quantile(0.75)
IQR = Q3 - Q1
lower_iqr = Q1 - 1.5 * IQR
upper_iqr = Q3 + 1.5 * IQR

# Identification des outliers
outliers_z2 = df_filtered[TARGET_VARIABLE].dropna()[abs_z_scores > 2]
outliers_z3 = df_filtered[TARGET_VARIABLE].dropna()[abs_z_scores > 3]
outliers_iqr = df_filtered[(df_filtered[TARGET_VARIABLE] < lower_iqr) | 
                            (df_filtered[TARGET_VARIABLE] > upper_iqr)][TARGET_VARIABLE]

# ========================================
# R√âSULTATS COMPARATIFS
# ========================================
print("=" * 70)
print("COMPARAISON DES M√âTHODES DE D√âTECTION D'OUTLIERS")
print("=" * 70)

print(f"\nüìä Donn√©es totales : {len(df_filtered)} b√¢timents")
print(f"   Moyenne : {df_filtered[TARGET_VARIABLE].mean():,.0f} kBtu")
print(f"   M√©diane : {df_filtered[TARGET_VARIABLE].median():,.0f} kBtu")
print(f"   √âcart-type : {df_filtered[TARGET_VARIABLE].std():,.0f} kBtu")

print("\n" + "=" * 70)
print("M√âTHODE 1 : Z-SCORE (seuil = 2)")
print("=" * 70)
print(f"Nombre d'outliers : {len(outliers_z2)}")
print(f"Pourcentage : {(len(outliers_z2) / len(df_filtered) * 100):.2f}%")

print("\n" + "=" * 70)
print("M√âTHODE 2 : Z-SCORE (seuil = 3)")
print("=" * 70)
print(f"Nombre d'outliers : {len(outliers_z3)}")
print(f"Pourcentage : {(len(outliers_z3) / len(df_filtered) * 100):.2f}%")

print("\n" + "=" * 70)
print("M√âTHODE 3 : IQR (facteur = 1.5)")
print("=" * 70)
print(f"Seuil bas : {lower_iqr:,.0f} kBtu")
print(f"Seuil haut : {upper_iqr:,.0f} kBtu")
print(f"Nombre d'outliers : {len(outliers_iqr)}")
print(f"Pourcentage : {(len(outliers_iqr) / len(df_filtered) * 100):.2f}%")

# ========================================
# VISUALISATION COMPARATIVE
# ========================================
fig, axes = plt.subplots(2, 2, figsize=(16, 10))

# Graphique 1 : Z-score = 2
axes[0, 0].hist(df_filtered[TARGET_VARIABLE].dropna(), bins=50, alpha=0.6, 
                label='Donn√©es normales', edgecolor='black', color='lightblue')
axes[0, 0].hist(outliers_z2, bins=30, alpha=0.9, 
                label=f'Outliers ({len(outliers_z2)})', color='red', edgecolor='black')
axes[0, 0].set_xlabel('SiteEnergyUseWN (kBtu)')
axes[0, 0].set_ylabel('Fr√©quence')
axes[0, 0].set_title(f'Z-score seuil = 2 ({len(outliers_z2)} outliers - {(len(outliers_z2)/len(df_filtered)*100):.1f}%)')
axes[0, 0].legend()
axes[0, 0].set_yscale('log')
axes[0, 0].grid(alpha=0.3)

# Graphique 2 : Z-score = 3
axes[0, 1].hist(df_filtered[TARGET_VARIABLE].dropna(), bins=50, alpha=0.6, 
                label='Donn√©es normales', edgecolor='black', color='lightblue')
axes[0, 1].hist(outliers_z3, bins=30, alpha=0.9, 
                label=f'Outliers ({len(outliers_z3)})', color='orange', edgecolor='black')
axes[0, 1].set_xlabel('SiteEnergyUseWN (kBtu)')
axes[0, 1].set_ylabel('Fr√©quence')
axes[0, 1].set_title(f'Z-score seuil = 3 ({len(outliers_z3)} outliers - {(len(outliers_z3)/len(df_filtered)*100):.1f}%)')
axes[0, 1].legend()
axes[0, 1].set_yscale('log')
axes[0, 1].grid(alpha=0.3)

# Graphique 3 : IQR
axes[1, 0].hist(df_filtered[TARGET_VARIABLE].dropna(), bins=50, alpha=0.6, 
                label='Donn√©es normales', edgecolor='black', color='lightblue')
axes[1, 0].hist(outliers_iqr, bins=30, alpha=0.9, 
                label=f'Outliers ({len(outliers_iqr)})', color='green', edgecolor='black')
axes[1, 0].axvline(upper_iqr, color='darkgreen', linestyle='--', linewidth=2, 
                   label=f'Seuil IQR = {upper_iqr:,.0f}')
axes[1, 0].set_xlabel('SiteEnergyUseWN (kBtu)')
axes[1, 0].set_ylabel('Fr√©quence')
axes[1, 0].set_title(f'IQR (facteur 1.5) ({len(outliers_iqr)} outliers - {(len(outliers_iqr)/len(df_filtered)*100):.1f}%)')
axes[1, 0].legend()
axes[1, 0].set_yscale('log')
axes[1, 0].grid(alpha=0.3)

# Graphique 4 : Boxplot comparatif
data_z2 = df_filtered[TARGET_VARIABLE].copy()
data_z2.loc[outliers_z2.index] = np.nan

data_z3 = df_filtered[TARGET_VARIABLE].copy()
data_z3.loc[outliers_z3.index] = np.nan

data_iqr = df_filtered[TARGET_VARIABLE].copy()
data_iqr.loc[outliers_iqr.index] = np.nan

box_data = [
    df_filtered[TARGET_VARIABLE].dropna(),
    data_z2.dropna(),
    data_z3.dropna(),
    data_iqr.dropna()
]

bp = axes[1, 1].boxplot(box_data, tick_labels=['Originales', 'Sans Z>2', 'Sans Z>3', 'Sans IQR'],
                        patch_artist=True)
for patch, color in zip(bp['boxes'], ['lightgray', 'red', 'orange', 'green']):
    patch.set_facecolor(color)
    patch.set_alpha(0.6)
axes[1, 1].set_ylabel('SiteEnergyUseWN (kBtu)')
axes[1, 1].set_title('Comparaison des distributions apr√®s suppression des outliers')
axes[1, 1].set_yscale('log')
axes[1, 1].grid(alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

#### Choix de la m√©thode de d√©tection des outliers

Nous avons choisi d'utiliser le **z-score avec un seuil √† 3** plut√¥t que le z-score √† 2 ou la m√©thode **IQR**.  
Ce choix se justifie par les points suivants :

##### 1. Z-score √† 2
- **Trop restrictif**
- √âlimine **109 b√¢timents** *(6,5 % du dataset)*
- Risque de supprimer des **donn√©es l√©gitimes** concernant de grands b√¢timents

##### 2. IQR (facteur 1,5)
- √âgalement **trop strict**
- Supprime **133 b√¢timents** *(8,0 % du dataset)*
- Retire des consommations √©lev√©es mais **normales** pour certains types de b√¢timents  
  *(h√¥pitaux, campus)*

##### 3. Z-score √† 3
- **Plus adapt√©** au contexte
- Ne supprime que **16 b√¢timents extr√™mes** *(1,0 % du dataset)*
- Pr√©serve la **variabilit√© naturelle des donn√©es**
- √âlimine uniquement les valeurs **v√©ritablement aberrantes**


#### Examinons les 16 b√¢timents

Nous analysons ces **16 b√¢timents** afin de d√©terminer s‚Äôils correspondent √† de **v√©ritables valeurs aberrantes** ou s‚Äôil est **pertinent de les conserver** dans le mod√®le.


In [None]:
# ========================================
# EXAMEN DES 16 OUTLIERS (Z-SCORE > 3)
# ========================================

# Calculer les z-scores et identifier les outliers
z_scores = stats.zscore(df_filtered[TARGET_VARIABLE].dropna())
abs_z_scores = np.abs(z_scores)
outlier_mask = abs_z_scores > 3

# R√©cup√©rer les outliers
outliers = df_filtered[TARGET_VARIABLE].dropna()[outlier_mask]

# Afficher les informations principales
print(f"Nombre d'outliers d√©tect√©s : {len(outliers)}\n")

# S√©lectionner les colonnes importantes
colonnes_importantes = [
    'PropertyName',
	'Outlier',
    'BuildingType', 
    'PrimaryPropertyType',
    'LargestPropertyUseType',
    'PropertyGFABuilding(s)',
    'NumberofFloors',
    'YearBuilt',
    TARGET_VARIABLE,
    'SiteEUI(kBtu/sf)',
    'ENERGYSTARScore'
]

# Afficher le tableau des outliers
outliers_df = df_filtered.loc[outliers.index, colonnes_importantes].copy()
outliers_df['Z-Score'] = abs_z_scores[abs_z_scores > 3]
outliers_df = outliers_df.sort_values(by=TARGET_VARIABLE, ascending=False)

print("Liste des 16 b√¢timents outliers :")
print("=" * 100)
display(outliers_df)

print("\nüìä R√âPARTITION DES OUTLIERS PAR TYPE :")
display(outliers_df['PrimaryPropertyType'].value_counts())

print("\nüìä R√âPARTITION DES OUTLIERS PAR USAGE :")
display(outliers_df['LargestPropertyUseType'].value_counts())

print(f"\nSurface moyenne des outliers      : {outliers_df['PropertyGFABuilding(s)'].mean():,.0f} sf")
print(f"Surface moyenne globale           : {df_filtered['PropertyGFABuilding(s)'].mean():,.0f} sf")
print(f"Ratio                             : {outliers_df['PropertyGFABuilding(s)'].mean() / df_filtered['PropertyGFABuilding(s)'].mean():.1f}x")



In [None]:
# Visualisation des outliers
plt.figure(figsize=(10, 6))

# Tracer toutes les donn√©es normales puis les outliers par-dessus
plt.scatter(df_filtered['PropertyGFABuilding(s)'], 
            df_filtered[TARGET_VARIABLE], 
            alpha=0.5, s=30, label='Donn√©es normales', color='lightblue')

plt.scatter(outliers_df['PropertyGFABuilding(s)'], 
            outliers_df[TARGET_VARIABLE], 
            alpha=0.9, s=100, label='Outliers (Z>3)', color='red', edgecolor='black')

plt.xlabel('Surface du b√¢timent (sf)', fontsize=12)
plt.ylabel('Consommation √©nerg√©tique (kBtu)', fontsize=12)
plt.title('Consommation vs Surface - Identification des outliers', fontsize=14, fontweight='bold')
plt.xscale('log')
plt.yscale('log')
plt.legend()
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()


#### D√©cision : Conservation des outliers

Nous avons identifi√© **16 b√¢timents** pr√©sentant des valeurs de consommation √©nerg√©tique extr√™mes *(z-score > 3)*.

**D√©cision :** Ces outliers sont conserv√©s pour les raisons suivantes :

##### 1. B√¢timents l√©gitimes
Il s'agit principalement :
- d'**h√¥pitaux** (6),
- de **campus universitaires** (2),
- de **grands immeubles de bureaux**,

dont la forte consommation est coh√©rente avec leur taille  
*(surface moyenne **8,2√ó sup√©rieure** √† la moyenne globale)*.

##### 2. Pas d'erreurs de mesure
Les valeurs observ√©es sont proportionnelles :
- √† la **surface**,
- au **type d'usage**.

La consommation √©lev√©e s'explique par des caract√©ristiques structurelles r√©elles :
- fonctionnement **24/7**,
- **√©quipements sp√©cialis√©s**,
- **grande surface**.

##### 3. Repr√©sentativit√©
Ces types de b√¢timents sont essentiels pour l'objectif de **neutralit√© carbone de Seattle**.  
Les exclure emp√™cherait le mod√®le de pr√©dire correctement la consommation des **infrastructures critiques** de la ville.

##### 4. Impact limit√©
Les **16 b√¢timents** repr√©sentent moins de **1 % du dataset** *(0,96 %)*,  
ce qui est insuffisant pour d√©s√©quilibrer le mod√®le.

### 3.4 Analyse des valeurs manquantes

In [None]:
def columns_with_missing_values(dataframe):
    is_null_array = dataframe.isnull().sum()
    null_counts = is_null_array[is_null_array > 0].sort_values(ascending=False)
    return null_counts

display(columns_with_missing_values(df_filtered))

#### Colonne 'ZipCode'

Nous avons **16 b√¢timents** (0.47%) sans ZipCode. Analysons ces b√¢timents pour comprendre pourquoi et comment imputer ces valeurs manquantes.

In [None]:
# Analyser les b√¢timents sans ZipCode
missing_zipcode = df_filtered[df_filtered['ZipCode'].isna()]

print(f"B√¢timents sans ZipCode: {len(missing_zipcode)}")
print(f"Pourcentage: {len(missing_zipcode)/len(df_filtered)*100:.2f}%\n")

# Afficher quelques exemples
display(missing_zipcode[['OSEBuildingID', 'PropertyName', 'Address', 'Neighborhood', 'BuildingType', 'YearBuilt']].head(10))

print("\nCaract√©ristiques communes:")
print(f"- BuildingType: {missing_zipcode['BuildingType'].unique()}")
print(f"- OSEBuildingID moyen: {missing_zipcode['OSEBuildingID'].mean():.0f} (vs {df_filtered['OSEBuildingID'].mean():.0f} pour tous)")
print(f"- Toutes les autres infos de localisation pr√©sentes: {missing_zipcode[['Address', 'Latitude', 'Longitude', 'Neighborhood']].notna().all().all()}")

**Observation** : Tous ces b√¢timents sont des b√¢timents municipaux r√©cents (Nonresidential COS) avec des OSEBuildingID √©lev√©s (>50000), sugg√©rant une erreur lors de l'import.

**Solution d'imputation** : Puisque tous les b√¢timents ont des coordonn√©es GPS et un quartier (Neighborhood), nous allons :
1. Utiliser le **ZipCode le plus fr√©quent** dans chaque quartier pour imputer les valeurs manquantes
2. Pour les quartiers sans autres b√¢timents, utiliser un **g√©ocodage invers√©** bas√© sur les coordonn√©es GPS

In [None]:
# Analyser les ZipCodes par quartier pour les b√¢timents manquants
print("Analyse des ZipCodes par quartier:\n")

for neighborhood in missing_zipcode['Neighborhood'].unique():
    print(f"üìç {neighborhood}")
    
    # B√¢timents sans ZipCode dans ce quartier
    missing_in_n = missing_zipcode[missing_zipcode['Neighborhood'] == neighborhood]
    print(f"   B√¢timents SANS ZipCode: {len(missing_in_n)}")
    
    # B√¢timents avec ZipCode dans le m√™me quartier
    with_zip_in_n = df_filtered[
        (df_filtered['Neighborhood'] == neighborhood) & 
        (df_filtered['ZipCode'].notna())
    ]
    
    if len(with_zip_in_n) > 0:
        # ZipCode le plus fr√©quent
        most_common = with_zip_in_n['ZipCode'].mode()[0]
        frequency = (with_zip_in_n['ZipCode'] == most_common).sum() / len(with_zip_in_n) * 100
        print(f"   ‚úÖ ZipCode le plus fr√©quent: {int(most_common)} ({frequency:.1f}% des b√¢timents)")
    else:
        print(f"   ‚ö†Ô∏è  Aucun autre b√¢timent avec ZipCode dans ce quartier")
    
    print()

In [None]:
def impute_zipcode_by_neighborhood(df):
    """
    Impute les ZipCodes manquants en utilisant le ZipCode le plus fr√©quent du quartier.
    
    Pour les quartiers sans autres b√¢timents, on peut ajouter une logique de g√©ocodage
    ou laisser les valeurs manquantes pour traitement manuel.
    """
    df_imputed = df.copy()
    imputation_log = []
    
    # Pour chaque ligne avec ZipCode manquant
    for idx in df_imputed[df_imputed['ZipCode'].isna()].index:
        neighborhood = df_imputed.loc[idx, 'Neighborhood']
        
        # Trouver le ZipCode le plus fr√©quent dans ce quartier
        neighborhood_zipcodes = df_imputed[
            (df_imputed['Neighborhood'] == neighborhood) & 
            (df_imputed['ZipCode'].notna())
        ]['ZipCode']
        
        if len(neighborhood_zipcodes) > 0:
            most_common_zip = neighborhood_zipcodes.mode()[0]
            df_imputed.loc[idx, 'ZipCode'] = most_common_zip
            
            imputation_log.append({
                'Index': idx,
                'PropertyName': df_imputed.loc[idx, 'PropertyName'],
                'Neighborhood': neighborhood,
                'ImputedZipCode': int(most_common_zip),
                'Method': 'Mode du quartier'
            })
        else:
            imputation_log.append({
                'Index': idx,
                'PropertyName': df_imputed.loc[idx, 'PropertyName'],
                'Neighborhood': neighborhood,
                'ImputedZipCode': None,
                'Method': 'Quartier sans autres b√¢timents'
            })
    
    return df_imputed, pd.DataFrame(imputation_log)

In [None]:
# Appliquer l'imputation
df_imputed, imputation_log = impute_zipcode_by_neighborhood(df_filtered)

print("üìä R√©sum√© de l'imputation:\n")
display(imputation_log)

print(f"\n‚úÖ Valeurs imput√©es avec succ√®s: {imputation_log['ImputedZipCode'].notna().sum()}")
print(f"‚ö†Ô∏è  Valeurs toujours manquantes: {imputation_log['ImputedZipCode'].isna().sum()}")

Pour le(s) b√¢timent(s) dans des quartiers sans autres donn√©es, nous pouvons soit :
- Utiliser un service de g√©ocodage invers√© (Google Maps API, OpenStreetMap, etc.)
- Rechercher manuellement le ZipCode √† partir de l'adresse
- Les laisser manquants si l'impact est n√©gligeable

Recherche manuelle pour "High Point Community Center" dans DELRIDGE NEIGHBORHOODS :

In [None]:
# Recherche manuelle: High Point Community Center, 6920 34th Ave SW, Seattle
# D'apr√®s les donn√©es de quartier et la proximit√©, ce b√¢timent est probablement en 98126

# Imputation manuelle pour DELRIDGE NEIGHBORHOODS
delridge_missing = df_imputed[
    (df_imputed['Neighborhood'] == 'DELRIDGE NEIGHBORHOODS') & 
    (df_imputed['ZipCode'].isna())
]

if len(delridge_missing) > 0:
    print("B√¢timent(s) √† imputer manuellement:")
    display(delridge_missing[['PropertyName', 'Address', 'Latitude', 'Longitude']])
    
    # Note: Le ZipCode 98126 correspond √† West Seattle/Delridge
    # V√©rifiable via les coordonn√©es: 47.54067, -122.37441
    df_imputed.loc[delridge_missing.index, 'ZipCode'] = 98126.0
    print("\n‚úÖ ZipCode 98126 appliqu√© (bas√© sur localisation g√©ographique)")
else:
    print("Aucun b√¢timent restant √† imputer.")

In [None]:
# V√©rification finale
print("V√©rification de l'imputation:\n")
print(f"Avant imputation: {df_filtered['ZipCode'].isna().sum()} valeurs manquantes")
print(f"Apr√®s imputation: {df_imputed['ZipCode'].isna().sum()} valeurs manquantes")

if df_imputed['ZipCode'].isna().sum() == 0:
    print("\n‚úÖ SUCC√àS: Toutes les valeurs de ZipCode ont √©t√© imput√©es!")
    # Mettre √† jour le DataFrame principal
    df_filtered = df_imputed.copy()
else:
    print(f"\n‚ö†Ô∏è  Il reste {df_imputed['ZipCode'].isna().sum()} valeur(s) manquante(s) √† traiter.")

#### Colonne 'Comments'

√âtant donn√© que **toutes les lignes** ne contiennent **aucune information** dans la colonne *Comments*, celle-ci est **supprim√©e**.


In [None]:
df_filtered = df_filtered.drop(columns=["Comments"])

#### Colonne 'Outlier'

Affichons dans un premier les lignes dont nous avons de la donn√©es

In [None]:
display(df_filtered[df_filtered["Outlier"].notna()])

Nous avons 2 types dans la colonnes 'Outlier'

*High outliers*:
- Il s‚Äôagit exclusivement de **grands immeubles de bureaux inefficaces**
- **Score ENERGY STAR tr√®s faible (1)** ou **absent**
- Indiquent un **besoin urgent d‚Äôam√©lioration √©nerg√©tique**

*Low outliers*:
- **80 %** pr√©sentent un **score ENERGY STAR de 100**, indiquant des b√¢timents **tr√®s performants**
- Nombreux **b√¢timents communautaires** *(√©glises, √©coles)*
- Certains semblent **sous-utilis√©s** *(EUI < 2 kBtu/sf)*


Nous avons conserv√© les 17 b√¢timents marqu√©s comme outliers par Seattle car :
- Ils repr√©sentent des cas r√©els et l√©gitimes (b√¢timents inefficaces ou tr√®s performants)
- Leur suppression ne r√©duirait le dataset que de 1%
- Notre mod√®le doit √™tre capable de pr√©dire aussi bien les b√¢timents inefficaces (√† r√©nover) que les b√¢timents performants (objectif 2050)
- Les recommandations du projet stipulent d'√©viter de r√©duire significativement le dataset

##### Analyse de la colonne "SiteEUI(kBtu/sf)"

In [None]:
def get_rows_with_missing_values(df: pd.DataFrame, column_name: str) -> pd.DataFrame:
    """
    Retourne et affiche les lignes du DataFrame o√π la colonne sp√©cifi√©e contient des valeurs manquantes.

    Parameters
    ----------
    df : pandas.DataFrame
        Le DataFrame √† analyser
    column_name : str
        Le nom de la colonne √† v√©rifier

    Returns
    -------
    pandas.DataFrame
        Sous-DataFrame contenant les lignes avec des valeurs NaN dans la colonne
    """
    missing_rows = df[df[column_name].isna()]
    display(missing_rows)
    return missing_rows

siteEUI_missing_rows = get_rows_with_missing_values(df_filtered, "SiteEUI(kBtu/sf)")

Les donn√©es de mesures de cette ligne sont soit a 0 ou NaN , donc nous supprimons cette ligne

In [None]:
def remove_rows_with_missing_values(df: pd.DataFrame, column_name: str) -> pd.DataFrame:
    """
    Supprime les lignes contenant des valeurs manquantes dans une colonne donn√©e.

    Parameters
    ----------
    df : pandas.DataFrame
        DataFrame √† nettoyer
    column_name : str
        Nom de la colonne √† v√©rifier

    Returns
    -------
    pandas.DataFrame
        DataFrame sans valeurs manquantes dans la colonne sp√©cifi√©e
    """
    initial_row_count = len(df)

    cleaned_df = df.dropna(subset=[column_name])

    removed_rows = initial_row_count - len(cleaned_df)
    print(f"Lignes avant nettoyage : {initial_row_count}")
    print(f"Lignes supprim√©es (NaN dans '{column_name}') : {removed_rows}")
    print(f"Lignes apr√®s nettoyage : {len(cleaned_df)}")

    return cleaned_df


df_filtered = remove_rows_with_missing_values(df_filtered, "SiteEUI(kBtu/sf)")

##### Analyse des colonnes 'LargestPropertyUseType' et 'LargestPropertyUseTypeGFA'

Chaque b√¢timent a forc√©ment un usage principal, nous devons comprendre pourquoi, nous avons des NaN

In [None]:
largest_missing_values = get_rows_with_missing_values(df_filtered, "LargestPropertyUseType")


In [None]:
# Voir les valeurs de PrimaryPropertyType pour ces lignes
largest_missing_values[['PrimaryPropertyType', 'LargestPropertyUseType', 'ListOfAllPropertyUseTypes', 'PropertyGFABuilding(s)']]


In [None]:
# V√©rifier si PrimaryPropertyType est souvent √©gal √† LargestPropertyUseType
comparison = building_consumption[building_consumption['LargestPropertyUseType'].notna()].copy()
comparison['same_value'] = comparison['PrimaryPropertyType'] == comparison['LargestPropertyUseType']
print(f"Pourcentage de correspondance : {comparison['same_value'].mean() * 100:.2f}%")


In [None]:
# V√©rifier si ListOfAllPropertyUseTypes est souvent √©gal √† LargestPropertyUseType
comparison = building_consumption[building_consumption['LargestPropertyUseType'].notna()].copy()
comparison['same_value'] = comparison['ListOfAllPropertyUseTypes'] == comparison['LargestPropertyUseType']
print(f"Pourcentage de correspondance : {comparison['same_value'].mean() * 100:.2f}%")


In [None]:
# Pour chaque ListOfAllPropertyUseTypes, voir quelles sont les valeurs courantes de LargestPropertyUseType
for ptype in largest_missing_values['ListOfAllPropertyUseTypes'].unique():
    if pd.notna(ptype):
        print(f"\nPour ListOfAllPropertyUseTypes = '{ptype}':")
        subset = building_consumption[(building_consumption['ListOfAllPropertyUseTypes'] == ptype) & (building_consumption['LargestPropertyUseType'].notna())]
        print(subset['LargestPropertyUseType'].value_counts())


In [None]:
# Pour les 3 cas simples, remplir avec ListOfAllPropertyUseTypes
df_filtered.loc[df_filtered.index.isin([1147, 2414, 2459]), 'LargestPropertyUseType'] = \
    df_filtered.loc[df_filtered.index.isin([1147, 2414, 2459]), 'ListOfAllPropertyUseTypes']

# Pour le cas 353, on supprime la ligne
df_filtered = df_filtered.drop(index=353)


In [None]:
# Afficher les lignes avec LargestPropertyUseTypeGFA manquant
largestGFA_missing_values = get_rows_with_missing_values(df_filtered, "LargestPropertyUseTypeGFA")


In [None]:
# V√©rifier si ListOfAllPropertyUseTypes est souvent √©gal √† LargestPropertyUseTypeGFA
comparison = building_consumption[building_consumption['LargestPropertyUseTypeGFA'].notna()].copy()
comparison['same_value'] = comparison['PropertyGFABuilding(s)'] == comparison['LargestPropertyUseTypeGFA']
print(f"Pourcentage de correspondance : {comparison['same_value'].mean() * 100:.2f}%")


In [None]:
df_filtered.loc[df_filtered.index.isin([1147, 2414, 2459]), 'LargestPropertyUseTypeGFA'] = \
    df_filtered.loc[df_filtered.index.isin([1147, 2414, 2459]), 'PropertyGFABuilding(s)']

#### Colonnes 'ThirdLargestPropertyUseType', 'ThirdLargestPropertyUseTypeGFA', 'SecondLargestPropertyUseType', 'SecondLargestPropertyUseTypeGFA'

Ces colonnes fournissent des **informations sur les b√¢timents √† usages multiples**.  
Les valeurs **NaN** indiquent simplement l‚Äôabsence d‚Äôun usage secondaire ou tertiaire et **ne constituent pas un probl√®me**.

**Les colonnes sont donc conserv√©es.**


#### Analyse de la colonne 'ENERGYSTARScore'

In [None]:
energiestartscore_missing_values = get_rows_with_missing_values(df_filtered, "ENERGYSTARScore")

##### Exclusion de la colonne ENERGYSTARScore

Cette colonne est retir√©e pour deux raisons :

1. **Risque de fuite de donn√©es** :  
   Le score ENERGY STAR d√©pend directement de la consommation √©nerg√©tique du b√¢timent, notre variable cible. L‚Äôutiliser reviendrait √† pr√©dire la consommation √† partir d‚Äôun indicateur qui la contient d√©j√†.

2. **Trop de valeurs manquantes** :  
   Environ 18 % des b√¢timents n‚Äôont pas ce score, car certains types de propri√©t√©s ne sont pas √©ligibles ou certaines donn√©es manquent.

En l‚Äôexcluant, le mod√®le apprend uniquement √† partir des caract√©ristiques r√©elles des b√¢timents.


#### Analyse de la colonne SiteEUIWN(kBtu/sf)

In [None]:
siteEui_missing_values = get_rows_with_missing_values(df_filtered, "SiteEUIWN(kBtu/sf)")

Sachant que c'est notre variable cible et qu'il y a qu'une ligne nous pouvons nou permettre de la supprim√©s

In [None]:
df_filtered = remove_rows_with_missing_values(df_filtered, "SiteEnergyUseWN(kBtu)")

### 3.5 D√©tection des valeurs aberrantes

#### Valeurs n√©gatives


In [None]:
def display_columns_with_negatives(dataframe: pd.DataFrame) -> None:
    """
    Affiche les statistiques descriptives des colonnes num√©riques contenant des valeurs n√©gatives.

    Parameters
    ----------
    dataframe : pandas.DataFrame
        Le DataFrame √† analyser
    """
    numeric_cols = dataframe.select_dtypes(include=[np.number]).columns
    cols_with_negatives = numeric_cols[(dataframe[numeric_cols] < 0).any()]
    display(dataframe[cols_with_negatives].describe())

display_columns_with_negatives(df_filtered)

On remarque que nous avons des valeurs n√©gatives pour SourceEUIWN(kBtu/sf), Electricity(kWh), Electricity(kBtu), TotalGHGEmissions, GHGEmissionsIntensity cela signifierai que les batiments produir√©s plus de d'√©lectricit√© par exemple que n'en produit.

V√©rifions les lignes concern√©s

In [None]:
negative_checks = [
    ('SourceEUIWN(kBtu/sf)', df_filtered['SourceEUIWN(kBtu/sf)'] < 0),
    ('Electricity(kWh)', df_filtered['Electricity(kWh)'] < 0),
    ('Electricity(kBtu)', df_filtered['Electricity(kBtu)'] < 0),
    ('TotalGHGEmissions', df_filtered['TotalGHGEmissions'] < 0),
    ('GHGEmissionsIntensity', df_filtered['GHGEmissionsIntensity'] < 0),
]
display(df_filtered[df_filtered['Electricity(kWh)'] < 0])

On constate que nous avons qu'un seul batiment poss√©dant des valeurs n√©gatives

Le b√¢timent **Bullitt Center** est un b√¢timent √©cologique, poss√©dant des panneaux solaires, ce qui pourrait expliquer ces valeurs n√©gatives.

Nous d√©cidons de supprimer cette donn√©e car :
- Il s‚Äôagit d‚Äôun cas tr√®s sp√©cifique de b√¢timent √† √©nergie positive (unique dans le dataset) ;
- Valeurs incoh√©rentes : consommation √©lectrique n√©gative alors que la consommation totale est positive (SiteEnergyUse (kBtu)) ;
- Donn√©e non repr√©sentative de la population cible (b√¢timents consommateurs d‚Äô√©nergie) ;
- Risque de fausser les mod√®les de pr√©diction ;
- On constate √©galement que les colonnes **TotalGHGEmissions** et **GHGEmissionsIntensity** comportent des valeurs n√©gatives.


In [None]:
print(f"Nombre de lignes avant suppression des valeurs n√©gative dans 'Electricity(kWh)' : {len(df_filtered)}")
df_filtered = df_filtered[df_filtered['Electricity(kWh)'] >= 0]
print(f"Nombre de lignes apr√®s suppression des valeurs n√©gative dans 'Electricity(kWh)' : {len(df_filtered)}")

V√©rifions si nous avons d'autre valeurs n√©gatives

In [None]:
display_columns_with_negatives(df_filtered)

Nous n'avons plus d'autre donn√©es avec des valeurs n√©gatives

### 3.6 Analyse exploratoire visuelle

#### 3.6.1 Distributions univari√©es



In [None]:
# Distribution avec √©chelle normale et log
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# √âchelle normale
sns.histplot(df_filtered[TARGET_VARIABLE], bins=50, kde=True, ax=axes[0])
axes[0].set_title('Distribution de la consommation (√©chelle normale)')

# √âchelle log
sns.histplot(df_filtered[TARGET_VARIABLE], bins=50, kde=True, ax=axes[1], log_scale=True)
axes[1].set_title('Distribution de la consommation (√©chelle log)')
plt.tight_layout()



#### 3.6.2 Relations bivari√©es

##### A. Quantitative vs Quantitative



In [None]:
# Surface vs Consommation (RELATION CRUCIALE)
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_filtered, x='PropertyGFABuilding(s)', y=TARGET_VARIABLE, alpha=0.5)
plt.title('Consommation vs Surface du b√¢timent')
plt.xlabel('Surface du b√¢timent (sf)')
plt.ylabel('Consommation √©nerg√©tique (kBtu)')


##### B. Quantitative vs Qualitative

In [None]:
# Boxplot par type de propri√©t√©
plt.figure(figsize=(14, 6))
sns.boxplot(data=df_filtered, x='PrimaryPropertyType', y='SiteEnergyUseWN(kBtu)')
plt.xticks(rotation=45, ha='right')
plt.title('Distribution de la consommation par type de propri√©t√©')
plt.ylabel('Consommation (kBtu)')
plt.tight_layout()



In [None]:
# Top 10 quartiers par consommation moyenne
top_neighborhoods = df_filtered.groupby('Neighborhood')['SiteEnergyUseWN(kBtu)'].mean().nlargest(10)

plt.figure(figsize=(12, 6))
df_top = df_filtered[df_filtered['Neighborhood'].isin(top_neighborhoods.index)]
sns.boxplot(data=df_top, x='Neighborhood', y='SiteEnergyUseWN(kBtu)')
plt.xticks(rotation=45, ha='right')
plt.title('Consommation des 10 quartiers avec la plus forte consommation moyenne')
plt.tight_layout()


In [None]:
# Cr√©er la variable Age
df_filtered['Age'] = 2016 - df_filtered['YearBuilt']

# Scatter plot Age vs Consommation
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df_filtered, x='Age', y='SiteEnergyUseWN(kBtu)', alpha=0.5)
plt.title('Consommation vs √Çge du b√¢timent')
plt.xlabel('√Çge (ann√©es)')
plt.ylabel('Consommation (kBtu)')




##### C. Qualitative vs Qualitative


In [None]:
# Exemple : Type de propri√©t√© vs Quartier
ct = pd.crosstab(df_filtered['PrimaryPropertyType'], df_filtered['Neighborhood'])

plt.figure(figsize=(14, 8))
sns.heatmap(ct, annot=True, fmt='d', cmap='YlOrRd')
plt.title('Nombre de b√¢timents par type et quartier')
plt.xlabel('Quartier')
plt.ylabel('Type de propri√©t√©')
plt.tight_layout()
plt.show()


In [None]:
# Crosstab des 10 types les plus fr√©quents et 10 quartiers les plus fr√©quents
top_types = df_filtered['PrimaryPropertyType'].value_counts().head(10).index
top_neighborhoods = df_filtered['Neighborhood'].value_counts().head(10).index

df_subset = df_filtered[
    (df_filtered['PrimaryPropertyType'].isin(top_types)) & 
    (df_filtered['Neighborhood'].isin(top_neighborhoods))
]

ct = pd.crosstab(df_subset['PrimaryPropertyType'], df_subset['Neighborhood'])

plt.figure(figsize=(14, 8))
sns.heatmap(ct, annot=True, fmt='d', cmap='YlGnBu')
plt.title('R√©partition des types de propri√©t√©s par quartier')
plt.xlabel('Quartier')
plt.ylabel('Type de propri√©t√©')
plt.tight_layout()
