# Anticipez les besoins en consommations de b√¢timents

## Objectif

L'objectif de ce projet est de pr√©dire les √©missions de CO2 et la consommation totale d'√©nergie de b√¢timents non destin√©s √† l'habitation de la ville de Seattle √† partir de leurs donn√©es structurelles (taille, usage, date de construction, localisation) afin d'atteindre l'objectif de neutralit√© carbone de la ville en 2050.

## 1. Installation du projet et de son environnement

Afin d‚Äôutiliser correctement ce notebook, v√©rifiez que vous disposez du bon environnement pour l‚Äôex√©cuter.


### 1.1 Installation de Python

Pour ce projet, il est n√©cessaire d‚Äôavoir **au minimum Python 3.8**.  
Si ce n‚Äôest pas d√©j√† le cas, vous pouvez vous r√©f√©rer √† [la documentation officielle](https://www.python.org/downloads/).

V√©rifiez votre version de Python :

```bash
python --version
```

### 1.2 Installation de `uv`

`uv` est un gestionnaire de projets Python permettant d‚Äôinstaller et d‚Äôorganiser les d√©pendances plus rapidement et plus simplement que les outils traditionnels (`pip`, `virtualenv`, etc.).

Pour installer `uv`, veuillez suivre [la documentation officielle](https://docs.astral.sh/uv/getting-started/installation/#standalone-installer)

V√©rifiez l‚Äôinstallation :

```bash
uv --version
```

### 1.3 Cr√©ation du projet

Cr√©ez un nouveau projet Python avec `uv` :

```bash
uv init nom_du_projet
cd nom_du_projet
```

La structure de base du projet est alors g√©n√©r√©e automatiquement.


### 1.4 Cr√©ation et activation de l‚Äôenvironnement virtuel

Cr√©ez l‚Äôenvironnement virtuel :

```bash
uv venv
```

Activez-le selon votre syst√®me :

* **Linux / macOS**

```bash
source .venv/bin/activate
```

* **Windows (PowerShell)**

```powershell
.venv\Scripts\Activate.ps1
```

Voir la documentation officielle :
[https://docs.astral.sh/uv/pip/environments/#creating-a-virtual-environment](https://docs.astral.sh/uv/pip/environments/#creating-a-virtual-environment)



### 1.5 Installation des d√©pendances

> ‚ùó Assurez-vous que l‚Äôenvironnement virtuel est **activ√©** avant d‚Äôinstaller les d√©pendances.

Installez les biblioth√®ques n√©cessaires au projet :

```bash
uv add ipykernel jupyterlab seaborn matplotlib numpy pandas scikit-learn tqdm scipy
```

Ces d√©pendances sont automatiquement enregistr√©es dans le fichier `pyproject.toml`.

Vous pouvez visualiser l‚Äôensemble des d√©pendances install√©es avec la commande suivante :

```bash
uv tree


## 2. Importation des Biblioth√®ques


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.patches import Patch
from matplotlib.axes import Axes
import seaborn as sns
import numpy as np
from scipy import stats
from typing import List, Union

In [None]:
def distribution_column(df: pd.DataFrame, column: str):
    """
    Affiche la distribution de la colonne 'Outlier' dans le DataFrame.

    Args:
        df (pd.DataFrame): Le DataFrame contenant la colonne 'Outlier'.
    """
    print(f"üìä Distribution de la colonne {column}")
    print("-" * 100)
    
    outlier_counts = df[column].value_counts(dropna=False)
    outlier_pct = df[column].value_counts(dropna=False, normalize=True) * 100
    
    outlier_summary = pd.DataFrame({
        'Effectif': outlier_counts,
        'Pourcentage': outlier_pct.round(2)
    })
    
    display(outlier_summary)

def display_columns_info(df: pd.DataFrame, columns: List[str]):
    for col in columns:
        n_unique = df[col].nunique()
        n_missing = df[col].isna().sum()
        pct_unique = (n_unique / len(df)) * 100
        pct_missing = (n_missing / len(df)) * 100
        
        print(f"‚Ä¢ {col}:")
        print(f"  - Type : {df[col].dtype}")
        print(f"  - Valeurs uniques: {n_unique} ({pct_unique:.1f}%)")
        print(f"  - Valeurs manquantes: {n_missing} ({pct_missing:.1f}%)")
        
        # Afficher les valeurs si peu nombreuses
        if n_unique <= 10:
            print(f"  - Valeurs: {df[col].unique()}")
        print("")

def remove_columns(df: pd.DataFrame, columns: List[str]) -> pd.DataFrame:
    """
    Supprime les colonnes sp√©cifi√©es du DataFrame.

    Args:
        df (pd.DataFrame): Le DataFrame d'origine.
        columns (list): Liste des noms de colonnes √† supprimer.

    Returns:
        pd.DataFrame: Le DataFrame sans les colonnes supprim√©es.
    """
    print("üì¶ Suppression de colonnes")
    print(f"   ‚û§ Shape initiale        : {df.shape}")
    print(f"   ‚û§ Colonnes demand√©es    : {len(columns)}")

    # Colonnes r√©ellement pr√©sentes
    existing_cols = [col for col in columns if col in df.columns]
    missing_cols = [col for col in columns if col not in df.columns]

    df = df.drop(columns=existing_cols)

    print(f"‚úÖ Suppression termin√©e")
    print(f"   ‚û§ Shape finale          : {df.shape}")
    print(f"   ‚û§ Colonnes supprim√©es   : {len(existing_cols)}")

    if existing_cols:
        print(f"   üßπ Liste supprim√©e       : {existing_cols}")

    if missing_cols:
        print(f"   ‚ö†Ô∏è Colonnes inexistantes : {missing_cols}")

    return df

def compare_describe_statistics(
    df_ref,
    df_comp,
    columns,
    stats=('mean', '50%', 'std'),
    stat_labels=('Moyenne', 'M√©diane', '√âcart-type'),
    ref_label='Avec outliers',
    comp_label='Sans outliers',
    n_cols=2,
    figsize=(16, 12),
    title="Comparaison des statistiques descriptives",
    summary_columns=None,
    mean_alert_thresholds=(5, 10)
):
    """
    Compare les statistiques issues de df.describe() entre deux dataframes.

    Parameters
    ----------
    df_ref : pd.DataFrame
        DataFrame de r√©f√©rence (ex : avec outliers)

    df_comp : pd.DataFrame
        DataFrame compar√© (ex : sans outliers)

    columns : list
        Colonnes num√©riques √† comparer

    stats : tuple
        Statistiques issues de describe() √† comparer

    stat_labels : tuple
        Labels affich√©s pour les statistiques

    ref_label / comp_label : str
        Libell√©s affich√©s dans les graphiques

    n_cols : int
        Nombre de colonnes dans la grille matplotlib

    figsize : tuple
        Taille de la figure

    title : str
        Titre global

    summary_columns : list or None
        Colonnes incluses dans le r√©sum√© textuel

    mean_alert_thresholds : tuple
        Seuils (%) pour interpr√©ter l'impact sur la moyenne
    """

    desc_ref = df_ref[columns].describe()
    desc_comp = df_comp[columns].describe()

    n_rows = int(np.ceil(len(columns) / n_cols))
    fig, axes = plt.subplots(n_rows, n_cols, figsize=figsize)
    axes = axes.flatten()

    fig.suptitle(title, fontsize=16, fontweight='bold', y=0.995)

    for idx, col in enumerate(columns):
        ax = axes[idx]

        ref_values = [desc_ref.loc[s, col] for s in stats]
        comp_values = [desc_comp.loc[s, col] for s in stats]

        variations = [
            ((comp - ref) / ref * 100) if ref != 0 else np.nan
            for ref, comp in zip(ref_values, comp_values)
        ]

        x = np.arange(len(stats))
        width = 0.35

        ax.bar(
            x - width / 2,
            ref_values,
            width,
            label=ref_label,
            color='#e74c3c',
            alpha=0.8
        )

        bars_comp = ax.bar(
            x + width / 2,
            comp_values,
            width,
            label=comp_label,
            color='#2ecc71',
            alpha=0.8
        )

        ax.set_title(col, fontweight='bold')
        ax.set_ylabel('Valeur')
        ax.set_xticks(x)
        ax.set_xticklabels(stat_labels)
        ax.legend()
        ax.grid(axis='y', linestyle='--', alpha=0.3)

        # Annotation variation %
        for bar, delta in zip(bars_comp, variations):
            height = bar.get_height()
            ax.text(
                bar.get_x() + bar.get_width() / 2,
                height,
                f"{delta:+.1f}%",
                ha='center',
                va='bottom',
                fontsize=9,
                fontweight='bold',
                color='green' if delta < 0 else 'red'
            )

    # Supprimer axes inutilis√©s
    for i in range(len(columns), len(axes)):
        fig.delaxes(axes[i])

    plt.tight_layout()
    plt.show()

    # ======================
    # R√©sum√© textuel
    # ======================
    if summary_columns is None:
        summary_columns = columns

    print("\n" + "=" * 80)
    print("R√âSUM√â DE LA COMPARAISON DES STATISTIQUES")
    print("=" * 80)

    mod_threshold, high_threshold = mean_alert_thresholds

    for col in summary_columns:
        ref_mean = desc_ref.loc['mean', col]
        comp_mean = desc_comp.loc['mean', col]
        delta_mean = ((comp_mean - ref_mean) / ref_mean * 100) if ref_mean != 0 else np.nan

        print(f"\n{col} :")
        for s, label in zip(stats, stat_labels):
            ref_val = desc_ref.loc[s, col]
            comp_val = desc_comp.loc[s, col]
            delta = ((comp_val - ref_val) / ref_val * 100) if ref_val != 0 else np.nan

            print(f"   ‚Ä¢ {label} : {delta:+.2f}%")

        if abs(delta_mean) > high_threshold:
            print(f"   ‚ö†Ô∏è Impact FORT sur la moyenne (>{high_threshold}%)")
        elif abs(delta_mean) > mod_threshold:
            print(f"   ‚ö° Impact MOD√âR√â sur la moyenne")
        else:
            print(f"   ‚úÖ Impact FAIBLE sur la moyenne")

## 3. Chargement du jeu de donn√©e

- **Jeu de donn√©es** : [2016_Building_Energy_Benchmarking.csv](https://s3.eu-west-1.amazonaws.com/course.oc-static.com/projects/Data_Scientist_P4/2016_Building_Energy_Benchmarking.csv)
- **Source officielle** : [Building Energy Benchmarking - Seattle Open Data](https://data.seattle.gov/Built-Environment/Building-Energy-Benchmarking-Data-2015-Present/teqw-tu6e/about_data)

> üìÅ **Action** : T√©l√©chargez le jeu de donn√©es et ajoutez-le dans le dossier `data/`

In [None]:
# Configuration de l'affichage pandas
pd.set_option('display.max_columns', None)  # Afficher toutes les colonnes
pd.set_option('display.width', None)         # Largeur automatique

df_origin = pd.read_csv('data/2016_Building_Energy_Benchmarking.csv')

df = df_origin.copy()

## 4. Choix des variables cibles

Pour r√©pondre √† l'objectif, je dois choisir 2 variables cibles. L'une pour pr√©dire les √©missions de CO2 et l'autre pour la consommation totale d'√©nergie.

### S√©lection des variables cibles

Apr√®s analyse du dataset, je choisis les 2 variables cibles suivantes :

**1. Pour les √©missions de CO2 :** `TotalGHGEmissions`
- √âmissions totales de gaz √† effet de serre (en tonnes m√©triques de CO2)

**2. Pour la consommation d'√©nergie :** `SiteEnergyUse(kBtu)`
- Consommation totale d'√©nergie du site (en kBtu)

#### Alternatives non retenues

**Pour les √©missions de CO2 :**
- `GHGEmissionsIntensity` : Mesure d'intensit√© (√©missions par surface en sq ft), moins pertinente pour l'objectif global de neutralit√© carbone de la ville qui n√©cessite les √©missions totales absolues

**Pour la consommation d'√©nergie :**
- `SiteEnergyUseWN(kBtu)` : Version normalis√©e par la m√©t√©o, moins repr√©sentative de la consommation r√©elle
- `SourceEUI(kBtu/sf)` : Mesure d'intensit√© √©nerg√©tique (par surface), pas la consommation totale
- `SiteEUI(kBtu/sf)` : Intensit√© d'usage du site par surface, ne refl√®te pas la consommation totale
- `Electricity(kWh)`, `NaturalGas(therms)`, `SteamUse(kBtu)` : Mesures partielles par type d'√©nergie, ne repr√©sentent pas la consommation totale agr√©g√©e

In [None]:
TARGET_CO2 = 'TotalGHGEmissions'
TARGET_ENERGY = 'SiteEnergyUse(kBtu)'

## 5. Information g√©n√©rale du Dataset

In [None]:
df.head()

In [None]:
display(df.shape)

**Dimensions du dataset :**
- 3376 lignes (b√¢timents)
- 46 colonnes

In [None]:
display(df.info())

#### Synth√®se de la structure des donn√©es

**Types de donn√©es :**
- 8 colonnes num√©riques enti√®res (`int64`)
- 22 colonnes num√©riques d√©cimales (`float64`)
- 15 colonnes textuelles (`object`)
- 1 colonne bool√©enne (`bool`)

**Colonnes √† analyser pouvant contenir des lignes probl√©matiques :**
- `Outlier` : indique si un b√¢timent est consid√©r√© comme un outlier
- `ComplianceStatus` : indique si un b√¢timent a satisfait aux exigences r√©glementaires de d√©claration √©nerg√©tique

**Valeurs manquantes importantes :**
- `Comments` : 0 valeur renseign√©e (colonne compl√®tement vide)
- `YearsENERGYSTARCertified` : 119 / 3376 (3,5 %)
- `Outlier` : 32 / 3376 (0,9 %)
- `ThirdLargestPropertyUseType(GFA)` : 596 / 3376 (17,7 %)
- `SecondLargestPropertyUseType(GFA)` : 1679 / 3376 (49,7 %)
- `ENERGYSTARScore` : 2533 / 3376 (75,0 %)

**Variables cibles : couverture excellente**
- `TotalGHGEmissions` : 3367 / 3376 (99,7 %)
- `SiteEnergyUse(kBtu)` : 3371 / 3376 (99,9 %)

**Points d'attention :**
- `ZipCode` : stock√© en `float64` au lieu de `string` (16 valeurs manquantes)



In [None]:
df.describe()

### Synth√®se des statistiques descriptives

**Colonnes analys√©es :** 22 colonnes num√©riques (sur 46 au total)

**Observations principales :**

1. **Caract√©ristiques des b√¢timents :**
   - Ann√©e de construction : entre 1900 et 2015 (m√©diane : 1975)
   - Nombre d'√©tages : 0 √† 99 (m√©diane : 4 √©tages)
   - Surface totale (PropertyGFATotal) : tr√®s variable de 11,285 √† 9,320,156 sq ft

2. **Valeurs aberrantes d√©tect√©es :**
   - `Electricity(kWh)` : valeur minimale n√©gative (-33,827)
   - `Electricity(kBtu)` : valeur minimale n√©gative (-115,417)
   - `TotalGHGEmissions` : valeur minimale n√©gative (-0.8)
   - `GHGEmissionsIntensity` : valeur minimale n√©gative (-0.02)
   - `SourceEUIWN(kBtu/sf)` : valeur minimale n√©gative (-2.1)

3. **Distribution des variables cibles :**
   - **TotalGHGEmissions :** moyenne = 119.7, m√©diane = 33.9 (distribution asym√©trique)
   - **SiteEnergyUse(kBtu) :** moyenne = 5.4M, m√©diane = 1.8M (forte variabilit√©)

4. **Forte variabilit√© :**
   - Les √©carts-types sont tr√®s √©lev√©s pour la plupart des variables √©nerg√©tiques
   - Pr√©sence probable de valeurs extr√™mes (outliers)
   - Exemple : SteamUse varie de 0 √† 134M kBtu

5. **Score ENERGYSTAR :**
   - Moyenne : 67.9/100 (sur 2533 b√¢timents not√©s)
   - 75% des b√¢timents not√©s ont un score ‚â• 53

In [None]:
def analyze_missing_values(df: pd.DataFrame, display_table: bool = True) -> pd.DataFrame:
    """
    Analyse les valeurs manquantes dans un DataFrame.
    
    Args:
        df (pd.DataFrame): Le DataFrame √† analyser.
        display_table (bool): Si True, affiche le tableau d√©taill√© des valeurs manquantes.
    
    Returns:
        pd.DataFrame: DataFrame avec les statistiques de valeurs manquantes par colonne.
    """
    # 1. Pourcentage global de cellules vides
    total_cells = df.shape[0] * df.shape[1]
    missing_cells = df.isna().sum().sum()
    pct_missing_global = (missing_cells / total_cells) * 100
    
    print(f"\nüåê Pourcentage de cellules vides sur tout le DataFrame : {pct_missing_global:.2f}%")
    
    # 2. Pourcentage par colonne
    missing_by_column = df.isna().sum()
    pct_by_column = (missing_by_column / len(df)) * 100
    
    # Cr√©er un DataFrame pour les statistiques
    missing_df = pd.DataFrame({
        'Colonne': df.columns,
        'Valeurs manquantes': missing_by_column.values,
        'Pourcentage (%)': pct_by_column.values
    })
    
    # Trier par pourcentage d√©croissant
    missing_df = missing_df.sort_values('Pourcentage (%)', ascending=False)
    
    # Afficher le tableau si demand√©
    # if display_table:
    #     print(f"\nüìã Pourcentage de cellules vides par colonne :")
    #     print("-" * 80)
    #     display(missing_df[missing_df['Pourcentage (%)'] > 0])

    return missing_df

def display_missing_values(df: pd.DataFrame):
    """
    Analyse les valeurs manquantes dans un DataFrame.
    
    Args:
        df (pd.DataFrame): Le DataFrame √† analyser.
        display_table (bool): Si True, affiche le tableau d√©taill√© des valeurs manquantes.
    
    Returns:
        pd.DataFrame: DataFrame avec les statistiques de valeurs manquantes par colonne.
    """
    print(f"\nüìã Pourcentage de cellules vides par colonne :")
    print("-" * 80)
    missing_stats = analyze_missing_values(df, True)
    display(missing_stats[missing_stats['Pourcentage (%)'] > 0])


def plot_missing_values(missing_df: pd.DataFrame, top_n: int = 15, min_threshold: float = 0.1):
    """
    Visualise les valeurs manquantes sous forme de graphique √† barres horizontales.
    
    Args:
        missing_df (pd.DataFrame): DataFrame retourn√© par analyze_missing_values().
        top_n (int): Nombre maximum de colonnes √† afficher (par d√©faut: 15).
        min_threshold (float): Pourcentage minimum pour afficher une colonne (par d√©faut: 0.1%).
    """
    # Filtrer les colonnes selon le seuil
    missing_cols = missing_df[missing_df['Pourcentage (%)'] >= min_threshold].head(top_n).copy()
    
    if len(missing_cols) > 0:
        fig, ax = plt.subplots(figsize=(14, max(6, len(missing_cols) * 0.4)))
        
        # Cr√©er le graphique horizontal
        bars = ax.barh(range(len(missing_cols)), missing_cols['Pourcentage (%)'])
        ax.set_yticks(range(len(missing_cols)))
        ax.set_yticklabels(missing_cols['Colonne'], fontsize=10)
        ax.set_xlabel('Pourcentage de valeurs manquantes (%)', fontsize=12, fontweight='bold')
        ax.set_title('Principales colonnes avec valeurs manquantes', fontsize=14, fontweight='bold', pad=20)
        ax.grid(axis='x', alpha=0.3, linestyle='--')
        
        # Colorer les barres selon le niveau de gravit√©
        colors = ['#2ecc71' if x < 1 else '#f39c12' if x < 5 else '#e74c3c' 
                  for x in missing_cols['Pourcentage (%)']]
        for bar, color in zip(bars, colors):
            bar.set_color(color)
        
        # Ajouter les valeurs sur les barres
        for i, (idx, row) in enumerate(missing_cols.iterrows()):
            ax.text(row['Pourcentage (%)'] + 0.5, i, f"{row['Pourcentage (%)']:.2f}%", 
                    va='center', fontsize=9, fontweight='bold')
        
        legend_elements = [
            Patch(facecolor='#2ecc71', label='< 1% manquant (excellente couverture)'),
            Patch(facecolor='#f39c12', label='1-5% manquant (bonne couverture)'),
            Patch(facecolor='#e74c3c', label='> 5% manquant (attention requise)')
        ]
        ax.legend(handles=legend_elements, loc='upper right', fontsize=9)
        
        # Ajuster les marges pour √©viter les warnings
        plt.subplots_adjust(left=0.25, right=0.95, top=0.95, bottom=0.1)
        plt.show()
    else:
        print(f"‚úÖ Aucune colonne avec ‚â• {min_threshold}% de valeurs manquantes !")


In [None]:
missing_stats = analyze_missing_values(df, True)
plot_missing_values(missing_stats, top_n=15, min_threshold=0.1)

## 6. Filtrage des b√¢timents non r√©sidentiels

Pour le projet, nous avons uniquement besoin des b√¢timents non r√©sidentiels. Pour cela, nous allons commencer par filtrer le jeu de donn√©es.

In [None]:
df["BuildingType"].value_counts()

**Observations :**

- **NonResidential (1 460)** : B√¢timents non r√©sidentiels  
- **Multifamily LR (1‚Äì4) (1 018)** : Immeubles multifamiliaux √† faible densit√©  
- **Multifamily MR (5‚Äì9) (580)** : Immeubles multifamiliaux √† densit√© moyenne  
- **Multifamily HR (10+) (110)** : Immeubles multifamiliaux √† haute densit√©  
- **SPS-District K‚Äì12 (98)** : √âtablissements scolaires publics (de la maternelle au lyc√©e)  
- **Nonresidential COS (85)** : B√¢timents municipaux de la ville de Seattle  
- **Campus (24)** : Ensembles de b√¢timents interconnect√©s  
- **Nonresidential WA (1)** : B√¢timent appartenant √† l‚Äô√âtat de Washington  

Dans le cadre du projet, seuls les b√¢timents **non destin√©s √† l‚Äôhabitation** sont requis. Par cons√©quent, nous conserverons uniquement les cat√©gories suivantes :

- **NonResidential (1 460)** : B√¢timents non r√©sidentiels  
- **SPS-District K‚Äì12 (98)** : √âtablissements scolaires publics  
- **Nonresidential COS (85)** : B√¢timents municipaux de Seattle  
- **Campus (24)** : Ensembles de b√¢timents interconnect√©s
- **Nonresidential WA (1)**: B√¢timent de l‚Äô√âtat de Washington


In [None]:
print(f"Nombre de lignes avant filtrage par type de batiment : {len(df)}")

# Types de b√¢timents √† conserver
building_types_to_keep = [
    "NonResidential",
    "SPS-District K-12",
    "Nonresidential COS",
    "Campus",
    "Nonresidential WA"
]

# Filtrer les donn√©es
df = df[df['BuildingType'].isin(building_types_to_keep)]

# Documenter le nombre de lignes apr√®s filtrage
print(f"Nombre de lignes apr√®s filtrage : {len(df)}")
print(f"Nombre de lignes supprim√©es : {len(df_origin) - len(df)}")
# Afficher la r√©partition des types de b√¢timents conserv√©s
print("\nR√©partition des types de b√¢timents conserv√©s :")
print(df['BuildingType'].value_counts())

## 7. V√©rification des doublons

La v√©rification des doublons est essentielle pour garantir la qualit√© des donn√©es avant toute analyse ou mod√©lisation. Des doublons peuvent fausser les statistiques, introduire des biais dans les mod√®les pr√©dictifs et conduire √† des conclusions erron√©es.

### Strat√©gie de d√©tection

Je vais v√©rifier les doublons selon plusieurs niveaux de granularit√© :

1. **Doublons complets** : Lignes identiques sur toutes les colonnes (tr√®s rare)
2. **Doublons sur l'identifiant** : `OSEBuildingID` (doit √™tre unique par d√©finition)
3. **Doublons g√©ographiques** : Combinaison `Address + City + ZipCode`

### Pourquoi plusieurs v√©rifications ?

- Un m√™me b√¢timent pourrait avoir des donn√©es l√©g√®rement diff√©rentes (erreurs de saisie, mises √† jour)
- Plusieurs b√¢timents pourraient partager une m√™me adresse (complexes immobiliers)

In [None]:
def verify_duplicates(
    df: pd.DataFrame,
    columns: Union[List[str], None] = None,
    display_table: bool = False,
    preview_rows: int = 10
) -> int:
    """
    V√©rifie les doublons dans un DataFrame.

    Args:
        df (pd.DataFrame): DataFrame √† analyser
        columns (list[str] | None): Colonnes √† utiliser pour la d√©tection.
        display_table (bool): Si True, affiche les lignes dupliqu√©es
        preview_rows (int): Nombre de lignes dupliqu√©es √† afficher

    Returns:
        int: Nombre de doublons d√©tect√©s
    """
    if df.empty:
        print("‚ö†Ô∏è Le DataFrame est vide.")
        return 0

    subset = None
    if columns:
        missing_cols = set(columns) - set(df.columns)
        if missing_cols:
            raise ValueError(f"Colonnes inexistantes : {missing_cols}")
        subset = columns
        label = f"Doublons sur {columns}"
    else:
        label = "Toutes les colonnes"

    duplicates = df.duplicated(subset=subset).sum()
    percentage = (duplicates / len(df)) * 100

    print(f"\n Colonnes concern√©s : {label} ")
    print(f"\nüîç Nombre de doublons : {duplicates}")
    print(f"üìä Pourcentage : {percentage:.2f}%")

    if duplicates > 0 and display_table:
        print("\nüîç Aper√ßu des lignes dupliqu√©es :")
        print("-" * 80)

        sort_cols = subset if subset else df.columns.tolist()
        duplicated_rows = (
            df[df.duplicated(subset=subset, keep=False)]
            .sort_values(by=sort_cols)
        )

        try:
            display(duplicated_rows.head(preview_rows))
        except NameError:
            print(duplicated_rows.head(preview_rows))

    return duplicates

# Ex√©cution des v√©rifications
print(f"üìä ANALYSE DES DOUBLONS")
print(f"="*80)

# 1. V√©rifier le nombre total de lignes dupliqu√©es (toutes colonnes confondues)
print("\nV√©rification des doublons complets (toutes colonnes)")
total_duplicates = verify_duplicates(df)

# 2. V√©rifier les doublons sur l'identifiant unique du b√¢timent
print("\nV√©rification sur l'identifiant OSEBuildingID")
id_duplicates = verify_duplicates(df, ['OSEBuildingID'])

# 3. V√©rifier les doublons sur l'adresse
print("\nV√©rification sur l'adresse")
address_duplicates = verify_duplicates(df, ['Address', 'City', 'ZipCode'])

In [None]:
print("\nV√©rification sur l'adresse + nom de la propri√©t√©")
address_duplicates = verify_duplicates(df, ['PropertyName', 'Address', 'City', 'ZipCode'])

In [None]:
print("\n V√©rification avec le rajout de la longitude et latitude")
address_duplicates = verify_duplicates(df, ['Latitude', 'Longitude', 'Address', 'City', 'ZipCode'])

In [None]:
print("\nV√©rification avec le rajout du type de b√¢timent")
address_duplicates = verify_duplicates(df, ['BuildingType', 'Latitude', 'Longitude', 'Address', 'City', 'ZipCode'])

In [None]:
print("\nV√©rification avec le rajout de l'ann√©e de construction")
address_duplicates = verify_duplicates(df, ['BuildingType', 'YearBuilt', 'Latitude', 'Longitude', 'Address', 'City', 'ZipCode'], True)

In [None]:
print("\nV√©rification avec le rajout du type d'utilisation principale")
address_duplicates = verify_duplicates(df, ['BuildingType', 'LargestPropertyUseType', 'YearBuilt', 'Latitude', 'Longitude', 'Address', 'City', 'ZipCode'], True)

In [None]:
# 4. V√©rification finale : doublons sur les variables cibles
print("\nV√©rification sur les variables cibles (consommations √©nerg√©tiques identiques)")
print("-" * 80)
print("\nCette v√©rification d√©tecte les b√¢timents ayant exactement les m√™mes valeurs")
print("de consommation √©nerg√©tique ET d'√©missions de CO2.")
print("Un tel cas serait hautement suspect et pourrait indiquer un vrai doublon.\n")

# V√©rifier sur les deux variables cibles simultan√©ment
target_duplicates = verify_duplicates(
    df,
    [TARGET_ENERGY, TARGET_CO2],
    display_table=True,
    preview_rows=10
)

### Conclusion sur l'analyse des doublons

Apr√®s avoir effectu√© une analyse exhaustive des doublons selon diff√©rents crit√®res, voici les r√©sultats :

#### R√©sultats des v√©rifications

| Crit√®re de v√©rification | Doublons d√©tect√©s | Statut |
|------------------------|-------------------|--------|
| **Lignes totalement identiques** | 0 | ‚úÖ OK |
| **Identifiant unique (`OSEBuildingID`)** | 0 | ‚úÖ OK |
| **Adresse g√©ographique** (`Address + City + ZipCode`) | 20 | ‚ö†Ô∏è √Ä analyser |
| **Adresse + Nom du b√¢timent** | 0 | ‚úÖ OK |
| **Coordonn√©es GPS + Adresse** | 19 | ‚ö†Ô∏è √Ä analyser |
| **+ Type de b√¢timent + Ann√©e** | 7 | ‚ö†Ô∏è √Ä analyser |
| **+ Type d'utilisation principale** | 3 | ‚ö†Ô∏è √Ä analyser |
| **Variables cibles identiques** | 5 | ‚ö†Ô∏è Valeurs manquantes |

#### Interpr√©tation

**Aucun vrai doublon d√©tect√©** ‚úÖ

##### 1. Doublons g√©ographiques (21 cas)

Les 20 "doublons" d√©tect√©s sur l'adresse g√©ographique correspondent √† des **b√¢timents distincts partageant la m√™me adresse**, ce qui est l√©gitime dans le cas de :

- **Complexes immobiliers** : Plusieurs b√¢timents au sein d'un m√™me parc d'affaires
  - Exemple : *Cloverdale Business Park* (b√¢timents B, C, E)
  - Exemple : *Airport Way Center* (b√¢timents C, D)

**Preuves de distinction** :
- Chaque ligne a un **`OSEBuildingID` unique** (identifiant officiel)
- Chaque b√¢timent a un **`PropertyName` diff√©rent**
- Les **surfaces** (`PropertyGFATotal`) sont diff√©rentes
- Les **consommations √©nerg√©tiques** sont diff√©rentes
- Les **√©missions de CO2** sont diff√©rentes

##### 2. Doublons sur variables cibles (10 cas)

Les 5 "doublons" d√©tect√©s sur les variables cibles (`SiteEnergyUse(kBtu)` et `TotalGHGEmissions`) correspondent en r√©alit√© √† des **b√¢timents sans donn√©es √©nerg√©tiques**.

**Explication** : Ces b√¢timents partagent les m√™mes valeurs de variables cibles car elles sont toutes **manquantes (NaN)**. La fonction `duplicated()` de pandas consid√®re que deux valeurs NaN sont identiques.

**Nature du probl√®me** : Il ne s'agit pas de doublons mais de **valeurs manquantes** qui devront √™tre trait√©es lors de l'√©tape de nettoyage des donn√©es.

#### D√©cision

**Aucune suppression de lignes n'est n√©cessaire.** 

- Toutes les observations repr√©sentent des b√¢timents uniques et l√©gitimes
- Les b√¢timents sans donn√©es √©nerg√©tiques seront trait√©s lors de la gestion des valeurs manquantes

Le dataset est pr√™t pour l'analyse exploratoire et la mod√©lisation sans risque de biais li√© aux doublons.

## 8. V√©rification des colonnes pouvant contenir des lignes probl√©matiques


### 8.1 La colonne `Outlier`

In [None]:
distribution_column(df, 'Outlier')

**Observation :**

La variable *Outlier* comporte trois √©tats :
- **Low outlier** : valeur anormalement basse d√©tect√©e ;
- **High outlier** : valeur anormalement √©lev√©e ;
- **Valeur manquante** : aucune anomalie identifi√©e.

On constate que les b√¢timents identifi√©s comme *outliers* ne repr√©sentent que **0,92 %** du jeu de donn√©es.

In [None]:
# Afficher uniquement les Low Outliers
colonnes_a_afficher = ['BuildingType', 'PrimaryPropertyType', 'DefaultData', 'ComplianceStatus', 'ENERGYSTARScore', 'Outlier', TARGET_CO2, TARGET_ENERGY]

low_outliers_stats = df[df['Outlier'] == 'Low outlier']
print("Statistiques pour Low Outliers:")
display(low_outliers_stats[colonnes_a_afficher].head(15))



**Observations des Low Outliers (15 b√¢timents - 0.90%)** :
- **ENERGYSTARScore** : valeurs tr√®s √©lev√©es (99, 100) ou manquantes (NaN)
- **ComplianceStatus** : principalement "Non-Compliant" ou "Error - Correct Default Data"
- **Interpr√©tation** : ces b√¢timents ont une consommation d'√©nergie anormalement **faible** malgr√© leur non-conformit√©, ce qui sugg√®re des donn√©es potentiellement erron√©es ou incompl√®tes

In [None]:
# Afficher uniquement les High Outliers
high_outliers_stats = df[df['Outlier'] == 'High outlier']
print("Statistiques pour High Outliers:")
display(high_outliers_stats[colonnes_a_afficher].head())

**Observations sur les High Outliers (2 b√¢timents - 0.12%)** :
- **ENERGYSTARScore** : valeurs tr√®s faibles (1) ou manquantes (NaN)
- **ComplianceStatus** : "Non-Compliant"
- **Interpr√©tation** : ces b√¢timents ont une consommation d'√©nergie anormalement **√©lev√©e** et sont √©galement non-conformes, ce qui est coh√©rent avec leur mauvaise performance √©nerg√©tique

**Synth√®se** : Les outliers (17 b√¢timents au total, soit 1.02% du dataset) pr√©sentent syst√©matiquement des probl√®mes de conformit√© et des scores ENERGY STAR extr√™mes ou absents, renfor√ßant l'hypoth√®se de probl√®mes de qualit√© des donn√©es.

#### Identification de la M√©thode de D√©tection

In [None]:
# Tester diff√©rentes m√©triques avec la m√©thode IQR
for metric in [TARGET_ENERGY, TARGET_CO2, 'ENERGYSTARScore', 'SiteEUI(kBtu/sf)', 'SourceEUI(kBtu/sf)', 'GHGEmissionsIntensity']:
    # 1. Calcul IQR
    Q1 = df[metric].quantile(0.25)
    Q3 = df[metric].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR

    # 2. Calcul Z-score
    z_scores = stats.zscore(df[metric].dropna())
    abs_z_scores = np.abs(z_scores)

    # Identification des outliers
    outliers_z2 = df[metric].dropna()[abs_z_scores > 2]
    outliers_iqr = df[(df[metric] < lower) | (df[metric] > upper)]

    # Calculer le rappel (recall) pour les outliers d√©tect√©s
    high_detected = df[(df[metric] > upper) & (df['Outlier'] == 'High outlier')]
    low_detected = df[(df[metric] < lower) & (df['Outlier'] == 'Low outlier')]
    print(f"\nM√©trique: {metric}")
    print(f"Nombre de high outliers d√©tect√©s via IQR: {len(outliers_iqr[outliers_iqr['Outlier'] == 'High outlier'])}")
    print(f"Nombre de low outliers d√©tect√©s via IQR: {len(outliers_iqr[outliers_iqr['Outlier'] == 'Low outlier'])}")

    print(f"Nombre de high outliers d√©tect√©s via z-score (seuil = 2): {len(outliers_z2[df['Outlier'] == 'High outlier'])}")
    print(f"Nombre de low outliers d√©tect√©s via z-score(seuil = 2): {len(outliers_z2[df['Outlier'] == 'Low outlier'])}")

**Observation :**

Les tests de d√©tection d'outliers r√©v√®lent que **ni la m√©thode IQR ni le Z-score ne permettent d'identifier les outliers marqu√©s dans la colonne**.

R√©sultats :
- **M√©thode IQR** : d√©tecte seulement 1-2 b√¢timents parmi les 17 outliers marqu√©s sur les m√©triques cibles
- **Z-score (seuil = 2 )** :  d√©tecte seulement 1 outliers sur la m√©trique ENERGYSTARScore

**Conclusion :** La colonne `Outlier` ne provient probablement **pas d'une m√©thode statistique classique**, mais plut√¥t :
- D'une **r√®gle m√©tier sp√©cifique** li√©e aux exigences r√©glementaires
- D'une **validation manuelle** par les autorit√©s de Seattle
- D'une **d√©tection d'anomalies contextuelles** (ex: donn√©es incoh√©rentes avec le type de b√¢timent)

Cette hypoth√®se est renforc√©e par le fait que **100% des outliers sont non-conformes ou en erreur**.

In [None]:

from typing import List, Optional, Tuple

def create_boxplot_by_category(df: pd.DataFrame,
                               column: str,
                               category_column: str,
                               ax: plt.Axes,
                               title: str,
                               ylabel: str,
                               xlabel: str = "Cat√©gorie d'outlier",
                               log_scale: bool = True,
                               exclude_non_positive: bool = True) -> None:
    """
    Cr√©e un boxplot d'une variable par cat√©gorie avec options de mise en forme.
    
    Parameters:
    -----------
    df : pd.DataFrame
        DataFrame source
    column : str
        Nom de la colonne √† visualiser
    category_column : str
        Nom de la colonne de cat√©gories
    ax : plt.Axes
        Axes matplotlib sur lequel dessiner
    title : str
        Titre du graphique
    ylabel : str
        Label de l'axe Y
    xlabel : str
        Label de l'axe X
    log_scale : bool
        Utiliser une √©chelle logarithmique
    exclude_non_positive : bool
        Exclure les valeurs <= 0
    """
    # Filtrer les donn√©es si n√©cessaire
    if exclude_non_positive:
        df_plot = df[df[column] > 0].copy()
    else:
        df_plot = df.copy()
    
    # Cr√©er le boxplot
    df_plot.boxplot(column=column, by=category_column, ax=ax)
    
    # Appliquer l'√©chelle log si demand√©
    if log_scale:
        ax.set_yscale('log')
    
    # Mise en forme
    ax.set_title(title)
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)
    ax.get_figure().suptitle('')  # Supprimer le titre automatique


def visualize_variables_by_outlier_category(df: pd.DataFrame,
                                            variables: List[dict],
                                            category_column: str = 'Outlier_Category',
                                            figsize: Tuple[int, int] = (16, 6),
                                            main_title: str = "Distribution des variables par cat√©gorie d'outlier") -> None:
    """
    Cr√©e une visualisation multi-graphiques des variables par cat√©gorie d'outlier.
    
    Parameters:
    -----------
    df : pd.DataFrame
        DataFrame source
    variables : List[dict]
        Liste de dictionnaires contenant les param√®tres pour chaque variable:
        - 'column': nom de la colonne
        - 'title': titre du graphique
        - 'ylabel': label de l'axe Y
        - 'xlabel': (optionnel) label de l'axe X
        - 'log_scale': (optionnel) utiliser √©chelle log
        - 'exclude_non_positive': (optionnel) exclure valeurs <= 0
    category_column : str
        Nom de la colonne de cat√©gories
    figsize : Tuple[int, int]
        Taille de la figure
    main_title : str
        Titre principal de la figure
        
    Example:
    --------
    variables = [
        {
            'column': 'TotalGHGEmissions',
            'title': '√âmissions de GHG (√©chelle log)',
            'ylabel': 'TotalGHGEmissions (tonnes CO‚ÇÇ)',
            'log_scale': True
        },
        {
            'column': 'SiteEnergyUse',
            'title': 'Consommation √©nerg√©tique (√©chelle log)',
            'ylabel': 'SiteEnergyUse (kBtu)',
            'log_scale': True
        }
    ]
    visualize_variables_by_outlier_category(df, variables)
    """
    n_vars = len(variables)
    fig, axes = plt.subplots(1, n_vars, figsize=figsize)
    fig.suptitle(main_title, fontsize=14, fontweight='bold')
    
    # S'assurer que axes est toujours une liste
    if n_vars == 1:
        axes = [axes]
    
    for i, var_params in enumerate(variables):
        # Param√®tres par d√©faut
        params = {
            'xlabel': "Cat√©gorie d'outlier",
            'log_scale': True,
            'exclude_non_positive': True
        }
        # Mettre √† jour avec les param√®tres fournis
        params.update(var_params)
        
        create_boxplot_by_category(
            df=df,
            column=params['column'],
            category_column=category_column,
            ax=axes[i],
            title=params['title'],
            ylabel=params['ylabel'],
            xlabel=params['xlabel'],
            log_scale=params['log_scale'],
            exclude_non_positive=params['exclude_non_positive']
        )
    
    plt.tight_layout()
    plt.show()

df_outlier = df.copy()
df_outlier['Outlier_Category'] = df_outlier['Outlier'].fillna('No outlier')

variables = [
    {
        'column': TARGET_CO2,
        'title': '√âmissions de GHG (√©chelle log)',
        'ylabel': 'TotalGHGEmissions (tonnes CO‚ÇÇ)'
    },
    {
        'column': TARGET_ENERGY,
        'title': 'Consommation √©nerg√©tique (√©chelle log)',
        'ylabel': 'SiteEnergyUse (kBtu)'
    },
    {
        'column': 'SourceEUI(kBtu/sf)',
        'title': 'Source EUI (√©chelle log)',
        'ylabel': 'SourceEUI (kBtu/sf)'
    },
    {
        'column': 'SiteEUI(kBtu/sf)',
        'title': 'Site EUI (√©chelle log)',
        'ylabel': 'SiteEUI (kBtu/sf)'
    },
    {
        'column': 'GHGEmissionsIntensity',
        'title': 'GHGEmissionsIntensity',
        'ylabel': 'GHGEmissionsIntensity'
    }
]

visualize_variables_by_outlier_category(
    df=df_outlier,
    variables=variables,
    figsize=(18, 6)
)

**Observations** :
- Les cat√©gories "No outlier" pr√©sentent syst√©matiquement les dispersions les plus importantes sur tous les indicateurs
- Les "High outlier" ont des valeurs √©lev√©es mais concentr√©es
- Les "Low outlier" montrent g√©n√©ralement des valeurs faibles avec peu de dispersion
- L'√©chelle logarithmique r√©v√®le des diff√©rences de 3 √† 4 ordres de grandeur entre les b√¢timents
- Une forte corr√©lation semble exister entre les diff√©rents indicateurs √©nerg√©tiques

#### Conclusion et d√©cision de traitement des outliers

Les b√¢timents identifi√©s comme *outliers* repr√©sentent une part tr√®s faible du jeu de donn√©es (17 b√¢timents, soit environ **1 %**). Cependant, ils pr√©sentent tous des **probl√®mes de qualit√© des donn√©es**.

Ces b√¢timents sont majoritairement **non conformes** ou associ√©s √† des **erreurs de d√©claration**, avec des **scores ENERGY STAR extr√™mes ou manquants**. Les m√©thodes statistiques classiques (IQR, Z-score) ne permettent pas de les d√©tecter, ce qui indique que la variable `Outlier` repose sur des **r√®gles m√©tier ou r√©glementaires**, et non sur une logique statistique exploitable en mod√©lisation.

De plus, leurs distributions sont peu dispers√©es et atypiques par rapport au reste du dataset, ce qui pourrait **biaiser les mod√®les pr√©dictifs**.

#### D√©cision retenue
- **Suppression de la colonne `Outlier`**
- **Exclusion des 17 b√¢timents outliers du dataset de mod√©lisation**

Cette d√©cision est justifi√©e par :
- des **donn√©es non fiables**
- un **risque de biais √©lev√©**
- un **impact n√©gligeable sur la taille et la repr√©sentativit√©** du jeu de donn√©es
- la volont√© de **privil√©gier la qualit√© des donn√©es** pour la mod√©lisation


In [None]:
# Supprimer les lignes marqu√©es comme outliers (High outlier ou Low outlier)
# Garder uniquement les lignes o√π Outlier est NaN (pas d'outlier)
df_clean = df[df['Outlier'].isna()].copy()

# Afficher le r√©sultat
print(f"üìä R√©sultat du nettoyage:")
print(f"   ‚Ä¢ Taille initiale      : {len(df):,} lignes")
print(f"   ‚Ä¢ Taille apr√®s nettoyage : {len(df_clean):,} lignes")
print(f"   ‚Ä¢ Lignes supprim√©es    : {len(df) - len(df_clean)} lignes ({(len(df) - len(df_clean))/len(df)*100:.2f}%)")

df = df_clean

In [None]:
df = remove_columns(df, ['Outlier'])

### 8.2. La colonne `ComplianceStatus`

In [None]:
def analyze_missing(df: pd.DataFrame, column: str, target: str):
    total = len(df[target]);
    n_value = df[column].value_counts()

    # Valeurs manquantes
    missing = df[target].isna().groupby(df[column]).sum()

    # Valeurs nulles (√©gales √† 0)
    zero = (df[target] == 0).groupby(df[column]).sum()

    result_df = pd.DataFrame({
        'Total': n_value,
        'Total (%)': (n_value / total * 100).round(2),
        'Valeurs manquantes': missing,
        'Valeurs manquantes (%)': (missing / n_value * 100).round(2),
        'Valeurs nulles': zero,
        'Valeurs nulles (%)': (zero / n_value * 100).round(2)
    })

    return result_df

def plot_distribution(df: pd.DataFrame, column: str, xlabel, ylabel, targets: List[str] = []):
    """
    Affiche un graphique de distribution pour la colonne de compliance.
    
    :param df: DataFrame pandas contenant les donn√©es
    :param column: Nom de la colonne √† analyser
    :param xlabel: Label de l'axe des abscisses
    :param ylabel: Label de l'axe des ordonn√©es
    """
    plt.figure(figsize=(10, 5))
    
    compliance_counts = df[column].value_counts()

    
    ax = compliance_counts.plot(kind='bar', color='steelblue')
    
    plt.title(f'Distribution de la colonne {column}', fontsize=14, fontweight='bold')
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.xticks(rotation=45, ha='right')
    
    total = len(df)
    for i, v in enumerate(compliance_counts):
        ax.text(i, v + 0.01 * total, f'{v}\n({v/total*100:.1f}%)', ha='center')

    if(targets):
        for i, target in enumerate(targets):
            analyze_missing_target = analyze_missing(df, column, target)
            ax = compliance_counts.plot(kind='bar')

    
    plt.tight_layout()
    plt.show()

display_columns_info(df, ['ComplianceStatus'])
plot_distribution(df, 'ComplianceStatus', 'Statut de conformit√©', 'Nombre de b√¢timents', [TARGET_CO2, TARGET_ENERGY])

**Observation** :

La colonne `ComplianceStatus` indique si un b√¢timent a satisfait aux exigences r√©glementaires de d√©claration √©nerg√©tique.  
Elle contient **4 valeurs** :

- **Compliant (93.8 %, 1548 lignes)** : Donn√©es correctement d√©clar√©es et conformes  
- **Error - Correct Default Data (5.2 %, 86 lignes)** : Erreurs d√©tect√©es, donn√©es par d√©faut corrig√©es  
- **Non-Compliant (0.2 %, 3 lignes)** : Non-conformit√© r√©glementaire  
- **Missing Data (0.8 %, 14 lignes)** : Donn√©es manquantes lors de la d√©claration  

##### Analysons les donn√©es 'Missing Data'

In [None]:
display(df[df['ComplianceStatus'] == 'Missing Data'].head(10))

**Observation** :

Les 14 lignes *Missing Data* (principalement des √©coles K-12) pr√©sentent les caract√©ristiques suivantes :

- **`SiteEnergyUse(kBtu)`** : Syst√©matiquement √† **0.0** (donn√©e absente ou non report√©e)
- **`DefaultData`** : Toujours **False** (pas de correction appliqu√©e)
- **Consommation √©nerg√©tique partielle** : Seule l'√©lectricit√© **OU** le gaz naturel est renseign√©, jamais les deux
  - Exemples : √âlectricit√© uniquement (1.5-2.3 M kBtu) avec NaturalGas = 0.0
  - Ou inversement : NaturalGas uniquement (3.2-4.3 M kBtu) avec Electricity = 0.0
- **`TotalGHGEmissions`** : Calculable et coh√©rent (4.19 √† 229.38) bas√© sur la source d'√©nergie disponible

**D√©cision** : Ces lignes contiennent des **donn√©es partielles exploitables**. Repr√©sente que 0.8% du jeu de donn√©es, on supprime les lignes

##### Analysons les donn√©es 'Non-Compliant'

In [None]:
display(df[df['ComplianceStatus'] == 'Non-Compliant'].head(10))

**Observation** :

Les 3 lignes *Non-Compliant* (b√¢timents non-r√©sidentiels anciens : 1924-1990) sont **totalement inutilisables** :

- **`SiteEnergyUse(kBtu)`** : Soit 0.0, soit NaN (aucune donn√©e valide)
- **`TotalGHGEmissions`** : Soit 0.0, soit NaN (impossible √† calculer)
- **`GHGEmissionsIntensity`** : Soit 0.0, soit NaN
- **`DefaultData`** : False (aucune correction n'a √©t√© appliqu√©e)
- **Colonnes √©nerg√©tiques** : 2/3 des lignes pr√©sentent des NaN complets

**Conclusion** : Ces lignes ne contiennent aucune information exploitable pour la pr√©diction des √©missions ou de la consommation √©nerg√©tique.

**D√©cision** : **Supprimer ces 3 lignes** du dataset

##### Analysons les donn√©es 'Error - Correct Default Data'

In [None]:
df_compliance_issues_error = df[df['ComplianceStatus'] == 'Error - Correct Default Data'].copy()
display(df_compliance_issues_error.head())

In [None]:
distribution_column(df_compliance_issues_error, 'DefaultData')

columns_to_compare = [
    TARGET_ENERGY,
    TARGET_CO2
]
df_without_compliance_errors = df[df["ComplianceStatus"] != "Error - Correct Default Data"].copy()

**Observation** :

Les 86 lignes *Error - Correct Default Data* (majoritairement des √©coles K-12) pr√©sentent des **donn√©es de haute qualit√© apr√®s correction** :

- **`DefaultData`** : Syst√©matiquement **True** (donn√©es corrig√©es automatiquement)
- **Double source √©nerg√©tique** : √âlectricit√© **ET** Gaz naturel renseign√©s (pas de donn√©es partielles)
  - Electricity : 0.9 √† 7.8 M kBtu
  - NaturalGas : 0.0 √† 5.7 M kBtu (incluant cas "√©lectrique seulement")
- **`SiteEUI(kBtu/sf)`** : Valeurs coh√©rentes (25.6 - 53.3)
- **`TotalGHGEmissions`** : Calcul√©es correctement (10.55 √† 359.09)
- **`GHGEmissionsIntensity`** : Plage normale (0.19 √† 1.82)
- **Aucune valeur NaN** dans les variables √©nerg√©tiques et cibles

**Conclusion** : Bien que marqu√©es "Error" initialement, ces lignes semble avoir √©t√© **corrig√©es avec succ√®s** et contiennent des donn√©es compl√®tes et fiables. Nous pouvons concerv√©s ces lignes

In [None]:
def remove_lignes(df: pd.DataFrame, condition: str) -> pd.DataFrame:
    """
    Supprime les lignes du DataFrame selon une condition donn√©e.

    Args:
        df (pd.DataFrame): Le DataFrame d'origine.
        condition (str): La condition pour filtrer les lignes √† supprimer.

    Returns:
        pd.DataFrame: Le DataFrame sans les lignes supprim√©es.
    """
    print("üì¶ Suppression de lignes selon une condition")
    print(f"   ‚û§ Shape initiale        : {df.shape}")

    initial_count = len(df)
    df = df.query(f"not ({condition})")
    final_count = len(df)

    print(f"‚úÖ Suppression termin√©e")
    print(f"   ‚û§ Shape finale          : {df.shape}")
    print(f"   ‚û§ Lignes supprim√©es     : {initial_count - final_count} lignes")

    return df

df = remove_lignes(df, "ComplianceStatus == 'Non-Compliant'")
df = remove_lignes(df, "ComplianceStatus == 'Missing Data'")
distribution_column(df, 'ComplianceStatus')

## 9. V√©rification des colonnes avec des donn√©es manquantes 

Avant de construire un mod√®le pr√©dictif, il est n√©cessaire d'√©liminer les colonnes qui n'apportent pas d'information utile ou qui contiennent trop de valeurs manquantes.




### 9.1. Colonnes avec taux √©lev√© de valeurs manquantes (> 50%)

**Colonnes concern√©es :**
- `Comments` (100% manquant)
- `YearsENERGYSTARCertified` (94.1% manquant)
- `SecondLargestPropertyUseType` (48.7% manquant)
- `SecondLargestPropertyUseTypeGFA` (48.7% manquant)
- `ThirdLargestPropertyUseType` (78.8% manquant)
- `ThirdLargestPropertyUseTypeGFA` (78.8% manquant)

**Analysons chaque colonne :**


In [None]:
display_columns_info(df, ['Comments', 'YearsENERGYSTARCertified', 'SecondLargestPropertyUseType', 'SecondLargestPropertyUseTypeGFA', 'ThirdLargestPropertyUseType', 'ThirdLargestPropertyUseTypeGFA'])

#### D√©cision de suppression

**√Ä supprimer :**

1. **`Comments`** : Colonne enti√®rement vide (100% manquant)
   - *Aucune description disponible dans le dataset*
   - Aucune information exploitable

2. **`YearsENERGYSTARCertified`** : 94.1% manquant
   - *Liste des ann√©es de certification ENERGY STAR*
   - Information marginale, peu de b√¢timents certifi√©s

3. **`SecondLargestPropertyUseType`** : 48.7% manquant
   - *Deuxi√®me type d'utilisation le plus important bas√© sur la surface*
   - Information secondaire d√©j√† captur√©e par `LargestPropertyUseType`

4. **`SecondLargestPropertyUseTypeGFA`** : 48.7% manquant
   - *Surface du deuxi√®me type d'utilisation le plus important*
   - M√™me raison, information redondante

5. **`ThirdLargestPropertyUseType`** : 78.8% manquant
   - *Troisi√®me type d'utilisation le plus important bas√© sur la surface*
   - Information tertiaire trop peu disponible et peu pertinente

6. **`ThirdLargestPropertyUseTypeGFA`** : 78.8% manquant
   - *Surface du troisi√®me type d'utilisation le plus important*
   - M√™me raison, trop de valeurs manquantes


In [None]:
colonnes_a_supprimer = [
    'Comments',
	'YearsENERGYSTARCertified',
	'SecondLargestPropertyUseType',
	'SecondLargestPropertyUseTypeGFA',
	'ThirdLargestPropertyUseType',
	'ThirdLargestPropertyUseTypeGFA'
]

df = remove_columns(df, colonnes_a_supprimer)

### 9.2. Colonnes > 20 % de donn√©e manquante

**Colonnes concern√©es :**
- `ENERGYSTARScore` (33.72% manquant) : Note calcul√©e par l'EPA de 1 √† 100 √©valuant la performance √©nerg√©tique globale d'une propri√©t√©, bas√©e sur des donn√©es nationales pour contr√¥ler les diff√©rences de climat, d'utilisations des b√¢timents et d'op√©rations. Un score de 50 repr√©sente la m√©diane nationale.

**Analysons la colonne :**

In [None]:
display_columns_info(df, ['ENERGYSTARScore'])

#### D√©cision sur ENERGYSTARScore

**Choix retenu : Suppression de la colonne**

**Justification :**

1. **Score non recalculable** : Le score ENERGYSTAR est calcul√© par l'EPA selon des mod√®les propri√©taires et des donn√©es nationales de r√©f√©rence non disponibles dans notre dataset.

2. **Taux √©lev√© de valeurs manquantes** : 25% des b√¢timents (843/3376) n'ont pas de score, ce qui limiterait significativement l'utilit√© pr√©dictive de cette variable.

3. **Risque de biais** : Toute imputation (moyenne, m√©diane, r√©gression) introduirait un biais important dans les pr√©dictions.

**Conclusion :** La suppression de cette colonne √©vite d'introduire du biais dans nos mod√®les pr√©dictifs tout en conservant les variables √©nerg√©tiques r√©ellement mesur√©es qui sont nos vraies variables d'int√©r√™t.


In [None]:
df = remove_columns(df, ['ENERGYSTARScore'])

### 9.3. Colonnes > 1 % de donn√©e manquante

#### La colonne ZipCode

In [None]:
display_columns_info(df, ['ZipCode'])

**Observation** :
- Il y a 48 valeurs unique dont 16 (1%) valeurs manquantes
- `ZipCode` est stock√© en float64 et devrait √™tre une variable cat√©gorielle (string/object)


Nous pouvons surement r√©cup√©rer les ZipCode manquante en ce basant sur les `Neighborhood`. V√©rifions la colonne.

In [None]:
display_columns_info(df, ['Neighborhood'])
distribution_column(df, 'Neighborhood')

Il n‚Äôy a aucune donn√©e manquante, mais la colonne doit √™tre nettoy√©e car elle contient des doublons :
- **BALLARD** (majuscules) et **Ballard** (minuscules)
- M√™me probl√®me pour **DELRIDGE NEIGHBORHOODS** et **Delridge**
- M√™me probl√®me pour **CENTRAL** et **Central**


In [None]:
df["Neighborhood"] = df["Neighborhood"].str.upper()
df["Neighborhood"] = df["Neighborhood"].replace(
    "DELRIDGE NEIGHBORHOODS",
    "DELRIDGE"
)

distribution_column(df, 'Neighborhood')

On peut compar√©s ZipCode et Neighborhood

In [None]:
def calculate_mapping_stats(grouped_series):
    """
    Calcule les statistiques de mapping pour une s√©rie group√©e.
    
    Returns:
    --------
    dict avec les stats incluant les cas 0, 1, et multiples correspondances
    """
    zero_mapping = (grouped_series == 0).sum()
    one_to_one = (grouped_series == 1).sum()
    multiple = (grouped_series > 1).sum()
    total = len(grouped_series)
    
    return {
        'zero': zero_mapping,
        'zero_pct': zero_mapping / total * 100 if total > 0 else 0,
        'one_to_one': one_to_one,
        'one_to_one_pct': one_to_one / total * 100 if total > 0 else 0,
        'multiple': multiple,
        'multiple_pct': multiple / total * 100 if total > 0 else 0,
        'total': total
    }


def print_mapping_stats(stats, from_label, to_label):
    """
    Affiche les statistiques de mapping de mani√®re format√©e.
    """
    print(f"\nüìä Mapping {from_label} ‚Üí {to_label} :")
    
    if stats['zero'] > 0:
        print(f"   ‚Ä¢ {from_label} sans {to_label} : {stats['zero']}/{stats['total']} ({stats['zero_pct']:.1f}%)")
    
    print(f"   ‚Ä¢ {from_label} correspondant √† 1 seul {to_label} : {stats['one_to_one']}/{stats['total']} ({stats['one_to_one_pct']:.1f}%)")
    print(f"   ‚Ä¢ {from_label} correspondant √† plusieurs {to_label} : {stats['multiple']}/{stats['total']} ({stats['multiple_pct']:.1f}%)")


def count_unique_mappings(df, col1, col2, ascending=False):
    """
    Compte le nombre de valeurs uniques de col2 pour chaque valeur de col1.
    
    Parameters:
    -----------
    df : DataFrame
    col1 : str
        Colonne de regroupement
    col2 : str
        Colonne dont on compte les valeurs uniques
    ascending : bool, default False
        Ordre de tri
    
    Returns:
    --------
    Series : Nombre de valeurs uniques de col2 par col1, tri√©e
    """
    return df.groupby(col1)[col2].nunique().sort_values(ascending=ascending)

In [None]:
print("="*80)
print("ANALYSE ZipCode vs Neighborhood")
print("="*80)

# Utilisation
zip_to_neighborhood = count_unique_mappings(df, 'ZipCode', 'Neighborhood')
neighborhood_to_zip = count_unique_mappings(df, 'Neighborhood', 'ZipCode')

print("\nüìä Nombre de quartiers (Neighborhood) par code postal (ZipCode) :")
print(zip_to_neighborhood.head(10))

print("\nüìä Nombre de codes postaux (ZipCode) par quartier (Neighborhood) :")
print(neighborhood_to_zip)
# 4. Mapping ZipCode ‚Üí Neighborhood
stats_zip = calculate_mapping_stats(zip_to_neighborhood)
print_mapping_stats(stats_zip, 'ZipCodes', 'Neighborhood')

# 5. Mapping inverse Neighborhood ‚Üí ZipCode
stats_neighborhood = calculate_mapping_stats(neighborhood_to_zip)
print_mapping_stats(stats_neighborhood, 'Neighborhoods', 'ZipCode')

**Solution d'imputation** : Utiliser le **ZipCode le plus fr√©quent** dans chaque quartier pour imputer les valeurs manquantes

In [None]:
def get_zipcode_most_frequency(df: pd.DataFrame, column: str):
    results = []
    for neighborhood in df[column].unique():
        # B√¢timents avec ZipCode dans le m√™me quartier
        with_zip_in_n = df[
            (df[column] == neighborhood) &
            (df['ZipCode'].notna())
        ]
        
        if len(with_zip_in_n) > 0:
            # ZipCode le plus fr√©quent
            most_common = with_zip_in_n['ZipCode'].mode()[0]
            frequency_pct = round(
                (with_zip_in_n['ZipCode'] == most_common).sum()
                / len(with_zip_in_n)
                * 100,
                2
            )
        else:
            most_common = None
            frequency_pct = None
        
        results.append({
            'Neighborhood': neighborhood,
            'ZipCode': most_common,
            'FrequencyPct': frequency_pct
        })
    return pd.DataFrame(results)
zipcode_summary_df = get_zipcode_most_frequency(df, 'Neighborhood')
display(zipcode_summary_df)

In [None]:
neighborhood_to_zip = (
    zipcode_summary_df
    .dropna(subset=['ZipCode'])
    .set_index('Neighborhood')['ZipCode']
)

df['ZipCode'] = df['ZipCode'].fillna(
    df['Neighborhood'].map(neighborhood_to_zip)
)



In [None]:
df["ZipCode"] = df["ZipCode"].astype("Int64").astype(str)

In [None]:
display_columns_info(df, ['ZipCode'])

In [None]:
missing_stats = analyze_missing_values(df, True)
display(missing_stats)

#### Colonne LargestPropertyUseType

In [None]:
display(df[df['LargestPropertyUseType'].isna()].head())

Les colonnes suivantes sont identifi√©es comme candidates potentielles pour l‚Äôimputation :

- `PrimaryPropertyType`
- `ListOfAllPropertyUseTypes`

In [None]:
def correspondance_columns(df: pd.DataFrame, columns_to_ref: str, columns_to_compare: str):
    """
    Effectue une correspondance entre deux colonnes cat√©gorielles et affiche les r√©sultats.
    """
    df_comparison = df[df[columns_to_ref].notna() & df[columns_to_compare].notna()].copy()
    df_comparison['same_value'] = df_comparison[columns_to_ref] == df_comparison[columns_to_compare]

    print(f"Pourcentage de correspondance : {df_comparison['same_value'].mean() * 100:.2f}%")

correspondance_columns(df_origin, 'LargestPropertyUseType', 'PrimaryPropertyType')
df_copy = df_origin.copy()
df_copy["FirstPropertyUseType"] = (
    df_copy["ListOfAllPropertyUseTypes"]
    .str.split(",")
    .str[0]
    .str.strip()
)
correspondance_columns(df_copy, 'LargestPropertyUseType', 'FirstPropertyUseType')


`ListOfAllPropertyUseTypes` pr√©sente un taux de correspondance √©lev√© ; cette colonne sera donc utilis√©e pour l‚Äôimputation.

In [None]:
df["FirstPropertyUseType"] = (
    df["ListOfAllPropertyUseTypes"]
    .str.split(",")
    .str[0]
    .str.strip()
)

print("\nüîß Imputation de LargestPropertyUseType...")
na_count_before = df['LargestPropertyUseType'].isnull().sum()

# Imputer avec PrimaryPropertyType
df['LargestPropertyUseType'] = df['LargestPropertyUseType'].fillna(df['FirstPropertyUseType'])

na_count_after = df['LargestPropertyUseType'].isnull().sum()
print(f"  ‚úÖ {na_count_before - na_count_after} valeurs imput√©es")
if na_count_after > 0:
    print(f"  ‚ö†Ô∏è  {na_count_after} valeurs manquantes restantes")

remove_columns(df, ['FirstPropertyUseType'])

#### Colonne LargestPropertyUseTypeGFA

In [None]:
display(df[df['LargestPropertyUseTypeGFA'].isna()].head())

In [None]:
df_largest_missing_values = df_origin.copy()
cols_secondary = [
    'SecondLargestPropertyUseTypeGFA',
    'ThirdLargestPropertyUseTypeGFA'
]

df_largest_missing_values["TMP_LargestPropertyUseTypeGFA"] = (
    df_largest_missing_values['PropertyGFATotal']
    - df_largest_missing_values[cols_secondary].sum(axis=1, skipna=True)
)

df_largest_missing_values["TMP_PropertyGFATotal"] = (
    df_largest_missing_values[
        ['LargestPropertyUseTypeGFA'] + cols_secondary
    ].sum(axis=1, skipna=True)
)

display(df_largest_missing_values[["PropertyGFATotal", "TMP_PropertyGFATotal", "LargestPropertyUseTypeGFA", "TMP_LargestPropertyUseTypeGFA", "SecondLargestPropertyUseTypeGFA", "ThirdLargestPropertyUseTypeGFA"]].head())

correspondance_columns(df_largest_missing_values, 'LargestPropertyUseTypeGFA', 'TMP_LargestPropertyUseTypeGFA')
correspondance_columns(df_largest_missing_values, 'PropertyGFATotal', 'TMP_PropertyGFATotal')

**Observation:** 
- 3 des 4 b√¢timents ont un **usage unique**  (voir ListOfAllPropertyUseTypes).
- Presque 50 % de correspondance

**Solution:** Imputer avec `PropertyGFATotal`

In [None]:
print("\nüîß Imputation de LargestPropertyUseType...")
na_count_before = df['LargestPropertyUseTypeGFA'].isnull().sum()

# Imputer avec PropertyGFATotal
df['LargestPropertyUseTypeGFA'] = df['LargestPropertyUseTypeGFA'].fillna(df['PropertyGFATotal'])

na_count_after = df['LargestPropertyUseTypeGFA'].isnull().sum()
print(f"  ‚úÖ {na_count_before - na_count_after} valeurs imput√©es")
if na_count_after > 0:
    print(f"  ‚ö†Ô∏è  {na_count_after} valeurs manquantes restantes")

#### Colonne SiteEUIWN(kBtu/sf) et SiteEnergyUseWN(kBtu)

In [None]:
display(df[df['SiteEUIWN(kBtu/sf)'].isna()].head())

**Observation:** 
- Une seule ligne avec valeurs manquantes (index 563)
- La ligne poss√®de `SiteEnergyUse(kBtu)` = 5177270.5
- `SiteEnergyUseWN(kBtu)` est la version normalis√©e par m√©t√©o de `SiteEnergyUse(kBtu)`

**Solution:** 
1. Calculer le ratio moyen entre `SiteEnergyUseWN` et `SiteEnergyUse`
2. Appliquer ce ratio pour imputer `SiteEnergyUseWN(kBtu)`
3. Calculer `SiteEUIWN(kBtu/sf)` √† partir de `SiteEnergyUseWN(kBtu)` et la surface

In [None]:
print("\nüîß Imputation de SiteEnergyUseWN(kBtu) et SiteEUIWN(kBtu/sf)...")

# 1. Calculer le ratio moyen entre SiteEnergyUseWN et SiteEnergyUse
ratio = df['SiteEnergyUseWN(kBtu)'] / df['SiteEnergyUse(kBtu)']
mean_ratio = ratio.mean()
print(f"  üìä Ratio moyen SiteEnergyUseWN/SiteEnergyUse : {mean_ratio:.4f}")

# 2. Imputer SiteEnergyUseWN(kBtu) avec le ratio moyen
na_mask = df['SiteEnergyUseWN(kBtu)'].isna()
na_count_before = na_mask.sum()

df.loc[na_mask, 'SiteEnergyUseWN(kBtu)'] = df.loc[na_mask, 'SiteEnergyUse(kBtu)'] * mean_ratio

na_count_after = df['SiteEnergyUseWN(kBtu)'].isna().sum()
print(f"  ‚úÖ SiteEnergyUseWN(kBtu) : {na_count_before - na_count_after} valeur(s) imput√©e(s)")

# 3. Calculer SiteEUIWN(kBtu/sf) = SiteEnergyUseWN(kBtu) / PropertyGFABuilding(s)
na_mask_eui = df['SiteEUIWN(kBtu/sf)'].isna()
na_count_eui_before = na_mask_eui.sum()

df.loc[na_mask_eui, 'SiteEUIWN(kBtu/sf)'] = (
    df.loc[na_mask_eui, 'SiteEnergyUseWN(kBtu)'] / df.loc[na_mask_eui, 'PropertyGFABuilding(s)']
)

na_count_eui_after = df['SiteEUIWN(kBtu/sf)'].isna().sum()
print(f"  ‚úÖ SiteEUIWN(kBtu/sf) : {na_count_eui_before - na_count_eui_after} valeur(s) imput√©e(s)")

In [None]:
display_missing_values(df)

## 10 D√©tection et traitement des valeurs aberrantes

### 10.1 Valeurs n√©gatives

In [None]:
def display_columns_with_negatives(dataframe: pd.DataFrame) -> None:
    """
    Affiche les statistiques descriptives des colonnes num√©riques contenant des valeurs n√©gatives.

    Parameters
    ----------
    dataframe : pandas.DataFrame
        Le DataFrame √† analyser
    """
    numeric_cols = dataframe.select_dtypes(include=[np.number]).columns
    cols_with_negatives = numeric_cols[(dataframe[numeric_cols] < 0).any()]
    display(dataframe[cols_with_negatives].describe())

display_columns_with_negatives(df)

**Observation** :
On remarque que nous avons des valeurs n√©gatives pour SourceEUIWN(kBtu/sf), Electricity(kWh), Electricity(kBtu), TotalGHGEmissions, GHGEmissionsIntensity cela signifierai que les batiments produir√©s plus de d'√©lectricit√© par exemple que n'en produit.

V√©rifions les lignes concern√©s

In [None]:
negative_checks = [
    ('SourceEUIWN(kBtu/sf)', df['SourceEUIWN(kBtu/sf)'] < 0),
    ('Electricity(kWh)', df['Electricity(kWh)'] < 0),
    ('Electricity(kBtu)', df['Electricity(kBtu)'] < 0),
    ('TotalGHGEmissions', df['TotalGHGEmissions'] < 0),
    ('GHGEmissionsIntensity', df['GHGEmissionsIntensity'] < 0),
]
display(df[df['Electricity(kWh)'] < 0])

On constate que nous avons qu'un seul batiment poss√©dant des valeurs n√©gatives

Le b√¢timent **Bullitt Center** est un b√¢timent √©cologique, poss√©dant des panneaux solaires, ce qui pourrait expliquer ces valeurs n√©gatives.

Nous d√©cidons de supprimer cette donn√©e car :
- Il s‚Äôagit d‚Äôun cas tr√®s sp√©cifique de b√¢timent √† √©nergie positive (unique dans le dataset) ;
- Valeurs incoh√©rentes : consommation √©lectrique n√©gative alors que la consommation totale est positive (SiteEnergyUse (kBtu)) ;
- Donn√©e non repr√©sentative de la population cible (b√¢timents consommateurs d‚Äô√©nergie) ;
- Risque de fausser les mod√®les de pr√©diction ;
- On constate √©galement que les colonnes **TotalGHGEmissions** et **GHGEmissionsIntensity** comportent des valeurs n√©gatives.

In [None]:
df = remove_lignes(df, "`Electricity(kWh)` < 0")

In [None]:
display_columns_with_negatives(df)

**Observation**
Il n'y a plus de valeur n√©gative

### 10.2 Valeurs √† z√©ro

In [None]:
def display_columns_with_zero(dataframe: pd.DataFrame) -> None:
    """
    Affiche les statistiques descriptives des colonnes num√©riques contenant des valeurs n√©gatives.

    Parameters
    ----------
    dataframe : pandas.DataFrame
        Le DataFrame √† analyser
    """
    numeric_cols = dataframe.select_dtypes(include=[np.number]).columns
    cols_with_zero = numeric_cols[(dataframe[numeric_cols] == 0).any()]
    display(dataframe[cols_with_zero].describe())

display_columns_with_zero(df)

**Observation** :  
On remarque que certaines valeurs sont √† z√©ro pour les colonnes relatives √† la consommation d'√©nergie ou aux √©missions de CO‚ÇÇ, ainsi que pour des informations concernant les b√¢timents, le parking et le nombre de b√¢timents.

V√©rifions les lignes concern√©es afin de nous assurer que ces valeurs √† z√©ro sont justifi√©es.


#### Commen√ßons par les variables cibles

In [None]:
zero_value_checks = (
    (df[TARGET_CO2] == 0) |
    (df[TARGET_ENERGY] == 0)
)

display(df[zero_value_checks])

**Observations**

L'analyse des lignes ayant des valeurs cibles (`TotalGHGEmissions` et `SiteEnergyUse(kBtu)`) √† z√©ro r√©v√®le **2 b√¢timents probl√©matiques** :

- **Olympic Hills Elementary (Ligne 1361)** - √âcole K-12
    - **Probl√®me majeur** : Toutes les m√©triques √©nerg√©tiques sont √† z√©ro
    - `DefaultData = True` : Utilisation de donn√©es par d√©faut/placeholder
    - `ComplianceStatus = "Error - Correct Default Data"` : Erreur confirm√©e n√©cessitant correction

- **Whole Foods Interbay (Ligne 513)** - Services personnels
    - **Incoh√©rence** : `SiteEnergyUse(kBtu) = 12,525,174.0` (consommation √©lev√©e) mais `TotalGHGEmissions = 0.0`
    - Toutes les composantes √©nerg√©tiques (Electricity, NaturalGas, etc.) sont √† 0.0
    - `DefaultData = False` et `ComplianceStatus = Compliant`
    - **Hypoth√®se** : Possible erreur de calcul des √©missions ou utilisation d'√©nergie 100% renouvelable non comptabilis√©e

**D√©cision**
Ces 2 lignes pr√©sentent des **probl√®mes de qualit√© de donn√©es** et devraient √™tre **exclues** du jeu d'entra√Ænement pour √©viter de biaiser les mod√®les de pr√©diction des √©missions de CO2 et de consommation √©nerg√©tique.

In [None]:
df = remove_lignes(df, f"`{TARGET_CO2}` == 0 or `{TARGET_ENERGY}` == 0")

#### Colonne SiteEnergyUse(kBtu)

In [None]:
display(df[df['SteamUse(kBtu)'] == 0].head())

**Observation** :
La colonne *SteamUse (kBtu)* indique la consommation annuelle de vapeur. Tous les b√¢timents ne sont pas raccord√©s au r√©seau de vapeur.

**D√©cision** : On conserve la donn√©e.


#### Colonnes Electricity(kWh) et Electricity(kBtu)

In [None]:
zero_value_checks = (
    (df['Electricity(kWh)'] == 0) |
    (df['Electricity(kBtu)'] == 0)
)

display(df[zero_value_checks])

**Observation** :  
Nous n‚Äôavons qu‚Äôune seule ligne. Un restaurant ne peut pas fonctionner sans √©lectricit√© (√©clairage, r√©frig√©ration, ventilation). Ici, la totalit√© de l‚Äô√©nergie provient du gaz, ce qui correspond √† un sc√©nario hautement improbable.

**D√©cision** :  
Si ce restaurant n‚Äôutilise r√©ellement pas d‚Äô√©lectricit√©, il s‚Äôagit d‚Äôun cas sp√©cifique ; dans le cas contraire, c‚Äôest une erreur. Nous choisissons donc de supprimer cette ligne afin d‚Äô√©viter tout biais.


In [None]:
df = remove_lignes(df, f"`Electricity(kWh)` == 0 or `Electricity(kBtu)` == 0")

#### Colonnes NaturalGas(therms) et NaturalGas(kBtu)

In [None]:
zero_value_checks = (
    (df['NaturalGas(therms)'] == 0) |
    (df['NaturalGas(kBtu)'] == 0)
)

display(df[zero_value_checks].head(2))

**Observation** :
Aujourd'hui beaucoup de b√¢timents sont 100 % √©lectriques., nous pouvons conserver les z√©ros

#### Colonnes PropertyGFAParking 

In [None]:
display(df[df['PropertyGFAParking'] == 0].head(2))

**Observation** :  
Certains b√¢timents n‚Äôont aucune surface de parking (ex. bureaux urbains, √©tablissements publics anciens).

Nous pouvons v√©rifier que la donn√©e est correcte, car :  
*PropertyGFATotal = PropertyGFAParking + PropertyGFABuilding(s)*.



In [None]:
df_parking_zero = df[df['PropertyGFAParking'] == 0].copy()
df_parking_zero['Property_Calculed'] = df_parking_zero['PropertyGFAParking'] + df_parking_zero['PropertyGFABuilding(s)']

correspondance_columns(df_parking_zero, 'PropertyGFATotal', 'Property_Calculed')

**D√©cision**: on conserve la donn√©e

#### Colonne NumberofBuildings

In [None]:
print("\nüîß Nombre de batiments avec 0 b√¢timent : {}".format(df[df['NumberofBuildings'] == 0].shape[0]))
display(df[df['NumberofBuildings'] == 0].head(2))

In [None]:
median_building_by_type = df.groupby('PrimaryPropertyType')['NumberofBuildings'].median()
display(median_building_by_type)
distribution_column(df[df['NumberofBuildings'] == 0], 'BuildingType')


**D√©cision** : On peut imputer une valeur de 1, car la m√©diane pour les b√¢timents de ce type est de 1. Et on en profite pour mettre le bon type √† la donn√©e Int64

In [None]:
print("\nüîß Imputation de NumberofBuildings...")
na_count_before = len(df[df['NumberofBuildings'] == 0])
# Imputer avec mediane par type de propri√©t√©
df.loc[df['NumberofBuildings'] == 0, 'NumberofBuildings'] = 1

na_count_after = len(df[df['NumberofBuildings'] == 0])
print(f"  ‚úÖ {na_count_before - na_count_after} valeurs imput√©es")
if na_count_after > 0:
    print(f"  ‚ö†Ô∏è  {na_count_after} valeurs manquantes restantes")



df["NumberofBuildings"] = df["NumberofBuildings"].astype("Int64")


#### Colonne NumberofFloors

In [None]:
print("\nüîß Nombre de batiments avec 0 √©tage : {}".format(df[df['NumberofFloors'] == 0].shape[0]))
display(df[df['NumberofFloors'] == 0].head(2))

**Observation**:
Tout b√¢timent a au moins 1 √©tage, nous allons l'imput√© via la m√©dianne par type de propri√©t√©

In [None]:
median_floors_by_type = df.groupby('PrimaryPropertyType')['NumberofFloors'].median()

df.loc[df['NumberofFloors'] == 0, 'NumberofFloors'] = df.loc[df['NumberofFloors'] == 0, 'PrimaryPropertyType'].map(median_floors_by_type)



#### Colonne SourceEUI(kBtu/sf)

In [None]:

var = 'SourceEUI(kBtu/sf)'

mask_zero = df[var] == 0

display(df[mask_zero].head(2))

ratios = (
    df
    .assign(ratio=df[var] / df['SiteEUI(kBtu/sf)'])
    .query("ratio > 0")
    .groupby('PrimaryPropertyType')['ratio']
    .median()
)

df.loc[mask_zero, var] = (
    df.loc[mask_zero, 'PrimaryPropertyType']
      .map(ratios)
      * df.loc[mask_zero, 'SiteEUI(kBtu/sf)']
)




#### Colonne SourceEUIWN(kBtu/sf)

In [None]:
var = 'SourceEUIWN(kBtu/sf)'
mask_zero = df[var] == 0
n_zeros_initial = mask_zero.sum()

if n_zeros_initial > 0:
    print(f"   Z√©ros d√©tect√©s: {n_zeros_initial}")
    print(f"   M√©thode: Imputation par SourceEUI(kBtu/sf)")

    # Imputer par SourceEUI (qui a maintenant √©t√© imput√© lui-m√™me)
    df.loc[mask_zero, var] = df.loc[mask_zero, 'SourceEUI(kBtu/sf)']

    print(f"   ‚úÖ {n_zeros_initial} valeur(s) imput√©e(s) par SourceEUI")
else:
    print(f"   ‚úÖ Aucun z√©ro d√©tect√©")

#### Colonne SiteEUIWN(kBtu/sf)

In [None]:
df_siteEUIWN = df[df['SiteEUIWN(kBtu/sf)'] == 0].copy()
print(f"\nüîß Nombre de batiments : {df_siteEUIWN.shape[0]}")

print(len(df_siteEUIWN[df_siteEUIWN['SiteEnergyUseWN(kBtu)'] == 0]))
display(df_siteEUIWN.head())

In [None]:
df.loc[df['SiteEUIWN(kBtu/sf)'] == 0, 'SiteEUIWN(kBtu/sf)'] = \
    df.loc[df['SiteEUIWN(kBtu/sf)'] == 0, 'SiteEUI(kBtu/sf)']

#### Colonne SiteEnergyUseWN(kBtu)

In [None]:
var = "SiteEnergyUseWN(kBtu)"

mask_zero = df[var].eq(0)

if not mask_zero.any():
    print("   ‚úÖ Aucun z√©ro d√©tect√©")
else:
    recalculables = mask_zero & df["SiteEUIWN(kBtu/sf)"].gt(0) & df["PropertyGFATotal"].gt(0)

    df.loc[recalculables, var] = (
        df.loc[recalculables, "SiteEUIWN(kBtu/sf)"] *
        df.loc[recalculables, "PropertyGFATotal"]
    )

    print(f"   Z√©ros d√©tect√©s: {mask_zero.sum()}")
    print(f"   ‚úÖ {recalculables.sum()} valeur(s) recalcul√©e(s)")

  

In [None]:
display_columns_with_zero(df)

In [None]:
display(df.describe())

### 10.3 Valeurs ab√©rrantes

In [None]:
critere = df['NumberofBuildings'] >= 9
col = [
    'PropertyName',
	'BuildingType',
	'PrimaryPropertyType',
	'YearBuilt',
	'NumberofBuildings',
	'NumberofFloors',
    'PropertyGFATotal',
    'PropertyGFAParking',
    'PropertyGFABuilding(s)'
]
print(len(df[critere]))
display(df[critere][col].sort_values(by='NumberofBuildings'))

**Observations**

Le nombre de batiment semble coh√©rent m√™me pour *University of Washington - Seattle Campus* qui √† 111 batiments, une simple recherche sur internet nous permet de voir que ce chiffre est correct.


In [None]:
critere = df['NumberofFloors'] >= 50
col = [
    'PropertyName',
	'Adress'
	'BuildingType',
	'PrimaryPropertyType',
	'YearBuilt',
	'NumberofBuildings',
	'NumberofFloors',
    'PropertyGFATotal',
    'PropertyGFAParking',
    'PropertyGFABuilding(s)'
]
print(len(df[critere]))
display(df[critere].sort_values(by='NumberofBuildings'))

**Observations**

Seul le b√¢timent *Seattle Chinese Baptist Church* semble pr√©senter une valeur aberrante pour le nombre d‚Äô√©tages : 99 √©tages, ce qui est excessivement √©lev√© pour une √©glise.  
De plus, la consultation de Wikip√©dia, qui recense les b√¢timents les plus hauts de Seattle, permet de valider les valeurs des autres b√¢timents. Cette source confirme que l‚Äô√©glise constitue une anomalie et n√©cessite une correction.  
https://fr.wikipedia.org/wiki/Liste_des_plus_hautes_constructions_de_Seattle

**D√©cision**

Nous allons corriger cette valeur en utilisant la m√©diane de *NumberOfFloors* pour la cat√©gorie **Worship Facilities**.

In [None]:
# Calculer la m√©diane des NumberofFloors pour les Worship Facilities
median_worship = df[df['PrimaryPropertyType'] == 'Worship Facility']['NumberofFloors'].median()
print(f"M√©diane des √©tages pour les lieux de culte : {median_worship:.0f}")

# Corriger la valeur aberrante
df.loc[df['NumberofFloors'] == 99, 'NumberofFloors'] = median_worship

# V√©rifier la correction
print(f"\n‚úÖ Correction effectu√©e !")
print(f"Nouvelle valeur pour Seattle Chinese Baptist Church : {median_worship:.0f} √©tages")

## 11 R√©sum√© apr√®s nettoyage

In [None]:

print("="*80)
print("üìä ANALYSE DES VALEURS MANQUANTES")
print("="*80)

print(f"\nüîß Shape du DataFrame avant traitement des valeurs manquantes : {df.shape}")

missing_stats = analyze_missing_values(df, True)

print(f"\n Distribution finale des valeurs num√©riques apr√®s nettoyage :")
display(df.describe())

print(f"\n Informations sur le DataFrame final :")
display(df.info())

## 12. Les 3 types de relations entre variables

### 12.1. Quantitative vs Quantitative

**Objectif :** Mesurer la relation lin√©aire entre deux variables num√©riques.

**Graphiques :**
- Scatter plot (nuage de points)
- Matrice de corr√©lation (heatmap)

**Exemples :**
- Surface totale ‚Üí Consommation d'√©nergie et √âmissions CO2
- Ann√©e de construction ‚Üí Consommation d'√©nergie et √âmissions CO2

#### 12.1.1 Matrice de corr√©lation g√©n√©rale

In [None]:
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)

In [None]:
quanti_vars = [
    'PropertyGFATotal',
    'PropertyGFABuilding(s)',
    'YearBuilt',
    'NumberofFloors',
    TARGET_CO2,
    TARGET_ENERGY
]


df_quanti = df[quanti_vars]

# Calcul de la matrice de corr√©lation
correlation_matrix = df_quanti.corr()

# Visualisation : Heatmap de corr√©lation
fig, ax = plt.subplots(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, linewidths=1, cbar_kws={"shrink": 0.8})
plt.title('Matrice de corr√©lation - Variables quantitatives', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

#### 12.1.2 Surface totale vs ( Consommation d'√©nergie et Emission de CO2 )

Afin d‚Äôanalyser l‚Äôimpact de la surface totale des b√¢timents sur leurs performances √©nerg√©tiques et environnementales, nous comparons la surface totale √† la consommation d‚Äô√©nergie ainsi qu‚Äôaux √©missions de CO‚ÇÇ √† l‚Äôaide de nuages de points. Ces graphiques permettent d‚Äôobserver la relation entre la taille des b√¢timents et ces deux indicateurs, d‚Äôidentifier d‚Äô√©ventuelles corr√©lations et de rep√©rer des b√¢timents atypiques

In [None]:
def create_scatter(
    df: pd.DataFrame,
    var1: str,
    var2: str,
    title: str,
    xlabel: str,
    ylabel: str,
    ax: plt.Axes,
    add_trendline: bool = False
):
    if add_trendline:
        sns.regplot(
            data=df,
            x=var1,
            y=var2,
            ax=ax,
            scatter_kws={
                "alpha": 0.5,
                "edgecolor": "k"
            },
            line_kws={
                "color": "red",
                "linewidth": 2
            },
            ci=None
        )
    else:
        sns.scatterplot(
            data=df,
            x=var1,
            y=var2,
            ax=ax,
            alpha=0.5,
            edgecolor="k"
        )

    ax.set_xlabel(xlabel, fontsize=11)
    ax.set_ylabel(ylabel, fontsize=11)
    ax.set_title(title, fontsize=13, fontweight="bold")
    ax.grid(True, alpha=0.3)

fig, axes = plt.subplots(1, 2, figsize=(18, 6))

create_scatter(
    df,
    "PropertyGFATotal",
    TARGET_ENERGY,
    "Relation entre la surface totale et la consommation d'√©nergie",
    "Surface totale du b√¢timent (PropertyGFATotal)",
    "Consommation d'√©nergie (kBtu)",
    axes[0]
)

create_scatter(
    df,
    "PropertyGFATotal",
    TARGET_CO2,
    "Relation entre la surface totale et les √©missions de CO‚ÇÇ",
    "Surface totale du b√¢timent (PropertyGFATotal)",
    "√âmissions CO2 (TotalGHGEmissions)",
    axes[1]
)

plt.tight_layout()
plt.show()



##### Analyse synth√©tique des relations surface ‚Äì √©nergie et CO‚ÇÇ

Les deux graphiques montrent une **relation positive globale** entre la surface totale des b√¢timents et :
- la **consommation d‚Äô√©nergie** ;
- les **√©missions de CO‚ÇÇ**.

En g√©n√©ral, plus un b√¢timent est grand, plus il consomme d‚Äô√©nergie et plus il √©met de CO‚ÇÇ.  
Cependant, pour une **m√™me surface**, on observe une **forte variabilit√©** des consommations et des √©missions, ce qui indique que la surface seule n‚Äôexplique pas tout.

Cette dispersion s‚Äôexplique notamment par :
- le **type et l‚Äôusage** des b√¢timents ;
- leur **performance √©nerg√©tique** ;
- le **type d‚Äô√©nergie utilis√©e**, qui influence directement les √©missions de CO‚ÇÇ.

Quelques b√¢timents de tr√®s grande surface pr√©sentent des valeurs extr√™mes, ce qui souligne l‚Äôint√©r√™t de :
- normaliser les indicateurs (√©nergie/m¬≤, CO‚ÇÇ/m¬≤) ;
- analyser s√©par√©ment certains b√¢timents atypiques.

**Conclusion :**  
La surface est un facteur explicatif important, mais insuffisant √† elle seule. Une analyse plus fine n√©cessite des indicateurs normalis√©s et une segmentation par usage ou type de b√¢timent.


#### 12.1.3 Ann√©e de construction vs Consommation d'√©nergie

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(18, 6))

create_scatter(
    df,
    "YearBuilt",
    TARGET_ENERGY,
    "Consommation d'√©nergie selon l'ann√©e de construction",
    "Ann√©e de construction",
    "Consommation d'√©nergie (kBtu)",
    axes[0]
)

create_scatter(
    df,
    "YearBuilt",
    TARGET_CO2,
    "√âmissions de CO2 selon l'ann√©e de construction",
    "Ann√©e de construction",
    "√âmissions CO2 (TotalGHGEmissions)",
    axes[1]
)

plt.tight_layout()
plt.show()

### Analyse synth√©tique ‚Äì ann√©e de construction, √©nergie et CO‚ÇÇ

Aucune tendance lin√©aire forte n‚Äôappara√Æt clairement entre l‚Äôann√©e de construction et les niveaux de consommation ou d‚Äô√©missions. Des b√¢timents anciens comme r√©cents peuvent pr√©senter des consommations et des √©missions √©lev√©es.

On observe toutefois que :
- la majorit√© des b√¢timents, quelle que soit leur ann√©e de construction, a des **consommations et √©missions relativement faibles** ;
- quelques **valeurs extr√™mes** sont pr√©sentes sur l‚Äôensemble de la p√©riode, ce qui sugg√®re que l‚Äôann√©e de construction seule n‚Äôest pas un facteur explicatif suffisant.

Ces r√©sultats indiquent que :
- l‚Äô**usage du b√¢timent**, sa **taille**, et ses **r√©novations √©nerg√©tiques** ont probablement un impact plus important que l‚Äôann√©e de construction initiale ;
- les b√¢timents r√©cents ne sont pas syst√©matiquement les plus performants, et certains b√¢timents anciens peuvent √™tre efficaces s‚Äôils ont √©t√© r√©nov√©s.

**Conclusion :**  
L‚Äôann√©e de construction, prise isol√©ment, explique peu la consommation d‚Äô√©nergie et les √©missions de CO‚ÇÇ. Une analyse plus pertinente n√©cessiterait d‚Äôint√©grer des informations sur les r√©novations, les usages et des indicateurs normalis√©s (√©nergie/m¬≤, CO‚ÇÇ/m¬≤).


### 12.2. Quantitative vs Qualitative

**Objectif :** Comparer une variable num√©rique selon diff√©rentes cat√©gories.

**Mesure :** ANOVA, Rapport de corr√©lation Œ∑¬≤ (entre 0 et 1)

**Graphiques :**
- Boxplot
- Violin plot
- Bar plot (moyennes)

**Exemples :**
- Consommation d'√©nergie et √âmissions CO2 selon le type de propri√©t√©
- Consommation d'√©nergie et √âmissions CO2 selon le quartier
- Consommation d'√©nergie et √âmissions CO2 selon le type de b√¢timent

#### 12.2.1 Consommation d'√©nergie selon le type de propri√©t√©

In [None]:
def create_boxplot(
    df: pd.DataFrame,
    y_col: str,
    ax: plt.Axes,
    x_col: str = None,
    title: str = "",
    xlabel: str = "",
    ylabel: str = "",
    rotate_x: int = 0,
    log_scale: bool = False
):
    sns.boxplot(
        data=df,
        x=x_col,
        y=y_col,
        ax=ax
    )

    if log_scale:
        ax.set_yscale("log")
        title = title + "(log scale)"
        ylabel = ylabel + "(log scale)"

    if rotate_x:
        ax.tick_params(axis='x', rotation=rotate_x)


    ax.set_title(title, fontsize=14, fontweight='bold')
    ax.set_xlabel(xlabel, fontsize=12)
    ax.set_ylabel(ylabel, fontsize=12)


In [None]:
fig, ax = plt.subplots(figsize=(14, 6))
create_boxplot(
	df,
	TARGET_ENERGY,
	ax,
	'PrimaryPropertyType', 
	'Consommation d\'√©nergie selon le type de propri√©t√©',
	'Type de propri√©t√©', 
	'Consommation d\'√©nergie (kBtu)'
	)
plt.tight_layout()
plt.show()

##### Analyse synth√©tique ‚Äì consommation d‚Äô√©nergie selon le type de propri√©t√©

On observe des **diff√©rences marqu√©es entre les cat√©gories** :
- Les **h√¥pitaux** pr√©sentent de loin les consommations d‚Äô√©nergie les plus √©lev√©es, avec une m√©diane importante et une forte dispersion. Cela s‚Äôexplique par une activit√© continue, des √©quipements lourds et des exigences sanitaires √©lev√©es.
- Les **universit√©s**, les **laboratoires**, les **supermarch√©s** et les **grands bureaux** affichent √©galement des niveaux de consommation plus √©lev√©s que la moyenne.
- Les **√©coles K-12**, les **bureaux**, les **restaurants**, les **entrep√¥ts** et les **logements collectifs de faible hauteur** pr√©sentent des consommations globalement plus faibles.

La pr√©sence de nombreux **outliers** dans plusieurs cat√©gories indique une **forte h√©t√©rog√©n√©it√© interne**, li√©e notamment √† la taille des b√¢timents, √† leur usage r√©el et √† leur intensit√© d‚Äôexploitation.

**Conclusion :**  
Le type de propri√©t√© est un facteur d√©terminant de la consommation d‚Äô√©nergie. Toutefois, les √©carts observ√©s au sein d‚Äôune m√™me cat√©gorie montrent que des indicateurs normalis√©s (√©nergie/m¬≤) et une segmentation plus fine restent n√©cessaires pour comparer efficacement la performance √©nerg√©tique des b√¢timents.


#### 12.2.2 √âmissions CO2 selon le type de propri√©t√©

In [None]:
# Visualisation : Boxplot
fig, ax = plt.subplots(figsize=(14, 6))
create_boxplot(df, TARGET_CO2, ax, 'PrimaryPropertyType', '√âmissions CO2 selon le type de propri√©t√©', 'Type de propri√©t√©', '√âmissions CO2 (TotalGHGEmissions)')
plt.tight_layout()
plt.show()

##### Analyse synth√©tique ‚Äì √©missions de CO‚ÇÇ selon le type de propri√©t√©

Des √©carts importants apparaissent entre les cat√©gories :
- Les **h√¥pitaux** sont de loin les plus √©metteurs, avec des valeurs m√©dianes √©lev√©es et une dispersion tr√®s marqu√©e. Cela refl√®te une consommation √©nerg√©tique continue et souvent bas√©e sur des sources fortement carbon√©es.
- Les **universit√©s**, les **laboratoires**, les **supermarch√©s / √©piceries** et les **grands bureaux** pr√©sentent √©galement des niveaux d‚Äô√©missions plus √©lev√©s que la moyenne.
- Les **bureaux standards**, **√©coles K-12**, **entrep√¥ts**, **restaurants** et **b√¢timents r√©sidentiels de faible hauteur** affichent des √©missions globalement plus faibles.

La pr√©sence de nombreux **outliers** dans plusieurs cat√©gories souligne une **forte h√©t√©rog√©n√©it√©** au sein d‚Äôun m√™me type de propri√©t√©, li√©e √† la taille, √† l‚Äôintensit√© d‚Äôusage et au mix √©nerg√©tique.

**Conclusion :**  
Le type de propri√©t√© est un facteur cl√© des √©missions de CO‚ÇÇ, mais il ne suffit pas √† lui seul pour comparer la performance environnementale. L‚Äôutilisation d‚Äôindicateurs normalis√©s (CO‚ÇÇ/m¬≤ ou CO‚ÇÇ par usage) et une analyse par type d‚Äô√©nergie permettraient une interpr√©tation plus robuste.


#### 12.2.3 Consommation d‚Äô√©nergie et √©missions de CO‚ÇÇ selon le quartier

In [None]:
fig, ax = plt.subplots(figsize=(14, 6))
create_boxplot(df, TARGET_ENERGY,ax , 'Neighborhood', 'Consommation d\'√©nergie selon le Quartier','Quartier', 'Consommation d\'√©nergie (kBtu)')
plt.tight_layout()
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(14, 6))
create_boxplot(df, TARGET_CO2, ax,  'Neighborhood', '√âmissions CO2 selon le quartier','Quartier', '√âmissions CO2 (TotalGHGEmissions)')
plt.tight_layout()
plt.show()

##### Analyse synth√©tique ‚Äì consommation d‚Äô√©nergie et √©missions de CO‚ÇÇ selon le quartier

Globalement, on n‚Äôobserve pas de diff√©rences extr√™mement marqu√©es entre les quartiers en termes de valeurs m√©dianes : la majorit√© des b√¢timents, quel que soit le quartier, pr√©sente des **consommations et √©missions relativement faibles**.

Cependant, certains quartiers se distinguent par la pr√©sence de **valeurs extr√™mes (outliers)** :
- **Downtown**, **East**, **Northeast** et **Greater Duwamish** concentrent plusieurs b√¢timents avec des consommations d‚Äô√©nergie et des √©missions de CO‚ÇÇ tr√®s √©lev√©es.
- Ces quartiers sont probablement caract√©ris√©s par une plus forte densit√© de b√¢timents de grande taille ou √† usage intensif (h√¥pitaux, universit√©s, b√¢timents industriels ou tertiaires).

Les quartiers plus r√©sidentiels ou moins denses (par exemple **North**, **Ballard**, **Magnolia / Queen Anne**, **Delridge**) pr√©sentent en g√©n√©ral des niveaux plus faibles et moins dispers√©s.

**Conclusion :**  
Le quartier influence indirectement la consommation d‚Äô√©nergie et les √©missions de CO‚ÇÇ, principalement via le **type de b√¢timents** et leur **usage**. √Ä lui seul, le quartier n‚Äôest pas un facteur explicatif suffisant. Une analyse combinant quartier, type de propri√©t√© et indicateurs normalis√©s (√©nergie/m¬≤, CO‚ÇÇ/m¬≤) permettrait une interpr√©tation plus robuste.


### 3. Qualitative vs Qualitative

**Objectif :** Analyser la d√©pendance entre deux variables cat√©gorielles.

**Mesure :** Test du Chi¬≤, V de Cram√©r (entre 0 et 1)

**Graphiques :**
- Heatmap de contingence
- Stacked bar plot
- Tableau de contingence

**Exemples :**
- Type de b√¢timent vs Quartier
- Type de b√¢timent vs Type d'usage

In [None]:
def create_barplot_contingency(
    df: pd.DataFrame,
    x_col: str,
    hue_col: str,
    title: str,
    xlabel: str,
    ylabel: str,
    legend_title: str,
    top_n_x: int | None = None,
    top_n_y: int | None = None
):
    
    df_copy = df.copy()
    # Optionnel : limiter la cardinalit√©
    if top_n_x is not None:
        top_x = df_copy[x_col].value_counts().head(top_n_x).index
        df_copy = df_copy[df_copy[x_col].isin(top_x)]

    if top_n_y is not None:
        top_y = df_copy[hue_col].value_counts().head(top_n_y).index
        df_copy = df_copy[df_copy[hue_col].isin(top_y)]

    contingency = (
        df_copy
        .groupby([x_col, hue_col])
        .size()
        .reset_index(name='count')
    )

    plt.figure(figsize=(12, 6))
    sns.barplot(
        data=contingency,
        x=x_col,
        y='count',
        hue=hue_col
    )

    plt.xlabel(xlabel, fontsize=12)
    plt.ylabel(ylabel, fontsize=12)
    plt.title(title, fontsize=14, fontweight='bold')
    plt.xticks(rotation=45, ha='right')
    plt.legend(title=legend_title, )
    plt.tight_layout()
    plt.show()


def create_heatmap_contingency(
    df: pd.DataFrame,
    x_col: str,
    y_col: str,
    title: str,
    xlabel: str,
    ylabel: str,
    top_n_x: int | None = None,
    top_n_y: int | None = None,
    normalize: bool = False,
    annot: bool = False,
    fmt: str = 'd'
):
    data = df.copy()

    if top_n_x is not None:
        top_x = data[x_col].value_counts().head(top_n_x).index
        data = data[data[x_col].isin(top_x)]

    if top_n_y is not None:
        top_y = data[y_col].value_counts().head(top_n_y).index
        data = data[data[y_col].isin(top_y)]

    contingency = pd.crosstab(
        data[y_col],
        data[x_col],
        normalize='index' if normalize else False
    )

    if annot and fmt is None:
        fmt = '.2f' if normalize else 'd'

    plt.figure(figsize=(12, 6))
    sns.heatmap(
        contingency if not normalize else contingency * 100,
        cmap='Blues',
        annot=annot,
        fmt=fmt,
        linewidths=0.5
    )

    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(title, fontsize=14, fontweight='bold')
    plt.tight_layout()
    plt.show()


In [None]:
display(df.head())
create_barplot_contingency(
    df,
    'Neighborhood',
    'BuildingType',
    'R√©partition des types de b√¢timents par quartier',
    'Quartier',
    'Nombre de b√¢timents',
    'Type de b√¢timent'
)
create_heatmap_contingency(
    df,
    x_col='Neighborhood',
    y_col='BuildingType',
    title="Heatmap ‚Äì Types de b√¢timents par quartier",
    xlabel="Quartier",
    ylabel="Type de b√¢timent",
    normalize=False,  # True si tu veux des proportions
    annot=True
)


#### Analyse synth√©tique ‚Äì r√©partition des types de b√¢timents par quartier

Les r√©sultats mettent en √©vidence une **forte domination des b√¢timents non r√©sidentiels** dans l‚Äôensemble des quartiers. Cette domination est particuli√®rement marqu√©e dans :
- **Downtown** et **Greater Duwamish**, qui concentrent de loin le plus grand nombre de b√¢timents non r√©sidentiels ;
- **Lake Union**, **Magnolia / Queen Anne**, **East** et **Northeast**, qui pr√©sentent √©galement des volumes significatifs.

Les autres cat√©gories de b√¢timents sont **largement minoritaires** :
- Les **Nonresidential COS** et **SPS-District K-12** sont pr√©sents dans presque tous les quartiers, mais en quantit√©s limit√©es.
- Les **campus** sont tr√®s peu nombreux et localis√©s dans quelques quartiers sp√©cifiques.
- Les **Nonresidential WA** sont quasi inexistants dans l‚Äô√©chantillon.

La heatmap confirme visuellement ces tendances en montrant une **forte concentration** de b√¢timents non r√©sidentiels dans certains quartiers, tandis que les autres types restent dispers√©s et peu repr√©sent√©s.

**Conclusion :**  
La structure du parc immobilier varie fortement selon les quartiers, avec une concentration des b√¢timents non r√©sidentiels dans les zones √† forte activit√© √©conomique (notamment Downtown et Greater Duwamish). Cette r√©partition explique en partie les diff√©rences observ√©es pr√©c√©demment en mati√®re de consommation d‚Äô√©nergie et d‚Äô√©missions de CO‚ÇÇ, soulignant l‚Äôimportance de croiser **quartier**, **type de b√¢timent** et **usage** pour une analyse √©nerg√©tique pertinente.


In [None]:
create_barplot_contingency(
    df,
    'Neighborhood',
    'PrimaryPropertyType',
    'R√©partition du top 5 types de propri√©t√©s par quartier',
    'Quartier',
    'Nombre de b√¢timents',
    'Type de propri√©t√©',
    top_n_y=5
)
create_heatmap_contingency(
    df,
    x_col='Neighborhood',
    y_col='PrimaryPropertyType',
    title="Heatmap ‚Äì Top 10 des propri√©t√©s par quartier",
    xlabel="Quartier",
    ylabel="Type de propri√©t√©s",
    top_n_y=10,      # fortement recommand√©
    normalize=False,  # True si tu veux des proportions
    annot=True
)

#### Analyse synth√©tique ‚Äì r√©partition des types de propri√©t√©s par quartier (Top 5 et Top 10)

Ces deux visualisations pr√©sentent la **distribution des principaux types de propri√©t√©s selon les quartiers**, √† travers :
- un graphique en barres pour le **Top 5 des types de propri√©t√©s** ;
- une heatmap pour le **Top 10 des types de propri√©t√©s**.

##### Tendances g√©n√©rales
- Certains quartiers concentrent tr√®s fortement des **types de propri√©t√©s sp√©cifiques**, r√©v√©lant une sp√©cialisation fonctionnelle claire.
- **Downtown** se distingue par une forte concentration de **Large Offices**, **Small and Mid-Sized Offices**, ainsi que de **Mixed Use Properties**, ce qui confirme son r√¥le de p√¥le tertiaire majeur.
- **Greater Duwamish** est largement domin√© par les **Warehouses** et les **Distribution Centers**, refl√©tant une vocation principalement industrielle et logistique.

##### R√©partition par type de propri√©t√©
- Les **bureaux (Large et Small/Mid-Sized)** sont surtout pr√©sents √† **Downtown**, **Lake Union** et **Magnolia / Queen Anne**.
- Les **entrep√¥ts (Warehouses)** sont massivement concentr√©s √† **Greater Duwamish**, avec une pr√©sence marginale dans les autres quartiers.
- Les **K-12 Schools** sont r√©parties de mani√®re relativement homog√®ne entre les quartiers, indiquant une implantation plus r√©sidentielle et territoriale.
- Les cat√©gories **Retail Store**, **Hotel** et **Worship Facility** apparaissent de fa√ßon plus diffuse, sans concentration extr√™me, mais avec des pics locaux selon les quartiers.

##### Lecture crois√©e des deux graphiques
- Le graphique Top 5 met en √©vidence les **dominances locales**, tandis que la heatmap Top 10 permet d‚Äôidentifier les **types secondaires mais structurants** dans chaque quartier.
- Ensemble, ils montrent que la **composition du parc immobilier varie fortement d‚Äôun quartier √† l‚Äôautre**, bien plus que le simple nombre total de b√¢timents.

##### Conclusion
La r√©partition des types de propri√©t√©s par quartier r√©v√®le une **forte sp√©cialisation spatiale** (tertiaire, industrielle, mixte ou r√©sidentielle). Cette structure explique en grande partie les diff√©rences observ√©es pr√©c√©demment en mati√®re de **consommation d‚Äô√©nergie** et d‚Äô**√©missions de CO‚ÇÇ**, et souligne l‚Äôimportance d‚Äôint√©grer le **type de propri√©t√©** dans toute analyse √©nerg√©tique ou environnementale √† l‚Äô√©chelle urbaine.


## 13. R√©capitulatif de l'analyse exploratoire 
   
##### Dataset initial
- Lignes : 3376  
- Colonnes : 46
- Pourcentage de cellule vide : 12.85%
   
##### Dataset apr√®s nettoyage exploratoire
- Lignes : 1630 (apr√®s filtrage type de b√¢timent + outliers + compliance)  
- Colonnes : 39 
- Pourcentage de cellule vide : 0 % 
   
##### D√©cisions prises
1. Variables cibles : `TotalGHGEmissions` et `SiteEnergyUse(kBtu)`  
2. Colonnes supprim√©es : `Outlier`, `Comments`, `YearsENERGYSTARCertified`, `SecondLargestPropertyUseType`, `SecondLargestPropertyUseTypeGFA` ,`ThirdLargestPropertyUseType`,`ThirdLargestPropertyUseTypeGFA`, `ENERGYSTARScore`
3. Lignes supprim√©es : outliers, b√¢timents non conformes, donn√©es manquantes  
4. Type de b√¢timents conserv√©s : b√¢timents non r√©sidentiels uniquement  
   
##### Insights cl√©s pour la mod√©lisation

- La **surface totale du b√¢timent** est fortement corr√©l√©e aux deux variables cibles, mais ne suffit pas √† expliquer seule la variabilit√© observ√©e  
  ‚Üí n√©cessit√© d‚Äôint√©grer des variables compl√©mentaires et/ou des indicateurs normalis√©s (√©nergie/m¬≤, CO‚ÇÇ/m¬≤).

- Le **type de propri√©t√©** est l‚Äôun des facteurs les plus discriminants pour l‚Äô√©nergie et le CO‚ÇÇ  
  ‚Üí variable cat√©gorielle cl√© √† encoder soigneusement (one-hot ou target encoding selon le mod√®le).

- L‚Äô**ann√©e de construction** pr√©sente un pouvoir explicatif limit√© prise isol√©ment  
  ‚Üí variable √† conserver, mais avec un poids attendu mod√©r√© dans les mod√®les.

- Une **forte h√©t√©rog√©n√©it√© intra-cat√©gorie** (notamment pour les h√¥pitaux, universit√©s et grands bureaux) est observ√©e  
  ‚Üí int√©r√™t potentiel de mod√®les non lin√©aires capables de capturer des interactions complexes.

- La **localisation (quartier)** influence indirectement les cibles via la structure du parc immobilier  
  ‚Üí variable utile en interaction avec le type de propri√©t√© plut√¥t qu‚Äôen effet direct.

- La pr√©sence de **valeurs extr√™mes** justifie :
  - le filtrage des outliers en amont ;
  - l‚Äôutilisation de m√©triques robustes et/ou de transformations (log, scaling).

- La variabilit√© importante des consommations et √©missions sugg√®re que des **mod√®les multivari√©s** seront plus adapt√©s que des approches univari√©es ou purement lin√©aires.

Ces √©l√©ments orientent vers une approche de mod√©lisation int√©grant √† la fois des **variables structurelles**, **fonctionnelles** et **spatiales**, avec une attention particuli√®re port√©e √† la normalisation et aux interactions entre variables.


## 14. Feature Engineering

### 14.1. Suppression des colonnes peu pertinentes

Nettoyer le dataset en supprimant les colonnes qui n'apportent aucune information utile pour l'analyse et la mod√©lisation.

In [None]:
low_predictive_value_columns = [
    'DataYear', 
    'City', 
    'State',
	'OSEBuildingID', 
    'PropertyName', 
    'Address', 
    'TaxParcelIdentificationNumber',
	'DefaultData', 
    'ComplianceStatus',
]
display_columns_info(df, low_predictive_value_columns)

##### Colonnes √† valeur unique (3)
Ces colonnes contiennent la m√™me valeur pour tous les b√¢timents, elles n'apportent donc aucune variabilit√© ni pouvoir discriminant.

| Colonne | Valeur unique | Raison |
|---------|---------------|--------|
| `DataYear` | 2016 | Toutes les observations datent de 2016 |
| `City` | Seattle | Tous les b√¢timents sont situ√©s √† Seattle |
| `State` | WA | Tous les b√¢timents sont dans l'√âtat de Washington |

##### Identifiants uniques (4)
Ces colonnes identifient de mani√®re unique chaque b√¢timent mais ne permettent pas de g√©n√©raliser √† de nouveaux b√¢timents.

| Colonne | Taux d'unicit√© | Raison |
|---------|----------------|--------|
| `OSEBuildingID` | 100% | Identifiant syst√®me unique par b√¢timent |
| `PropertyName` | 99.8% | Nom propre du b√¢timent (ex: "Mayflower Park Hotel") |
| `Address` | 98.7% | Adresse compl√®te sp√©cifique √† chaque b√¢timent |
| `TaxParcelIdentificationNumber` | 95% | Num√©ro de parcelle fiscale unique |

##### M√©tadonn√©es (2)
Ces colonnes concernent la qualit√© et le statut des donn√©es, pas les caract√©ristiques des b√¢timents.

| Colonne | Type | Raison |
|---------|------|--------|
| `DefaultData` | Bool√©en | Indique si les donn√©es sont estim√©es ou r√©elles |
| `ComplianceStatus` | Texte | Statut de conformit√© r√©glementaire ("Compliant" ou "Error") |

In [None]:
df = remove_columns(df, low_predictive_value_columns)

### 14.2  Analyse des distributions et gestion des outliers

In [None]:
def create_histogram(
    df: pd.DataFrame,
    column: str,
    title: str,
    xlabel: str,
    ylabel: str,
    ax: plt.Axes,
    log_scale: bool = False
):
    sns.histplot(
        data=df,
        x=column,
        bins=50,
        kde=False,
        ax=ax,
        edgecolor='black'
    )

    if log_scale:
        ax.set_yscale("log")
        title = title + "(log scale)"
        ylabel = ylabel + "(log scale)"

    ax.set_title(title, fontsize=14, fontweight='bold')
    ax.set_xlabel(xlabel)
    ax.set_ylabel(ylabel)

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

create_histogram(
    df,
    TARGET_ENERGY,
    'Distribution de TotalGHGEmissions',
    'TotalGHGEmissions',
    'Fr√©quence',
    axes[0],
    log_scale=True

)


create_histogram(
    df,
    TARGET_CO2,
    'Distribution de SiteEnergyUse(kBtu)',
    'SiteEnergyUse(kBtu)',
    'Fr√©quence',
    axes[1],
    log_scale=True
)

plt.tight_layout()
plt.show()


# Boxplots pour identifier les outliers
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

create_boxplot(
    df,
    y_col=TARGET_ENERGY,
    title='Boxplot SiteEnergyUse(kBtu)',
    xlabel='SiteEnergyUse(kBtu)',
    ylabel='SiteEnergyUse(kBtu)',
    ax=axes[1],
    log_scale=True
)

create_boxplot(
    df,
    y_col=TARGET_CO2,
    title='Boxplot TotalGHGEmissions',
    xlabel='TotalGHGEmissions',
    ylabel='TotalGHGEmissions',
    ax=axes[0],
    log_scale=True
)

plt.tight_layout()
plt.show()

#### Analyse des graphiques

- **TotalGHGEmissions** :  
  La distribution est tr√®s √©tal√©e vers la droite. On observe que la plupart des valeurs sont faibles, mais quelques b√¢timents ont des √©missions tr√®s √©lev√©es. Ces valeurs extr√™mes (outliers) influencent fortement la distribution. Le boxplot montre une m√©diane plut√¥t basse et une grande dispersion.

- **SiteEnergyUse (kBtu)** :  
  La consommation d‚Äô√©nergie est elle aussi majoritairement faible √† mod√©r√©e pour la plupart des sites. Cependant, certains b√¢timents consomment √©norm√©ment d‚Äô√©nergie, ce qui cr√©e des outliers visibles sur le boxplot. La distribution n‚Äôest donc pas sym√©trique.

**Conclusion** :  
Les deux variables pr√©sentent des distributions asym√©triques avec beaucoup de valeurs extr√™mes. Pour aller plus loin dans l‚Äôanalyse, il pourrait √™tre utile de traiter les outliers afin d‚Äôobtenir des r√©sultats plus stables.


In [None]:
cibles = ['TotalGHGEmissions', 'SiteEnergyUse(kBtu)']

for cible in cibles:
    print(f"\n--- {cible} ---")
    
    # Calculer Q1, Q3 et IQR
    Q1 = df[cible].quantile(0.25)
    Q3 = df[cible].quantile(0.75)
    IQR = Q3 - Q1
    
    # D√©finir les bornes
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # Identifier les outliers
    outliers = df[(df[cible] < lower_bound) | (df[cible] > lower_bound)][cible]
    
    print(f"Q1 (25%) : {Q1:,.2f}")
    print(f"Q3 (75%) : {Q3:,.2f}")
    print(f"IQR : {IQR:,.2f}")
    print(f"Borne inf√©rieure : {lower_bound:,.2f}")
    print(f"Borne sup√©rieure : {upper_bound:,.2f}")
    print(f"\nNombre d'outliers : {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)")
    
    if len(outliers) > 0:
        print(f"Valeur minimale des outliers : {outliers.min():,.2f}")
        print(f"Valeur maximale des outliers : {outliers.max():,.2f}")

    
    
    # Cr√©er une colonne indicatrice
    df[f'{cible}_outlier_IQR'] = (df[cible] < lower_bound) | (df[cible] > upper_bound)

    # ========================================
    # VISUALISATION COMPARATIVE
    # ========================================
    fig, axes = plt.subplots(1, 2, figsize=(14, 5))
    
    # Graphique 3 : IQR
    axes[0].hist(df[cible].dropna(), bins=50, alpha=0.6, 
                    label='Donn√©es normales', edgecolor='black', color='lightblue')
    axes[0].hist(outliers, bins=30, alpha=0.9, 
                    label=f'Outliers ({len(outliers)})', color='green', edgecolor='black')
    axes[0].axvline(upper_bound, color='darkgreen', linestyle='--', linewidth=2, 
                    label=f'Seuil IQR = {upper_bound:,.0f}')
    axes[0].set_xlabel('SiteEnergyUseWN (kBtu)')
    axes[0].set_ylabel('Fr√©quence')
    axes[0].set_title(f'IQR (facteur 1.5) ({len(outliers)} outliers - {(len(outliers)/len(df)*100):.1f}%)')
    axes[0].legend()
    axes[0].set_yscale('log')
    axes[0].grid(alpha=0.3)

    # Graphique 4 : Boxplot comparatif

    data_iqr = df[cible].copy()
    data_iqr.loc[outliers.index] = np.nan

    box_data = [
        df[cible].dropna(),
        data_iqr.dropna()
    ]

    bp = axes[1].boxplot(box_data, tick_labels=['Originales', 'Sans IQR'],
                            patch_artist=True)
    for patch, color in zip(bp['boxes'], ['lightgray', 'green']):
        patch.set_facecolor(color)
        patch.set_alpha(0.6)
    axes[1].set_ylabel(cible)
    axes[1].set_title('Comparaison des distributions apr√®s suppression des outliers')
    axes[1].set_yscale('log')
    axes[1].grid(alpha=0.3, axis='y')

    plt.tight_layout()
    plt.show()

#### Outliers = B√¢timents exceptionnels ?
Les outliers d√©tect√©s (10-11% des donn√©es) correspondent probablement √† :

- Grands campus universitaires (ex: University of Washington)
- H√¥pitaux majeurs avec √©quipements √©nerg√©tivores
- Grands centres commerciaux ou complexes de bureaux
- B√¢timents industriels √† forte consommation


#### Supprimer les outliers

Impact sur le mod√®le : Les outliers peuvent biaiser les coefficients de r√©gression
Distribution normale : Certains algorithmes performent mieux sur des distributions normales
G√©n√©ralisation : Le mod√®le pourrait mieux pr√©dire les b√¢timents "typiques"

In [None]:
print("\n" + "="*80)
print("SUPPRESSION DES OUTLIERS")
print("="*80)
# Supprimer si outlier pour AU MOINS UNE des deux cibles (RECOMMAND√â)
outliers_mask = df[TARGET_ENERGY + '_outlier_IQR'] | df[TARGET_CO2 + '_outlier_IQR']


print(f"\nNombre de b√¢timents √† supprimer : {outliers_mask.sum()} ({outliers_mask.sum()/len(df)*100:.1f}%)")

# Cr√©er le DataFrame nettoy√©
df_clean = df[~outliers_mask].copy()

# Supprimer les colonnes indicatrices (optionnel)
df_clean = df_clean.drop(columns=[TARGET_ENERGY + '_outlier_IQR', TARGET_CO2 + '_outlier_IQR'])

print(f"\nDimensions APR√àS suppression : {df_clean.shape}")
print(f"Nombre de b√¢timents conserv√©s : {len(df_clean)}")
print(f"Nombre de b√¢timents supprim√©s : {len(df) - len(df_clean)}")

df = df_clean

### 14.3. Suppression des features redondantes

Identifier et supprimer les features redondantes en utilisant une matrice de corr√©lation de Pearson pour √©viter la multicolin√©arit√© et simplifier le mod√®le.

**Principe**
La corr√©lation de Pearson mesure la relation lin√©aire entre deux variables num√©riques :
- **r = 1** : Corr√©lation positive parfaite
- **r = 0** : Aucune corr√©lation
- **r = -1** : Corr√©lation n√©gative parfaite

In [None]:
# 1. Calculer la matrice de corr√©lation
numeric_cols = df_clean.select_dtypes(include=[np.number]).columns.tolist()
corr_matrix = df_clean[numeric_cols].corr()

# 2. Visualiser avec Seaborn
plt.figure(figsize=(20, 16))
mask = np.triu(np.ones_like(corr_matrix, dtype=bool), k=1)

sns.heatmap(corr_matrix, 
            annot=True, 
            fmt='.2f', 
            cmap='coolwarm', 
            center=0,
            square=True,
            linewidths=0.5,
            mask=mask,
            vmin=-1, vmax=1)

plt.title('Matrice de corr√©lation de Pearson', fontsize=16, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

#### Features redondantes identifi√©es (corr√©lation > 0.95)

| Paire de variables | Corr√©lation | Raison | Action |
|-------------------|-------------|--------|--------|
| `Electricity(kWh)` ‚Üî `Electricity(kBtu)` | **1.000** | M√™me variable, unit√©s diff√©rentes | ‚úÖ Supprimer `Electricity(kWh)` |
| `NaturalGas(therms)` ‚Üî `NaturalGas(kBtu)` | **1.000** | M√™me variable, unit√©s diff√©rentes | ‚úÖ Supprimer `NaturalGas(therms)` |
| `SourceEUI(kBtu/sf)` ‚Üî `SourceEUIWN(kBtu/sf)` | **1.000** | Version normalis√©e m√©t√©o | ‚úÖ Supprimer `SourceEUIWN(kBtu/sf)` |
| `SiteEnergyUse(kBtu)` ‚Üî `SiteEnergyUseWN(kBtu)` | **1.000** | Version normalis√©e m√©t√©o | ‚úÖ Supprimer `SiteEnergyUseWN(kBtu)` |
| `SiteEUI(kBtu/sf)` ‚Üî `SiteEUIWN(kBtu/sf)` | **1.000** | Version normalis√©e m√©t√©o | ‚úÖ Supprimer `SiteEUIWN(kBtu/sf)` |


**Pourquoi garder kBtu et supprimer kWh/therms ?**
- kBtu (British Thermal Unit) est l'unit√© standard pour l'√©nergie dans le b√¢timent
- Permet de comparer directement √©lectricit√©, gaz, vapeur sur la m√™me √©chelle
- 1 kWh = 3.412 kBtu (conversion lin√©aire parfaite)
- 1 therm = 100 kBtu (conversion lin√©aire parfaite)

**Pourquoi supprimer les versions normalis√©es ?**
- Les versions WN ajustent la consommation selon les variations m√©t√©o
- Corr√©lation quasi-parfaite (>0.997) avec les versions non normalis√©es
- Pour un premier mod√®le, les versions non normalis√©es suffisent
- Les versions WN pourraient √™tre utiles dans un mod√®le avanc√©

#### Corr√©lations fortes mais NON redondantes (0.7 < r < 0.95)

Ces paires ont des corr√©lations fortes mais repr√©sentent des informations diff√©rentes :

| Paire | Corr√©lation | Pourquoi les garder toutes les deux ? |
|-------|-------------|----------------------------------------|
| `SiteEUI(kBtu/sf)` ‚Üî `SourceEUI(kBtu/sf)` | 0.94 | Site vs Source (√©nergie consomm√©e vs √©nergie primaire) |
| `PropertyGFATotal` ‚Üî `PropertyGFABuilding(s)` | 0.93 | Total vs B√¢timents uniquement (diff√©rence = parking) |
| `SiteEnergyUse(kBtu)` ‚Üî `Electricity(kBtu)` | 0.92 | Total vs Composante principale |
| `NaturalGas(kBtu)` ‚Üî `TotalGHGEmissions` | 0.91 | Consommation vs √âmissions |

**D√©cision** : Ces features sont **conserv√©es** car elles apportent une information compl√©mentaire.

In [None]:
features_redondantes = [
    'Electricity(kWh)',
    'NaturalGas(therms)',
    'SiteEUIWN(kBtu/sf)',
    'SourceEUIWN(kBtu/sf)',
    'SiteEnergyUseWN(kBtu)'
]

df = remove_columns(df, features_redondantes)

### 14.4. Visualisation des relations features ‚Üî targets

### 1. Scatterplots : Features num√©riques vs Cibles
**Fichier** : `scatterplots_features_vs_targets.png`

Visualisation de 6 features structurelles importantes vs les 2 cibles :
- `PropertyGFATotal` (Surface totale)
- `PropertyGFABuilding(s)` (Surface b√¢timents)
- `LargestPropertyUseTypeGFA` (Surface usage principal)
- `NumberofFloors` (Nombre d'√©tages)
- `YearBuilt` (Ann√©e de construction)
- `NumberofBuildings` (Nombre de b√¢timents)

In [None]:
# S√©lectionner les features structurelles importantes
features_numeriques = [
    'PropertyGFATotal',
    'PropertyGFABuilding(s)',
    'LargestPropertyUseTypeGFA',
    'NumberofFloors',
    'YearBuilt',
    'NumberofBuildings'
]

# Cr√©er une grille de scatterplots
fig, axes = plt.subplots(len(features_numeriques), 2, figsize=(16, 20))
fig.suptitle('Relation entre features structurelles et variables cibles', 
            fontsize=16, fontweight='bold')

for i, feature in enumerate(features_numeriques):
    for j, cible in enumerate(cibles):
        # Scatterplot
        axes[i, j].scatter(df_clean[feature], df_clean[cible], 
                          alpha=0.5, s=20, color='steelblue')
        axes[i, j].set_xlabel(feature, fontsize=10)
        axes[i, j].set_ylabel(cible, fontsize=10)
        
        # Calculer et afficher la corr√©lation
        corr = df_clean[feature].corr(df_clean[cible])
        axes[i, j].text(0.05, 0.95, f'r = {corr:.3f}', 
                       transform=axes[i, j].transAxes, 
                       bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5),
                       verticalalignment='top', fontsize=9)
        axes[i, j].grid(alpha=0.3)

plt.tight_layout()
plt.savefig('scatterplots_features_vs_targets.png', dpi=300, bbox_inches='tight')
plt.show()
print("‚úÖ Scatterplots cr√©√©s")

**Observations cl√©s** :

- **PropertyGFATotal**  
  Plus la surface totale du b√¢timent (batiment + parking) est grande, plus les √©missions de CO‚ÇÇ et la consommation d‚Äô√©nergie ont tendance √† √™tre √©lev√©es.

- **PropertyGFABuilding(s)**  
  Surface des b√¢timents est fortement li√©e aux √©missions et √† l‚Äô√©nergie consomm√©e, ce qui en fait une variable tr√®s importante.

- **LargestPropertyUseTypeGFA**  
  Quand la surface du principal usage augmente, les √©missions et la consommation augmentent aussi, mais pas de fa√ßon parfaitement r√©guli√®re.

- **NumberofFloors**  
  Le nombre d‚Äô√©tages a un effet limit√©, car avoir plus d‚Äô√©tages ne signifie pas toujours consommer ou √©mettre beaucoup plus.

- **YearBuilt**  
  L‚Äôann√©e de construction influence peu les √©missions et l‚Äô√©nergie, m√™me si les b√¢timents r√©cents semblent parfois un peu plus efficaces.

- **NumberofBuildings**  
  Le nombre de b√¢timents a tr√®s peu d‚Äôimpact sur les √©missions et la consommation par rapport aux autres variables.


#### 2. Boxplots : Features cat√©gorielles vs Cibles
Distribution des cibles selon diff√©rentes cat√©gories.

In [None]:
features_categorielles = ['BuildingType', 'PrimaryPropertyType', 'Neighborhood']

for cat_feature in features_categorielles:
    fig, axes = plt.subplots(1, 2, figsize=(16, 6))
    fig.suptitle(f'Distribution des cibles par {cat_feature}', 
                fontsize=14, fontweight='bold')
    
    for j, cible in enumerate(cibles):
        # Si trop de cat√©gories, garder seulement les top 10
        if df_clean[cat_feature].nunique() > 15:
            top_cats = df_clean[cat_feature].value_counts().head(10).index
            data_subset = df_clean[df_clean[cat_feature].isin(top_cats)]
        else:
            data_subset = df_clean
        
        # Cr√©er le boxplot
        data_subset.boxplot(column=cible, by=cat_feature, ax=axes[j], 
                           patch_artist=True, grid=False)
        axes[j].set_xlabel(cat_feature, fontsize=11)
        axes[j].set_ylabel(cible, fontsize=11)
        axes[j].set_title('')
        axes[j].tick_params(axis='x', rotation=45, labelsize=9)
        axes[j].get_figure().suptitle('')
    
    plt.tight_layout()
    plt.savefig(f'boxplot_{cat_feature}.png', dpi=300, bbox_inches='tight')
    plt.show()

**Observations Boxplot BuildingType** :
- Les **campus** ont la plus grande variabilit√© en consommation/√©missions
- Les b√¢timents **NonResidential** standards montrent une distribution plus homog√®ne
- Quelques outliers dans chaque cat√©gorie

**Observations Boxplot PrimaryPropertyType (Top 10)** :
- **H√¥pitaux** et **H√¥tels** : Consommation √©lev√©e et variable
- **Bureaux (Office)** : Distribution large mais m√©diane mod√©r√©e
- **Retail/Commercial** : Consommation g√©n√©ralement plus faible
- **Data Centers** (si pr√©sents) : Tr√®s √©nergivores

**Observations Boxplot Neighborhood** :
- **Downtown** : Concentration de b√¢timents √† forte consommation (grands immeubles)
- Quartiers r√©sidentiels : Consommation g√©n√©ralement plus faible
- La variabilit√© intra-quartier est importante

#### Pairplot : Vue d'ensemble
Matrice de scatterplots croisant 5 variables (3 features + 2 cibles) sur un √©chantillon de 500 b√¢timents.

In [None]:
features_pairplot = [
    'PropertyGFABuilding(s)',
    'NumberofFloors',
    'YearBuilt',
    'TotalGHGEmissions',
    'SiteEnergyUse(kBtu)'
]

# √âchantillonner pour acc√©l√©rer (optionnel)
sample_size = min(500, len(df_clean))
df_sample = df_clean[features_pairplot].sample(n=sample_size, random_state=42)

# Cr√©er le pairplot
pairplot = sns.pairplot(df_sample,
                        diag_kind='hist',
                        plot_kws={'alpha': 0.6, 's': 20},
                        diag_kws={'bins': 30, 'edgecolor': 'black'})

pairplot.fig.suptitle('Pairplot - Features structurelles et cibles\n(√©chantillon de 500 b√¢timents)',
                      y=1.01, fontsize=14, fontweight='bold')

plt.savefig('pairplot_features_targets.png', dpi=200, bbox_inches='tight')
plt.show()

**Observations** :
- ‚úÖ **Relation lin√©aire claire** entre les deux cibles (r ‚âà 0.7)
- ‚úÖ **PropertyGFABuilding(s)** est corr√©l√© positivement avec les deux cibles
- üìä Les distributions en diagonale montrent :
  - GHG et Energy : distributions asym√©triques √† droite
  - Surface : distribution concentr√©e sur les petites/moyennes surfaces
  - YearBuilt : pic dans les ann√©es 1960-1980

### Graphiques suppl√©mentaires

In [None]:
# 4.1 Top types de propri√©t√©s par √©missions/consommation
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# √âmissions moyennes par type
property_ghg = df_clean.groupby('PrimaryPropertyType')['TotalGHGEmissions'].mean().sort_values(ascending=False).head(10)
axes[0].barh(range(len(property_ghg)), property_ghg.values, color='coral')
axes[0].set_yticks(range(len(property_ghg)))
axes[0].set_yticklabels(property_ghg.index, fontsize=10)
axes[0].set_xlabel('TotalGHGEmissions moyenne', fontsize=11)
axes[0].set_title('Top 10 types de propri√©t√©s\npar √©missions GES moyennes', 
                 fontsize=12, fontweight='bold')
axes[0].grid(axis='x', alpha=0.3)

# Consommation moyenne par type
property_energy = df_clean.groupby('PrimaryPropertyType')['SiteEnergyUse(kBtu)'].mean().sort_values(ascending=False).head(10)
axes[1].barh(range(len(property_energy)), property_energy.values, color='steelblue')
axes[1].set_yticks(range(len(property_energy)))
axes[1].set_yticklabels(property_energy.index, fontsize=10)
axes[1].set_xlabel('SiteEnergyUse(kBtu) moyenne', fontsize=11)
axes[1].set_title('Top 10 types de propri√©t√©s\npar consommation √©nerg√©tique moyenne',
                 fontsize=12, fontweight='bold')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.savefig('top_property_types.png', dpi=300, bbox_inches='tight')
plt.show()


#### Relation entre les deux cibles

In [None]:

fig, ax = plt.subplots(figsize=(10, 8))

scatter = ax.scatter(df_clean['SiteEnergyUse(kBtu)'],
                    df_clean['TotalGHGEmissions'],
                    c=df_clean['PropertyGFABuilding(s)'],
                    cmap='viridis',
                    alpha=0.6,
                    s=30)

ax.set_xlabel('SiteEnergyUse(kBtu)', fontsize=12)
ax.set_ylabel('TotalGHGEmissions', fontsize=12)
ax.set_title('Relation entre consommation √©nerg√©tique et √©missions GES\n(couleur = surface du b√¢timent)',
            fontsize=14, fontweight='bold')
ax.grid(alpha=0.3)

# Corr√©lation
corr = df_clean['SiteEnergyUse(kBtu)'].corr(df_clean['TotalGHGEmissions'])
ax.text(0.05, 0.95, f'Corr√©lation : r = {corr:.3f}',
       transform=ax.transAxes,
       bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.8),
       verticalalignment='top', fontsize=12, fontweight='bold')

# Colorbar
cbar = plt.colorbar(scatter, ax=ax)
cbar.set_label('Surface du b√¢timent (sq ft)', fontsize=11)

plt.tight_layout()
plt.savefig('relation_targets.png', dpi=300, bbox_inches='tight')
plt.show()

**Observations** :
- **Corr√©lation forte** entre SiteEnergyUse et TotalGHGEmissions (r ‚âà 0.7-0.8)
- Les **b√¢timents plus grands** (couleur plus claire) ont tendance √† √™tre en haut √† droite
- Relation quasi-lin√©aire ‚Üí pr√©dire l'une des cibles aide √† pr√©dire l'autre
- Quelques b√¢timents avec **√©missions disproportionn√©es** par rapport √† leur consommation (probablement forte utilisation de gaz naturel)

## üîç Insights principaux

In [None]:
print("\n" + "="*80)
print("R√âSUM√â DES OBSERVATIONS")
print("="*80)

# Calculer les corr√©lations
numeric_features = [col for col in df_clean.select_dtypes(include=[np.number]).columns 
                   if col not in cibles]

print("\nTop 5 features corr√©l√©es avec TotalGHGEmissions :")
corr_ghg = df_clean[numeric_features + ['TotalGHGEmissions']].corr()['TotalGHGEmissions'].sort_values(ascending=False)[1:6]
for i, (feat, corr) in enumerate(corr_ghg.items(), 1):
    print(f"  {i}. {feat}: {corr:.3f}")

print("\nTop 5 features corr√©l√©es avec SiteEnergyUse(kBtu) :")
corr_energy = df_clean[numeric_features + ['SiteEnergyUse(kBtu)']].corr()['SiteEnergyUse(kBtu)'].sort_values(ascending=False)[1:6]
for i, (feat, corr) in enumerate(corr_energy.items(), 1):
    print(f"  {i}. {feat}: {corr:.3f}")



### Features les plus importantes pour TotalGHGEmissions
1. **NaturalGas(kBtu)** : r = 0.907 ‚≠ê
2. **GHGEmissionsIntensity** : r = 0.648
3. **SiteEUI(kBtu/sf)** : r = 0.549
4. **Electricity(kBtu)** : r = 0.416
5. **PropertyGFABuilding(s)** : r = 0.382

### Features les plus importantes pour SiteEnergyUse(kBtu)
1. **Electricity(kBtu)** : r = 0.922 ‚≠ê
2. **PropertyGFATotal** : r = 0.682
3. **PropertyGFABuilding(s)** : r = 0.652
4. **LargestPropertyUseTypeGFA** : r = 0.637
5. **SourceEUI(kBtu/sf)** : r = 0.550

### ‚ö†Ô∏è Important : Data Leakage √† √©viter !

**Variables √† NE PAS utiliser dans la mod√©lisation** (ce sont des composantes ou d√©riv√©es des cibles) :
- ‚ùå `NaturalGas(kBtu)` ‚Üí composante de SiteEnergyUse
- ‚ùå `Electricity(kBtu)` ‚Üí composante de SiteEnergyUse
- ‚ùå `SteamUse(kBtu)` ‚Üí composante de SiteEnergyUse
- ‚ùå `SiteEUI(kBtu/sf)` ‚Üí d√©riv√©e de SiteEnergyUse
- ‚ùå `SourceEUI(kBtu/sf)` ‚Üí d√©riv√©e de SiteEnergyUse
- ‚ùå `GHGEmissionsIntensity` ‚Üí d√©riv√©e de TotalGHGEmissions

In [None]:
df.to_csv('data/cleaned_data.csv', index=False)