# üè¢ Projet 3 : Project Lead Douglas Pr√©diction de la Consommation √ânerg√©tique et des √âmissions CO2

## üéØ Objectifs du Projet

Ce projet vise √† construire **deux mod√®les de r√©gression supervis√©e** pour pr√©dire :

1. **La consommation √©nerg√©tique** (`SiteEnergyUse(kBtu)`) des b√¢timents non-r√©sidentiels de Seattle
2. **Les √©missions de CO2** (`TotalGHGEmissions`) associ√©es √† ces b√¢timents

**Contexte :** Dataset "2016 Building Energy Benchmarking" de la ville de Seattle (3376 b√¢timents initiaux).

**M√©thodologie :** Analyse exploratoire ‚Üí Feature Engineering ‚Üí Mod√©lisation ‚Üí Optimisation ‚Üí Interpr√©tation

---

# üìä PARTIE 0 : Analyse Exploratoire


### Import des modules


In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go

### Analyse Exploratoire


In [None]:
# Charger le dataset
df = pd.read_csv("data/2016_Building_Energy_Benchmarking.csv")

In [None]:
# On regarde comment les batiments sont d√©finis dans le dataset
df.head()

In [None]:
# On regarde le nombre de valeurs manquantes par colonne ainsi que leur type
df.info()

In [None]:
# Affiche le pourcentage de valeurs manquantes par colonne.
print(df.isna().mean().sort_values(ascending=False))

#### üìñ Compr√©hension des colonnes principales

**Variables cibles potentielles (consommation √©nerg√©tique) :**

- `SiteEnergyUse(kBtu)` : Consommation totale d'√©nergie sur site
- `TotalGHGEmissions` : √âmissions totales de gaz √† effet de serre

| Type de Feature  | Question pos√©e         | R√¥le                                                      | Impact sur la Pr√©diction                                                                                           |
| :--------------- | :--------------------- | :-------------------------------------------------------- | :----------------------------------------------------------------------------------------------------------------- |
| **Identitaire**  | _C'est qui ?_          | Sert √† identifier, filtrer ou grouper les donn√©es.        | **Faible**<br>Le nom du b√¢timent ne change pas sa physique.                                                        |
| **Structurelle** | _C'est fait comment ?_ | Caract√©ristiques physiques immuables (Le Contenant).      | **Physique**<br>D√©termine la consommation de base (Plus c'est grand/vieux, plus √ßa consomme).                      |
| **Usage**        | _On y fait quoi ?_     | Le comportement et l'activit√© √† l'int√©rieur (Le Contenu). | **Intensit√©**<br>Variable critique : explique pourquoi un H√¥pital consomme 10x plus qu'un Entrep√¥t de m√™me taille. |

**Features identitaires :**

- `PropertyName` : Nom du b√¢timent (identification)
- `BuildingType` : Type de b√¢timent (r√©sidentiel/non-r√©sidentiel) ‚Üí **Filtre principal**
- `PrimaryPropertyType` : Cat√©gorie d√©taill√©e (Office, School, Warehouse, etc.)

**Features structurelles :**

- `PropertyGFATotal` : Surface totale en pieds carr√©s (crucial pour normalisation)
- `YearBuilt` : Ann√©e de construction (√¢ge du b√¢timent)
- `NumberofBuildings` : Nombre de b√¢timents dans la propri√©t√©

**Features d'usage :**

- `LargestPropertyUseType` : Usage principal du b√¢timent
- `SecondLargestPropertyUseType` : Usage secondaire (si pr√©sent)
- `LargestPropertyUseTypeGFA` : Surface d√©di√©e √† l'usage principal

**Strat√©gie de nettoyage :**

1. Garder les colonnes avec **<50% de valeurs manquantes** ET pertinentes pour la mod√©lisation
2. Supprimer les colonnes **constantes** (ou redondante)
3. √âliminer les lignes avec **valeurs manquantes sur les targets**
4. D√©tecter et retirer les **incoh√©rences m√©tier** (surface/√©nergie n√©gatives ou nulles)


In [None]:
# Pr√©parations des chiffres
n_total = df.shape[0]
nb_habitations = df["BuildingType"].str.contains("Multifamily").sum()

# On calcule le pourcentage dans une variable √† part
pct_habitations = nb_habitations / n_total

print(f"Nombre initial de b√¢timents : {n_total}")
print(
    f"   - Dont habitations (Hors p√©rim√®tre) : {nb_habitations} ({pct_habitations:.1%})"  # Arrondir et faire x100 + le symbole "%"
)

# Filtre qui permet de ne garder que les b√¢timents non r√©sidentiels
df = df[~df["BuildingType"].str.contains("Multifamily")]  # (~ = NOT)
n_after_filter = df.shape[0]

print(f"Nombre de b√¢timents apr√®s filtre 'Non-Res' : {n_after_filter}")


# Liste des colonnes identifi√©es comme inutilisables (>50% vide ou hors sujet => risque de bruit)
cols_to_drop = [
    "Comments",
    "Outlier",
    "YearsENERGYSTARCertified",
]


# Nettoyage structurel du dataset
df = df.drop(columns=cols_to_drop, errors="ignore")

# Suppression des rows o√π les cibles sont vides (0 vide dans notre cas donc parfait)
targets = ["SiteEnergyUse(kBtu)", "TotalGHGEmissions"]
df = df.dropna(subset=targets)

# V√©rification  de la taille
print(
    f"Taille du dataset apr√®s nettoyage structurel : {df.shape}"  # (Nombre de lignes et colonnes )
)

In [None]:
# NETTOYAGE DES COLONNES

# Les colonnes qui n'ont qu'une seule valeur unique
const_cols = [col for col in df.columns if df[col].nunique() == 1]
print(f"Colonnes constantes supprim√©es : {const_cols}")
df = df.drop(columns=const_cols)

# DOUBLONS
duplicates_count = df.duplicated().sum()
print(f"Nombre de doublons trouv√©s : {duplicates_count}")

# Si doublons on supprime pour garder qu'une seule version unique
if duplicates_count > 0:
    df = df.drop_duplicates()
    print("Doublons supprim√©s.")

# INCOH√âRENCES
# Garder que les valeurs positives
nb_incoherent = len(
    df[(df["PropertyGFATotal"] <= 0) | (df["SiteEnergyUse(kBtu)"] <= 0)]
)
if nb_incoherent > 0:
    print(
        f"\nSuppression de {nb_incoherent} b√¢timents incoh√©rents (Surface ou Energie <= 0)."
    )
    df = df[df["PropertyGFATotal"] > 0]
    df = df[df["SiteEnergyUse(kBtu)"] > 0]


# GESTION DES NaN POUR VARIABLES D'USAGE
# NaN dans Third* = "pas de 3√®me usage" ‚Üí Information utile, pas une erreurprint(f"\n---> Dataset pr√™t pour la suite : {df.shape}")

df["ThirdLargestPropertyUseType"] = df["ThirdLargestPropertyUseType"].fillna("None")
df["ThirdLargestPropertyUseTypeGFA"] = df["ThirdLargestPropertyUseTypeGFA"].fillna(0)
print("   ThirdLargestPropertyUseType : NaN ‚Üí 'None' (absence de 3√®me usage)")
print("   ThirdLargestPropertyUseTypeGFA : NaN ‚Üí 0")

### Analyse Statistique Descriptive

| Indicateur Statistique | D√©finition Simple                                                 | Interpr√©tation pour le Projet (Seattle)                                                                                                  |
| :--------------------- | :---------------------------------------------------------------- | :--------------------------------------------------------------------------------------------------------------------------------------- |
| **Moyenne** (`mean`)   | Le centre de gravit√© math√©matique.                                | **Tendance globale**, mais fortement tir√©e vers le haut par les quelques b√¢timents g√©ants (Campus, H√¥pitaux).                            |
| **M√©diane** (`median`) | La valeur centrale (50% au-dessus, 50% en dessous).               | **Le b√¢timent "Standard"**. C'est la valeur la plus repr√©sentative de la r√©alit√© de la majorit√© du parc immobilier.                      |
| **√âcart-type** (`std`) | La dispersion des valeurs autour de la moyenne.                   | **La diversit√©**. Un √©cart-type √©lev√© indique que le parc est tr√®s h√©t√©rog√®ne (m√©lange de petits commerces et de grands buildings).      |
| **Outliers** (`3œÉ`)    | Valeurs d√©passant le seuil statistique (Moyenne + 3x √âcart-type). | **Les anomalies ou g√©ants**. Ce sont les cas extr√™mes (structures tr√®s √©nergivores) qu'il faudra peut-√™tre traiter √† part ou surveiller. |


In [None]:
# Statistiques sur la consommation d'√©nergie
print("\nüîã CONSOMMATION D'√âNERGIE (kBtu)")
print(f"   Moyenne : {df['SiteEnergyUse(kBtu)'].mean():,.0f} kBtu")
print(f"   M√©diane : {df['SiteEnergyUse(kBtu)'].median():,.0f} kBtu")
print(f"   √âcart-type : {df['SiteEnergyUse(kBtu)'].std():,.0f} kBtu")
print(f"   Min : {df['SiteEnergyUse(kBtu)'].min():,.0f} kBtu")
print(f"   Max : {df['SiteEnergyUse(kBtu)'].max():,.0f} kBtu")

# Statistiques sur les √©missions CO2
print("\nüåç √âMISSIONS DE CO2 (Metric Tons)")
print(f"   Moyenne : {df['TotalGHGEmissions'].mean():,.0f} tons")
print(f"   M√©diane : {df['TotalGHGEmissions'].median():,.0f} tons")
print(f"   √âcart-type : {df['TotalGHGEmissions'].std():,.0f} tons")
print(f"   Min : {df['TotalGHGEmissions'].min():,.0f} tons")
print(f"   Max : {df['TotalGHGEmissions'].max():,.0f} tons")

# D√©tection des outliers
energy_mean = df["SiteEnergyUse(kBtu)"].mean()
energy_std = df["SiteEnergyUse(kBtu)"].std()
outliers_energy = df[df["SiteEnergyUse(kBtu)"] > energy_mean + 3 * energy_std]

print("\nOUTLIERS D√âTECT√âS :")
print(
    f"B√¢timents avec consommation > 3œÉ : {len(outliers_energy)} ({len(outliers_energy) / len(df) * 100:.1f}%)"
    # 3œÉ (Sigma) = 3 fois l'√©cart-type : c'est la fronti√®re statistique au-del√† de laquelle une valeur est consid√©r√©e comme une anomalie (Outlier).
)
print(
    f"Seuil outlier : {energy_mean + 3 * energy_std:,.0f} kBtu"
)  # on d√©termine ce seuil en fonction de la distribution des donn√©es(moyenne et √©cart-type).

#### üìä Graphiques 1 & 2 : Classement √ânerg√©tique et √âcologique par Type de B√¢timent

**Objectif :** Comparer les 22 types de b√¢timents pour identifier les cat√©gories les plus consommatrices et polluantes.

**M√©thodologie technique :**

- **Visualisation** : Boxplots (bo√Ætes √† moustaches) pour visualiser m√©diane, quartiles et outliers
- **Tri intelligent** : Classement automatique par m√©diane croissante (les plus √©conomes √† gauche, les plus gourmands √† droite)
- **√âchelle logarithmique** : Permet de comparer sur un m√™me graphique les entrep√¥ts (~100k kBtu) et les h√¥pitaux (~100M kBtu)
- **Dataset complet** : Analyse sur les 1650 b√¢timents (tous types confondus)

**Graphique 1 : Classement de la Consommation d'√ânergie**

- Lecture imm√©diate des types les plus √©nergivores (positionn√©s √† droite)
- Hauteur de chaque bo√Æte = variabilit√© au sein d'une cat√©gorie
- Points isol√©s = outliers (b√¢timents atypiques)

**Graphique 2 : Classement des √âmissions de CO2**

- M√™me m√©thodologie appliqu√©e aux √©missions de gaz √† effet de serre
- Permet de v√©rifier la corr√©lation entre consommation √©nerg√©tique et pollution
- Confirme que les types les plus √©nergivores sont g√©n√©ralement les plus pollueurs


In [None]:
# Consommation d'√ânergie
fig_energy = px.box(
    df,
    x="PrimaryPropertyType",
    y="SiteEnergyUse(kBtu)",
    color="PrimaryPropertyType",
    title="Classement de la consommation par type de b√¢timent",
    log_y=True,
    points="outliers",
    hover_data=["PropertyName"],
)

# On trie l'axe X par ordre croissant de consommation (m√©diane)
# Permet de voir imm√©diatement qui sont les "mauvais √©l√®ves" √† droite
fig_energy.update_xaxes(categoryorder="median ascending")

# On cache la l√©gende qui prend trop de place
fig_energy.update_layout(showlegend=False)

fig_energy.show()

# √âmissions de CO2
fig_co2 = px.box(
    df,
    x="PrimaryPropertyType",
    y="TotalGHGEmissions",
    color="PrimaryPropertyType",
    title="Classement des √©missions de CO2 par type de b√¢timent",
    log_y=True,
    points="outliers",
    hover_data=["PropertyName"],
)

# On trie par pollution m√©diane ( les plus pollueurs √† droite (mauvais √©l√®ves) )
fig_co2.update_xaxes(categoryorder="median ascending")
fig_co2.update_layout(showlegend=False)

fig_co2.show()

#### üìä Graphique 3 : Relation Surface vs Consommation (Vue Globale)

**üéØ Objectif :** V√©rifier la corr√©lation entre la surface et la consommation sur l'ensemble du parc immobilier, et observer la relation avec les √©missions CO2.

**Ce qu'on observe :**

- **Corr√©lation forte (Ligne Rouge) :** La ligne de tendance (R√©gression OLS) confirme math√©matiquement que la consommation augmente avec la surface. L'hypoth√®se est valid√©e.
- **√âchelle Logarithmique :** Indispensable pour visualiser lisiblement les petits b√¢timents (10k ft¬≤) et les campus g√©ants (5M+ ft¬≤) sur le m√™me plan.
- **Indicateur CO2 (Couleur des points) :** La couleur indique le niveau d'√©missions de gaz √† effet de serre. On confirme que les b√¢timents les plus consommateurs sont aussi les plus pollueurs (corr√©lation +0.860).

**Points d'attention (Analyse des Outliers) :**

- **La "Normalit√©" :** La grande majorit√© des points se concentrent autour de la ligne rouge. C'est le comportement attendu.
- **Les Anomalies (Outliers) :**
  - **Au-dessus de la ligne rouge :** B√¢timents √©nergivores. Pour une m√™me surface, ils consomment beaucoup plus que la moyenne (ex: Laboratoires, Supermarch√©s, ou mauvaise isolation).
  - **En-dessous de la ligne rouge :** B√¢timents √©conomes ou √† faible occupation (ex: Entrep√¥ts, Lieux de culte).

**üí° Conclusion :** La surface est le facteur d√©terminant principal pour les deux targets (√©nergie ET CO2), mais les √©carts importants autour de la ligne de tendance montrent que le _Type d'usage_ jouera un r√¥le cl√© pour affiner les pr√©dictions.


In [None]:
fig_scatter = px.scatter(
    df,
    x="PropertyGFATotal",
    y="SiteEnergyUse(kBtu)",
    color="TotalGHGEmissions",
    opacity=0.5,
    log_x=True,
    log_y=True,
    title="Corr√©lation Globale : Surface vs Consommation (+ Tendance)",
    trendline="ols",  # Ajout de la ligne de r√©gression
    trendline_color_override="red",
    hover_data=["PropertyName", "PrimaryPropertyType"],
)

fig_scatter.show()

#### üìä Graphique 4 : Matrice de Corr√©lation (Heatmap)

**üéØ Objectif :** Visualiser d'un seul coup d'≈ìil toutes les relations entre les variables num√©riques cl√©s du dataset.

**M√©thodologie :**

- **Variables s√©lectionn√©es** : Cibles √©nerg√©tiques, caract√©ristiques structurelles et performances
- **Coefficient de Pearson** : Mesure la force et le sens de la relation lin√©aire entre deux variables (-1 √† +1)
- **Lecture de la Heatmap** :
  - **Rouge fonc√© (proche de +1)** : Corr√©lation positive forte (quand l'une augmente, l'autre aussi)
  - **Bleu fonc√© (proche de -1)** : Corr√©lation n√©gative forte (relation inverse)
  - **Blanc (proche de 0)** : Pas de corr√©lation lin√©aire

**Ce qu'on cherche :**

1. **Variables fortement corr√©l√©es aux cibles** (`SiteEnergyUse(kBtu)` ET `TotalGHGEmissions`) ‚Üí Features pr√©dictives puissantes
2. **Redondances** : Variables tr√®s corr√©l√©es entre elles ‚Üí Risque de multicolin√©arit√© (√† √©viter en mod√©lisation)
3. **Relations inattendues** : D√©couvertes de patterns non √©vidents
4. **Comparaison des deux targets** : Identifier si les m√™mes features pr√©disent l'√©nergie ET les √©missions CO2

**üí° Utilit√© pour la Mod√©lisation :**

- S√©lectionner les features les plus pertinentes pour **chaque target** (√ânergie ET CO2)
- √âviter d'inclure des variables redondantes qui n'apportent pas d'information suppl√©mentaire
- Comprendre les m√©canismes physiques sous-jacents (ex: Surface ‚Üí √ânergie ‚Üí CO2)
- **Comparer les profils pr√©dictifs** des deux targets pour adapter la strat√©gie de mod√©lisation
- Valider que les deux targets ont suffisamment de corr√©lations avec les features disponibles


In [None]:
# S√©lection des variables num√©riques pertinentes
# On garde les variables structurelles, √©nerg√©tiques et d'usage
corr_cols = [
    "SiteEnergyUse(kBtu)",  # TARGET 1 : Consommation totale
    "TotalGHGEmissions",  # TARGET 2 : √âmissions CO2
    "PropertyGFATotal",  # Surface totale (facteur principal)
    "YearBuilt",  # √Çge du b√¢timent (isolation, efficacit√©)
    "NumberofFloors",  # Hauteur (peut influencer chauffage/clim)
    "NumberofBuildings",  # Nombre de b√¢timents dans le complexe
    "LargestPropertyUseTypeGFA",  # Surface du plus grand usage
    "SecondLargestPropertyUseTypeGFA",  # Surface du 2√®me plus grand usage
    "ThirdLargestPropertyUseTypeGFA",  # Surface du 3√®me plus grand usage
]

# Calcul de la matrice de corr√©lation (Pearson)
corr_matrix = df[corr_cols].corr()

fig_corr = go.Figure(
    data=go.Heatmap(
        z=corr_matrix.values,
        x=corr_matrix.columns,
        y=corr_matrix.columns,
        colorscale="RdBu_r",
        zmid=0,  # Centre de l'√©chelle √† 0
        text=corr_matrix.values.round(2),  # Afficher les valeurs
        texttemplate="%{text}",
        textfont={"size": 10},
        colorbar=dict(title="Corr√©lation"),
    )
)

fig_corr.update_layout(
    title="Matrice de Corr√©lation des Variables Cl√©s",
    xaxis_title="",
    yaxis_title="",
    width=900,
    height=800,
    xaxis=dict(tickangle=-45),  # Inclinaison des labels
)

fig_corr.show()


print("\n CORR√âLATIONS AVEC LES DEUX TARGETS POTENTIELLES :\n")

# Target 1 : Consommation d'√©nergie
print("‚ö° TARGET 1 : SiteEnergyUse(kBtu) - Consommation √©nerg√©tique")
target1_corr = corr_matrix["SiteEnergyUse(kBtu)"].sort_values(ascending=False)
for var, corr_value in target1_corr.items():
    if var != "SiteEnergyUse(kBtu)":  # Exclure la cible elle-m√™me car toujours √† 1.0
        print(f"   {var:30} : {corr_value:+.3f}")

# Target 2 : √âmissions CO2
print("\n TARGET 2 : TotalGHGEmissions - √âmissions de CO2")
target2_corr = corr_matrix["TotalGHGEmissions"].sort_values(ascending=False)
for var, corr_value in target2_corr.items():
    if var != "TotalGHGEmissions":
        print(f"   {var:30} : {corr_value:+.3f}")

print(
    "\n ANALYSE : Les deux targets sont fortement corr√©l√©es (+0.860), donc les m√™mes features seront pertinentes."
)
print(
    "    Choix final : SiteEnergyUse(kBtu) et TotalGHGEmissions car 0% de valeurs manquantes."
)


### üìã Synth√®se de l'Analyse Exploratoire

#### Nettoyage et Pr√©paration des Donn√©es

**1. Restriction au p√©rim√®tre pertinent :**

- **Exclus** : 1708 b√¢timents "Multifamily" (habitations hors p√©rim√®tre).
- **Conserv√©s** : 1650 b√¢timents non-r√©sidentiels (apr√®s suppression des valeurs n√©gatives/nulles).

**2. Colonnes supprim√©es (arguments m√©tier) :**

- **>50% vide** : `Comments`, `YearsENERGYSTARCertified` ‚Üí Trop peu d'information exploitable.
- **Constantes** : `DataYear`, `City`, `State` ‚Üí Aucun pouvoir discriminant (variance nulle).
- **Hors cible** : `Outlier` ‚Üí Gestion manuelle des outliers pr√©f√©r√©e.
- **‚ö†Ô∏è Exception** : `ThirdLargestPropertyUseType` (50% NaN) **conserv√©e** ‚Üí NaN = "pas de 3√®me usage" = information utile.

**3. Lignes supprim√©es :**

- **16 b√¢timents** avec Surface ‚â§ 0 ou √ânergie ‚â§ 0 (incoh√©rence m√©tier).
- **1 b√¢timent** avec √©missions CO2 n√©gatives (impossible physiquement).

**4. Dataset final :**

- **1649 b√¢timents** √ó **40 colonnes** (apr√®s nettoyage complet).
- **Targets choisies** :
  - `SiteEnergyUse(kBtu)` - Consommation √©nerg√©tique
  - `TotalGHGEmissions` - √âmissions de CO2
  - Raison : 0% de valeurs manquantes pour les deux, forte corr√©lation (+0.860) validant leur coh√©rence.
- **Variables d'usage conserv√©es** : Largest, Second, Third (complexit√© du b√¢timent ‚Üí pr√©dictif)

---

#### Insights Cl√©s

**1. Distribution des consommations :**

- **Forte asym√©trie √† droite** (Moyenne >> M√©diane).
- Moyenne : ~8.4M kBtu | M√©diane : ~2.5M kBtu.
- **Cons√©quence** : Une transformation logarithmique de la target sera indispensable pour la mod√©lisation.

**2. Influence du Type de B√¢timent (Usage) :**

- Le **PrimaryPropertyType** est un facteur discriminant majeur.
- **Gros consommateurs** : H√¥pitaux, Supermarch√©s, Data Centers.
- **Faibles consommateurs** : Entrep√¥ts, Lieux de culte.

**3. Analyse de Corr√©lation (9 variables num√©riques cl√©s) :**

Nous avons √©cart√© les variables de consommation (√âlec/Gaz) pour √©viter le data leakage. Voici les vrais moteurs physiques :

**Pour Target 1 (Consommation √ânerg√©tique) :**

- **`LargestPropertyUseTypeGFA` (+0.846)** : La surface d√©di√©e √† l'usage principal est le pr√©dicteur le plus fort. C'est la combinaison surface √ó intensit√© d'usage qui explique la consommation.
- **`PropertyGFATotal` (+0.809)** : La surface totale reste un facteur majeur (relation quasi-lin√©aire sur √©chelle log).
- **`NumberofBuildings` (+0.713)** : La complexit√© du site (Campus, H√¥pitaux multi-b√¢timents) est un indicateur tr√®s fort.
- **`SecondLargestPropertyUseTypeGFA` (+0.671)** : Le 2√®me usage contribue √©galement √† la diversit√© √©nerg√©tique.
- **`ThirdLargestPropertyUseTypeGFA` (+0.330)** : La pr√©sence d'un 3√®me usage distinct indique une complexit√© fonctionnelle (ex: h√¥pital avec data center).
- **`NumberofFloors` (+0.219)** : La hauteur joue un r√¥le secondaire.
- **`YearBuilt` (+0.064)** : Pas de corr√©lation lin√©aire directe. L'√¢ge joue un r√¥le complexe (non-lin√©aire) qui n√©cessitera des mod√®les adapt√©s (arbres de d√©cision).

**Pour Target 2 (√âmissions CO2) :**

- **`SiteEnergyUse(kBtu)` (+0.860)** : Corr√©lation tr√®s forte avec l'√©nergie (logique physique : plus d'√©nergie = plus d'√©missions).
- **`LargestPropertyUseTypeGFA` (+0.575)** : L'usage principal a un impact majeur sur les √©missions (certains usages √©mettent plus de CO2).
- **`SecondLargestPropertyUseTypeGFA` (+0.539)** : La diversit√© d'usage contribue significativement aux √©missions.
- **`PropertyGFATotal` (+0.528)** : La surface totale a moins d'impact direct sur les √©missions que sur l'√©nergie (le type d'√©nergie utilis√©e compte plus).
- **`NumberofBuildings` (+0.418)** : Impact mod√©r√© de la complexit√© du site.
- **`ThirdLargestPropertyUseTypeGFA` (+0.387)** : La complexit√© fonctionnelle joue un r√¥le pour les √©missions.
- **`NumberofFloors` (+0.130)** : Corr√©lation faible avec les √©missions.
- **`YearBuilt` (+0.051)** : Aucune corr√©lation lin√©aire directe.

**üí° Insight cl√© :** Les variables de **surface par type d'usage** (Largest/Second/Third GFA) sont des pr√©dicteurs puissants car elles capturent √† la fois la taille ET l'intensit√© √©nerg√©tique de chaque fonction du b√¢timent. Un h√¥pital de 10 000 m¬≤ consomme bien plus qu'un entrep√¥t de m√™me surface.


In [None]:
# NETTOYAGE AVANT MOD√âLISATION

# Supprimer les √©missions n√©gatives (physiquement impossibles)
nb_negatif = len(df[df["TotalGHGEmissions"] < 0])
if nb_negatif > 0:
    print(f"   Suppression de {nb_negatif} b√¢timent(s) avec √©missions n√©gatives")
    df = df[df["TotalGHGEmissions"] >= 0]

# V√©rification
print(f" Dataset final pr√™t pour la mod√©lisation : {df.shape}")
print(f"   - B√¢timents : {df.shape[0]}")
print(f"   - Variables : {df.shape[1]}")

#### ‚úÖ Analyse Exploratoire COMPL√àTE

**R√©sum√© des accomplissements :**

1. **Compr√©hension du dataset** : Explication d√©taill√©e des colonnes cl√©s et de leur r√¥le
2. **Nettoyage structur√©** : Suppression justifi√©e de colonnes/lignes avec tra√ßabilit√© compl√®te
3. **Statistiques descriptives** : R√©sum√© des variables cibles (√©nergie, CO2) avec d√©tection d'outliers
4. **Visualisations pertinentes** :
   - Boxplots comparatifs (22 types de b√¢timents class√©s par consommation ET √©missions CO2)
   - Scatter plot avec ligne de tendance OLS (corr√©lation Surface vs √ânergie, color√© par CO2)
   - Heatmap de corr√©lation (relations entre variables cl√©s + **comparaison des 2 targets**)
5. **Choix des targets justifi√©** :
   - **Target 1** : `SiteEnergyUse(kBtu)` - Consommation √©nerg√©tique
   - **Target 2** : `TotalGHGEmissions` - √âmissions de CO2
   - Raison : 0% de valeurs manquantes, forte corr√©lation (+0.860), profils pr√©dictifs diff√©rents
6. **Identification des incoh√©rences** : Valeurs n√©gatives/nulles d√©tect√©es et supprim√©es

**Dataset final pr√™t pour la mod√©lisation : 1649 b√¢timents √ó 40 colonnes**
**Objectif : Construire DEUX mod√®les de pr√©diction (un par target)**

---

### üìö Ressources Compl√©mentaires

Pour approfondir l'esprit d'une analyse exploratoire, consultez :

https://www.kaggle.com/code/pmarcelino/comprehensive-data-exploration-with-python

_(Ce notebook n'est pas un mod√®le √† suivre strictement, mais une source d'inspiration)_


# Mod√©lisation


### Import des modules


In [None]:
# Selection
from sklearn.model_selection import cross_validate

# Preprocess
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

# Mod√®les
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor


### Feature Engineering


**üéØ Objectif :** Cr√©er de nouvelles variables (features) √† partir des colonnes existantes pour enrichir le pouvoir pr√©dictif du mod√®le.

**‚ö†Ô∏è R√àGLE D'OR : Pas de Data Leakage !**

- Ne jamais utiliser des variables qui contiennent d√©j√† la r√©ponse (quantit√©s d'Electricity, NaturalGas, Steam)
- Cr√©er uniquement des features d√©riv√©es de caract√©ristiques **structurelles**, **d'usage** ou **g√©ographiques**

---

**üí° Pistes de R√©flexion :**

**1. Temporalit√© (√Çge du b√¢timent) :**

- `BuildingAge` : 2016 - YearBuilt
- Possibilit√© de cr√©er des tranches d'√¢ge (Ex: <10 ans, 10-30 ans, >30 ans)

**2. Structure du b√¢timent :**

- `HasMultipleBuildings` : Indicateur binaire (0/1) si le site contient plusieurs b√¢timents
- `FloorsPerBuilding` : Ratio NumberofFloors / NumberofBuildings (si >1 b√¢timent)

**3. Multi-Usage (Proportion) :**

- `HasSecondaryUse` : Indicateur binaire si usage secondaire existe
- `SecondaryUseProportion` : SecondLargestPropertyUseTypeGFA / PropertyGFATotal (si disponible)

**4. Sources d'√©nergie (Pr√©sence SANS quantit√©) :**

- `HasElectricity` : 1 si Electricity(Kbtu) > 0, sinon 0
- `HasNaturalGas` : 1 si NaturalGas(therms) > 0, sinon 0
- `HasSteam` : 1 si SteamUse(kBtu) > 0, sinon 0
- ‚Üí Ces features structurelles indiquent l'√©quipement disponible SANS r√©v√©ler l'intensit√© de consommation

**5. Localisation :**

- **`DistanceToCenter`** : Distance g√©ographique entre le b√¢timent et le centre-ville de Seattle
  - Utiliser les coordonn√©es `Latitude` et `Longitude` du dataset
  - Centre-ville de Seattle : **Latitude 47.6062, Longitude -122.3321** (Pike Place Market)
  - Formule de distance : **Haversine** (pour calculer la distance en km entre 2 points GPS)
  - **Pourquoi c'est important ?** Les b√¢timents en p√©riph√©rie consomment diff√©remment (bureaux vs zones industrielles)
- `Neighborhood` : Optionnel - Regroupement par ZipCode ou CouncilDistrictCode (haute cardinalit√© ‚Üí cr√©er des tranches)

---


In [None]:
from math import radians, sin, cos, sqrt, atan2

print("üõ†Ô∏è Cr√©ation des nouvelles features...\n")

# Feature 1 : Age du b√¢timent
current_year = 2016
df["BuildingAge"] = current_year - df["YearBuilt"]
print("‚úÖ Feature 1 : BuildingAge")
print(f"   √Çge moyen : {df['BuildingAge'].mean():.1f} ans")

# Feature 2 : Indicateur site multi-b√¢timents (0 ou 1)
df["HasMultipleBuildings"] = (df["NumberofBuildings"] > 1).astype(int)
print("\n‚úÖ Feature 2 : HasMultipleBuildings")
print(
    f"   {df['HasMultipleBuildings'].sum()} sites ({df['HasMultipleBuildings'].mean():.1%})"
)

# Feature 3 : Ratio √©tages par b√¢timent
df["FloorsPerBuilding"] = df.apply(
    lambda row: row["NumberofFloors"] / row["NumberofBuildings"]
    if row["NumberofBuildings"] > 0 and pd.notna(row["NumberofFloors"])
    else 0,
    axis=1,
)
print("\n‚úÖ Feature 3 : FloorsPerBuilding")
print(f"   Moyenne : {df['FloorsPerBuilding'].mean():.1f} √©tages/b√¢timent")

# Feature 4 : Indicateur usage secondaire
df["HasSecondaryUse"] = df["SecondLargestPropertyUseType"].notna().astype(int)
print("\n‚úÖ Feature 4 : HasSecondaryUse")
print(
    f"   {df['HasSecondaryUse'].sum()} b√¢timents ({df['HasSecondaryUse'].mean():.1%})"
)


# Feature 5 : Distance au centre-ville (Haversine, formule universelle de distance entre 2 points GPS sur une sph√®re)
def haversine(lat1, lon1, lat2, lon2):
    """Calcule la distance en km entre deux points GPS"""
    R = 6371  # Rayon de la Terre en km
    dlat = radians(lat2 - lat1)
    dlon = radians(lon2 - lon1)
    a = (
        sin(dlat / 2) ** 2
        + cos(radians(lat1)) * cos(radians(lat2)) * sin(dlon / 2) ** 2
    )
    c = 2 * atan2(sqrt(a), sqrt(1 - a))
    return R * c


center_lat, center_lon = 47.6062, -122.3321  # Pike Place Market, Seattle
df["DistanceToCenter"] = df.apply(
    lambda row: haversine(row["Latitude"], row["Longitude"], center_lat, center_lon)
    if pd.notna(row["Latitude"]) and pd.notna(row["Longitude"])
    else 0,
    axis=1,
)
print("\n‚úÖ Feature 5 : DistanceToCenter")
print(f"   Distance moyenne : {df['DistanceToCenter'].mean():.2f} km")
print(f"   Distance max : {df['DistanceToCenter'].max():.2f} km")

# Features 6-8 : Indicateurs sources d'√©nergie (pr√©sence SANS quantit√©)

# Remplace NaN par 0 avant comparaison et conversion en int
df["HasElectricity"] = (df["Electricity(kBtu)"].fillna(0) > 0).astype(int)
df["HasNaturalGas"] = (df["NaturalGas(therms)"].fillna(0) > 0).astype(int)
df["HasSteam"] = (df["SteamUse(kBtu)"].fillna(0) > 0).astype(int)

print("\n‚úÖ Features 6-8 : Indicateurs sources d'√©nergie")
print(
    f"   √âlectricit√© : {df['HasElectricity'].sum()} ({df['HasElectricity'].mean():.1%})"
)
print(
    f"   Gaz Naturel : {df['HasNaturalGas'].sum()} ({df['HasNaturalGas'].mean():.1%})"
)
print(f"   Vapeur      : {df['HasSteam'].sum()} ({df['HasSteam'].mean():.1%})")

# Feature 9 : Interaction Surface √ó Gaz Naturel
# Hypoth√®se : Les grands b√¢timents avec gaz consomment/√©mettent diff√©remment
df["SurfaceGasInteraction"] = df["PropertyGFATotal"] * df["HasNaturalGas"]
print("\n‚úÖ Feature 9 : SurfaceGasInteraction")
print("   Interaction Surface √ó Gaz (utile pour pr√©dire CO2)")

# Feature 10 : Ratio √ânergie par Surface

# Cr√©er une nouvelle feature "EnergyPerSurface" qui est le ratio entre la consommation d'√©nergie et la surface totale du b√¢timent.
# Attention au risque de data leakage avec Target 1.
df["EnergyPerSurface"] = df.apply(
    lambda row: row["SiteEnergyUse(kBtu)"] / row["PropertyGFATotal"]
    if row["PropertyGFATotal"] > 0
    else 0,
    axis=1,
)
print("\n‚úÖ Feature 10 : EnergyPerSurface")
print(f"   Ratio moyen : {df['EnergyPerSurface'].mean():.2f} kBtu/sqft")
print("   ‚ö†Ô∏è ATTENTION : Cette feature sera EXCLUE pour Target 1 (data leakage)")
print("   ‚úÖ Utilisable pour Target 2 (CO2) si Target 1 exclue")

print("\nüéâ Feature Engineering termin√© ! 10 nouvelles features cr√©√©es")
print(f"   Taille du dataset : {df.shape}")

**Objectif :** Pr√©parer le dataset final pour l'entra√Ænement des mod√®les de Machine Learning.

Cette section va structurer les donn√©es en :

- **X** : DataFrame des features (variables explicatives)
- **y** : Series de la target (variable √† pr√©dire)

**Organisation en 4 √©tapes :**


---

## üéØ PARTIE 1 : PR√âDICTION DE LA CONSOMMATION √âNERG√âTIQUE

**Target :** `SiteEnergyUse(kBtu)` - Consommation totale d'√©nergie du b√¢timent

**Strat√©gie :** Nous allons exclure `TotalGHGEmissions` (Target 2) des features pour √©viter le data leakage.

---


#### √âtape 1 : Pr√©paration des Donn√©es

**Objectif :** Pr√©parer X et y pour la mod√©lisation avec Pipeline sklearn

**Ce qu'on va faire :**

- S√©lectionner les features (exclusion leakage + identifiants)
- Extraire la target `SiteEnergyUse(kBtu)`
- Identifier les colonnes num√©riques vs cat√©gorielles
- **Utiliser Pipeline + ColumnTransformer** pour automatiser le preprocessing

**‚ö†Ô∏è Important :** On exclut `TotalGHGEmissions` (Target 2) ET `EnergyPerSurface` (data leakage) pour Target 1.


In [None]:
# CODE : Pr√©paration des donn√©es pour Pipeline sklearn

print("üìã √âtape 1 : Pr√©paration X et y pour TARGET 1 (Energy)\n")

# Liste des colonnes √† supprimer (data leakage + identifiants inutiles)
leakage_cols = [
    # Variables de leakage (composants directs de la target)
    "SiteEnergyUseWN(kBtu)",
    "SiteEUI(kBtu/sf)",
    "SiteEUIWN(kBtu/sf)",
    "SourceEUI(kBtu/sf)",
    "SourceEUIWN(kBtu/sf)",
    "Electricity(kWh)",
    "Electricity(kBtu)",
    "NaturalGas(therms)",
    "NaturalGas(kBtu)",
    "SteamUse(kBtu)",
    "GHGEmissionsIntensity",
]

useless_cols = [
    "OSEBuildingID",
    "PropertyName",
    "TaxParcelIdentificationNumber",
    "Address",
    "ZipCode",
    "CouncilDistrictCode",
    "Neighborhood",
    "Latitude",
    "Longitude",
    "YearBuilt",
    "ComplianceStatus",
    "DefaultData",
    "ListOfAllPropertyUseTypes",
]

special_cols = ["ENERGYSTARScore"]

cols_to_drop = leakage_cols + useless_cols + special_cols

# Suppression s√©curis√©e
existing_cols_to_drop = [c for c in cols_to_drop if c in df.columns]
df_clean = df.drop(columns=existing_cols_to_drop)

print(f"üóëÔ∏è  Colonnes supprim√©es : {len(existing_cols_to_drop)}")

# Extraction de la target 1
y_energy = df_clean["SiteEnergyUse(kBtu)"].copy()

# Exclusion Target 2 + EnergyPerSurface (leakage)
cols_to_exclude = ["SiteEnergyUse(kBtu)", "TotalGHGEmissions", "EnergyPerSurface"]
X_energy = df_clean.drop(
    columns=[col for col in cols_to_exclude if col in df_clean.columns]
)

# Transformation log de la target
y_energy_log = np.log1p(y_energy)

print(f"‚úÖ X_energy : {X_energy.shape}")
print(f"‚úÖ y_energy_log : {y_energy_log.shape}")
print("\n‚úÖ √âtape 1 termin√©e")

#### √âtape 2 : Construction du Pipeline de Preprocessing

**Pourquoi utiliser un Pipeline ?**

‚úÖ **√âvite le data leakage** : Le preprocessing (scaling, encoding) est appliqu√© UNIQUEMENT sur le train √† chaque fold de CV  
‚úÖ **Code propre** : Tout le preprocessing est encapsul√© dans un seul objet  
‚úÖ **Reproductible** : Facile √† r√©utiliser et d√©ployer

**Ce que fait notre Pipeline :**

1. **Colonnes num√©riques** :

   - Imputation m√©diane (valeurs manquantes)
   - StandardScaler (normalisation)

2. **Colonnes cat√©gorielles** :

   - Imputation mode (valeurs manquantes)
   - OneHotEncoder (encodage)

3. **Mod√®le** : LinearRegression / RandomForest / SVR / LightGBM


In [None]:
# CODE : Construction du Pipeline de Preprocessing

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer

print("üîß √âtape 2 : Construction du Pipeline\n")

# Identification auto des colonnes num√©riques vs cat√©gorielles
numeric_features = X_energy.select_dtypes(include=["number"]).columns.tolist()
categorical_features = X_energy.select_dtypes(exclude=["number"]).columns.tolist()

print(f"üìä Features num√©riques   : {len(numeric_features)}")
print(f"üìä Features cat√©gorielles : {len(categorical_features)}")

# Pipeline pour les features num√©riques
""" On impute par la m√©diane puis on scale.
    Exemple : Si un chiffre manque, on remplace par la m√©diane de la colonne (la m√©diance est robuste aux outliers)
    
    On transforme ensuite les donn√©es pour qu'elles aient une moyenne de 0 et un √©cart-type de 1 (StandardScaler)
    Exemple : Si un b√¢timent a 3 √©tages et qu'un autre en a 10, apr√®s scaling, le b√¢timent √† 10 √©tages aura une valeur plus √©lev√©e mais dans une √©chelle comparable aux autres features.
"""
numeric_transformer = Pipeline(
    steps=[("imputer", SimpleImputer(strategy="median")), ("scaler", StandardScaler())]
)

# Pipeline pour les features cat√©gorielles
categorical_transformer = Pipeline(
    steps=[
        # Si une cat√©gorie manque, on remplace par la valeur la plus fr√©quente (mode)
        ("imputer", SimpleImputer(strategy="most_frequent")),
        # Encodage OneHot : transforme chaque cat√©gorie en une colonne binaire (0 ou 1)
        ("onehot", OneHotEncoder(handle_unknown="ignore", sparse_output=False)),
    ]
)

# ColumnTransformer : applique le bon pipeline √† chaque type de colonne
# Fonctionnement : Il d√©cide quelle transformation appliquer √† chaque colonne en fonction de son type (num√©rique ou cat√©gorielle)
preprocessor = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer, numeric_features),
        ("cat", categorical_transformer, categorical_features),
    ],
    remainder="drop",  # On ne garde que les colonnes sp√©cifi√©es
)

print("\n‚úÖ Pipeline de preprocessing cr√©√©")
print("   - Imputation + Scaling pour num√©riques")
print("   - Imputation + OneHot pour cat√©gorielles")

# On choisit la m√©diane pour boucher les trous car elle n'est pas fauss√©e par tes "b√¢timents g√©ants" (Outliers). On parle de la m√©diane de la colonne concern√©e (calcul√©e sur les donn√©es d'entra√Ænement).

#### √âtape 3 : Cross-Validation avec KFold

**Pourquoi Cross-Validation plut√¥t que Train/Test simple ?**

‚ùå **Probl√®me du Train/Test simple** :

- Le r√©sultat d√©pend du `random_state` (coup de chance/malchance)
- Une seule √©valuation ‚Üí variance √©lev√©e
- Pas robuste

‚úÖ **Avantages de la Cross-Validation (K-Fold)** :

- **K=5** : On d√©coupe les donn√©es en 5 parties
- Le mod√®le est entra√Æn√© **5 fois** avec des validations diff√©rentes
- On moyenne les r√©sultats ‚Üí **estimation robuste**
- Chaque observation est utilis√©e **une fois** en validation

**üí° Bonus** : On garde `return_train_score=True` pour d√©tecter l'overfitting


In [None]:
from sklearn.model_selection import KFold

print("üîÑ √âtape 3 : Configuration Cross-Validation\n")

# KFold avec 5 splits
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# M√©triques √† calculer
scoring = {
    "r2": "r2",
    "mae": "neg_mean_absolute_error",
    "rmse": "neg_root_mean_squared_error",
}

print("‚úÖ Cross-Validation configur√©e :")
print("   - K-Fold : 5 splits")
print("   - Shuffle : True (m√©lange al√©atoire)")
print("   - M√©triques : R¬≤, MAE, RMSE")
print("\nüí° Chaque mod√®le sera √©valu√© 5 fois sur des donn√©es diff√©rentes")

#### √âtape 4 : Mod√©lisation avec Pipeline + Cross-Validation

**Algorithmes test√©s :**

1. **Linear Regression** : Baseline simple
2. **Random Forest** (Bagging) : Parall√©lisation de 100 arbres, robuste aux outliers
3. **SVR** (RBF kernel) : Mod√®le non-lin√©aire avec noyau gaussien
4. **LightGBM** (Boosting) : Mod√®le gradient boosting, capte les interactions complexes

**Processus pour chaque mod√®le :**

1. Cr√©ation du Pipeline (preprocessing + mod√®le)
2. Cross-validation K-Fold (5 splits)
3. Calcul des m√©triques moyennes (R¬≤, MAE, RMSE)
4. D√©tection de l'overfitting (√©cart Train/CV)

**‚è±Ô∏è Estimation** : ~2-3 minutes (LightGBM + RF sur 5 folds)


In [None]:
# CODE : Mod√©lisation avec Pipeline + Cross-Validation (TARGET 1)

import lightgbm as lgb
import warnings

# Supprimer les warnings sklearn sur les feature names
warnings.filterwarnings("ignore", message="X does not have valid feature names")

print("ü§ñ MOD√âLISATION TARGET 1 (Energy) - Pipeline + Cross-Validation\n")
print("=" * 80)

# Dictionnaire des mod√®les √† tester
models = {
    "Linear Regression": LinearRegression(),
    "Random Forest": RandomForestRegressor(
        n_estimators=100, random_state=42, n_jobs=-1
    ),
    "SVR": SVR(kernel="rbf", C=1.0, epsilon=0.1),
    "LightGBM": lgb.LGBMRegressor(
        n_estimators=100, random_state=42, n_jobs=-1, verbose=-1
    ),
}

# Stockage des r√©sultats
results_energy = []

for model_name, model in models.items():
    print(f"\nüîÑ Cross-Validation pour {model_name}...")

    # Construction du pipeline complet
    pipeline = Pipeline(steps=[("preprocessor", preprocessor), ("model", model)])

    # Cross-validation
    cv_results = cross_validate(
        pipeline,
        X_energy,
        y_energy_log,
        cv=cv,
        scoring=scoring,
        n_jobs=-1,
        return_train_score=True,
    )

    # Extraction des m√©triques (conversion en positif pour MAE/RMSE)
    r2_train_mean = cv_results["train_r2"].mean()
    r2_cv_mean = cv_results["test_r2"].mean()
    r2_cv_std = cv_results["test_r2"].std()

    mae_cv_mean = -cv_results["test_mae"].mean()
    mae_cv_std = cv_results["test_mae"].std()

    rmse_cv_mean = -cv_results["test_rmse"].mean()
    rmse_cv_std = cv_results["test_rmse"].std()

    overfit_gap = r2_train_mean - r2_cv_mean

    # Affichage
    print(f"‚úÖ {model_name}")
    print(f"   R¬≤ Train : {r2_train_mean:.4f}")
    print(f"   R¬≤ CV    : {r2_cv_mean:.4f} ¬± {r2_cv_std:.4f}")
    print(f"   MAE CV   : {mae_cv_mean:.4f} ¬± {mae_cv_std:.4f}")
    print(f"   RMSE CV  : {rmse_cv_mean:.4f} ¬± {rmse_cv_std:.4f}")

    # Diagnostic overfitting
    if overfit_gap > 0.15:
        print(f"   ‚ö†Ô∏è Surapprentissage d√©tect√© (√©cart = {overfit_gap:.4f})")
    elif overfit_gap < -0.05:
        print("   ‚ö†Ô∏è Sous-apprentissage possible")
    else:
        print(f"   ‚úÖ Bon √©quilibre (√©cart = {overfit_gap:.4f})")

    # Stockage
    results_energy.append(
        {
            "Mod√®le": model_name,
            "R¬≤ CV (mean)": r2_cv_mean,
            "R¬≤ CV (std)": r2_cv_std,
            "MAE CV": mae_cv_mean,
            "RMSE CV": rmse_cv_mean,
            "R¬≤ Train": r2_train_mean,
            "Overfit Gap": overfit_gap,
        }
    )

print("\n" + "=" * 80)
print("‚úÖ Cross-Validation termin√©e pour les 4 mod√®les")

#### üìä Comparaison des Mod√®les (TARGET 1 - Energy)

**Crit√®re de s√©lection** : R¬≤ CV (mean)

Le **R¬≤ CV moyen** repr√©sente la performance r√©elle attendue en production, car il est calcul√© sur des donn√©es jamais vues pendant l'entra√Ænement.

**Lecture du tableau :**

- **R¬≤ CV (mean)** : Performance moyenne sur les 5 folds (plus √©lev√© = meilleur)
- **R¬≤ CV (std)** : Variabilit√© entre les folds (plus faible = plus stable)
- **Overfit Gap** : √âcart R¬≤ Train - R¬≤ CV (>0.15 = surapprentissage)


In [None]:
# CODE : Tableau comparatif et identification du champion

print("=" * 80)
print("üìä TABLEAU R√âCAPITULATIF - TARGET 1 (Energy)")
print("=" * 80 + "\n")

comparison_df_energy = pd.DataFrame(results_energy).sort_values(
    by="R¬≤ CV (mean)", ascending=False
)

print(comparison_df_energy.to_string(index=False))

# Identification du meilleur mod√®le
best_model_name_energy = comparison_df_energy.iloc[0]["Mod√®le"]
best_r2_cv_energy = comparison_df_energy.iloc[0]["R¬≤ CV (mean)"]

print("\n" + "=" * 80)
print(f"üèÜ MEILLEUR MOD√àLE (selon R¬≤ CV) : {best_model_name_energy}")
print(f"   R¬≤ CV = {best_r2_cv_energy:.4f}")
print("=" * 80)

print("\n‚úÖ Comparaison termin√©e pour TARGET 1 (Energy)")

#### üîß Optimisation des Hyperparam√®tres - TARGET 1 (Energy)

**üéØ Objectif :** Optimiser les hyperparam√®tres du mod√®le champion (Random Forest) identifi√© par Cross-Validation.

**M√©thode : GridSearchCV**

- **Principe** : Teste toutes les combinaisons possibles d'hyperparam√®tres
- **Validation** : Utilise Cross-Validation (cv=5) pour chaque combinaison
- **Avantage** : √âvite le surapprentissage en validant sur donn√©es non vues
- **Combinaisons** : ~100 combinaisons (recommandation OpenClassrooms)

**üí° GridSearchCV + Pipeline + CV = Solution robuste**

- Pipeline emp√™che le data leakage (preprocessing uniquement sur train fold)
- CV (5 folds) donne une estimation robuste pour chaque combinaison
- Pas de `y_train_pred` : chaque combinaison est √©valu√©e sur donn√©es non vues

**‚ö†Ô∏è Attention :** GridSearchCV ne garantit PAS toujours une am√©lioration. Les hyperparam√®tres par d√©faut peuvent d√©j√† √™tre optimaux pour vos donn√©es.


In [None]:
# CODE : GridSearchCV pour Random Forest (TARGET 1)

from sklearn.model_selection import GridSearchCV

print("üîß OPTIMISATION HYPERPARAM√àTRES - TARGET 1 (Energy)")
print("=" * 80)
print(f"Mod√®le √† optimiser : {best_model_name_energy}")
print(f"Performance de base (R¬≤ CV) : {best_r2_cv_energy:.4f}\n")

# Grille d'hyperparam√®tres (limit√©e √† ~100 combinaisons)
param_grid_energy = {
    # Le nombre d'arbres dans la for√™t
    "model__n_estimators": [50, 100, 200],
    # La hauteur maximale de chaque arbre
    "model__max_depth": [10, 20, 30, None],
    # Le nombre minimum de b√¢timents requis avant de cr√©er une nouvelle branche
    "model__min_samples_split": [2, 5, 10],
    # Le nombre minimum de b√¢timents qui doivent √™tre pr√©sents dans une feuille (le r√©sultat final)
    "model__min_samples_leaf": [1, 2],  # 2 valeurs
    # Le nombre de features √† consid√©rer lors de la recherche du meilleur split
    "model__max_features": ["sqrt", "log2"],  # 2 valeurs
}

# Calcul du nombre de combinaisons
n_combinations = 3 * 4 * 3 * 2 * 2
print(f"üìä Nombre de combinaisons √† tester : {n_combinations}")
print(f"‚è±Ô∏è Temps estim√© : {n_combinations * 5 // 60} minutes (environ)\n")

# Construction du pipeline avec le meilleur mod√®le
pipeline_to_optimize = Pipeline(
    [
        ("preprocessor", preprocessor),
        ("model", RandomForestRegressor(random_state=42, n_jobs=-1)),
    ]
)

# GridSearchCV avec Cross-Validation
print("üîÑ Lancement de GridSearchCV (peut prendre plusieurs minutes)...\n")

grid_search_energy = GridSearchCV(
    estimator=pipeline_to_optimize,
    param_grid=param_grid_energy,
    cv=cv,  # R√©utilise le KFold(5) d√©fini pr√©c√©demment (cross-validation)
    scoring="r2",
    n_jobs=-1,
    verbose=2,
    return_train_score=True,
)

# Entra√Ænement (teste toutes les combinaisons)
grid_search_energy.fit(X_energy, y_energy_log)

# R√©sultats
print("\n" + "=" * 80)
print("‚úÖ GridSearchCV termin√© !")
print("\nüèÜ MEILLEURS HYPERPARAM√àTRES TROUV√âS :")
for param, value in grid_search_energy.best_params_.items():
    print(f"   {param}: {value}")

print("\nüìä PERFORMANCES :")
print(f"   R¬≤ CV (optimis√©) : {grid_search_energy.best_score_:.4f}")
print(f"   R¬≤ CV (base)     : {best_r2_cv_energy:.4f}")

# Calcul de la diff√©rence
improvement_energy = grid_search_energy.best_score_ - best_r2_cv_energy
print(
    f"\nüìà Am√©lioration : {improvement_energy:+.4f} ({improvement_energy / best_r2_cv_energy * 100:+.2f}%)"
)

if improvement_energy > 0:
    print("   ‚úÖ GridSearchCV a am√©lior√© les performances !")
else:
    print("   ‚ö†Ô∏è GridSearchCV n'a pas am√©lior√© les performances.")
    print("   ‚Üí Les hyperparam√®tres par d√©faut √©taient d√©j√† optimaux.")

print("=" * 80)

#### üìä D√©cision Finale - TARGET 1 (Energy)

**Question :** Quel mod√®le utiliser pour la pr√©diction finale ?

**Crit√®re de d√©cision :** R¬≤ CV (plus √©lev√© = meilleur)

Nous allons comparer :

1. **Mod√®le de base** : Random Forest avec hyperparam√®tres par d√©faut
2. **Mod√®le optimis√©** : Random Forest avec hyperparam√®tres optimis√©s par GridSearchCV

Le mod√®le avec le **meilleur R¬≤ CV** sera retenu pour :

- L'analyse de Feature Importance
- Les pr√©dictions futures
- La conclusion du projet


In [None]:
# CODE : Comparaison Mod√®le de Base vs Mod√®le Optimis√© (TARGET 1)

print("=" * 80)
print("üìä COMPARAISON FINALE - TARGET 1 (Energy)")
print("=" * 80 + "\n")

# Cr√©ation du DataFrame de comparaison
comparison_final_energy = pd.DataFrame(
    {
        "Mod√®le": ["Random Forest (Base)", "Random Forest (Optimis√©)"],
        "R¬≤ CV": [best_r2_cv_energy, grid_search_energy.best_score_],
        "Hyperparam√®tres": ["Par d√©faut", "GridSearchCV"],
    }
)

# Tri par R¬≤ CV d√©croissant
comparison_final_energy = comparison_final_energy.sort_values(
    "R¬≤ CV", ascending=False
).reset_index(drop=True)

print(comparison_final_energy.to_string(index=False))
print("\n" + "=" * 80)

# Identification du meilleur mod√®le FINAL
if best_r2_cv_energy >= grid_search_energy.best_score_:
    final_model_name_energy = "Random Forest (Base)"
    final_r2_energy = best_r2_cv_energy
    # Reconstruire le pipeline de base
    final_pipeline_energy = Pipeline(
        [
            ("preprocessor", preprocessor),
            (
                "model",
                RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1),
            ),
        ]
    )
    final_pipeline_energy.fit(X_energy, y_energy_log)
    print("üèÜ MOD√àLE RETENU : Random Forest avec hyperparam√®tres PAR D√âFAUT")
    print(f"   R¬≤ CV = {final_r2_energy:.4f}")
    print(
        "\nüí° Conclusion : Les hyperparam√®tres par d√©faut sont optimaux pour ce dataset."
    )
else:
    final_model_name_energy = "Random Forest (Optimis√©)"
    final_r2_energy = grid_search_energy.best_score_
    final_pipeline_energy = grid_search_energy.best_estimator_
    print("üèÜ MOD√àLE RETENU : Random Forest avec hyperparam√®tres OPTIMIS√âS")
    print(f"   R¬≤ CV = {final_r2_energy:.4f}")
    print("\nüí° Conclusion : GridSearchCV a am√©lior√© les performances.")

print("=" * 80)

#### Feature Importance - TARGET 1 (Energy)

**Objectif** : Identifier les variables les plus importantes pour pr√©dire la consommation √©nerg√©tique.

**M√©thode** :

1. Entra√Æner le meilleur mod√®le (identifi√© par CV) sur **TOUT** le dataset
2. Extraire les feature importances du mod√®le
3. Visualiser les TOP 15 features

**üí° Pourquoi entra√Æner sur tout le dataset ?**

- La CV nous a donn√© une estimation robuste de la performance
- Maintenant on veut le meilleur mod√®le possible pour l'interpr√©tation
- Utiliser toutes les donn√©es maximise l'apprentissage


In [None]:
# CODE : Feature Importance pour le meilleur mod√®le (TARGET 1)

print("üìä Feature Importance - TARGET 1 (Energy)\n")
print("=" * 80)

# Utilisation du mod√®le FINAL (base ou optimis√© selon comparaison)
print(f"üîÑ Entra√Ænement de {final_model_name_energy} sur tout le dataset...")

# On r√©entra√Æne le pipeline final sur tout le dataset
final_pipeline_energy.fit(X_energy, y_energy_log)
print("‚úÖ Mod√®le entra√Æn√©\n")

# Extraction du mod√®le du pipeline
final_model_energy = final_pipeline_energy.named_steps["model"]

# Extraction des feature importances
if hasattr(final_model_energy, "feature_importances_"):
    # Pour RandomForest / LightGBM
    feature_importances_energy = final_model_energy.feature_importances_

    # R√©cup√©ration des noms de features apr√®s preprocessing
    # NumericFeatures gardent leur nom, CategoricalFeatures sont encod√©es
    feature_names_energy = (
        numeric_features
        + final_pipeline_energy.named_steps["preprocessor"]
        .named_transformers_["cat"]
        .named_steps["onehot"]
        .get_feature_names_out(categorical_features)
        .tolist()
    )

    # Cr√©ation du DataFrame
    importance_df_energy = pd.DataFrame(
        {"Feature": feature_names_energy, "Importance": feature_importances_energy}
    ).sort_values(by="Importance", ascending=False)

    # Calcul des pourcentages
    importance_df_energy["Importance (%)"] = (
        importance_df_energy["Importance"]
        / importance_df_energy["Importance"].sum()
        * 100
    )

    # Affichage TOP 15
    top_15_energy = importance_df_energy.head(15)

    print("üîù TOP 15 Features les plus importantes :\n")
    for idx, row in top_15_energy.iterrows():
        print(f"{row['Feature']:40} : {row['Importance (%)']:5.2f}%")

    # Calcul du TOP 3
    top_3_energy = importance_df_energy.head(3)
    top_3_pct_energy = top_3_energy["Importance (%)"].sum()

    print(
        f"\nüí° Les 3 features les plus importantes repr√©sentent {top_3_pct_energy:.2f}% de l'importance totale"
    )

else:
    print(f"‚ö†Ô∏è {final_model_name_energy} ne supporte pas feature_importances_")
    print("   (Normal pour Linear Regression et SVR)")

print("\n" + "=" * 80)
print("‚úÖ Analyse Feature Importance termin√©e")

---

## üéØ PARTIE 2 : PR√âDICTION DES √âMISSIONS DE CO2

**Target :** `TotalGHGEmissions` - √âmissions totales de gaz √† effet de serre

**Diff√©rence avec Target 1 :**
- On peut maintenant utiliser `SiteEnergyUse(kBtu)` ET `EnergyPerSurface` comme features
- Ces variables sont exclues du leakage car elles ne sont PAS calcul√©es √† partir de CO2

**Approche :** M√™me m√©thodologie que Target 1 (Pipeline + Cross-Validation)

---


#### √âtape 1 : Pr√©paration des Donn√©es (TARGET 2 - CO2)

**Diff√©rence majeure avec Target 1** :

- ‚úÖ `SiteEnergyUse(kBtu)` est MAINTENANT une feature (pas du leakage)
- ‚úÖ `EnergyPerSurface` est MAINTENANT une feature (ratio cr√©√© √† partir de Energy, pas de CO2)

**Ce qu'on exclut** :

- ‚ùå `TotalGHGEmissions` (c'est notre target)
- ‚ùå Variables de leakage CO2 (GHGEmissionsIntensity, etc.)


#### √âtape 2 : Pipeline + Cross-Validation (TARGET 2)

**M√™me approche que Target 1** :

1. Construction du preprocessor (m√™me que Target 1)
2. Configuration K-Fold (K=5)
3. Test des 4 algorithmes avec cross_validate
4. Identification du champion

**üí° Diff√©rence** : `EnergyPerSurface` et `SiteEnergyUse(kBtu)` sont maintenant dans X_co2


In [None]:
# CODE : Pr√©paration et Mod√©lisation TARGET 2 (CO2) avec Pipeline + CV

# Supprimer les warnings sklearn sur les feature names
warnings.filterwarnings("ignore", message="X does not have valid feature names")

print("=" * 80)
print("üåç TARGET 2 : PR√âDICTION DES √âMISSIONS DE CO2")
print("=" * 80 + "\n")

# Pr√©paration des donn√©es
print("üìã √âtape 1 : Pr√©paration X_co2 et y_co2\n")

# Pour CO2, on peut utiliser SiteEnergyUse(kBtu) et EnergyPerSurface
y_co2 = df_clean["TotalGHGEmissions"].copy()

# Exclusion seulement de la target CO2
X_co2 = df_clean.drop(columns=["TotalGHGEmissions"])

# Transformation log
y_co2_log = np.log1p(y_co2)

print(f"‚úÖ X_co2 : {X_co2.shape}")
print(f"‚úÖ y_co2_log : {y_co2_log.shape}")
print("üí° X_co2 INCLUT maintenant SiteEnergyUse(kBtu) et EnergyPerSurface\n")

# Identification des colonnes num√©riques vs cat√©gorielles
numeric_features_co2 = X_co2.select_dtypes(include=["number"]).columns.tolist()
categorical_features_co2 = X_co2.select_dtypes(exclude=["number"]).columns.tolist()

print(f"üìä Features num√©riques   : {len(numeric_features_co2)}")
print(f"üìä Features cat√©gorielles : {len(categorical_features_co2)}\n")

# Construction du preprocessor pour CO2
numeric_transformer_co2 = Pipeline(
    steps=[("imputer", SimpleImputer(strategy="median")), ("scaler", StandardScaler())]
)

categorical_transformer_co2 = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="most_frequent")),
        ("onehot", OneHotEncoder(handle_unknown="ignore", sparse_output=False)),
    ]
)

preprocessor_co2 = ColumnTransformer(
    transformers=[
        ("num", numeric_transformer_co2, numeric_features_co2),
        ("cat", categorical_transformer_co2, categorical_features_co2),
    ],
    remainder="drop",
)

print("‚úÖ Pipeline de preprocessing CO2 cr√©√©\n")

# Cross-Validation pour les 4 mod√®les
print("üîÑ √âtape 2 : Cross-Validation avec K-Fold (5 splits)\n")
print("=" * 80)

# Recr√©ation du dictionnaire de mod√®les pour √©viter les warnings
models_co2 = {
    "Linear Regression": LinearRegression(),
    "Random Forest": RandomForestRegressor(
        n_estimators=100, random_state=42, n_jobs=-1
    ),
    "SVR": SVR(kernel="rbf", C=1.0, epsilon=0.1),
    "LightGBM": lgb.LGBMRegressor(
        n_estimators=100, random_state=42, n_jobs=-1, verbose=-1
    ),
}

results_co2 = []

for model_name, model in models_co2.items():
    print(f"\nüîÑ Cross-Validation pour {model_name}...")

    pipeline_co2 = Pipeline(
        steps=[("preprocessor", preprocessor_co2), ("model", model)]
    )

    cv_results_co2 = cross_validate(
        pipeline_co2,
        X_co2,
        y_co2_log,
        cv=cv,
        scoring=scoring,
        n_jobs=-1,
        return_train_score=True,
    )

    r2_train_mean_co2 = cv_results_co2["train_r2"].mean()
    r2_cv_mean_co2 = cv_results_co2["test_r2"].mean()
    r2_cv_std_co2 = cv_results_co2["test_r2"].std()

    mae_cv_mean_co2 = -cv_results_co2["test_mae"].mean()
    rmse_cv_mean_co2 = -cv_results_co2["test_rmse"].mean()

    overfit_gap_co2 = r2_train_mean_co2 - r2_cv_mean_co2

    print(f"‚úÖ {model_name}")
    print(f"   R¬≤ Train : {r2_train_mean_co2:.4f}")
    print(f"   R¬≤ CV    : {r2_cv_mean_co2:.4f} ¬± {r2_cv_std_co2:.4f}")
    print(f"   MAE CV   : {mae_cv_mean_co2:.4f}")
    print(f"   RMSE CV  : {rmse_cv_mean_co2:.4f}")

    if overfit_gap_co2 > 0.15:
        print(f"   ‚ö†Ô∏è Surapprentissage (√©cart = {overfit_gap_co2:.4f})")
    elif overfit_gap_co2 < -0.05:
        print("   ‚ö†Ô∏è Sous-apprentissage")
    else:
        print(f"   ‚úÖ Bon √©quilibre (√©cart = {overfit_gap_co2:.4f})")

    results_co2.append(
        {
            "Mod√®le": model_name,
            "R¬≤ CV (mean)": r2_cv_mean_co2,
            "R¬≤ CV (std)": r2_cv_std_co2,
            "MAE CV": mae_cv_mean_co2,
            "RMSE CV": rmse_cv_mean_co2,
            "R¬≤ Train": r2_train_mean_co2,
            "Overfit Gap": overfit_gap_co2,
        }
    )

print("‚úÖ Cross-Validation termin√©e pour TARGET 2 (CO2)")
print("\n" + "=" * 80)

#### üìä Comparaison des Mod√®les (TARGET 2 - CO2)


In [None]:
# CODE : Tableau comparatif TARGET 2 (CO2)

print("=" * 80)
print("üìä TABLEAU R√âCAPITULATIF - TARGET 2 (CO2)")
print("=" * 80 + "\n")

comparison_df_co2 = pd.DataFrame(results_co2).sort_values(
    by="R¬≤ CV (mean)", ascending=False
)

print(comparison_df_co2.to_string(index=False))

best_model_name_co2 = comparison_df_co2.iloc[0]["Mod√®le"]
best_r2_cv_co2 = comparison_df_co2.iloc[0]["R¬≤ CV (mean)"]

print("\n" + "=" * 80)
print(f"üèÜ MEILLEUR MOD√àLE (selon R¬≤ CV) : {best_model_name_co2}")
print(f"   R¬≤ CV = {best_r2_cv_co2:.4f}")
print("=" * 80)

print("\n‚úÖ Comparaison termin√©e pour TARGET 2 (CO2)")

#### üîß Optimisation des Hyperparam√®tres - TARGET 2 (CO2)

**üéØ Objectif :** Optimiser les hyperparam√®tres du mod√®le champion (LightGBM) identifi√© par Cross-Validation.

**Grille adapt√©e √† LightGBM :**

- `n_estimators` : Nombre d'arbres
- `max_depth` : Profondeur maximale des arbres
- `learning_rate` : Taux d'apprentissage (vitesse de convergence)
- `num_leaves` : Nombre de feuilles par arbre (sp√©cifique LightGBM)
- `min_child_samples` : Nombre minimal d'observations par feuille

**üí° LightGBM vs Random Forest :**

LightGBM utilise le **boosting** (arbres s√©quentiels qui corrigent les erreurs des pr√©c√©dents), contrairement √† Random Forest qui utilise le **bagging** (arbres ind√©pendants en parall√®le). Les hyperparam√®tres sont donc diff√©rents.


In [None]:
# CODE : GridSearchCV pour LightGBM (TARGET 2)

print("üîß OPTIMISATION HYPERPARAM√àTRES - TARGET 2 (CO2)")
print("=" * 80)
print(f"Mod√®le √† optimiser : {best_model_name_co2}")
print(f"Performance de base (R¬≤ CV) : {best_r2_cv_co2:.4f}\n")

# Grille d'hyperparam√®tres pour LightGBM (limit√©e √† ~100 combinaisons)
param_grid_co2 = {
    "model__n_estimators": [50, 100, 200],
    "model__max_depth": [10, 20, 30],
    "model__learning_rate": [0.01, 0.1, 0.2],
    "model__num_leaves": [31, 50],
    "model__min_child_samples": [20, 50],
}

# Calcul du nombre de combinaisons
n_combinations_co2 = 3 * 3 * 3 * 2 * 2
print(f"üìä Nombre de combinaisons √† tester : {n_combinations_co2}")
print(f"‚è±Ô∏è Temps estim√© : {n_combinations_co2 * 5 // 60} minutes (environ)\n")

# Construction du pipeline avec LightGBM
pipeline_to_optimize_co2 = Pipeline(
    [
        ("preprocessor", preprocessor_co2),
        ("model", lgb.LGBMRegressor(random_state=42, n_jobs=-1, verbose=-1)),
    ]
)

# GridSearchCV avec Cross-Validation
print("üîÑ Lancement de GridSearchCV (peut prendre plusieurs minutes)...\n")

grid_search_co2 = GridSearchCV(
    estimator=pipeline_to_optimize_co2,
    param_grid=param_grid_co2,
    cv=cv,  # R√©utilise le KFold(5) d√©fini pr√©c√©demment
    scoring="r2",
    n_jobs=-1,
    verbose=2,
    return_train_score=True,
)

# Entra√Ænement (teste toutes les combinaisons)
grid_search_co2.fit(X_co2, y_co2_log)

# R√©sultats
print("\n" + "=" * 80)
print("‚úÖ GridSearchCV termin√© !")
print("\nüèÜ MEILLEURS HYPERPARAM√àTRES TROUV√âS :")
for param, value in grid_search_co2.best_params_.items():
    print(f"   {param}: {value}")

print("\nüìä PERFORMANCES :")
print(f"   R¬≤ CV (optimis√©) : {grid_search_co2.best_score_:.4f}")
print(f"   R¬≤ CV (base)     : {best_r2_cv_co2:.4f}")

# Calcul de la diff√©rence
improvement_co2 = grid_search_co2.best_score_ - best_r2_cv_co2
print(
    f"\nüìà Am√©lioration : {improvement_co2:+.4f} ({improvement_co2 / best_r2_cv_co2 * 100:+.2f}%)"
)

if improvement_co2 > 0:
    print("   ‚úÖ GridSearchCV a am√©lior√© les performances !")
else:
    print("   ‚ö†Ô∏è GridSearchCV n'a pas am√©lior√© les performances.")
    print("   ‚Üí Les hyperparam√®tres par d√©faut √©taient d√©j√† optimaux.")

print("=" * 80)

#### üìä D√©cision Finale - TARGET 2 (CO2)

**Question :** Quel mod√®le utiliser pour la pr√©diction finale ?

Nous allons comparer :

1. **Mod√®le de base** : LightGBM avec hyperparam√®tres par d√©faut
2. **Mod√®le optimis√©** : LightGBM avec hyperparam√®tres optimis√©s par GridSearchCV

Le mod√®le avec le **meilleur R¬≤ CV** sera retenu.


In [None]:
# CODE : Comparaison Mod√®le de Base vs Mod√®le Optimis√© (TARGET 2)

print("=" * 80)
print("üìä COMPARAISON FINALE - TARGET 2 (CO2)")
print("=" * 80 + "\n")

# Cr√©ation du DataFrame de comparaison
comparison_final_co2 = pd.DataFrame(
    {
        "Mod√®le": ["LightGBM (Base)", "LightGBM (Optimis√©)"],
        "R¬≤ CV": [best_r2_cv_co2, grid_search_co2.best_score_],
        "Hyperparam√®tres": ["Par d√©faut", "GridSearchCV"],
    }
)

# Tri par R¬≤ CV d√©croissant
comparison_final_co2 = comparison_final_co2.sort_values(
    "R¬≤ CV", ascending=False
).reset_index(drop=True)

print(comparison_final_co2.to_string(index=False))
print("\n" + "=" * 80)

# Identification du meilleur mod√®le FINAL
if best_r2_cv_co2 >= grid_search_co2.best_score_:
    final_model_name_co2 = "LightGBM (Base)"
    final_r2_co2 = best_r2_cv_co2
    # Reconstruire le pipeline de base
    final_pipeline_co2 = Pipeline(
        [
            ("preprocessor", preprocessor_co2),
            (
                "model",
                lgb.LGBMRegressor(
                    n_estimators=100, random_state=42, n_jobs=-1, verbose=-1
                ),
            ),
        ]
    )
    final_pipeline_co2.fit(X_co2, y_co2_log)
    print("üèÜ MOD√àLE RETENU : LightGBM avec hyperparam√®tres PAR D√âFAUT")
    print(f"   R¬≤ CV = {final_r2_co2:.4f}")
    print(
        "\nüí° Conclusion : Les hyperparam√®tres par d√©faut sont optimaux pour ce dataset."
    )
else:
    final_model_name_co2 = "LightGBM (Optimis√©)"
    final_r2_co2 = grid_search_co2.best_score_
    final_pipeline_co2 = grid_search_co2.best_estimator_
    print("üèÜ MOD√àLE RETENU : LightGBM avec hyperparam√®tres OPTIMIS√âS")
    print(f"   R¬≤ CV = {final_r2_co2:.4f}")
    print("\nüí° Conclusion : GridSearchCV a am√©lior√© les performances.")

print("=" * 80)

#### Feature Importance - TARGET 2 (CO2)


In [None]:
# CODE : Feature Importance TARGET 2 (CO2)

print("üìä Feature Importance - TARGET 2 (CO2)\n")
print("=" * 80)

# Utilisation du mod√®le FINAL (base ou optimis√© selon comparaison)
print(f"üîÑ Entra√Ænement de {final_model_name_co2} sur tout le dataset...")

# On r√©entra√Æne le pipeline final sur tout le dataset (si pas d√©j√† fait)
if final_model_name_co2 == "LightGBM (Optimis√©)":
    # Le pipeline est d√©j√† entra√Æn√© depuis grid_search_co2.best_estimator_
    pass
else:
    # On r√©entra√Æne le pipeline de base
    final_pipeline_co2.fit(X_co2, y_co2_log)

print("‚úÖ Mod√®le entra√Æn√©\n")

# Extraction du mod√®le du pipeline
final_model_co2 = final_pipeline_co2.named_steps["model"]

if hasattr(final_model_co2, "feature_importances_"):
    feature_importances_co2 = final_model_co2.feature_importances_

    feature_names_co2 = (
        numeric_features_co2
        + final_pipeline_co2.named_steps["preprocessor"]
        .named_transformers_["cat"]
        .named_steps["onehot"]
        .get_feature_names_out(categorical_features_co2)
        .tolist()
    )

    importance_df_co2 = pd.DataFrame(
        {"Feature": feature_names_co2, "Importance": feature_importances_co2}
    ).sort_values(by="Importance", ascending=False)

    importance_df_co2["Importance (%)"] = (
        importance_df_co2["Importance"] / importance_df_co2["Importance"].sum() * 100
    )

    top_15_co2 = importance_df_co2.head(15)

    print("üîù TOP 15 Features les plus importantes :\n")
    for idx, row in top_15_co2.iterrows():
        print(f"{row['Feature']:40} : {row['Importance (%)']:5.2f}%")

    top_3_co2 = importance_df_co2.head(3)
    top_3_pct_co2 = top_3_co2["Importance (%)"].sum()

    print(
        f"\nüí° Les 3 features les plus importantes repr√©sentent {top_3_pct_co2:.2f}% de l'importance totale"
    )

else:
    print(f"‚ö†Ô∏è {best_model_name_co2} ne supporte pas feature_importances_")

print("\n" + "=" * 80)
print("‚úÖ Analyse Feature Importance termin√©e")

---

# üèÅ CONCLUSION FINALE DU PROJET

## üìä R√©capitulatif des Deux Targets

**Ce projet a permis de construire deux mod√®les de r√©gression supervis√©e performants pour pr√©dire :**
1. **La consommation √©nerg√©tique** (`SiteEnergyUse(kBtu)`)
2. **Les √©missions de CO2** (`TotalGHGEmissions`)

---

### ‚úÖ R√©sultats Target 1 - Consommation √ânerg√©tique

**Meilleur mod√®le :** Random Forest **OPTIMIS√â** (GridSearchCV)

**Performances obtenues :**

- **R¬≤ CV (optimis√©) : 0.7288** (73% de variance expliqu√©e)
- **R¬≤ CV (base) : 0.7159**
- **Am√©lioration GridSearchCV : +1.8%** üöÄ
- MAE CV : 0.5041
- RMSE CV : 0.7027

**üîß Optimisation par GridSearchCV :**

J'ai appliqu√© GridSearchCV avec Cross-Validation (K=5) pour optimiser les hyperparam√®tres du mod√®le champion Random Forest. GridSearchCV a test√© **144 combinaisons** d'hyperparam√®tres (n_estimators, max_depth, min_samples_split, min_samples_leaf, max_features). Les r√©sultats montrent une am√©lioration de **+1.8%**, confirmant que l'optimisation apporte un gain de performance mesurable.

**üí° Pourquoi GridSearchCV fonctionne avec Pipeline + CV ?**

Contrairement √† l'approche Train/Test unique, l'utilisation de GridSearchCV avec Pipeline + Cross-Validation permet une optimisation robuste qui am√©liore r√©ellement les performances, car :

- Chaque combinaison est √©valu√©e sur **5 folds diff√©rents**
- Le Pipeline emp√™che le data leakage (preprocessing uniquement sur train fold)
- Pas de suroptimisation sur un seul split

**Variables les plus importantes** (Feature Importance du mod√®le optimis√©) :

1. `PropertyGFABuilding(s)` - Surface des b√¢timents **(16.78%)**
2. `PropertyGFATotal` - Surface totale de la propri√©t√© **(13.71%)**
3. `LargestPropertyUseTypeGFA` - Surface du type d'usage dominant **(9.31%)**
4. `SurfaceGasInteraction` - Feature d'interaction cr√©√©e (Surface √ó Gaz naturel) **(9.05%)**

üí° Les 3 features les plus importantes repr√©sentent **39.80%** de l'importance totale

---

### ‚úÖ R√©sultats Target 2 - √âmissions de CO2

**Meilleur mod√®le :** LightGBM **OPTIMIS√â** (GridSearchCV)

**Performances obtenues :**

- **R¬≤ CV (optimis√©) : 0.9218** (92% de variance expliqu√©e) üéØ **Performance exceptionnelle !**
- **R¬≤ CV (base) : 0.9214**
- **Am√©lioration GridSearchCV : +0.05%** ‚úÖ
- MAE CV : 0.2829
- RMSE CV : 0.4042

**üîß Optimisation par GridSearchCV :**

J'ai appliqu√© GridSearchCV pour optimiser les hyperparam√®tres de LightGBM. GridSearchCV a test√© **108 combinaisons** d'hyperparam√®tres sp√©cifiques au boosting (n_estimators, max_depth, learning_rate, num_leaves, min_child_samples). Bien que l'am√©lioration soit l√©g√®re (+0.05%), elle confirme que les hyperparam√®tres optimis√©s sont adapt√©s au dataset.

**Variables les plus importantes** :

1. **`SiteEnergyUse(kBtu)`** - Consommation √©nerg√©tique totale **(16.97%)**
2. **`EnergyPerSurface`** - Intensit√© √©nerg√©tique (kBtu/ft¬≤) ‚Üê Feature cr√©√©e ! **(12.05%)**
3. **`DistanceToCenter`** - Distance au centre de Seattle **(10.15%)**
4. `BuildingAge` - √Çge du b√¢timent **(9.52%)**
5. `LargestPropertyUseTypeGFA` - Surface du type d'usage dominant **(6.78%)**
6. **`SurfaceGasInteraction`** - Interaction Surface √ó Gaz naturel ‚Üê Feature cr√©√©e ! **(5.79%)**

üí° Les 3 features les plus importantes repr√©sentent **39.18%** de l'importance totale

**üí° Insight majeur :** `SiteEnergyUse` domine (#1 avec 17%), confirmant que la consommation √©nerg√©tique est le pr√©dicteur principal des √©missions CO2. Les features cr√©√©es (`EnergyPerSurface` #2 et `SurfaceGasInteraction` #6) restent tr√®s importantes.

---

## üî¨ M√©thodologie Compl√®te Appliqu√©e

**‚úÖ Pipeline sklearn** : Encapsulation preprocessing + mod√®le (√©vite data leakage)  
**‚úÖ ColumnTransformer** : Traitement s√©par√© numeric (imputation m√©diane + scaling) et categorical (imputation mode + one-hot)  
**‚úÖ Cross-Validation K-Fold (K=5)** : 5 splits train/validation ind√©pendants ‚Üí moyenne robuste  
**‚úÖ Comparaison de 4 algorithmes** : LinearRegression, Random Forest, SVR, LightGBM  
**‚úÖ GridSearchCV** : Optimisation des hyperparam√®tres du champion (144 combinaisons Energy, 108 CO2)  
**‚úÖ Feature Engineering** : 10 nouvelles features cr√©√©es (interactions, ratios, encodages)  
**‚úÖ Data Leakage Prevention** : Exclusion rigoureuse des targets crois√©es + Pipeline  
**‚úÖ Transformation Log** : Normalisation des distributions asym√©triques  
**‚úÖ Reproductibilit√©** : random_state=42 partout, shuffle=True dans KFold

---

### üí° Enseignements Cl√©s

1. **Les features d'interaction sont CRUCIALES** : `EnergyPerSurface` et `SurfaceGasInteraction` dominent le TOP pour CO2
   - Target 1 (√ânergie) : Features structurelles (surfaces) dominantes
   - Target 2 (CO2) : Feature √©nerg√©tique + interactions dominent ‚Üí SiteEnergyUse est le pr√©dicteur #1
2. **GridSearchCV + Pipeline + CV = Optimisation robuste** :
   - ‚ùå GridSearchCV sur Train/Test simple : Risque de suroptimisation
   - ‚úÖ GridSearchCV avec Pipeline + CV : Optimisation robuste, chaque combinaison √©valu√©e sur 5 folds
   - R√©sultat : +1.8% pour Energy, +0.05% pour CO2
3. **Cross-Validation >> Train/Test simple** :
   - ‚ùå Train/Test : 1 seul split ‚Üí d√©pend du random_state, y_train_pred √©value sur donn√©es vues
   - ‚úÖ CV K-Fold : 5 splits ‚Üí estimation robuste, toujours √©value sur donn√©es non vues
4. **Pipeline sklearn √©vite le data leakage** : Preprocessing (scaling, encoding) appliqu√© UNIQUEMENT sur train fold √† chaque it√©ration
5. **La transformation log est cruciale** pour g√©rer l'asym√©trie des distributions
6. **`SiteEnergyUse` est le pr√©dicteur #1 pour CO2** : 17% d'importance, confirme lien direct √©nergie ‚Üí √©missions
7. **ThirdLargestPropertyUseType\* conserv√©es** : Malgr√© 50% NaN, contribuent √† la pr√©diction (conseil mentor valid√©)

---

### üìä √âvaluation de l'Overfitting

**Qu'est-ce que l'Overfit Gap ?**  
√âcart entre R¬≤ moyen sur les donn√©es d'entra√Ænement (Train) et R¬≤ moyen sur validation crois√©e (CV).

**Interpr√©tation :**

- **Gap = R¬≤ Train - R¬≤ CV**
- Plus le gap est faible, meilleur est le compromis biais-variance

**Seuils d'interpr√©tation (r√®gle g√©n√©rale) :**

- **0-0.05** : Excellent - Mod√®le bien r√©gularis√©
- **0.05-0.15** : Tr√®s bon - Compromis id√©al biais-variance
- **0.15-0.25** : Acceptable - Overfitting mod√©r√©
- **>0.25** : Probl√©matique - R√©gularisation n√©cessaire

**üí° Note importante :** Un gap de 0 est **impossible** et **ind√©sirable** (underfitting). Les mod√®les complexes ont naturellement un petit gap.

---

### üöÄ Applications Business

**Ces mod√®les permettent de :**

- Pr√©dire la consommation √©nerg√©tique (R¬≤ = 0.73) et les √©missions CO2 (R¬≤ = 0.92) de nouveaux b√¢timents **avant construction**
- Prioriser les actions d'efficacit√© √©nerg√©tique selon les features importantes :
  - **√ânergie** : Agir sur la surface des b√¢timents, le type d'usage
  - **CO2** : R√©duire la consommation √©nerg√©tique (pr√©dicteur #1), optimiser l'intensit√© √©nerg√©tique
- Estimer l'impact de r√©novations structurelles (changement de surface, conversion source √©nergie)
- Identifier les b√¢timents √† fort potentiel d'am√©lioration √©nerg√©tique

---

## üèÜ TABLEAU R√âCAPITULATIF FINAL

| Target      | Meilleur Mod√®le | R¬≤ CV (Base) | R¬≤ CV (Optimis√©) | Am√©lioration | Algorithme |
| ----------- | --------------- | ------------ | ---------------- | ------------ | ---------- |
| **√ânergie** | Random Forest   | 0.7159       | **0.7288**       | **+1.8%**    | Bagging    |
| **CO2**     | LightGBM        | 0.9214       | **0.9218**       | **+0.05%**   | Boosting   |

**üí° Conclusion :** GridSearchCV avec Pipeline + Cross-Validation a permis d'optimiser les deux mod√®les, avec une am√©lioration significative pour Energy (+1.8%) et une confirmation des hyperparam√®tres optimaux pour CO2 (+0.05%).

---
