# PROJET SEATTLE ENERGY BENCHMARKING
## Notebook 06 : pipeline de mod√©lisation et premi√®res exp√©rimentations
---

### Identit√© du document
* **Statut :** Phase 1 (exploration & prototypage)
* **Derni√®re mise √† jour :** 10/01/2026
* **D√©pendances notebooks**: Notebooks 0 √† 7,feature engineering

### Description
Ce notebook constitue la premi√®re √©tape de la construction des mod√®les pr√©dictifs. Il s‚Äôappuie sur les donn√©es nettoy√©es et enrichies afin de tester plusieurs approches de mod√©lisation, comparer leurs performances et √©tablir une base de r√©f√©rence. L‚Äôobjectif est de documenter un pipeline reproductible et d‚Äôidentifier les mod√®les les plus prometteurs.


### Objectifs principaux
1. Charger le dataset pr√©par√© depuis `processed/`.  
2. Mettre en place le split train/test.  
3. Entra√Æner les mod√®les baseline :  
   - R√©gression lin√©aire.  
   - R√©gression Ridge/Lasso.  
   - Random Forest.  
4. √âvaluer les performances avec RMSE, MAE, R¬≤.  
5. Int√©grer MLflow pour tracer les runs (param√®tres, m√©triques, artefacts).  
6. Documenter les r√©sultats et g√©n√©rer un rapport synth√©tique.

---
### D√©pendances critiques
* `src.feature_engineering` : pipeline de features.  
* `src.utils` : fonctions de split et m√©triques.  
* `sklearn` : librairie de mod√©lisation.  
* `mlflow` : suivi des exp√©riences.

### LIVRABLES
1. Mod√®les baseline entra√Æn√©s et sauvegard√©s (`outputs/models/`).  
2. R√©sultats des m√©triques dans MLflow UI.  
3. Tableaux comparatifs des performances (`reports/model_baseline.md`).  
4. Visualisations des r√©sidus et des distributions d‚Äôerreurs.  
5. Notebook document√© et reproductible via des scripts

---

# üìö Table des mati√®res

- [Section 0 : Importation des packages](#section-0)  
- [Section 1 : Chargement des donn√©es feature engineering](#section-1)  
- [Section 2 : Pr√©processing et split train/test](#section-2)  
- [Section 3 : Entra√Ænement des mod√®les basiques](#section-3)  
- [Section 4 : √âvaluation des performances](#section-4)  
- [Section 5 : Int√©gration MLflow](#section-5)  
- [Section 6 : Documentation et synth√®se](#section-6)  

> Note : la table des mati√®res est indicative. Utilisez la navigation int√©gr√©e de votre √©diteur (ex. outline VSCode) pour acc√©der rapidement aux sections.
---

<a id="section-0"></a>
# Section 0 : Importation des packages

In [1]:
import logging
import pandas as pd
from pathlib import Path


# Import des fonctions utilitaires 

import sys
from pathlib import Path

PROJECT_ROOT = Path.cwd().parent
SRC_PATH = PROJECT_ROOT / "src"

if str(SRC_PATH) not in sys.path:
    sys.path.insert(0, str(SRC_PATH))


from data.load_data import load_data_raw
from utils.config_loader import load_config, create_directories
from utils.eda_logger import setup_eda_logger

import seaborn as sns
import matplotlib.pyplot as plt

#pipeline
from utils.config_loader import load_config
from data.load_data import load_data_raw
from data.clean_data import run_cleaning_pipeline
from feature_engineering.build_features import run_feature_engineering_pipeline

In [2]:
# Configuration du logger pour voir les infos dans le notebook
logging.basicConfig(level=logging.INFO, format="%(asctime)s - %(message)s")
logger = logging.getLogger("notebook")

<a id="section-1"></a>
# Section 1:Chargement des data

In [None]:
cfg = load_config()
create_directories(cfg) # cr√©er les dossiers si absent

# A. Chargement Raw
logger.info("--- 1. LOADING ---")
df_raw = load_data_raw(cfg)

# B. Nettoyage 
logger.info("--- 2. CLEANING ---")
df_cleaned = run_cleaning_pipeline(df_raw, cfg)

# C. Feature Engineering 
logger.info("--- 3. FEATURE ENGINEERING ---")

df_final = run_feature_engineering_pipeline(df_cleaned, cfg)

# 5. V√©rification
print(f"Donn√©es pr√™tes pour le mod√®le : {df_final.shape}")


2026-01-10 23:52:22,845 - Configuration 'config' charg√©e (project_root=C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2)
2026-01-10 23:52:22,845 - R√©pertoire pr√™t : C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2\data\raw
2026-01-10 23:52:22,852 - R√©pertoire pr√™t : C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2\data\interim
2026-01-10 23:52:22,852 - R√©pertoire pr√™t : C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2\data\processed
2026-01-10 23:52:22,854 - R√©pertoire pr√™t : C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2\figures
2026-01-10 23:52:22,858 - R√©pertoire pr√™t : C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2\reports
2026-01-10 23:52:22,859 - --- 1. LOADING ---
2026-01-10 23:52:22,893 - DataFrame charg√© : 3376 lignes, 46 colonnes
2026-01-10 23:52:22,911 - ‚úîÔ∏è 2016_Building_Energy_Benchmarking.csv : Identique √† la version pr√©c√©dente.
2026-01-10 23:52:22,912 - --- 2. CLEANI

   [Audit] section_0 : -1752 lignes export√©es vers section_0_removed.csv
   [Audit] section_1 : -119 lignes export√©es vers section_1_removed.csv
   [Audit] section_2 : -33 lignes export√©es vers section_2_removed.csv


2026-01-10 23:52:23,727 - ‚úì Donn√©es sauvegard√©es dans : C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2\data\interim\data_cleaned.csv
2026-01-10 23:52:23,732 - --- 3. FEATURE ENGINEERING ---
2026-01-10 23:52:23,732 - --- D√©marrage : Feature Engineering ---
2026-01-10 23:52:23,840 - ‚úì Feature Engineering termin√©. Shape: (1407, 61)


   [Audit] section_3 : -65 lignes export√©es vers section_3_removed.csv
‚úì Feature engineering sauvegarde dans : C:\Users\HP\Desktop\temp\TODO\SEMESTRE_1\ML1\ML-prediction-CO2\data\processed\model_input.csv
Donn√©es pr√™tes pour le mod√®le : (1407, 61)


<a id="section-2"></a>
# Section 2 : Chargement et inspection structurelle

Cette section se concentre sur le chargement initial des donn√©es √† partir du fichier CSV et une inspection structurelle de base. L'objectif est d'obtenir une premi√®re vue d'ensemble du dataset, de v√©rifier son int√©grit√© et d'identifier tout probl√®me √©vident au niveau du format ou de la structure.

## Importation du CSV

In [3]:
# Chargement des donn√©es brutes
df_raw = load_data_raw(cfg)

# Validation dimensions
n_rows, n_cols = df_raw.shape
logger.info(f"Dataset charg√© ({n_rows} lignes, {n_cols} colonnes)")



2025-12-31 12:36:31,899 - data.load_data - INFO - DataFrame charg√© : 3376 lignes, 46 colonnes
2025-12-31 12:36:31,955 - data.load_data - INFO -  Int√©grit√© des donn√©es valid√©e (Aucune modification d√©tect√©e).
2025-12-31 12:36:31,957 - __main__ - INFO - Dataset charg√© (3376 lignes, 46 colonnes)


---
Le chargement nous donne un DataFrame avec 3376 lignes et 46 colonnes.

## Affichage pour premi√®re impression visuelle
---

In [4]:
# Forcer pandas √† afficher toutes les colonnes
pd.set_option("display.max_columns", None)

# Forcer pandas √† afficher toutes les lignes (si besoin)
pd.set_option("display.max_rows", None)

# Forcer pandas √† afficher toute la largeur (√©vite les "...")
pd.set_option("display.width", None)

