# Pr√©disez la consommation d'√©nergie des b√¢timents dans la ville de Seattle.

<div align="left">
  <img src="https://user.oc-static.com/upload/2024/09/11/17260684381511_Capture%20d%E2%80%99e%CC%81cran%202024-09-11%20a%CC%80%2017.22.25.png" width="200px">
</div>

## **Objetif**: Pr√©dire les **√©missions de CO2** et la **consommation totale d‚Äô√©nergie** de **b√¢timents non destin√©s √† l‚Äôhabitation**

- Auteur......: **Rafael CEREZO MARTIN**
- Date........: **D√©cembre 2025**

# <span style="color:red">PART 3. FEATURE ENGINEERING V2 (DataCleanner Fit et Transform)</span>

# STEP 1. CONFIGURATION DU PROJET

## ‚¨áÔ∏è IMPORTATION DES LIBRAIRIES (STACK DE SCIENCE DES DONN√âES)

In [1]:
# ==================================================================================================
# GESTION DES IMPORTATIONS ET D√âPENDANCES DU PIPELINE ML
# ==================================================================================================

import os                                             # Gestion du syst√®me de fichiers et des chemins
# Biblioth√®ques de manipulation et calcul
import pandas            as pd                        # Analyse et manipulation de structures de donn√©es
import numpy             as np                        # Calcul num√©rique et op√©rations sur matrices

# Biblioth√®ques de visualisation
import matplotlib.pyplot as plt                       # Trac√©s graphiques de base
import seaborn           as sns                       # Visualisation de donn√©es statistiques avanc√©es

# --------------------------------------------------------------------------------------------------
# COMPOSANTS SCIKIT-LEARN : S√âLECTION, √âVALUATION ET M√âTRIQUES
# --------------------------------------------------------------------------------------------------
from   sklearn.model_selection import (
       train_test_split,                              # Division du dataset en train et test sets
       GridSearchCV,                                  # Optimisation des hyperparam√®tres par grille
       cross_validate,                                # √âvaluation par validation crois√©e
       KFold                                          # Strat√©gie de d√©coupage des donn√©es (K-plis)
)

from   sklearn.metrics         import (
       mean_squared_error,                            # Mesure de l'erreur quadratique moyenne (MSE)
       r2_score,                                      # Coefficient de d√©termination (Qualit√© du fit)
       mean_absolute_error                            # Erreur absolue moyenne (Interpr√©tation directe)
)

from   sklearn.inspection      import (
       permutation_importance                         # √âvaluation de l'importance des variables
)

# --------------------------------------------------------------------------------------------------
# COMPOSANTS SCIKIT-LEARN : PR√âTRAITEMENT ET ARCHITECTURE (ENGINEERING)
# --------------------------------------------------------------------------------------------------
from   sklearn.compose         import ColumnTransformer # Application de transformations par colonne
from   sklearn.pipeline        import Pipeline          # Orchestration s√©quentielle des transformations
from   sklearn.impute          import SimpleImputer     # Gestion des valeurs manquantes (NaNs)
from   sklearn.preprocessing   import (
       LabelEncoder,                                    # Encodage des √©tiquettes cibles
       OneHotEncoder,                                   # Conversion des variables cat√©gorielles en binaires
       StandardScaler,                                  # Normalisation centr√©e-r√©duite (Standard Score)
       FunctionTransformer                              # Cr√©ation de transformateurs personnalis√©s
)

# --------------------------------------------------------------------------------------------------
# COMPOSANTS SCIKIT-LEARN : MOD√àLES DE R√âGRESSION
# --------------------------------------------------------------------------------------------------
from   sklearn.dummy           import DummyRegressor        # Mod√®le de base pour comparaison (Baseline)
from   sklearn.linear_model    import LinearRegression      # Mod√®le de r√©gression lin√©aire classique
from   sklearn.svm             import SVR                   # Support Vector Regression (Espace de Hilbert)
from   sklearn.ensemble        import RandomForestRegressor # For√™ts al√©atoires (Bagging d'arbres)

# ----------------------------------------------------------------------------------------------------------------------
# CUSTOM FUNTIONS
# ----------------------------------------------------------------------------------------------------------------------
from   seattle_custom_funtions import filtrer_uniquement_non_residentiel


## ‚ùáÔ∏è LOAD AND EXPLORE DATASET

In [2]:
# Configuration des sources de donn√©es
# dataset_url    = "https://s3.eu-west-1.amazonaws.com/course.oc-static.com/projects/Data_Scientist_P4/2016_Building_Energy_Benchmarking.csv"
dataset_url      = "2016_Building_Energy_Benchmarking.csv"      # Source locale
dataset_raw      = pd.read_csv(dataset_url)                     # Chargement

# ----------------------------------------------------------------------------
# √âTAT INITIAL DU DATASET
# ----------------------------------------------------------------------------
# Calcul des dimensions pour le rapport visuel
nb_lignes        = dataset_raw.shape[0]           # Nombre total d'observations
nb_colonnes      = dataset_raw.shape[1]           # Nombre total de variables
memoire_usage    = dataset_raw.memory_usage().sum() / 1024**2 # Taille en Mo

print("\n============================================================================")
print("RAPPORT INITIAL DU DATASET")
print("============================================================================")
print(f"  Source du fichier.....: {dataset_url}")
print(f"  Nombre de lignes......: {nb_lignes}")
print(f"  Nombre de colonnes....: {nb_colonnes}")
print(f"  M√©moire utilis√©e......: {memoire_usage:.2f} MB")
print("  Status................: ‚úÖ Chargement r√©ussi")
print("============================================================================")



RAPPORT INITIAL DU DATASET
  Source du fichier.....: 2016_Building_Energy_Benchmarking.csv
  Nombre de lignes......: 3376
  Nombre de colonnes....: 46
  M√©moire utilis√©e......: 1.16 MB
  Status................: ‚úÖ Chargement r√©ussi


In [3]:
# Dictionnaire de m√©tadonn√©es pour les graphiques 
meta_dict = {
    "OSEBuildingID"                   : "Identifiant unique du b√¢timent",
    "DataYear"                        : "Ann√©e de relev√©",
    "BuildingType"                    : "Type de b√¢timent",
    "PrimaryPropertyType"             : "Utilisation principale du b√¢timent",
    "PropertyName"                    : "Nom du b√¢timent",
    "Address"                         : "Adresse postale",
    "City"                            : "Ville",
    "State"                           : "√âtat",
    "ZipCode"                         : "Code postal",
    "TaxParcelIdentificationNumber"   : "Num√©ro de parcelle fiscale",
    "CouncilDistrictCode"             : "District du conseil",
    "Neighborhood"                    : "Quartier",
    "Latitude"                        : "Coordonn√©e Latitude",
    "Longitude"                       : "Coordonn√©e Longitude",
    "YearBuilt"                       : "Ann√©e de construction",
    "NumberofBuildings"               : "Nombre de b√¢timents",
    "NumberofFloors"                  : "Nombre d'√©tages",
    "PropertyGFATotal"                : "Surface totale (pieds carr√©s)",
    "PropertyGFAParking"              : "Surface de parking",
    "PropertyGFABuilding(s)"          : "Surface b√¢tie",
    "ListOfAllPropertyUseTypes"       : "Liste des types d'utilisation",
    "LargestPropertyUseType"          : "Utilisation principale (GFA)",
    "LargestPropertyUseTypeGFA"       : "Surface de l'utilisation principale",
    "SecondLargestPropertyUseType"    : "Deuxi√®me utilisation",
    "SecondLargestPropertyUseTypeGFA" : "Surface de la deuxi√®me utilisation",
    "ThirdLargestPropertyUseType"     : "Troisi√®me utilisation",
    "ThirdLargestPropertyUseTypeGFA"  : "Surface de la troisi√®me utilisation",
    "YearsENERGYSTARCertified"        : "Ann√©es de certification ENERGY STAR",
    "ENERGYSTARScore"                 : "Score ENERGY STAR (0-100)",
    "SiteEUI(kBtu/sf)"                : "Intensit√© √©nerg√©tique du site",
    "SiteEUIWN(kBtu/sf)"              : "Intensit√© √©nerg√©tique du site (Normalis√©e)",
    "SourceEUI(kBtu/sf)"              : "Intensit√© √©nerg√©tique √† la source",
    "SourceEUIWN(kBtu/sf)"            : "Intensit√© √©nerg√©tique √† la source (Normalis√©e)",
    "SiteEnergyUse(kBtu)"             : "Consommation totale d'√©nergie",
    "SiteEnergyUseWN(kBtu)"           : "Consommation totale d'√©nergie (Normalis√©e)",
    "SteamUse(kBtu)"                  : "Vapeur de r√©seau consomm√©e",
    "Electricity(kWh)"                : "√âlectricit√© consomm√©e (kWh)",
    "Electricity(kBtu)"               : "√âlectricit√© consomm√©e (kBtu)",
    "NaturalGas(therms)"              : "Gaz naturel consomm√© (therms)",
    "NaturalGas(kBtu)"                : "Gaz naturel consomm√© (kBtu)",
    "DefaultData"                     : "Donn√©es par d√©faut utilis√©es",
    "Comments"                        : "Commentaires",
    "ComplianceStatus"                : "Statut de conformit√©",
    "Outlier"                         : "B√¢timent atypique (Outlier)",
    "TotalGHGEmissions"               : "√âmissions totales de GES",
    "GHGEmissionsIntensity"           : "Intensit√© d'√©missions de GES"
}

## üï∏Ô∏è FILTRAGE DU P√âRIM√àTRE M√âTIER : EXCLUSION DU R√âSIDENTIEL

In [4]:
df_filtre = filtrer_uniquement_non_residentiel(dataset_raw)


FILTRAGE DU P√âRIM√àTRE D'√âTUDE
  üè¢ B√¢timents initiaux :  3376
  üö´ B√¢timents retir√©s  :  1708 (Type: Multifamily)
  ‚úÖ B√¢timents restants :  1668 (P√©rim√®tre Non-R√©sidentiel uniquement)



## ‚öôÔ∏è CONFIGURATION GLOBALE DU PROJET: FEATURE_TARGET, SEED, LEAKAGE_THRESHOLD

In [4]:
# ============================================================================
# 1.5 CONFIGURATION GLOBALE DU PROJET
# ============================================================================

# D√©finition de la variable cible du projet (Target)
FEATURE_TARGET    = "SiteEnergyUse(kBtu)"        # Variable √† pr√©dire

# D√©finition de l'√©tat al√©atoire pour la reproductibilit√© des r√©sultats
# Le nombre 42 est un standard dans la communaut√© Data Science
SEED              = 42                          # √âtat al√©atoire global

# Seuil de corr√©lation pour la d√©tection de Data Leakage (Fuga de datos)
LEAKAGE_THRESHOLD = 0.95                        # Seuil critique (95%)

# 1. Supprimer la limite de largeur de la console (d√©finie √† None)
pd.set_option('display.expand_frame_repr', False)

# 2. S‚Äôassurer que la largeur des colonnes est suffisante pour les noms longs
pd.set_option('display.max_colwidth', None)

# 3. (Optionnel) Si vous avez beaucoup de lignes, vous pouvez contr√¥ler combien en afficher
pd.set_option('display.max_rows', 100)

# ----------------------------------------------------------------------------
# RAPPORT DE CONFIGURATION
# ----------------------------------------------------------------------------
print("\n============================================================================")
print("PARAM√àTRES DE CONFIGURATION INITIALIS√âS")
print("============================================================================")
print(f"  Variable cible (Target)...: {FEATURE_TARGET}")
print(f"  Graine al√©atoire (SEED)...: {SEED}")
print("  Status....................: ‚úÖ Configuration pr√™te")
print("============================================================================")


PARAM√àTRES DE CONFIGURATION INITIALIS√âS
  Variable cible (Target)...: SiteEnergyUse(kBtu)
  Graine al√©atoire (SEED)...: 42
  Status....................: ‚úÖ Configuration pr√™te


# STEP 2. üõ† FEATURE ENGINERING

## ‚¨áÔ∏è Import Classe auxiliare pour analyse (DataCleaner)

In [5]:
# ==================================================================================================
# INITIALISATION DU MOTEUR DE NETTOYAGE (DATA CLEANING)
# ==================================================================================================

# Importation de la classe personnalis√©e d'ing√©nierie des donn√©es
# Cette classe encapsule les r√®gles m√©tier sp√©cifiques au dataset de Seattle.
from data_preprocessing  import DataCleaner                # Module de nettoyage propri√©taire

# Initialisation du nettoyeur global
# verbose=True permet d'√©diter un rapport d√©taill√© des transformations effectu√©es.
cleaner_global           = DataCleaner(
                           df      = df_filtre,        # Source des donn√©es brutes
                           verbose = True              # Activation des logs d√©taill√©s
)

# --------------------------------------------------------------------------------------------------
# RAPPORT D'√âTAT DU NETTOYEUR
# --------------------------------------------------------------------------------------------------
print("\n==================================================================================================")
print("INSTANCIATION DU MOTEUR DE NETTOYAGE")
print("==================================================================================================")
print(f"  Objet cr√©√©............: {type(cleaner_global).__name__}")
print(f"  Mode verbeux..........: Activ√© (Diagnostic temps r√©el)")
print(f"  Source de donn√©es.....: dataset_raw (ID: {id(dataset_raw)})")
print(f"  Statut................: ‚úÖ Pr√™t pour l'√©tape de transformation")
print("==================================================================================================\n")


INSTANCIATION DU MOTEUR DE NETTOYAGE
  Objet cr√©√©............: DataCleaner
  Mode verbeux..........: Activ√© (Diagnostic temps r√©el)
  Source de donn√©es.....: dataset_raw (ID: 2358750205600)
  Statut................: ‚úÖ Pr√™t pour l'√©tape de transformation



## üîçÔ∏é DataCleaner "FIT". ANALYSE ET APPRENTISSAGE DES R√àGLES DE NETTOYAGE (FIT)

In [6]:
# ==================================================================================================
# 4.1 ANALYSE ET APPRENTISSAGE DES R√àGLES DE NETTOYAGE (FIT)
# ==================================================================================================

# Ex√©cution de la m√©thode fit : le moteur analyse les statistiques du dataset
# pour calibrer ses futurs processus d'imputation et de transformation.
# --------------------------------------------------------------------------------------------------
cleaner_global.fit(
    cleaner_global.df                                      # Jeu de donn√©es source pour calibration
)

# --------------------------------------------------------------------------------------------------
# RAPPORT DE POST-CALIBRATION
# --------------------------------------------------------------------------------------------------
print("\n==================================================================================================")
print("PHASE DE CALIBRATION DU NETTOYEUR (FIT) TERMIN√âE")
print("==================================================================================================")
print(f"  Source de calibration.: DataFrame (Shape: {cleaner_global.df.shape})")
print(f"  Statut du moteur......: ‚úÖ Param√®tres internes m√©moris√©s")
print(f"  Prochaine √©tape.......: Application des transformations (Transform)")
print("==================================================================================================\n")


 INITIATION DU FIT : ANALYSE STATISTIQUE DU DATASET D'ENTRA√éNEMENT
--------------------------------------------------------------------------------
 FIT √âTAPE 0 : NORMALISATION INITIALE (Cruciale pour la coh√©rence) 
--------------------------------------------------------------------------------
‚ú® Normalisation termin√©e sur 15 colonnes.
********************************************************************************
 FIT √âTAPE 1 : IDENTIFICATION STRUCTURELLE (NETTOYAGE INITIAL)
********************************************************************************
--------------------------------------------------------------------------------
 FIT √âTAPE 1.1 : Constantes. Supresion 
--------------------------------------------------------------------------------
 F 1.1 Colonnes Constantes............: ['DataYear', 'City', 'State', 'Comments']
   ‚úì 4 colonnes supprim√©es r√©ellement.
--------------------------------------------------------------------------------
 FIT √âTAPE 1.2 : √

## üîÑ DataCleaner "TRANSFORM": APPLICATION DES TRANSFORMATIONS ET G√âN√âRATION DU DATASET NETTOY√â

In [7]:
# ==================================================================================================
# APPLICATION DES TRANSFORMATIONS ET G√âN√âRATION DU DATASET NETTOY√â
# ==================================================================================================

# Ex√©cution de la m√©thode transform : application des filtres, imputations et encodages m√©tier.
# Le r√©sultat est un DataFrame purifi√©, pr√™t pour la phase de partitionnement (Split).
# --------------------------------------------------------------------------------------------------
df_clean         = cleaner_global.transform(
                   cleaner_global.df                        # Application des r√®gles sur les donn√©es
)

# ==================================================================================================
# ANALYSE DU FLUX DES VARIABLES (DYNAMIQUE DU FEATURE ENGINEERING)
# ==================================================================================================

# Calcul des indicateurs de mouvement des caract√©ristiques
cols_initiales   = cleaner_global.df.columns.tolist()       # Liste des variables brutes
cols_finales     = df_clean.columns.tolist()                # Liste des variables apr√®s transformation

# Identification des colonnes cr√©√©es et supprim√©es
cols_supprimees  = [c for c in cols_initiales if c not in cols_finales] # Variables √©limin√©es (Audit)
cols_creees      = [c for c in cols_finales if c not in cols_initiales] # Nouvelles variables (FE)

# --------------------------------------------------------------------------------------------------
# RAPPORT D√âTAILL√â DE LA M√âTAMORPHOSE DES DONN√âES
# --------------------------------------------------------------------------------------------------
print("\n==================================================================================================")
print("BILAN DE LA M√âTAMORPHOSE DU DATASET (CLEANING + FEATURE ENGINEERING)")
print("==================================================================================================")
print(f"  Variables initiales...: {len(cols_initiales)}")
print(f"  Variables supprim√©es..: {len(cols_supprimees)} (Exclues par le protocole de nettoyage)")
print(f"  Variables cr√©√©es......: {len(cols_creees)} (G√©n√©r√©es par Feature Engineering)")
print(f"  Variables finales.....: {len(cols_finales)} (Dimensions de l'espace de caract√©ristiques)")
print("--------------------------------------------------------------------------------------------------")

if cols_creees:
    print(f"  Focus Cr√©ation........: {', '.join(cols_creees[:5])}{'...' if len(cols_creees) > 5 else ''}")
    
print(f"  Gain/Perte net........: {len(cols_finales) - len(cols_initiales):+d} colonnes")
print(f"  Statut du flux........: ‚úÖ Transformation √©quilibr√©e et audit√©e")
print("==================================================================================================\n")


 EX√âCUTION DU TRANSFORM : TRAITEMENT S√âQUENTIEL DES DONN√âES
--------------------------------------------------------------------------------
 TRANSFORM √âTAPE 0 : NORMALISATION INITIALE (Cruciale pour la coh√©rence) 
--------------------------------------------------------------------------------
‚ú® Normalisation termin√©e sur 15 colonnes.
********************************************************************************
 TRANSFORM ETAPE 1 : LIMPIEZA ESTRUCTURAL (ELIMINACI√ìN) 
********************************************************************************
--------------------------------------------------------------------------------
 TRANSFORM √âTAPE 1.1 : Constantes. Supresion 
--------------------------------------------------------------------------------
 F 1.1 Colonnes Constantes............: ['DataYear', 'City', 'State', 'Comments']
   ‚úì 4 colonnes supprim√©es r√©ellement.
--------------------------------------------------------------------------------
 TRANSFORM √âTAPE 

## üë§ AUDIT DE CARDINALIT√â ET DIAGNOSTIC DES TYPES DE DONN√âES

In [14]:
# ==================================================================================================
# AUDIT DE CARDINALIT√â ET DIAGNOSTIC DES TYPES DE DONN√âES
# ==================================================================================================

# 1. Analyse statistique des colonnes
# Cette m√©thode calcule la diversit√© des valeurs (cardinalit√©) pour chaque caract√©ristique.
# Indispensable pour d√©cider de la strat√©gie d'encodage (One-Hot vs Target Encoding).
# --------------------------------------------------------------------------------------------------
df_analyse       = cleaner_global.analyser_cardinalite(
                   df_clean                                 # Dataset transform√© √† auditer
)

# 2. G√©n√©ration du rapport d'expertise
# Affiche une synth√®se structur√©e : Types, Taux de compl√©tude, et Unicit√© des valeurs.
# --------------------------------------------------------------------------------------------------
print("\n==================================================================================================")
print("RAPPORT: STRUCTURE ET CARDINALIT√â DES VARIABLES")
print("==================================================================================================")

cleaner_global.afficher_rapport(
    df_analyse                                              # Table de m√©triques g√©n√©r√©e pr√©c√©demment
)

# --------------------------------------------------------------------------------------------------
# SYNTH√àSE CRITIQUE (NIVEAU DARIO AMODEI)
# --------------------------------------------------------------------------------------------------
# Une cardinalit√© trop √©lev√©e sur des variables cat√©gorielles (ex: > 50 modalit√©s) 
# peut entra√Æner un sur-apprentissage (Overfitting) et une explosion de la dimensionnalit√©.
# V√©rifiez particuli√®rement les variables de type 'object' ou 'category'.
# --------------------------------------------------------------------------------------------------



RAPPORT: STRUCTURE ET CARDINALIT√â DES VARIABLES

‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
                           ANALYSE DE CARDINALIT√â (9 colonnes)                            
‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ

üìä Variable : PropertyName
  ‚Ä¢ Type               : object
  ‚Ä¢ Valeurs uniques    : 3360 (99.5%)
  ‚Ä¢ Exemples           : MAYFLOWER PARK HOTEL, PARAMOUNT HOTEL, 5673-THE WESTIN SEATTLE, HOTEL MAX
  ‚ùå ACTION : SUPPRIMER - Identifiant unique

üìä Variable : Address
  ‚Ä¢ Type               : object
  ‚Ä¢

## üíæ PERSISTANCE DU DATASET FINAL (EXPORTATION CSV)

In [15]:
# ==================================================================================================
# PERSISTANCE DU DATASET FINAL (EXPORTATION CSV)
# ==================================================================================================

print("\n==================================================================================================")
print("SAUVEGARDE ET EXPORTATION DU DATASET PR√äT POUR LA MOD√âLISATION")
print("==================================================================================================")

# 1. Construction dynamique du nom de fichier
# L'utilisation d'une nomenclature versionn√©e (V2) facilite le suivi des it√©rations de FE.
file_name        = "dataset_Seattle_Feature_Engineering_V2.csv"

# 2. Sauvegarde physique sur le support de stockage
# index=False est crucial pour ne pas ajouter de colonne technique inutile lors de la relecture.
df_clean.to_csv(
    file_name,                                              # Chemin d'acc√®s et nom du fichier cible
    index        = False                                    # Exclusion de l'index Pandas
)

# 3. Rapport de confirmation et m√©tadonn√©es de sortie
print(f"  Fichier g√©n√©r√©........: {file_name}")
print(f"  Taille du fichier.....: {os.path.getsize(file_name) / 1024:.2f} KB")
print(f"  Emplacement...........: {os.getcwd()}")
print(f"  Statut................: ‚úÖ [SAVE] FINAL DATASET READY FOR MODELING")
print("==================================================================================================\n")


SAUVEGARDE ET EXPORTATION DU DATASET PR√äT POUR LA MOD√âLISATION
  Fichier g√©n√©r√©........: dataset_Seattle_Feature_Engineering_V2.csv
  Taille du fichier.....: 3286.21 KB
  Emplacement...........: C:\Users\Public\IAE_DELL\pra_dell\m3\notebooks\datos_seattle_local
  Statut................: ‚úÖ [SAVE] FINAL DATASET READY FOR MODELING

