# Pr√©disez la consommation d'√©nergie des b√¢timents dans la ville de Seattle.

<div align="left">
  <img src="https://user.oc-static.com/upload/2024/09/11/17260684381511_Capture%20d%E2%80%99e%CC%81cran%202024-09-11%20a%CC%80%2017.22.25.png" width="200px">
</div>

## **Objetif**: Pr√©dire les **√©missions de CO2** et la **consommation totale d‚Äô√©nergie** de **b√¢timents non destin√©s √† l‚Äôhabitation**

- Auteur......: **Rafael CEREZO MARTIN**
- Date........: **D√©cembre 2025**

# <span style="color:red"> üèÜ Mod√©lisation compl√®te via sklearn.pipeline int√©grant le Feature Engineering.</span>

# ‚¨áÔ∏è IMPORTATION DES LIBRAIRIES (STACK DE SCIENCE DES DONN√âES)

In [33]:
# ##############################################################################
# MODULES STANDARDS ET BIBLIOTH√àQUES TIERCES
# ##############################################################################

# Biblioth√®ques de base
import os                                     # Gestion du syst√®me de fichiers
import joblib                                 # Persistance des objets Python
import numpy             as np                # Calcul num√©rique optimis√©
import pandas            as pd                # Manipulation de structures data

# Transformation et Preprocessing Sklearn
from   sklearn.pipeline  import Pipeline      # Encha√Ænement des transformations
from   sklearn.compose   import ColumnTransformer # Application par colonnes
from   sklearn.impute    import SimpleImputer # Gestion des valeurs manquantes
from   sklearn.preprocessing import (
    StandardScaler,                           # Normalisation des donn√©es
    OneHotEncoder,                            # Encodage cat√©goriel binaire
    FunctionTransformer                       # Transformations personnalis√©es
)

# Mod√®les et √âvaluation
from   sklearn.dummy           import DummyRegressor        # Mod√®le de base
from   sklearn.ensemble        import RandomForestRegressor # For√™t al√©atoire
from   sklearn.linear_model    import LinearRegression      # R√©gression lin√©aire
from   sklearn.svm             import SVR                   # Machine √† vecteurs de support

from   sklearn.model_selection import (
    train_test_split,                         # Division du jeu de donn√©es
    cross_validate,                           # Validation crois√©e
    KFold                                     # Strat√©gie de d√©coupage CV
)
from   sklearn.metrics   import (
    r2_score,                                 # Coefficient de d√©termination
    mean_squared_error                        # Erreur quadratique moyenne
)

# Encodages avanc√©s
from   category_encoders import TargetEncoder # Encodage par la cible

# ‚úÇÔ∏è Load and Split Dataset pour Train et Test

In [34]:
print("\n============================================================================")
print("√âTAPE 4 : EX√âCUTION DU WORKFLOW DE MOD√âLISATION")
print("============================================================================")
# Chargement et s√©paration initiale
df_raw               = pd.read_csv('2016_Building_Energy_Benchmarking.csv')
X_prep, y_prep       = preparation_initiale(df_raw)

X_train, X_test, y_train, y_test = train_test_split(
    X_prep, y_prep, test_size=0.2, random_state=42
)


√âTAPE 4 : EX√âCUTION DU WORKFLOW DE MOD√âLISATION
‚ö†Ô∏è Nettoyage Target...: 5 lignes supprim√©es


# ‚¨áÔ∏è üë§ METHODES POUR LE PRE-PIPELINE

In [35]:
# ##############################################################################
# √âTAPE 0 : PR√âPARATION INITIALE (NETTOYAGE HORS-PIPELINE)
# ##############################################################################

def preparation_initiale(df, target='SiteEnergyUse(kBtu)'):
    """
    R√©alise le nettoyage structurel et √©limine les valeurs cibles manquantes.
    """
    df_work          = df.copy()

    # 0.1 √âlimination critique : Lignes sans valeur cible (Target)
    # --------------------------------------------------------------------------
    nb_avant         = len(df_work)
    df_work          = df_work.dropna(subset=[target])
    nb_apres         = len(df_work)
    
    if nb_avant != nb_apres:
        print(f"‚ö†Ô∏è Nettoyage Target...: {nb_avant - nb_apres} lignes supprim√©es")

    # 0.2 Suppression des colonnes constantes ou non informatives
    # --------------------------------------------------------------------------
    cols_a_supprimer = ['DataYear', 'City', 'State', 'Comments', 
                        'Outlier', 'OSEBuildingID', 'Electricity(kWh)']
    
    df_work          = df_work.drop(columns=cols_a_supprimer, errors='ignore')

    # 0.3 S√©paration des caract√©ristiques et de la cible
    # --------------------------------------------------------------------------
    y                = df_work[target]
    x                = df_work.drop(columns=[target])

    return x, y
    
# ##############################################################################
# √âTAPE 1 : IDENTIFICATION ET TYPAGE DES COLONNES
# ##############################################################################

def identifier_colonnes(df_x):
    """
    Cat√©gorise les variables pour orienter les strat√©gies de transformation.
    """
    # 1.1 Variables num√©riques continues (Consommation, Surface, Localisation)
    numeriques       = ['Latitude', 'Longitude', 'YearBuilt', 'NumberofBuildings',
                        'NumberofFloors', 'PropertyGFATotal', 
                        'PropertyGFAParking', 'PropertyGFABuilding(s)',
                        'LargestPropertyUseTypeGFA', 
                        'SecondLargestPropertyUseTypeGFA',
                        'ThirdLargestPropertyUseTypeGFA', 'ENERGYSTARScore',
                        'SiteEUI(kBtu/sf)', 'SiteEUIWN(kBtu/sf)',
                        'SourceEUI(kBtu/sf)', 'SourceEUIWN(kBtu/sf)',
                        'SteamUse(kBtu)', 'Electricity(kBtu)',
                        'NaturalGas(therms)', 'NaturalGas(kBtu)',
                        'TotalGHGEmissions', 'GHGEmissionsIntensity']

    # 1.2 Variables n√©cessitant une transformation logarithmique
    cols_log         = ['PropertyGFATotal', 'PropertyGFABuilding(s)',
                        'LargestPropertyUseTypeGFA', 'SiteEUI(kBtu/sf)', 
                        'SourceEUI(kBtu/sf)', 'SteamUse(kBtu)', 
                        'Electricity(kBtu)', 'NaturalGas(kBtu)',
                        'TotalGHGEmissions']

    # 1.3 Variables cat√©gorielles (Basse et Haute cardinalit√©)
    cat_ohe          = ['PrimaryPropertyType', 'BuildingType', 
                        'CouncilDistrictCode']
    cat_target       = ['Neighborhood']

    # 1.4 Variables n√©cessitant un indicateur de pr√©sence de vide
    cols_indic       = ['SecondLargestPropertyUseTypeGFA', 
                        'ThirdLargestPropertyUseTypeGFA', 'ENERGYSTARScore']

    # Filtrage par intersection pour garantir la pr√©sence dans le DataFrame
    return {
        'num_cont'   : [c for c in numeriques if c in df_x.columns],
        'num_log'    : [c for c in cols_log  if c in df_x.columns],
        'cat_ohe'    : [c for c in cat_ohe   if c in df_x.columns],
        'cat_target' : [c for c in cat_target if c in df_x.columns],
        'indic_nan'  : [c for c in cols_indic if c in df_x.columns]
    }

# ##############################################################################
# √âTAPE 2 : LOGIQUE DES TRANSFORMATEURS PERSONNALIS√âS
# ##############################################################################

def log_transform(df_x):
    """Applique log(1+x) avec gestion des valeurs n√©gatives."""
    df_x             = df_x.copy()
    for col in df_x.columns:
        if df_x[col].min() < 0:
            offset   = abs(df_x[col].min()) + 1
            df_x[col] = np.log1p(df_x[col] + offset)
        else:
            df_x[col] = np.log1p(df_x[col])
    return df_x

# ------------------------------------------------------------------------------

def winsorize_transform(df_x, lower=0.01, upper=0.99):
    """Limite les valeurs extr√™mes aux percentiles d√©finis."""
    df_x             = df_x.copy()
    for col in df_x.columns:
        q_low        = df_x[col].quantile(lower)
        q_high       = df_x[col].quantile(upper)
        df_x[col]    = df_x[col].clip(lower=q_low, upper=q_high)
    return df_x

# On cr√©e des fonctions simples qui appellent les originales avec les bons param√®tres
# Cela remplace les lambdas qui bloquent le joblib.dump
def wrapper_winsorize(df_x):
    return winsorize_transform(df_x, lower=0.01, upper=0.99)



# ------------------------------------------------------------------------------

def create_features(df_x):
    """G√©n√®re de nouvelles variables m√©tier (Feature Engineering)."""
    df_x             = df_x.copy()

    # Ratios d'efficacit√© √©nerg√©tique et environnementale
    if 'TotalGHGEmissions' in df_x.columns and 'PropertyGFATotal' in df_x.columns:
        df_x['GHG_Density']    = df_x['TotalGHGEmissions'] / \
                                 (df_x['PropertyGFATotal'] + 1)

    if 'SecondLargestPropertyUseTypeGFA' in df_x.columns:
        df_x['Multi_Usage']    = (df_x['SecondLargestPropertyUseTypeGFA'] > 0)\
                                 .astype(int)

    if 'ENERGYSTARScore' in df_x.columns:
        df_x['Energy_Level']   = pd.cut(df_x['ENERGYSTARScore'], 
                                        bins=[0, 50, 75, 100],
                                        labels=['Low', 'Med', 'High'],
                                        include_lowest=True).astype(str)
    return df_x

# ------------------------------------------------------------------------------

def create_missing_indicators(df_x, cols_to_flag):
    """Cr√©e des drapeaux binaires pour les valeurs manquantes importantes."""
    df_x             = df_x.copy()
    for col in cols_to_flag:
        if col in df_x.columns:
            df_x[f'{col}_Nan'] = df_x[col].isna().astype(int)
    return df_x

# On cr√©e des fonctions simples qui appellent les originales avec les bons param√®tres
# Cela remplace les lambdas qui bloquent le joblib.dump
def wrapper_missing_indicators(df_x, cols_to_flag):
    return create_missing_indicators(df_x, cols_to_flag)
    
# ##############################################################################
# √âTAPE 3 : CONSTRUCTION DU PIPELINE DE PR√âTRAITEMENT
# ##############################################################################

def build_preprocessing_pipeline(df_x, v_y=None):
    """Assemble les briques de transformation dans un ColumnTransformer."""
    info             = identifier_colonnes(df_x)

    # 3.1 Sous-pipeline : Num√©rique avec Log
    pipe_num_log     = Pipeline(steps=[
        ('log',      FunctionTransformer(log_transform, validate=False)),
        ('winsor',   FunctionTransformer(winsorize_transform, validate=False,
                                         kw_args={'lower': 0.01, 
                                                  'upper': 0.99})),
        ('imputer',  SimpleImputer(strategy='median')),
        ('scaler',   StandardScaler())
    ])

    # 3.2 Sous-pipeline : Cat√©goriel One-Hot
    pipe_cat_ohe     = Pipeline(steps=[
        ('imputer',  SimpleImputer(strategy='constant', fill_value='NULL')),
        ('ohe',      OneHotEncoder(handle_unknown='ignore', sparse_output=False))
    ])

    # 3.3 Sous-pipeline : Target Encoding
    pipe_target      = Pipeline(steps=[
        ('imputer',  SimpleImputer(strategy='constant', fill_value='NULL')),
        ('target',   TargetEncoder(smoothing=10, min_samples_leaf=20))
    ])

    # Construction des transformateurs
    dispatch         = [
        ('n_log',    pipe_num_log, info['num_log']),
        ('c_ohe',    pipe_cat_ohe, info['cat_ohe'])
    ]

    if v_y is not None and info['cat_target']:
        dispatch.append(('c_target', pipe_target, info['cat_target']))

    preprocessor     = ColumnTransformer(transformers=dispatch, remainder='drop')

    # Pipeline global int√©grant le feature engineering
    return Pipeline(steps=[
        ('nan_flags', FunctionTransformer(create_missing_indicators, 
                                                  validate=False,
                                                  kw_args={'cols_to_flag': 
                                                           info['indic_nan']})),
        ('feat_eng',  FunctionTransformer(create_features, validate=False)),
        ('preproc',   preprocessor)
    ])



# 1. ‚öôÔ∏è Initialisation du PRE-PIPELINE

In [36]:
# Initialisation du pipeline de traitement
pre_pipeline         = build_preprocessing_pipeline(X_train, y_train)

# 2. ‚öôÔ∏è CONFIGURATION DU BENCHMARK

In [37]:
# ============================================================================
# CONFIGURATION DU PROTOCOLE D'√âVALUATION (VALIDATION CROIS√âE)
# ============================================================================
# D√©finition de la strat√©gie de validation crois√©e (5-Fold)
# On utilise shuffle=True pour garantir l'ind√©pendance des √©chantillons.
# La constante SEED assure la reproductibilit√© du d√©coupage.
cv               = KFold(
                   n_splits     = 5, 
                   shuffle      = True, 
                   random_state = 42
)

# D√©finition des m√©triques de performance pour la comparaison
# 'neg_' indique que Scikit-Learn maximise l'oppos√© de l'erreur.
scoring          = {
    "r2"         : "r2",                                # Pr√©cision R¬≤
    "mae"        : "neg_mean_absolute_error",           # Erreur MAE (Moyenne)
    "rmse"       : "neg_root_mean_squared_error",       # Erreur RMSE (√âcart)
}

# D√©finition des algorithmes √† challenger
models               = {
    # Mod√®le de r√©f√©rence : pr√©dit syst√©matiquement la moyenne du jeu d'entra√Ænement
    "Baseline (Moyenne)"  : DummyRegressor(strategy="mean"),

    # Mod√®le lin√©aire : cherche une relation directe entre les variables et la cible
    "R√©gression Lin√©aire" : LinearRegression(),

    # Mod√®le non-lin√©aire (SVR) : utilise des noyaux pour projeter les donn√©es dans un espace sup√©rieur
    "SVR (RBF)"           : SVR(kernel="rbf", C=1.0, epsilon=0.1),

    # Mod√®le d'ensemble (Random Forest) : agr√©gation de 100 arbres de d√©cision pour r√©duire la variance
    "Random Forest"       : RandomForestRegressor(
                            n_estimators = 100,             # Nombre d'arbres dans la for√™t
                            max_depth    = 10,              # Limite de profondeur pour √©viter l'overfit
                            random_state = 42,            # Graine pour la reproductibilit√©
                            n_jobs       = -1)              # Utilisation de tous les processeurs disponibles
}



# 3. ‚è≥ BENCHMARK DES MOD√àLES : EXTRACTION D√âTAILL√âE ET √âVALUATION

In [39]:
# ============================================================================
# BENCHMARK DES MOD√àLES : EXTRACTION D√âTAILL√âE ET √âVALUATION
# ============================================================================

# Initialisation de la structure de stockage
# Cette liste contiendra les dictionnaires de m√©triques pour chaque mod√®le.
results_list     = []                                        # Initialisation



print("\n============================================================================")
print("ü§ñ MOD√âLISATION - Comparaison via Cross-Validation")
print("============================================================================")

for name, model in models.items():
    print(f"\nüîÑ Cross-validation pour {name}...")
    
    # Cr√©ation du pipeline complet : Pr√©traitement + Mod√®le
    # Cette structure √©vite toute fuite de donn√©es (Data Leakage).
    full_pipe        = Pipeline(steps=[("prep", pre_pipeline), ("model", model)])
    
    # Ex√©cution de la validation crois√©e
    cv_res             = cross_validate(
                         full_pipe, 
                         X_train, 
                         y_train, 
                         cv                 = kf,
                         scoring            = scoring,
                         n_jobs             = -1,
                         return_train_score = True
    )
    
    # ------------------------------------------------------------------------
    # EXTRACTION EXPLICITE DES M√âTRIQUES (MOYENNES ET √âCARTS-TYPES)
    # ------------------------------------------------------------------------
    
    # M√©triques R¬≤ (Coefficient de d√©termination)
    r2_train_mean      = cv_res["train_r2"].mean()              # Moyenne Train
    r2_test_mean       = cv_res["test_r2"].mean()               # Moyenne CV
    r2_test_std        = cv_res["test_r2"].std()                # √âcart-type CV
    
    # M√©triques MAE (Erreur Absolue Moyenne)
    # Note : On multiplie par -1 car Scikit-Learn retourne des valeurs n√©gatives
    mae_train_mean     = -cv_res["train_mae"].mean()            # Moyenne Train
    mae_test_mean      = -cv_res["test_mae"].mean()             # Moyenne CV
    mae_test_std       = cv_res["test_mae"].std()               # √âcart-type CV
    
    # M√©triques RMSE (Erreur Quadratique Moyenne Racine)
    rmse_train_mean    = -cv_res["train_rmse"].mean()           # Moyenne Train
    rmse_test_mean     = -cv_res["test_rmse"].mean()            # Moyenne CV
    rmse_test_std      = -cv_res["test_rmse"].std()             # √âcart-type CV
    
    # Calcul de l'√©cart de g√©n√©ralisation (Overfit Gap)
    overfit_gap        = r2_train_mean - r2_test_mean           # √âcart R¬≤
    
    # ------------------------------------------------------------------------
    # AFFICHAGE DU RAPPORT DE PERFORMANCE
    # ------------------------------------------------------------------------
    print(f"‚úÖ {name}")
    print(f"   R¬≤   train..: {r2_train_mean:.4f} | CV: {r2_test_mean:.4f} "
          f"¬± {r2_test_std:.4f}")
    print(f"   MAE  train..: {mae_train_mean:.2f} | CV: {mae_test_mean:.2f} "
          f"¬± {mae_test_std:.2f}")
    print(f"   RMSE train..: {rmse_train_mean:.2f} | CV: {rmse_test_mean:.2f} "
          f"¬± {rmse_test_std:.2f}")
    
    # Diagnostic du comportement du mod√®le
    if   overfit_gap >  0.10:
        print(f"   ‚ö†Ô∏è  Surapprentissage probable (√©cart R¬≤ = {overfit_gap:.4f})")
    elif overfit_gap < -0.05:
        print(f"   ‚ö†Ô∏è  Sous-apprentissage possible")
    else:
        print(f"   ‚úÖ Bon √©quilibre train/CV")
    
    # ------------------------------------------------------------------------
    # ARCHIVAGE DANS LA STRUCTURE DE DONN√âES FINALE
    # ------------------------------------------------------------------------
    results_list.append({
        "Mod√®le"          : name,
        "R¬≤ CV (mean)"    : r2_test_mean,
        "R¬≤ CV (std)"     : r2_test_std,
        "MAE CV (mean)"   : mae_test_mean,
        "MAE CV (std)"    : mae_test_std,
        "RMSE CV (mean)"  : rmse_test_mean,
        "RMSE CV (std)"   : rmse_test_std,
        "R¬≤ train (mean)" : r2_train_mean,
        "Overfit gap (R¬≤)": overfit_gap
    })


ü§ñ MOD√âLISATION - Comparaison via Cross-Validation

üîÑ Cross-validation pour Baseline (Moyenne)...
‚úÖ Baseline (Moyenne)
   R¬≤   train..: 0.0000 | CV: -0.0010 ¬± 0.0010
   MAE  train..: 5405347.92 | CV: 5403874.72 ¬± 417144.62
   RMSE train..: 15271001.74 | CV: 14606281.39 ¬± -4614216.86
   ‚úÖ Bon √©quilibre train/CV

üîÑ Cross-validation pour R√©gression Lin√©aire...
‚úÖ R√©gression Lin√©aire
   R¬≤   train..: 0.4908 | CV: 0.4259 ¬± 0.1664
   MAE  train..: 3984754.81 | CV: 4490683.10 ¬± 189872.68
   RMSE train..: 10913064.24 | CV: 11215698.42 ¬± -4763989.50
   ‚úÖ Bon √©quilibre train/CV

üîÑ Cross-validation pour SVR (RBF)...
‚úÖ SVR (RBF)
   R¬≤   train..: -0.0477 | CV: -0.0629 ¬± 0.0263
   MAE  train..: 4121293.92 | CV: 4123643.17 ¬± 396142.28
   RMSE train..: 15628047.50 | CV: 14992698.65 ¬± -4554825.86
   ‚úÖ Bon √©quilibre train/CV

üîÑ Cross-validation pour Random Forest...
‚úÖ Random Forest
   R¬≤   train..: 0.9468 | CV: 0.6790 ¬± 0.2127
   MAE  train..: 349970.94 

# 4. üë§ ANALYSE COMPARATIVE ET S√âLECTION DU MOD√àLE OPTIMAL

In [40]:
# ============================================================================
# ANALYSE COMPARATIVE ET S√âLECTION DU MOD√àLE OPTIMAL
# ============================================================================

# Cr√©ation du DataFrame r√©capitulatif √† partir des r√©sultats collect√©s
# Le tri par R¬≤ CV (mean) place le mod√®le le plus performant au sommet.
comparison_df    = pd.DataFrame(results_list).sort_values(
                   by        = "R¬≤ CV (mean)", 
                   ascending = False
)

# Extraction automatique du vainqueur pour la suite du pipeline
best_model_name  = comparison_df.iloc[0]["Mod√®le"]
best_r2_score    = comparison_df.iloc[0]["R¬≤ CV (mean)"]

# ----------------------------------------------------------------------------
# AFFICHAGE DU CLASSEMENT FINAL
# ----------------------------------------------------------------------------
print("\n============================================================================")
print("üìä TABLEAU R√âCAPITULATIF (Performance Cross-Validation sur Train Set)")
print("============================================================================")

# Utilisation de to_string pour garantir l'alignement strict des colonnes
print(comparison_df.to_string(
      index      = False, 
      justify    = 'left', 
      float_format = lambda x: f"{x:.4f}" if isinstance(x, float) else x
))

print("============================================================================")
print(f"üèÜ MEILLEUR MOD√àLE D√âTECT√â : {best_model_name}  (selon R¬≤ CV mean)")
print(f"üìà Score R¬≤ de r√©f√©rence ..: {best_r2_score:.4f}")
print("============================================================================")

# ############################################################################
# INTERPR√âTATION 
# ############################################################################
# Le choix du mod√®le ne doit pas se baser uniquement sur le R¬≤ moyen.
# V√©rifiez √©galement le 'R¬≤ CV (std)' : un mod√®le stable pr√©sente un 
# √©cart-type faible, garantissant sa robustesse sur des donn√©es inconnues.
# ############################################################################


üìä TABLEAU R√âCAPITULATIF (Performance Cross-Validation sur Train Set)
Mod√®le               R¬≤ CV (mean)  R¬≤ CV (std)  MAE CV (mean)  MAE CV (std)  RMSE CV (mean)  RMSE CV (std)  R¬≤ train (mean)  Overfit gap (R¬≤)
      Random Forest  0.6790       0.2127        914506.4326   262550.6909    8597691.9446   -5266614.8115   0.9468          0.2678           
R√©gression Lin√©aire  0.4259       0.1664       4490683.1035   189872.6753   11215698.4195   -4763989.4994   0.4908          0.0649           
 Baseline (Moyenne) -0.0010       0.0010       5403874.7179   417144.6171   14606281.3938   -4614216.8551   0.0000          0.0010           
          SVR (RBF) -0.0629       0.0263       4123643.1744   396142.2756   14992698.6475   -4554825.8603  -0.0477          0.0152           
üèÜ MEILLEUR MOD√àLE D√âTECT√â : Random Forest  (selon R¬≤ CV mean)
üìà Score R¬≤ de r√©f√©rence ..: 0.6790


# 5. ‚è≥ ENTRA√éNEMENT DU MOD√àLE FINAL (PRODUCTION READY)

In [41]:
# ============================================================================
# ENTRA√éNEMENT DU MOD√àLE FINAL (PRODUCTION READY)
# ============================================================================

print("\n============================================================================")
print(f"üì¶ ENTRA√éNEMENT DU MOD√àLE OPTIMAL : {best_model_name}")
print("============================================================================")

# Extraction du pr√©processeur complet (incluant Feature Engineering)
# On r√©cup√®re l'objet pipeline de traitement que nous avons test√© en CV
final_preprocessor = pre_pipeline

# Choix de l'estimateur (Meilleur mod√®le identifi√© √† l'√©tape 6)
best_estimator     = models[best_model_name]

# Assemblage final
# Ici, 'final_preprocessor' contient d√©j√† : nan_flags + feat_eng + preproc
best_pipeline      = Pipeline(steps=[
    ("preprocess", final_preprocessor),       # Tout le flux de traitement
    ("model",      best_estimator)            # L'intelligence pr√©dictive
])

# Apprentissage (C'est ici que le mod√®le "apprend" de X_train)
# ------------------------------------------------------------------------------
print(f"\nüöÄ Entra√Ænement final de {best_model_name} sur le jeu complet...")
best_pipeline.fit(X_train, y_train)

# Mesure de performance sur les donn√©es jamais vues (X_test)
# ------------------------------------------------------------------------------
y_pred_final     = best_pipeline.predict(X_test)
best_r2_score    = r2_score(y_test, y_pred_final)

# Rapport de cl√¥ture du projet
# ------------------------------------------------------------------------------
print("\n============================================================================")
print("BILAN FINAL DU PIPELINE")
print("============================================================================")
print(f"  Mod√®le entra√Æn√©.....: {best_model_name}")
print(f"  Performance R¬≤ Test.: {best_r2_score:.4f}")
print("============================================================================")

# Sauvegarde du binaire (Pr√™t pour la production)
# ------------------------------------------------------------------------------
nom_fichier      = 'best_model_pipeline.pkl'

try:
    joblib.dump(best_pipeline, nom_fichier)
    print(f"\n‚úÖ Pipeline sauvegard√© : '{nom_fichier}'")
    print(f"   √âtat du mod√®le.....: ENTRA√éN√â (FIT OK)")
    print(f"   Taille disque......: {os.path.getsize(nom_fichier) / 1024:.2f} KB")
except Exception as e:
    print(f"\n‚ùå √âCHEC DE LA SAUVEGARDE : {str(e)}")
# ############################################################################
# ANALYSE TECHNIQUE 
# ############################################################################
# Ce 'best_pipeline' est d√©sormais un objet autonome. Il peut recevoir des 
# donn√©es brutes (raw data), les transformer selon les r√®gles du 
# 'preprocessor' et fournir une pr√©diction sans intervention manuelle.
# ############################################################################


üì¶ ENTRA√éNEMENT DU MOD√àLE OPTIMAL : Random Forest

üöÄ Entra√Ænement final de Random Forest sur le jeu complet...

BILAN FINAL DU PIPELINE
  Mod√®le entra√Æn√©.....: Random Forest
  Performance R¬≤ Test.: 0.2923

‚úÖ Pipeline sauvegard√© : 'best_model_pipeline.pkl'
   √âtat du mod√®le.....: ENTRA√éN√â (FIT OK)
   Taille disque......: 4119.89 KB
