# üß™ Test de g√©n√©ralisation des mod√®les entra√Æn√©s √† Lille sur les donn√©es de Bordeaux

Ce notebook a pour objectif d‚Äô√©valuer la capacit√© de g√©n√©ralisation des mod√®les de pr√©diction de prix au m¬≤, initialement entra√Æn√©s sur les logements de Lille (2022), lorsqu'ils sont appliqu√©s sur les logements de Bordeaux (2022).

## üóÇÔ∏è Contexte et objectifs
Dans le notebook pr√©c√©dent (`test_model_lille.ipynb`), plusieurs mod√®les ont √©t√© entra√Æn√©s et compar√©s pour deux types de biens :

- üè† Maisons
- üè¢ Appartements

Les meilleurs mod√®les ont √©t√© sauvegard√©s sous forme de pipelines complets (pr√©traitement + r√©gression).

L‚Äôobjectif ici est de :
1. Charger ces pipelines sauvegard√©s.
2. Appliquer exactement les m√™mes √©tapes de nettoyage et de pr√©paration sur les donn√©es de Bordeaux.
3. √âvaluer leurs performances sur Bordeaux.
4. Identifier quels mod√®les g√©n√©ralisent le mieux.
5. (Optionnel) Comparer leurs performances avec celles obtenues sur Lille.

## üßº Nettoyage des donn√©es de Bordeaux
Le nettoyage appliqu√© dans ce fichier est identique √† celui effectu√© pour Lille :

|√âtape|	Description|
|---|---|
|Suppression des doublons|	Suppression des logements dupliqu√©s
|Suppression des valeurs aberrantes|	Filtrage des surfaces et prix hors normes
|Filtrage par type de bien|	S√©paration entre maisons et appartements
|Calcul du prix au m¬≤|	Cr√©ation d‚Äôune colonne prix_m2 = prix / surface
|S√©lection des variables|	Choix de variables explicatives pertinentes (diff√©rentes pour maison/appartement)

Cela permet d'assurer que les donn√©es de Bordeaux soient pr√©par√©es de mani√®re coh√©rente, pour une comparaison √©quitable avec les mod√®les form√©s sur Lille.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import os
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import joblib

In [None]:
# Chargement depuis parquet
df = pd.read_parquet("../data/clean/bordeaux_2022.parquet")

# Filtrer biens avec exactement 4 pi√®ces principales
df_4p = df[df['Nombre pieces principales'] == 4].copy()

In [None]:
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Nombre de lots',
    'Valeur fonciere',
    'Surface terrain',
    'Code type local',
    'prix_m2'
]

# logements
df_logements = df_4p[colonnes_a_garder].copy()

In [None]:
# Remplacer Surface terrain NaN par 0 pour les appartements (Code type local == 2)
df_logements.loc[
    (df_logements["Code type local"] == 2) & (df_logements["Surface terrain"].isna()),
    "Surface terrain"
] = 0

# Remplacer Surface terrain NaN par 0 pour les maisons (Code type local == 1)
df_logements.loc[
    (df_logements["Code type local"] == 1) & (df_logements["Surface terrain"].isna()),
    "Surface terrain"
] = 0

df_logements = df_logements.dropna()

print(len(df_logements))

In [None]:
#s√©paration du dataset
df_bx_maisons_raw = df_logements[df_logements["Code type local"] == 1]
df_bx_apt_raw = df_logements[df_logements["Code type local"] == 2]

In [None]:
def detect_outliers(df, column):
    
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 3 * IQR
    upper_bound = Q3 + 3 * IQR

    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]

    return lower_bound, upper_bound, outliers

In [None]:
def remove_outliers(df, column):
    lower, upper, _ = detect_outliers(df, column)
    return df[(df[column] >= lower) & (df[column] <= upper)]

def median_outliers(df, column):
    lower, upper, _ = detect_outliers(df, column)
    mediane = df[column].median()
    df.loc[(df[column] < lower) | (df[column] > upper), column] = mediane
    return df

In [None]:
df_bx_maisons_clean = median_outliers(df_bx_maisons_raw, "prix_m2")
df_bx_apt_clean = median_outliers(df_bx_apt_raw, "prix_m2")

df_bx_maisons_clean = median_outliers(df_bx_maisons_raw, "Nombre de lots")
df_bx_apt_clean = median_outliers(df_bx_apt_raw, "Nombre de lots")

df_bx_maisons_clean = median_outliers(df_bx_maisons_raw, "Surface terrain")
df_bx_apt_clean = median_outliers(df_bx_apt_raw, "Surface terrain")

df_bx_maisons_clean = median_outliers(df_bx_maisons_raw, "Surface reelle bati")
df_bx_apt_clean = median_outliers(df_bx_apt_raw, "Surface reelle bati")

print(len(df_bx_maisons_clean))
print(len(df_bx_apt_clean))

In [None]:
# Cr√©er la figure et les 2 sous-graphiques c√¥te √† c√¥te
fig, axs = plt.subplots(1, 2, figsize=(14, 5), sharey=True)

# --- 1. Histogramme pour les maisons ---
axs[0].hist(df_bx_maisons_clean['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[0].axvline(np.median(df_bx_maisons_clean['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[0].set_title("Maisons - prix_m2")
axs[0].set_xlabel("prix_m2")
axs[0].set_ylabel("Nombre de biens")
axs[0].grid(True)
axs[0].legend()

# --- 2. Histogramme pour les appartements ---
axs[1].hist(df_bx_apt_clean['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[1].axvline(np.median(df_bx_apt_clean['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[1].set_title("Appartements - prix_m2")
axs[1].set_xlabel("prix_m2")
axs[1].grid(True)
axs[1].legend()

# Ajuster l'espacement
plt.tight_layout()
plt.show()

In [None]:
# Pour les maisons
df_bx_maisons = df_bx_maisons_clean[(df_bx_maisons_clean["prix_m2"] >= 1500) & (df_bx_maisons_clean["prix_m2"] <= 5000)]

# Pour les appartements
df_bx_apt = df_bx_apt_clean[(df_bx_apt_clean["prix_m2"] >= 2000) & (df_bx_apt_clean["prix_m2"] <= 7000)]

In [None]:
# Cr√©er la figure et les 2 sous-graphiques c√¥te √† c√¥te
fig, axs = plt.subplots(1, 2, figsize=(14, 5), sharey=True)

# --- 1. Histogramme pour les maisons ---
axs[0].hist(df_bx_maisons['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[0].axvline(np.median(df_bx_maisons['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[0].set_title("Maisons - prix_m2")
axs[0].set_xlabel("prix_m2")
axs[0].set_ylabel("Nombre de biens")
axs[0].grid(True)
axs[0].legend()

# --- 2. Histogramme pour les appartements ---
axs[1].hist(df_bx_apt['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[1].axvline(np.median(df_bx_apt['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[1].set_title("Appartements - prix_m2")
axs[1].set_xlabel("prix_m2")
axs[1].grid(True)
axs[1].legend()

# Ajuster l'espacement
plt.tight_layout()
plt.show()

## üèóÔ∏è Chargement des pipelines sauvegard√©s
On charge les pipelines d‚Äôapprentissage automatique pr√©c√©demment entra√Æn√©s sur les donn√©es de Lille (en 2022), s√©par√©ment pour les appartements et les maisons. Ces pipelines contiennent √† la fois le pr√©traitement des donn√©es et le mod√®le de r√©gression final.

In [None]:
# Charger la pipeline sauvegard√©e (ex : pour les appartements)
pipeline_appartement = joblib.load("../models/pipeline_appartement_models.pkl")

# Pour les maisons (si tu l'as aussi sauvegard√©e)
pipeline_maison = joblib.load("../models/pipeline_maison_models.pkl")

print(type(pipeline_appartement))

## Pr√©parer les donn√©es pour l'entra√Ænement

## üßÆ S√©lection des variables explicatives

On selectionnes les variables explicatives (features) qui seront utilis√©es pour faire les pr√©dictions du prix au m¬≤ avec les pipelines.

Ces variables sont choisies pour correspondre √† celles utilis√©es lors de l‚Äôentra√Ænement des mod√®les sur Lille, afin de garantir une compatibilit√© parfaite avec les pipelines.

In [None]:
# Variables explicatives
features_maison = ["Surface terrain", "Surface reelle bati"]
features_appartement = ["Nombre de lots", "Surface reelle bati"]

#maison
X_bx_maisons = df_bx_maisons[features_maison]
y_bx_maisons = df_bx_maisons["prix_m2"]

# appartement
X_bx_apt = df_bx_apt[features_appartement]
y_bx_apt = df_bx_apt["prix_m2"]

## üìà √âvaluation comparative des mod√®les par pipeline

Chaque pipeline contient plusieurs mod√®les entra√Æn√©s (par exemple : LinearRegression, RandomForest, etc.).
On √©value un √† un pour identifier celui qui g√©n√©ralise le mieux sur les donn√©es de Bordeaux.

### üß™ Fonction d‚Äô√©valuation affiche_score
Cette fonction prend en entr√©e un dictionnaire de mod√®les (dans le pipeline), les donn√©es d'entr√©e X_bx, et les valeurs cibles y_bx.

Pour chaque mod√®le, elle calcule les m√©triques suivantes :

|M√©trique|	Description
|---|---
|MSE|	Erreur quadratique moyenne
|RMSE|	Racine de l'erreur quadratique moyenne
|MAE|	Erreur absolue moyenne
|R¬≤|	Score de d√©termination (qualit√© de la pr√©diction)

### üèÜ Classement des mod√®les
On applique la fonction √† chacun des pipelines (maison et appartement) et on trie les r√©sultats selon la MAE croissante (plus c‚Äôest bas, mieux c‚Äôest).

### üèÅ S√©lection et sauvegarde des meilleurs mod√®les
On s√©lectionne le meilleur mod√®le pour chaque pipeline (celui avec la plus faible MAE) et on le sauvegarde dans un dossier d√©di√© √† Bordeaux

In [None]:
# Liste pour stocker les r√©sultats


def affiche_score(pipeline, X_bx, y_bx):
    results = []

    for name, model in pipeline.items():
        y_pred = model.predict(X_bx)
        
        mse = mean_squared_error(y_bx, y_pred)
        rmse = np.sqrt(mse)
        mae = mean_absolute_error(y_bx, y_pred)
        r2 = r2_score(y_bx, y_pred)
        
        results.append({
            "Modele": name,
            "MSE": mse,
            "RMSE": rmse,
            "MAE": mae,
            "R2": r2
        })
    return pd.DataFrame(results)


# Optionnel : trier par MAE ou un autre crit√®re
df_results_maison = affiche_score(pipeline_maison,X_bx_maisons, y_bx_maisons).sort_values(by="MAE")
df_results_appartement = affiche_score(pipeline_appartement, X_bx_apt, y_bx_apt).sort_values(by="MAE")

# Affichage final
print("pour les maison:")
print(df_results_maison)
print("pour les appartements:")
print(df_results_appartement)

meilleur_modele_maison = df_results_maison.iloc[0]["Modele"]
meilleur_modele_appartement = df_results_appartement.iloc[0]["Modele"]

# üíæ Sauvegarde des pipelines
os.makedirs("../app/models/Bordeaux", exist_ok=True)
joblib.dump(pipeline_maison[meilleur_modele_maison], "../app/models/Bordeaux/models_maison_Bordeaux.pkl")
joblib.dump(pipeline_appartement[meilleur_modele_appartement], "../app/models/Bordeaux/models_appartement_Bordeaux.pkl")

## üîÅ Comparaison des performances entre Lille et Bordeaux (optionnel)
Ce bloc de code permet de comparer les performances des mod√®les entra√Æn√©s √† Lille (2022) sur leurs propres donn√©es et sur celles de Bordeaux (2022).
Cela permet d‚Äô√©valuer la stabilit√© et la capacit√© de g√©n√©ralisation des mod√®les en fonction de la ville.

>‚ö†Ô∏è Ce code est comment√© par d√©faut.
Pour l‚Äôutiliser, il faut d√©commenter les lignes concern√©es (en retirant les # au d√©but de chaque ligne).

### üì• 1. Chargement des r√©sultats Lille
Les performances initiales des mod√®les sur Lille sont stock√©es dans un fichier JSON (resultats_modeles_maison_appartement.json). On les charge et on les transforme en DataFrames

### üîé 2. Fonction de comparaison multi-m√©triques
Cette fonction fusionne les r√©sultats entre Lille et Bordeaux par mod√®le, et calcule l‚Äô√©cart relatif (%) pour chaque m√©trique :

- RMSE_diff : √©cart relatif sur la RMSE
- MAE_diff : √©cart relatif sur la MAE
- R2_diff : √©cart relatif sur le R¬≤
- √©cart_moyen_% : moyenne de ces √©carts

### üìä 3. R√©sultats comparatifs
On affiche les r√©sultats de comparaison pour les maisons et les appartements.

### üèÅ 4. S√©lection et sauvegarde du mod√®le le plus stable
On s√©lectionne le mod√®le avec l‚Äô√©cart moyen le plus faible (donc le plus stable entre les deux villes) et on le sauvegarde pour une utilisation API.

In [None]:
# 1. Charger les r√©sultats JSON de Lille
# with open("resultats_modeles_maison_appartement.json") as f:
#     results_lille = json.load(f)

# df_lille_maison = pd.DataFrame(results_lille["maison"])
# df_lille_appart = pd.DataFrame(results_lille["appartement"])

# def compare_models(df_lille, df_bordeaux, ville1="Lille", ville2="Bordeaux"):
#     df_merged = pd.merge(df_lille, df_bordeaux, on="Modele", suffixes=(f"_{ville1}", f"_{ville2}"))
    
#     metrics = ["RMSE", "MAE", "R2"]
#     for metric in metrics:
#         diff_col = f"{metric}_diff"
#         df_merged[diff_col] = (
#             abs(df_merged[f"{metric}_{ville1}"] - df_merged[f"{metric}_{ville2}"]) 
#             / abs(df_merged[f"{metric}_{ville2}"])
#         ) * 100

#     # Score global : moyenne des diff√©rences en %
#     df_merged["ecart_moyen_%"] = df_merged[[f"{m}_diff" for m in metrics]].mean(axis=1)

#     # Classement par stabilit√©
#     df_sorted = df_merged.sort_values("ecart_moyen_%")
    
#     return df_sorted[["Modele"] + [f"{m}_diff" for m in metrics] + ["ecart_moyen_%"]]

# # affichage
# df_result_maison = compare_models(df_lille_maison, df_results_maison)
# df_result_appartement = compare_models(df_lille_appart, df_results_appartement)

# print("comparatif √©cart Lille Bordeaux (maison)")
# display(df_result_maison)
# print("comparatif √©cart Lille Bordeaux (appartement)")
# display(df_result_appartement)

# meilleur_modele_maison = df_result_maison.iloc[0]["Modele"]
# meilleur_modele_appartement = df_result_appartement.iloc[0]["Modele"]

# # üíæ Sauvegarde des pipelines
# joblib.dump(pipeline_maison[meilleur_modele_maison], "../api/models/maison_models.pkl")
# joblib.dump(pipeline_appartement[meilleur_modele_appartement], "../api/models/appartement_models.pkl")