# üß† Mod√©lisation des prix au m¬≤ ‚Äì Ville de Lille

Dans ce notebook, nous entra√Ænons et comparons plusieurs mod√®les de machine learning pour pr√©dire le **prix au m¬≤** de logements (appartements et maisons) √† Lille, √† partir des donn√©es filtr√©es issues de la base DVF 2022.

L'objectif est d'identifier le mod√®le offrant la **meilleure pr√©cision**, puis de le conserver pour l‚ÄôAPI de pr√©diction finale.

## üì¶ Importation des biblioth√®ques

On commence par importer toutes les biblioth√®ques n√©cessaires pour :
- la manipulation de donn√©es (`pandas`, `numpy`),
- la visualisation (`matplotlib`, `seaborn`),
- les mod√®les de machine learning (`scikit-learn`, `xgboost`),
- les m√©triques d‚Äô√©valuation,
- la s√©rialisation des mod√®les (`joblib`).



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import seaborn as sns
import joblib

from xgboost import XGBRegressor

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestRegressor, VotingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

## üì• Chargement des donn√©es

On charge les donn√©es nettoy√©es de Lille depuis un fichier `.parquet`, puis on filtre pour ne garder que les biens immobiliers avec **exactement 4 pi√®ces**. Cela permet de standardiser les observations pour une comparaison plus fiable.


In [None]:
# Chargement depuis parquet
df = pd.read_parquet("../data/clean/lille_2022.parquet")

# Filtrer biens avec exactement 4 pi√®ces principales
df_4p = df[df['Nombre pieces principales'] == 4].copy()

## üìä S√©lection des colonnes

On s√©lectionne les colonnes pertinentes pour l'entra√Ænement du mod√®le, notamment :
- la surface b√¢tie,
- le nombre de lots,
- la surface de terrain,
- la valeur fonci√®re,
- le type de logement (appartement ou maison),
- le prix au m¬≤ (notre variable cible).

In [None]:
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Nombre de lots',
    'Valeur fonciere',
    'Surface terrain',
    'Code type local',
    'prix_m2'
]

df_logements = df_4p[colonnes_a_garder].copy()

## üîç Inspection des types de donn√©es

On v√©rifie les types de colonnes pour s'assurer qu‚Äôil n‚Äôy a pas d‚Äôincoh√©rences avant de proc√©der aux transformations.

In [None]:
df_logements.dtypes

## üßº Nettoyage des valeurs manquantes

- Les surfaces de terrain sont remplac√©es par `0` si elles sont manquantes.
- Cela est logique car certains logements, comme des appartements, peuvent ne pas avoir de terrain associ√©.
- On supprime ensuite les lignes restantes avec des valeurs nulles et les doublons.

In [None]:
# Remplacer Surface terrain NaN par 0 pour les appartements (Code type local == 2)
df_logements.loc[
    (df_logements["Code type local"] == 2) & (df_logements["Surface terrain"].isna()),
    "Surface terrain"
] = 0

# Remplacer Surface terrain NaN par 0 pour les maisons (Code type local == 1)
df_logements.loc[
    (df_logements["Code type local"] == 1) & (df_logements["Surface terrain"].isna()),
    "Surface terrain"
] = 0

df_logements = df_logements.dropna()
df_logements = df_logements.drop_duplicates()

print(len(df_logements))

## üè† S√©paration entre maisons et appartements

On s√©pare les donn√©es selon le type de bien (`Code type local`) :
- `1` correspond aux maisons,
- `2` aux appartements.

Cela permet de cr√©er des mod√®les sp√©cifiques √† chaque type de bien.

In [None]:
#s√©paration du dataset
df_maison = df_logements[df_logements["Code type local"] == 1]
df_appartement = df_logements[df_logements["Code type local"] == 2]

## üö® D√©tection des outliers

Fonction pour d√©tecter les valeurs aberrantes (outliers) √† l‚Äôaide de l‚ÄôIQR (interquartile range) :
- Les valeurs situ√©es √† plus de 3 fois l‚ÄôIQR au-dessus ou en dessous de Q1/Q3 sont consid√©r√©es comme extr√™mes.
- Cela permet de rep√©rer les anomalies dans des colonnes comme `prix_m2`.

In [None]:
def detect_outliers(df, column):
    
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 3 * IQR
    upper_bound = Q3 + 3 * IQR

    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]

    return lower_bound, upper_bound, outliers

## üîç Visualisation des valeurs aberrantes d√©tect√©es

On affiche les valeurs extr√™mes d√©tect√©es dans la colonne `prix_m2` pour les maisons et les appartements. Ces valeurs seront ensuite corrig√©es ou supprim√©es pour √©viter de fausser l‚Äôapprentissage des mod√®les.

In [None]:
# Pour df_logements
print("üì¶ Outliers prix_m2 (maisons) :")
print(detect_outliers(df_maison, "prix_m2")[2], "\n")

print("üì¶ Outliers prix_m2 (appartements) :")
print(detect_outliers(df_appartement, "prix_m2")[2], "\n")

## üßΩ Nettoyage des outliers

Deux fonctions sont utilis√©es :
- `remove_outliers()` : supprime directement les lignes avec valeurs extr√™mes.
- `median_outliers()` : remplace les valeurs aberrantes par la **m√©diane** de la colonne concern√©e, afin de conserver plus d'observations sans biais extr√™me.

On applique ici `median_outliers` √† toutes les colonnes importantes :
- `prix_m2`
- `Nombre de lots`
- `Surface terrain`
- `Surface reelle bati`

In [None]:
def remove_outliers(df, column):
    lower, upper, _ = detect_outliers(df, column)
    return df[(df[column] >= lower) & (df[column] <= upper)]

def median_outliers(df, column):
    lower, upper, _ = detect_outliers(df, column)
    mediane = df[column].median()
    df.loc[(df[column] < lower) | (df[column] > upper), column] = mediane
    return df

## ‚úÖ R√©sultat apr√®s nettoyage

On affiche le nombre de lignes restantes pour chaque dataset (`maison` et `appartement`) apr√®s le remplacement des outliers. Cela permet de v√©rifier qu‚Äôaucune donn√©e n‚Äôa √©t√© supprim√©e.

In [None]:
df_maison_clean = median_outliers(df_maison, "prix_m2")
df_appartement_clean = median_outliers(df_appartement, "prix_m2")

df_maison_clean = median_outliers(df_maison, "Nombre de lots")
df_appartement_clean = median_outliers(df_appartement, "Nombre de lots")

df_maison_clean = median_outliers(df_maison, "Surface terrain")
df_appartement_clean = median_outliers(df_appartement, "Surface terrain")

df_maison_clean = median_outliers(df_maison, "Surface reelle bati")
df_appartement_clean = median_outliers(df_appartement, "Surface reelle bati")


print(len(df_maison_clean))
print(len(df_appartement_clean))

## üìä Visualisation de la distribution du prix au m¬≤
Cette section permet de visualiser la r√©partition des prix au m¬≤ pour les maisons et les appartements √† Lille, avant tout entra√Ænement de mod√®le. Cela permet d‚Äôidentifier les tendances globales et de d√©tecter visuellement d‚Äô√©ventuelles valeurs extr√™mes.

In [None]:
# Cr√©er la figure et les 2 sous-graphiques c√¥te √† c√¥te
fig, axs = plt.subplots(1, 2, figsize=(14, 5), sharey=True)

# --- 1. Histogramme pour les maisons ---
axs[0].hist(df_maison_clean['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[0].axvline(np.median(df_maison_clean['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[0].set_title("Maisons - prix_m2")
axs[0].set_xlabel("prix_m2")
axs[0].set_ylabel("Nombre de biens")
axs[0].grid(True)
axs[0].legend()

# --- 2. Histogramme pour les appartements ---
axs[1].hist(df_appartement_clean['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[1].axvline(np.median(df_appartement_clean['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[1].set_title("Appartements - prix_m2")
axs[1].set_xlabel("prix_m2")
axs[1].grid(True)
axs[1].legend()

# Ajuster l'espacement
plt.tight_layout()
plt.show()

## üßº Nettoyage compl√©mentaire des extr√™mes de prix_m2

Afin d‚Äôam√©liorer la qualit√© des donn√©es d'entra√Ænement, un filtrage manuel des outliers a √©t√© appliqu√© sur le prix au m¬≤. L‚Äôobjectif est d‚Äô√©carter les valeurs aberrantes susceptibles de fausser l‚Äôapprentissage des mod√®les.

### üéØ R√®gles appliqu√©es :
- **Maisons** : uniquement les biens dont le prix au m¬≤ est **compris entre 1 500 ‚Ç¨ et 5 000 ‚Ç¨**
- **Appartements** : uniquement les biens dont le prix au m¬≤ **est compris entre 2 000 ‚Ç¨ et 7 000 ‚Ç¨**

### üß† Pourquoi ce choix ?
Ce filtrage permet :
- De r√©duire l‚Äôimpact des valeurs aberrantes ou mal saisies dans le fichier DVF (ex : erreurs humaines, ventes atypiques),
- De renforcer la stabilit√© des mod√®les de r√©gression, qui sont sensibles aux grandes variations de valeurs cibles,
- D‚Äôobtenir des pr√©dictions plus r√©alistes sur la majorit√© des biens du march√©.

In [None]:
# Pour les maisons
df_maisons = df_maison_clean[(df_maison_clean["prix_m2"] >= 1500) & (df_maison_clean["prix_m2"] <= 5000)]

# # Pour les appartements
df_appartements = df_appartement_clean[(df_appartement_clean["prix_m2"] >= 2000) & (df_appartement_clean["prix_m2"] <= 7000)]

df_maisons = df_maison_clean
df_appartements = df_appartement_clean

## üìä Revisualisation de la distribution du prix au m¬≤

In [None]:
# Cr√©er la figure et les 2 sous-graphiques c√¥te √† c√¥te
fig, axs = plt.subplots(1, 2, figsize=(14, 5), sharey=True)

# --- 1. Histogramme pour les maisons ---
axs[0].hist(df_maisons['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[0].axvline(np.median(df_maisons['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[0].set_title("Maisons - prix_m2")
axs[0].set_xlabel("prix_m2")
axs[0].set_ylabel("Nombre de biens")
axs[0].grid(True)
axs[0].legend()

# --- 2. Histogramme pour les appartements ---
axs[1].hist(df_appartements['prix_m2'], bins=30, color='orange', edgecolor='w')
axs[1].axvline(np.median(df_appartements['prix_m2']), color='red', linestyle='--', label='M√©diane')
axs[1].set_title("Appartements - prix_m2")
axs[1].set_xlabel("prix_m2")
axs[1].grid(True)
axs[1].legend()

# Ajuster l'espacement
plt.tight_layout()
plt.show()

## üìà Analyse de la corr√©lation entre variables
Cette section permet d‚Äô√©tudier les relations lin√©aires entre les diff√©rentes caract√©ristiques des biens immobiliers et le prix au m¬≤ (prix_m2), s√©par√©ment pour les maisons et les appartements.

### üß† Int√©r√™t de la corr√©lation :
- D√©tecter les variables les plus li√©es au prix_m2, pour guider la s√©lection de features utiles √† la mod√©lisation.
- Comprendre les interd√©pendances entre les variables (ex : surface terrain et surface b√¢tie).
- Identifier des relations inutiles ou bruit√©es, pouvant √™tre √©cart√©es dans les futurs mod√®les.

In [None]:
# matrices de corr√©lation
corr_maison = df_maisons[["Nombre de lots",
                        "Surface terrain", "Surface reelle bati", "Nombre pieces principales", "prix_m2"]].corr()
corr_appartement = df_appartements[["Nombre de lots",
                        "Surface terrain", "Surface reelle bati", "Nombre pieces principales", "prix_m2"]].corr()

# Cr√©ation des sous-figures
fig, axs = plt.subplots(1, 2, figsize=(16, 6))

# Heatmap pour les maisons
sns.heatmap(corr_maison, ax=axs[0], cmap='Oranges', annot=True, fmt=".2f")
axs[0].set_title("Corr√©lation - Maisons")

# Heatmap pour les appartements
sns.heatmap(corr_appartement, ax=axs[1], cmap='Oranges', annot=True, fmt=".2f")
axs[1].set_title("Corr√©lation - Appartements")

plt.tight_layout()
plt.show()

## üìä S√©paration des variables (features et cible)

On isole :
- Les variables explicatives (features) : surface, terrain, type de logement, etc.
- La variable cible (`prix_m2`) √† pr√©dire.

Cette √©tape est n√©cessaire pour entra√Æner les mod√®les de machine learning.

In [None]:
features_maison = ["Surface terrain", "Surface reelle bati"]
features_appartement = ["Nombre de lots", "Surface reelle bati"]

# Donn√©es maisons
X_maison = df_maisons[features_maison]
y_maison = df_maisons["prix_m2"]

# Donn√©es appartements
X_appartement = df_appartements[features_appartement]
y_appartement = df_appartements["prix_m2"]

## üß™ D√©coupage en jeu d'entra√Ænement et de test

Utilisation de `train_test_split()` :
- **80%** des donn√©es pour l‚Äôentra√Ænement
- **20%** pour le test
- On fixe un `random_state` pour rendre les exp√©riences reproductibles.

Cela permet d‚Äô√©valuer la capacit√© du mod√®le √† g√©n√©raliser √† des donn√©es jamais vues.

In [None]:
# Split train/test
X_train_maison, X_test_maison, y_train_maison, y_test_maison = train_test_split(
    X_maison, y_maison, test_size=0.2, random_state=42
)
X_train_appartement, X_test_appartement, y_train_appartement, y_test_appartement = train_test_split(
    X_appartement, y_appartement, test_size=0.2, random_state=42
)

## üîç Optimisation des mod√®les : GridSearchCV
Afin d'obtenir les meilleurs param√®tres possibles pour nos mod√®les de r√©gression, on utilise la m√©thode GridSearchCV. Cette technique permet de tester automatiquement plusieurs combinaisons d‚Äôhyperparam√®tres pour chaque algorithme, via une validation crois√©e √† 5 plis (cv=5).

### üìå Objectif :
Maximiser la performance des mod√®les en minimisant l‚Äôerreur quadratique moyenne n√©gative (scoring="neg_mean_squared_error"), ce qui revient √† minimiser le MSE.

### üß™ Hyperparam√®tres test√©s

1. DecisionTreeRegressor

```python
param_dt = {
    "max_depth": [3, 5, 10, None],
    "min_samples_split": [2, 5, 10]
}
```
- `max_depth` : profondeur maximale de l‚Äôarbre,
- `min_samples_split` : nombre minimal d‚Äô√©chantillons pour un split.

2. RandomForestRegressor

```python
param_rf = {
    "n_estimators": [50, 100],
    "max_depth": [5, 10, None],
    "min_samples_split": [2, 5]
}
```
- `n_estimators` : nombre d‚Äôarbres dans la for√™t,
- `max_depth` et `min_samples_split` : m√™mes r√¥les que pour l‚Äôarbre.

3. XGBRegressor
```python
param_xgb = {
    "n_estimators": [50, 100],
    "max_depth": [3, 5, 10],
    "learning_rate": [0.01, 0.1, 0.2],
    "subsample": [0.8, 1],
}
```
- `learning_rate` : taille des pas d‚Äôoptimisation (influence sur la vitesse/apprentissage),
- `subsample` : proportion d‚Äô√©chantillons utilis√©s pour chaque arbre (pour √©viter l‚Äôoverfitting).

### ‚öôÔ∏è Fonction optimize_models()
Cette fonction effectue les √©tapes suivantes pour chaque algorithme :

1. Lance un GridSearchCV avec les hyperparam√®tres sp√©cifi√©s,
2. Entra√Æne le mod√®le sur les donn√©es d‚Äôentra√Ænement (X_train, y_train),
3. S√©lectionne le meilleur mod√®le trouv√© (gr√¢ce √† .best_estimator_),
4. Affiche les meilleurs param√®tres retenus,
5. Retourne les trois mod√®les optimis√©s.

### üè† Double entra√Ænement : maison vs appartement
La fonction est appel√©e deux fois :

- Une fois sur les donn√©es des maisons (X_train_maison, y_train_maison),
- Une autre sur celles des appartements (X_train_appartement, y_train_appartement).

Cela permet de tenir compte des sp√©cificit√©s de chaque type de bien, et d‚Äôavoir des mod√®les sp√©cialis√©s pour pr√©dire le prix au m¬≤.

In [None]:
# Param√®tres pour GridSearch
param_dt = {
    "max_depth": [3, 5, 10, None],
    "min_samples_split": [2, 5, 10]
}

param_rf = {
    "n_estimators": [50, 100],
    "max_depth": [5, 10, None],
    "min_samples_split": [2, 5]
}

param_xgb = {
    "n_estimators": [50, 100],
    "max_depth": [3, 5, 10],
    "learning_rate": [0.01, 0.1, 0.2],
    "subsample": [0.8, 1],
}

def optimize_models(X_train, y_train):
    # DecisionTree
    grid_dt = GridSearchCV(
        DecisionTreeRegressor(random_state=42),
        param_dt,
        cv=5,
        scoring="neg_mean_squared_error",
        n_jobs=-1,
    )
    grid_dt.fit(X_train, y_train)
    best_dt = grid_dt.best_estimator_
    print(f"Best Decision Tree params: {grid_dt.best_params_}")

    # RandomForest
    grid_rf = GridSearchCV(
        RandomForestRegressor(random_state=42),
        param_rf,
        cv=5,
        scoring="neg_mean_squared_error",
        n_jobs=-1,
    )
    grid_rf.fit(X_train, y_train)
    best_rf = grid_rf.best_estimator_
    print(f"Best Random Forest params: {grid_rf.best_params_}")
    
    # XGBoost
    grid_xgb = GridSearchCV(
        XGBRegressor(random_state=42, tree_method='hist'),
        param_xgb,
        cv=5,
        scoring="neg_mean_squared_error",
        n_jobs=-1,
        verbose=0
    )
    grid_xgb.fit(X_train, y_train)
    best_xgb = grid_xgb.best_estimator_
    print(f"Best XGBoost params: {grid_xgb.best_params_}")

    return best_dt, best_rf, best_xgb

# Exemple d‚Äôappel
best_dt_maison, best_rf_maison, best_xgb_maison = optimize_models(X_train_maison, y_train_maison)
best_dt_appartement, best_rf_appartement, best_xgb_appartement = optimize_models(X_train_appartement, y_train_appartement)


## ü§ñ Entra√Ænement de plusieurs mod√®les de r√©gression

On compare les performances de plusieurs algorithmes :
- `LinearRegression` : mod√®le lin√©aire simple
- `DecisionTreeRegressor` : arbre de d√©cision
- `RandomForestRegressor` : ensemble d'arbres (bagging)
- `XGBRegressor` : boosting par gradient
- `VotingRegressor` : combine les 4 mod√®les pr√©c√©dents

L‚Äôobjectif est d‚Äôidentifier celui qui pr√©dit le mieux le prix au m¬≤.

In [None]:
# VotingRegressor enrichi
voting_maison = VotingRegressor(
    estimators=[
        ("lr", LinearRegression()),
        ("dt", best_dt_maison),
        ("rf", best_rf_maison),
        ("xgb", best_xgb_maison)
    ]
)

voting_appartement = VotingRegressor(
    estimators=[
        ("lr", LinearRegression()),
        ("dt", best_dt_appartement),
        ("rf", best_rf_appartement),
        ("xgb", best_xgb_appartement)
    ]
)

# Pipelines
pipeline_maison = Pipeline([
    ("scaler", StandardScaler()),
    ("voting", voting_maison),
])

pipeline_appartement = Pipeline([
    ("scaler", StandardScaler()),
    ("voting", voting_appartement),
])

pipeline_maison.fit(X_train_maison, y_train_maison)
pipeline_appartement.fit(X_train_appartement, y_train_appartement)

## üìà √âvaluation des mod√®les sur le jeu de test

Pour chaque mod√®le, on calcule :
- `MSE` : l'erreur quadratique moyenne
- `RMSE` : la racine de l'erreur quadratique moyenne
- `MAE` : l'erreur absolue moyenne
- `R2 score`: la proportion de la variance de la variable cible

Cela nous permet de comparer leur pr√©cision et robustesse.


In [None]:
def compare_models(X_train, X_test, y_train, y_test, bien_label, best_dt, best_rf, best_xgb, pipeline_votingRegressor):
    models = {
        "LinearRegression": LinearRegression(),
        "DecisionTree": best_dt,
        "RandomForest": best_rf,
        "XGBoost": best_xgb,
        "VotingRegressor": pipeline_votingRegressor
    }

    pipeline_export = {}
    results = []
    for name, model in models.items():
        pipe = Pipeline([
            ("scaler", StandardScaler()),
            ("model", model)
        ])
        pipe.fit(X_train, y_train)
        pipeline_export[name] = pipe
        y_pred = pipe.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)
        mae = mean_absolute_error(y_test, y_pred)
        r2 = r2_score(y_test, y_pred)
        results.append({
            "Modele": name,
            "MSE": mse,
            "RMSE": rmse,
            "MAE": mae,
            "R2": r2
        })

    df_result = pd.DataFrame(results).sort_values(by="MSE")
    print(f"\nüìã R√©sultats comparatifs - {bien_label}")
    print(df_result.to_string(index=False))
    return results, pipeline_export, df_result

# Comparaison pour maisons et appartements
results_maisons, pipeline_modele_maison, dt_classement_maison = compare_models(
    X_train_maison, X_test_maison, y_train_maison, y_test_maison,
    "MAISON", best_dt_maison, best_rf_maison, best_xgb_maison, pipeline_maison
)

results_appartements, pipeline_modele_appartement, dt_classement_appartement = compare_models(
    X_train_appartement, X_test_appartement, y_train_appartement, y_test_appartement,
    "APPARTEMENT", best_dt_appartement, best_rf_appartement, best_xgb_appartement, pipeline_appartement
)

## üíæ Sauvegarde des meilleurs mod√®les

On sauvegarde le meilleur mod√®le via `joblib.dump()` pour le r√©utiliser dans l'API FastAPI.

Deux mod√®les sont sauvegard√©s :
- Un pour les maisons
- Un pour les appartements

In [None]:
import json

result = {
    "maison": results_maisons,
    "appartement": results_appartements
}

# #Sauvegarde des donn√©es dans un fichier JSON
with open("resultats_modeles_maison_appartement.json", "w", encoding="utf-8") as f:
    json.dump(result, f, ensure_ascii=False, indent=2)

# üíæ Sauvegarde des pipelines
joblib.dump(pipeline_modele_maison, "../models/pipeline_maison_models.pkl")
joblib.dump(pipeline_modele_appartement, "../models/pipeline_appartement_models.pkl")

dt_classement_maison

meilleur_modele_maison = dt_classement_maison.iloc[0]["Modele"]
meilleur_modele_appartement = dt_classement_appartement.iloc[0]["Modele"]

# üíæ Sauvegarde des modeles pour Lille
os.makedirs("../app/models/Lille", exist_ok=True)
joblib.dump(pipeline_modele_maison[meilleur_modele_maison], "../app/models/Lille/models_maison_Lille.pkl")
joblib.dump(pipeline_modele_appartement[meilleur_modele_appartement], "../app/models/Lille/models_appartement_Lille.pkl")