## 📚 Étape 0 : Import de bibliothéque
---

In [91]:
import pandas as pd
import os
import numpy as np
import matplotlib as plt
from sklearn.linear_model import LinearRegression

## 🔍 Étape 1 : Analyse du fichier lille_2022.csv
---

In [92]:
import os
print(os.getcwd())

/Users/aminaabdm/Desktop/FastAPI_IA_Immobilier/notebooks


In [93]:
df = pd.read_csv("../data/bordeaux_2022.csv")
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13200 entries, 0 to 13199
Data columns (total 44 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Identifiant de document     0 non-null      float64
 1   Reference document          0 non-null      float64
 2   1 Articles CGI              0 non-null      float64
 3   2 Articles CGI              0 non-null      float64
 4   3 Articles CGI              0 non-null      float64
 5   4 Articles CGI              0 non-null      float64
 6   5 Articles CGI              0 non-null      float64
 7   No disposition              13200 non-null  int64  
 8   Date mutation               13200 non-null  object 
 9   Nature mutation             13200 non-null  object 
 10  Valeur fonciere             13200 non-null  float64
 11  No voie                     13155 non-null  float64
 12  B/T/Q                       402 non-null    object 
 13  Type de voie                131

Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain,prix_m2
0,,,,,,,,1,04/01/2022,Vente,...,0,1.0,Maison,,71.0,4.0,S,,70.0,5577.464789
1,,,,,,,,1,05/01/2022,Vente,...,1,2.0,Appartement,,40.0,1.0,,,,3962.5
2,,,,,,,,1,07/01/2022,Vente,...,1,3.0,Dépendance,,0.0,0.0,,,,inf
3,,,,,,,,1,07/01/2022,Vente,...,1,2.0,Appartement,,35.0,1.0,,,,5342.857143
4,,,,,,,,1,07/01/2022,Vente,...,1,3.0,Dépendance,,0.0,0.0,,,,inf


## 🧬 Étape 2 : Filtrer les biens de 4 pièces uniquement
---

In [94]:
# Vérification  des colonnes du dataframe pour être sûr du nom exact
print(df.columns)

# Filtrage sur 4.0 (float)
df_4_pieces = df[df['Nombre pieces principales'] == 4].copy()

# Vérifier que le filtrage a fonctionné
print(df_4_pieces.shape)
print(df_4_pieces.head())


Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
(1071, 44)
    Identifiant de document  Reference document  1 Articles CGI  \
0                   

In [95]:
print(df['Nombre pieces principales'].dtype)
print(df['Nombre pieces principales'].unique())

float64
[ 4.  1.  0.  3.  7.  2.  5.  6.  8. 10.  9. 11. 12. 15. 13.]


## 🧪 Étape 3 : Création de jeu de données distincs pour les appartements et les maisons 
---

### ✅ Jeu de données pour les appartements :



In [96]:
# # Filtrer le DataFrame pour ne garder que les appartements
df_appartements = df[df['Type local'] == 'Appartement'].copy()

# Afficher la liste des colonnes pour vérifier les colonnes disponibles
print(df_appartements.columns)

# Sélection dela liste des colonnes que l'on souhaite conserver
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',     
    'Nombre de lots',
    'Valeur fonciere'
]

# Filtrer cette liste pour ne garder que les colonnes qui existent vraiment dans le DataFrame
colonnes_disponibles = [col for col in colonnes_a_garder if col in df_appartements.columns]

# Sélectionner dans le DataFrame uniquement ces colonnes disponibles
df_appartements = df_appartements[colonnes_disponibles].copy()

# Afficher un aperçu pour vérifier
print(df_appartements.shape)
print(df_appartements.head())



Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
(5353, 6)
    Surface reelle bati  Nombre pieces principales   Type local  \
1                  40

### ✅ Jeu de données pour les maisons : 



In [97]:
# # Filtrer le DataFrame pour ne garder que les maisons
df_maisons = df[df['Type local'] == 'Maison'].copy()

# Afficher la liste des colonnes pour vérifier les colonnes disponibles
print(df_maisons.columns)

# Sélection dela liste des colonnes que l'on souhaite conserver
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',     
    'Nombre de lots',
    'Valeur fonciere'
]

# Filtrer cette liste pour ne garder que les colonnes qui existent vraiment dans le DataFrame
colonnes_disponibles = [col for col in colonnes_a_garder if col in df_maisons.columns]

# Sélectionner dans le DataFrame uniquement ces colonnes disponibles
df_maisons = df_maisons[colonnes_disponibles].copy()

# Afficher un aperçu pour vérifier
print(df_maisons.head())



Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
    Surface reelle bati  Nombre pieces principales Type local  \
0                  71.0          

## 📌 Étape 5 : Création de la variable cible 
---

### ✅ Variable cible pour les appartements :

In [98]:
# Calcul du prix au m² pour les appartements
df_appartements['prix_m2'] = df_appartements['Valeur fonciere'] / df_appartements['Surface reelle bati']
print(df_appartements[['Surface reelle bati', 'Valeur fonciere', 'prix_m2']].head())

    Surface reelle bati  Valeur fonciere      prix_m2
1                  40.0         158500.0  3962.500000
3                  35.0         187000.0  5342.857143
7                  20.0         116000.0  5800.000000
8                  71.0         299000.0  4211.267606
12                 20.0         107500.0  5375.000000


### ✅ Variable cible pour les maisons : 


In [99]:
# Calcul du prix au m² pour les maisons
df_maisons['prix_m2'] = df_maisons['Valeur fonciere'] / df_maisons['Surface reelle bati']
print(df_maisons[['Surface reelle bati', 'Valeur fonciere', 'prix_m2']].head())

    Surface reelle bati  Valeur fonciere      prix_m2
0                  71.0         396000.0  5577.464789
5                  65.0         312500.0  4807.692308
10                162.0         505000.0  3117.283951
31                 92.0         530000.0  5760.869565
44                 82.0         405000.0  4939.024390


## 🧹 Étape 6 : Nettoyage des données 
---

### ✅ Supprimer les lignes avec valeurs manquantes



In [100]:
# Supprimer les lignes avec des valeurs manquantes dans les colonnes utilisées
colonnes_utiles = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',
    'Nombre de lots',
    'Valeur fonciere',
    'prix_m2'
]

df_appartements_clean = df_appartements.dropna(subset=colonnes_utiles).copy()
df_maisons_clean = df_maisons.dropna(subset=colonnes_utiles).copy()


### ✅ Retirer les valeurs aberrantes (prix_m2 trop faible ou trop élevé)

### 🏢 Outliers appartements 

In [101]:
def detect_outliers(df, column='prix_m2'):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return Q1, Q3, lower_bound, upper_bound, outliers

# Détection des outliers dans les appartements
print("🔎 Détection des outliers sur la colonne 'prix_m2' pour les appartements 🏢")

Q1_appart, Q3_appart, lower_appart, upper_appart, outliers_appart = detect_outliers(df_appartements_clean)

print(f"Q1 : {Q1_appart}, Q3 : {Q3_appart}")
print(f"Borne inférieure : {lower_appart}, Borne supérieure : {upper_appart}")
print(f"Nombre d'outliers détectés : {outliers_appart.shape[0]}\n")

# Dimensions avant nettoyage
print(f"Dimensions avant nettoyage : {df_appartements_clean.shape}")

# Création d'une copie propre sans les outliers
df_appartements_cleaned = df_appartements_clean[
    (df_appartements_clean['prix_m2'] >= lower_appart) &
    (df_appartements_clean['prix_m2'] <= upper_appart)
].copy()

# Dimensions après nettoyage
print(f"Dimensions après nettoyage : {df_appartements_cleaned.shape}")


🔎 Détection des outliers sur la colonne 'prix_m2' pour les appartements 🏢
Q1 : 11259.328358208955, Q3 : 30232.558139534885
Borne inférieure : -17200.51631377994, Borne supérieure : 58692.402811523774
Nombre d'outliers détectés : 58

Dimensions avant nettoyage : (971, 7)
Dimensions après nettoyage : (913, 7)


In [102]:
df_appartements_cleaned.head ()

Unnamed: 0,Surface reelle bati,Nombre pieces principales,Type local,Surface terrain,Nombre de lots,Valeur fonciere,prix_m2
24,36.0,2.0,Appartement,63.0,0,850600.0,23627.777778
25,36.0,2.0,Appartement,63.0,0,850600.0,23627.777778
26,26.0,1.0,Appartement,63.0,0,850600.0,32715.384615
86,39.0,2.0,Appartement,57.0,0,620000.0,15897.435897
87,40.0,2.0,Appartement,57.0,0,620000.0,15500.0


### 🏡 Outliers maisons 

In [103]:
def detect_outliers(df, column='prix_m2'):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return Q1, Q3, lower_bound, upper_bound, outliers

# Détection des outliers pour les maisons
print("🔍 Détection des outliers sur la colonne 'prix_m2' pour les maisons 🏡")

Q1_maisons, Q3_maisons, lower_maisons, upper_maisons, outliers_maisons = detect_outliers(df_maisons_clean)

print(f"Q1 : {Q1_maisons}, Q3 : {Q3_maisons}")
print(f"Borne inférieure : {lower_maisons}, Borne supérieure : {upper_maisons}")
print(f"Nombre d'outliers détectés : {outliers_maisons.shape[0]}\n")

# Dimensions avant nettoyage
print(f"Dimensions avant nettoyage : {df_maisons_clean.shape}")

# Création du DataFrame nettoyé
df_maisons_cleaned = df_maisons_clean[
    (df_maisons_clean['prix_m2'] >= lower_maisons) &
    (df_maisons_clean['prix_m2'] <= upper_maisons)
].copy()

# Dimensions après nettoyage
print(f"Dimensions après nettoyage : {df_maisons_clean.shape}")


🔍 Détection des outliers sur la colonne 'prix_m2' pour les maisons 🏡
Q1 : 4608.032728141424, Q3 : 6610.712351029252
Borne inférieure : 1604.0132938096813, Borne supérieure : 9614.731785360995
Nombre d'outliers détectés : 104

Dimensions avant nettoyage : (1396, 7)
Dimensions après nettoyage : (1396, 7)


In [104]:
df_maisons_cleaned.head()

Unnamed: 0,Surface reelle bati,Nombre pieces principales,Type local,Surface terrain,Nombre de lots,Valeur fonciere,prix_m2
0,71.0,4.0,Maison,70.0,0,396000.0,5577.464789
5,65.0,3.0,Maison,45.0,0,312500.0,4807.692308
10,162.0,7.0,Maison,111.0,0,505000.0,3117.283951
31,92.0,4.0,Maison,121.0,0,530000.0,5760.869565
44,82.0,3.0,Maison,44.0,0,405000.0,4939.02439


## 🤖 Étape 7 : Préparation des données pour l'entrainement
---

### ✅ Préparation des données pour l'entrainement des appartements 

In [105]:

# Variables explicatives (X) : toutes les colonnes sauf la cible
X_appart = df_appartements_cleaned.drop(columns=['prix_m2'])

# Variable cible (y)
y_appart = df_appartements_cleaned['prix_m2']


# Vérification des jeux d'entraînement et de test
print("Taille X :", X_appart.shape)
print("Taille y :", y_appart.shape)


Taille X : (913, 6)
Taille y : (913,)


### ✅ Préparation des données pour l'entrainement des maisons

In [106]:
from sklearn.model_selection import train_test_split

# Variables explicatives (X) : toutes les colonnes sauf la cible
X_maisons = df_maisons_cleaned.drop(columns=['prix_m2'])

# Variable cible (y)
y_maisons = df_maisons_cleaned['prix_m2']



# Vérification des jeux d'entraînement et de test
print("Taille de X :", X_maisons.shape)
print("Taille de y :", y_maisons.shape)


Taille de X : (1292, 6)
Taille de y : (1292,)


### ⚙️ Standardisation des données avec StandardScaler 
---


### 🏢 StandardScaler pour les appartements : 

In [107]:
from sklearn.preprocessing import StandardScaler

# Suppressionn des colonnes non numériques ' Type local' qui ne sont pas pertinentes aprés filtrage par type de bien 
X_appart = X_appart.drop(columns=['Type local'])


# Initialiser le scaler
scaler = StandardScaler()

# Fit sur l'entraînement + transformation
X_appart_scaled = scaler.fit_transform(X_appart)

print(X_appart.shape)
print(X_appart_scaled.shape)

(913, 5)
(913, 5)


### 🏡 StandardScaler  pour les maisons : 

In [108]:
from sklearn.preprocessing import StandardScaler

# Suppressionn des colonnes non numériques ' Type local' qui ne sont pas pertinentes aprés filtrage par type de bien 
X_maisons = X_maisons.drop(columns=['Type local'])

# Initialiser le scaler
scaler = StandardScaler()

# Transformation du test
X_maisons_scaled = scaler.fit_transform(X_maisons)

print(X_maisons.shape)
print(X_maisons_scaled.shape)

(1292, 5)
(1292, 5)


## 🤖 Étape 8 : Application des modéles entrainé sur Lille
---

In [109]:
import os

# Vérification du répertoire courant et du chemin absolu du dossier models
print("📌 Répertoire courant :", os.getcwd())
print("📁 Répertoire absolu du dossier models :", os.path.abspath("models/"))


📌 Répertoire courant : /Users/aminaabdm/Desktop/FastAPI_IA_Immobilier/notebooks
📁 Répertoire absolu du dossier models : /Users/aminaabdm/Desktop/FastAPI_IA_Immobilier/notebooks/models


### 🏢 🔄 Chargement des modéles pour les appartements : 

In [110]:

import joblib

# Rechargement des modèles (appartements uniquement)

LinearRegression_appart = joblib.load("../models/linear_regression_apparts_Lille.pkl")
DecisionTree_appart = joblib.load("../models/decision_tree_apparts_Lille.pkl")
DecisionTree_GridSearchCV_appart = joblib.load("../models/decision_tree_gridsearchcv_apparts_Lille.pkl")
RandomForest_appart = joblib.load("../models/random_forest_apparts_Lille.pkl")
RandomForest_GridSearchCV_appart = joblib.load("../models/random_forest_gridsearchcv_apparts_Lille.pkl")
XGBR_appart = joblib.load("../models/xgboost_apparts_Lille.pkl")



### 🏡 🔄 Chargement des modéles pour les appartements : 

In [111]:

import joblib

# Rechargement des modèles (maisons uniquement)

DecisionTree_maisons = joblib.load("../models/decision_tree_maisons_Lille.pkl")
DecisionTree_GridSearchCV_maisons = joblib.load("../models/decision_tree_gridsearchcv_maisons_Lille.pkl")
LinearRegression_maisons = joblib.load("../models/linear_regression_maisons_Lille.pkl")
RandomForest_maisons = joblib.load("../models/random_forest_maisons_Lille.pkl")
RandomForest_GridSearchCV_maisons = joblib.load("../models/random_forest_gridsearchcv_maisons_Lille.pkl")
XGBR_maisons = joblib.load("../models/xgboost_maisons_Lille.pkl")

## 📂🔄 Étape 9 : Prédictions sur les données de Bordeaux 
---

### 🎯 🏢 Prédictions sur Bordeaux pour les appartement 

In [112]:
# Appartements Bordeaux

y_pred_lr_appart = LinearRegression_appart.predict(X_appart_scaled)
y_pred_dtr_appart = DecisionTree_appart.predict(X_appart_scaled)
y_pred_dtr_gsr_appart = DecisionTree_GridSearchCV_appart.predict(X_appart_scaled)
y_pred_rf_appart = RandomForest_appart.predict(X_appart_scaled)
y_pred_rf_gsr_appart = RandomForest_GridSearchCV_appart.predict(X_appart_scaled)
y_pred_xgbr_appart = XGBR_appart.predict(X_appart_scaled)





In [115]:
#  Vérifier que ça matche
print("🎯 y_reel :", y_appart.shape)
print("🧠 y_pred :", y_pred_lr_appart.shape)
print("🧠 y_pred :", y_pred_dtr_appart.shape)
print("🧠 y_pred :", y_pred_dtr_gsr_appart.shape)
print("🧠 y_pred :", y_pred_rf_appart.shape)
print("🧠 y_pred :", y_pred_rf_gsr_appart.shape)
print("🧠 y_pred :", y_pred_xgbr_appart.shape)

🎯 y_reel : (913,)
🧠 y_pred : (913,)
🧠 y_pred : (913,)
🧠 y_pred : (913,)
🧠 y_pred : (913,)
🧠 y_pred : (913,)
🧠 y_pred : (913,)


### 🎯 🏡 Prédictions sur Bordeaux pour les maisons 

In [113]:
# Maisons Bordeaux

y_pred_lr_maisons = LinearRegression_maisons.predict(X_maisons_scaled)
y_pred_dtr_maisons = DecisionTree_maisons.predict(X_maisons_scaled)
y_pred_dtr_gsr_maisons = DecisionTree_GridSearchCV_maisons.predict(X_maisons_scaled)
y_pred_rf_maisons = RandomForest_maisons.predict(X_maisons_scaled)
y_pred_rf_gsr_maisons = RandomForest_GridSearchCV_maisons.predict(X_maisons_scaled)
y_pred_xgbr_maisons = XGBR_maisons.predict(X_maisons_scaled)



In [116]:
#  Vérifier que ça matche
print("🎯 y_reel :", y_maisons.shape)
print("🧠 y_pred :", y_pred_lr_maisons.shape)
print("🧠 y_pred :", y_pred_dtr_maisons.shape)
print("🧠 y_pred :", y_pred_dtr_gsr_maisons.shape)
print("🧠 y_pred :", y_pred_rf_maisons.shape)
print("🧠 y_pred :", y_pred_rf_gsr_maisons.shape)
print("🧠 y_pred :", y_pred_xgbr_maisons.shape)

🎯 y_reel : (1292,)
🧠 y_pred : (1292,)
🧠 y_pred : (1292,)
🧠 y_pred : (1292,)
🧠 y_pred : (1292,)
🧠 y_pred : (1292,)
🧠 y_pred : (1292,)


### 📋 🏢 Afficher les prédictions de chaque modéle pour les appartements 

In [120]:
from sklearn.metrics import r2_score, mean_squared_error
import pandas as pd

# 🧮 Calculs Appartements
r2_lr_appart  = r2_score(y_appart, y_pred_lr_appart)
r2_dtr_appart = r2_score(y_appart, y_pred_dtr_appart)
r2_dtr_gsr_appart = r2_score(y_appart, y_pred_dtr_gsr_appart)
r2_rfr_appart = r2_score(y_appart, y_pred_rf_appart)
r2_gsr_rfr_appart = r2_score(y_appart, y_pred_rf_gsr_appart)
r2_xgbr_appart = r2_score(y_appart, y_pred_xgbr_appart)

mse_lr_appart  = mean_squared_error(y_appart, y_pred_lr_appart)
mse_dtr_appart = mean_squared_error(y_appart, y_pred_dtr_appart)
mse_gsr_dtr_appart = mean_squared_error(y_appart, y_pred_dtr_gsr_appart)
mse_rfr_appart = mean_squared_error(y_appart, y_pred_rf_appart)
mse_gsr_rfr_appart = mean_squared_error(y_appart, y_pred_rf_gsr_appart)
mse_xgbr_appart = mean_squared_error(y_appart, y_pred_xgbr_appart)



# 📊 Résultats pour les appartements
resultats_appart = {
    "LinearRegression": {"r2": r2_lr_appart, "mse": mse_lr_appart},
    "DecisionTree": {"r2": r2_dtr_appart, "mse": mse_dtr_appart},
    "DecisionTree (GridSearchCV)" : {"r2": r2_dtr_gsr_appart, "mse": mse_gsr_dtr_appart},
    "RandomForest": {"r2": r2_rfr_appart, "mse": mse_rfr_appart},
    "RandomForest (GridSearchCV)": {"r2": r2_gsr_rfr_appart, "mse": mse_gsr_rfr_appart},
    "XGBoost": {"r2": r2_xgbr_appart, "mse": mse_xgbr_appart}
}



# 🧾 Convertion en DataFrames
df_resultats_appart = pd.DataFrame(resultats_appart).T


# 📣 Affichage
print("\n🏢 Résultats pour les appartements :")
display(df_resultats_appart.sort_values(by='r2', ascending=False))




🏢 Résultats pour les appartements :


Unnamed: 0,r2,mse
DecisionTree,0.544853,79337600.0
RandomForest,0.526054,82614630.0
RandomForest (GridSearchCV),0.518456,83938970.0
DecisionTree (GridSearchCV),0.515533,84448400.0
LinearRegression,0.485613,89663930.0
XGBoost,0.051898,165265600.0


In [121]:
# 🧮 Calculs Maisons


r2_lr_maisons  = r2_score(y_maisons, y_pred_lr_maisons)
r2_dtr_maisons = r2_score(y_maisons, y_pred_dtr_maisons)
r2_dtr_gsr_maisons = r2_score(y_maisons, y_pred_dtr_gsr_maisons)
r2_rfr_maisons = r2_score(y_maisons, y_pred_rf_maisons)
r2_gsr_rfr_maisons = r2_score(y_maisons, y_pred_rf_gsr_maisons)
r2_xgbr_maison  = r2_score(y_maisons, y_pred_xgbr_maisons)

mse_lr_maison  = mean_squared_error(y_maisons, y_pred_lr_maisons)
mse_dtr_maisons = mean_squared_error(y_maisons, y_pred_dtr_maisons)
mse_gsr_dtr_maisons = mean_squared_error(y_maisons, y_pred_dtr_gsr_maisons)
mse_rfr_maisons = mean_squared_error(y_maisons, y_pred_rf_maisons)
mse_gsc_rfr_maisons = mean_squared_error(y_maisons, y_pred_rf_gsr_maisons)
mse_xgbr_maison = mean_squared_error(y_maisons, y_pred_xgbr_maisons)

# 📊 Résultats pour les maisons
resultats_maisons = {
    "LinearRegression": {"r2": r2_lr_maisons, "mse": mse_lr_maison},
    "DecisionTree": {"r2": r2_dtr_maisons, "mse": mse_dtr_maisons},
    "DecisionTree (GridSearchCV)" :{"r2": r2_dtr_gsr_appart, "mse": mse_gsr_dtr_maisons},
    "RandomForest": {"r2": r2_rfr_maisons, "mse": mse_rfr_maisons},
    "RandomForest (GridSearchCV)": {"r2": r2_gsr_rfr_maisons, "mse": mse_gsc_rfr_maisons},
    "XGBoost": {"r2": r2_xgbr_maison, "mse": mse_xgbr_maison}
}

# 🧾 Convertion en DataFrames
df_resultats_maisons = pd.DataFrame(resultats_maisons).T

# 📣 Affichage
print("\n🏠 Résultats pour les maisons :")
display(df_resultats_maisons.sort_values(by='r2', ascending=False))



🏠 Résultats pour les maisons :


Unnamed: 0,r2,mse
DecisionTree (GridSearchCV),0.515533,7231975.0
LinearRegression,-2.403942,7044029.0
XGBoost,-2.47237,7185632.0
DecisionTree,-2.484473,7210679.0
RandomForest,-2.491171,7224539.0
RandomForest (GridSearchCV),-2.493409,7229170.0


## 📊  Étape 10 : Comparaisons des performances entre Lille et Bordeaux  
---

### 🧠 Évaluation des performances des modèles – Lille vs Bordeaux

#### 🏢 Résultats des modèles -Appartements : 

| Modèle                           | R² Lille | R² Bordeaux | Écart de performance |
|----------------------------------|----------|--------------|----------------------|
| DecisionTree                     | 0.9728   | 0.5449       | -0.43                |
| XGBoost                          | 0.9648   | 0.0519       | **-0.91**            |
| DecisionTree (GridSearchCV)     | 0.9497   | 0.5155       | -0.43                |
| RandomForest (GridSearchCV)     | 0.9485   | 0.5185       | -0.43                |
| RandomForest                    | 0.9424   | 0.5261       | -0.42                |
| LinearRegression                | 0.7638   | 0.4856       | -0.28                |






#### 📌 Analyse :
- Tous les modèles voient leurs performances chuter à Bordeaux.
- XGBoost subit une forte perte de capacité prédictive (R² ≈ 0.05).
- LinearRegression reste relativement stable, mais moins performant que les autres.


#### 🏠 Résultats des modèles - Maisons : 

| Modèle                           | R² Lille | R² Bordeaux | Écart de performance |
|----------------------------------|----------|--------------|----------------------|
| RandomForest (GridSearchCV)     | 0.9716   | -2.4934      | **-3.46**            |
| RandomForest                    | 0.9707   | -2.4912      | -3.46                |
| XGBoost                          | 0.9698   | -2.4724      | -3.44                |
| DecisionTree (GridSearchCV)     | 0.9541   | 0.5155       | -0.44                |
| DecisionTree                     | 0.9518   | -2.4845      | -3.44                |
| LinearRegression                | 0.8144   | -2.4039      | -3.22                |





#### 📌 Analyse :
- Sur les maisons, tous les modèles ont un R² négatif à Bordeaux, ce qui signifie qu’ils font pire qu’un simple calcul de moyenne.
- Les performances s’effondrent complètement, quel que soit le modèle utilisé.

#### 🧩 Hypothèses explicatives
- Différences structurelles entre les marchés immobiliers à Lille et Bordeaux
- Variables explicatives trop locales (ex : relation prix/surface différente)
- Données d’apprentissage centrées uniquement sur Lille → manque de diversité géographique
- Éventuels déséquilibres dans le nombre ou la qualité des données Bordeaux
- Modèles sur-appris aux spécificités de Lille (surfit)