## 📚 Étape 0 : Import de bibliothéque
---

In [334]:
import pandas as pd
import os
import numpy as np
import matplotlib as plt
from sklearn.linear_model import LinearRegression

## 🔍 Étape 1 : Analyse du fichier lille_2022.csv
---

In [335]:
import os
print(os.getcwd())

/Users/aminaabdm/Desktop/FastAPI_IA_Immobilier/notebooks


In [336]:
df = pd.read_csv("../data/lille_2022.csv")
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11354 entries, 0 to 11353
Data columns (total 44 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Identifiant de document     0 non-null      float64
 1   Reference document          0 non-null      float64
 2   1 Articles CGI              0 non-null      float64
 3   2 Articles CGI              0 non-null      float64
 4   3 Articles CGI              0 non-null      float64
 5   4 Articles CGI              0 non-null      float64
 6   5 Articles CGI              0 non-null      float64
 7   No disposition              11354 non-null  int64  
 8   Date mutation               11354 non-null  object 
 9   Nature mutation             11354 non-null  object 
 10  Valeur fonciere             11354 non-null  float64
 11  No voie                     11248 non-null  float64
 12  B/T/Q                       652 non-null    object 
 13  Type de voie                113

Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain,prix_m2
0,,,,,,,,1,03/01/2022,Vente,...,0,1.0,Maison,,82.0,5.0,S,,70.0,2681.707317
1,,,,,,,,1,03/01/2022,Vente,...,2,2.0,Appartement,,63.0,3.0,,,,2936.507937
2,,,,,,,,1,03/01/2022,Vente,...,2,3.0,Dépendance,,0.0,0.0,,,,inf
3,,,,,,,,1,03/01/2022,Vente,...,1,3.0,Dépendance,,0.0,0.0,,,,inf
4,,,,,,,,1,03/01/2022,Vente,...,1,3.0,Dépendance,,0.0,0.0,,,,inf


## 🧬 Étape 2 : Filtrer les biens de 4 pièces uniquement
---

In [337]:
# Vérification  des colonnes du dataframe pour être sûr du nom exact
print(df.columns)

# Filtrage sur 4.0 (float)
df_4_pieces = df[df['Nombre pieces principales'] == 4].copy()

# Vérifier que le filtrage a fonctionné
print(df_4_pieces.shape)
print(df_4_pieces.head())


Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
(789, 44)
    Identifiant de document  Reference document  1 Articles CGI  \
18                   

In [338]:
print(df['Nombre pieces principales'].dtype)
print(df['Nombre pieces principales'].unique())

float64
[ 5.  3.  0.  2.  1.  4.  7.  6.  8. 10. 14.  9. 12. 11. 13.]


## 🧪 Étape 3 : Création de jeu de données distincs pour les appartements et les maisons 
---

### ✅ Jeu de données pour les appartements :



In [339]:
# # Filtrer le DataFrame pour ne garder que les appartements
df_appartements = df[df['Type local'] == 'Appartement'].copy()

# Afficher la liste des colonnes pour vérifier les colonnes disponibles
print(df_appartements.columns)

# Sélection dela liste des colonnes que l'on souhaite conserver
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',     
    'Nombre de lots',
    'prix_m2'
]

# Filtrer cette liste pour ne garder que les colonnes qui existent vraiment dans le DataFrame
colonnes_disponibles = [col for col in colonnes_a_garder if col in df_appartements.columns]

# Sélectionner dans le DataFrame uniquement ces colonnes disponibles
df_appartements = df_appartements[colonnes_disponibles].copy()

# Afficher un aperçu pour vérifier
print(df_appartements.head())



Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
    Surface reelle bati  Nombre pieces principales   Type local  \
1                  63.0        

### ✅ Jeu de données pour les maisons : 



In [340]:
# # Filtrer le DataFrame pour ne garder que les maisons
df_maisons = df[df['Type local'] == 'Maison'].copy()

# Afficher la liste des colonnes pour vérifier les colonnes disponibles
print(df_maisons.columns)

# Sélection dela liste des colonnes que l'on souhaite conserver
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',     
    'Nombre de lots',
    'prix_m2'
]

# Filtrer cette liste pour ne garder que les colonnes qui existent vraiment dans le DataFrame
colonnes_disponibles = [col for col in colonnes_a_garder if col in df_maisons.columns]

# Sélectionner dans le DataFrame uniquement ces colonnes disponibles
df_maisons = df_maisons[colonnes_disponibles].copy()

# Afficher un aperçu pour vérifier
print(df_maisons.head())



Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
    Surface reelle bati  Nombre pieces principales Type local  \
0                  82.0          

## 📌 Étape 5 : Création de la variable cible 
---

## 🧹 Étape 6 : Nettoyage des données 
---

### ✅ Supprimer les lignes avec valeurs manquantes et encoding Type local



In [341]:
from sklearn.preprocessing import LabelEncoder

# 🧼 Étape 1 : Colonnes utiles pour l'entraînement
colonnes_utiles = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',
    'Nombre de lots',
    'prix_m2'
]

# 🧹 Étape 2 : Nettoyage des données avec dropna, et création d'une copie propre
df_appartements_clean = df_appartements.dropna(subset=colonnes_utiles).copy()
df_maisons_clean = df_maisons.dropna(subset=colonnes_utiles).copy() 

# 🏷️ Étape 3 : Encodage de 'Type local' sur chaque DataFrame (si besoin de garder les deux)
label_encoder = LabelEncoder()

# Mapping d'encodage global
mapping_type_local = {
    "Appartement": 0,
    "Maison": 1
}

df_appartements_clean["Type local encoded"] = df_appartements_clean["Type local"].map(mapping_type_local)
df_maisons_clean["Type local encoded"] = df_maisons_clean["Type local"].map(mapping_type_local)

# 🧺 Étape 4 : Optionnel – supprimer la colonne originale
df_appartements_clean.drop(columns=["Type local"], inplace=True)
df_maisons_clean.drop(columns=["Type local"], inplace=True)


### ✅ Retirer les valeurs aberrantes (prix_m2 trop faible ou trop élevé)

### 🏢 Outliers appartements 

In [342]:
def detect_outliers(df, column='prix_m2'):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return Q1, Q3, lower_bound, upper_bound, outliers

# Détection des outliers dans les appartements
print("🔎 Détection des outliers sur la colonne 'prix_m2' pour les appartements 🏢")

Q1_appart, Q3_appart, lower_appart, upper_appart, outliers_appart = detect_outliers(df_appartements_clean)

print(f"Q1 : {Q1_appart}, Q3 : {Q3_appart}")
print(f"Borne inférieure : {lower_appart}, Borne supérieure : {upper_appart}")
print(f"Nombre d'outliers détectés : {outliers_appart.shape[0]}\n")

# Dimensions avant nettoyage
print(f"Dimensions avant nettoyage : {df_appartements_clean.shape}")

# Création d'une copie propre sans les outliers
df_appartements_clean = df_appartements_clean[
    (df_appartements_clean['prix_m2'] >= lower_appart) &
    (df_appartements_clean['prix_m2'] <= upper_appart)
].copy()

# Dimensions après nettoyage
print(f"Dimensions après nettoyage : {df_appartements_clean.shape}")


🔎 Détection des outliers sur la colonne 'prix_m2' pour les appartements 🏢
Q1 : 9090.90909090909, Q3 : 26041.666666666668
Borne inférieure : -16335.227272727274, Borne supérieure : 51467.80303030303
Nombre d'outliers détectés : 105

Dimensions avant nettoyage : (1163, 6)
Dimensions après nettoyage : (1058, 6)


In [343]:
df_appartements_clean.head ()

Unnamed: 0,Surface reelle bati,Nombre pieces principales,Surface terrain,Nombre de lots,prix_m2,Type local encoded
10,10.0,1.0,274.0,0,30000.0,0
11,28.0,1.0,274.0,0,10714.285714,0
12,27.0,1.0,274.0,0,11111.111111,0
13,11.0,1.0,274.0,0,27272.727273,0
14,11.0,1.0,274.0,0,27272.727273,0


### 🏡 Outliers maisons 

In [344]:
def detect_outliers(df, column='prix_m2'):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return Q1, Q3, lower_bound, upper_bound, outliers

# Détection des outliers pour les maisons
print("🔍 Détection des outliers sur la colonne 'prix_m2' pour les maisons 🏡")

Q1_maisons, Q3_maisons, lower_maisons, upper_maisons, outliers_maisons = detect_outliers(df_maisons_clean)

print(f"Q1 : {Q1_maisons}, Q3 : {Q3_maisons}")
print(f"Borne inférieure : {lower_maisons}, Borne supérieure : {upper_maisons}")
print(f"Nombre d'outliers détectés : {outliers_maisons.shape[0]}\n")

# Dimensions avant nettoyage
print(f"Dimensions avant nettoyage : {df_maisons_clean.shape}")

# Création du DataFrame nettoyé
df_maisons_clean = df_maisons_clean[
    (df_maisons_clean['prix_m2'] >= lower_maisons) &
    (df_maisons_clean['prix_m2'] <= upper_maisons)
].copy()

# Dimensions après nettoyage
print(f"Dimensions après nettoyage : {df_maisons_clean.shape}")


🔍 Détection des outliers sur la colonne 'prix_m2' pour les maisons 🏡
Q1 : 2250.0, Q3 : 3702.2235576923076
Borne inférieure : 71.66466346153857, Borne supérieure : 5880.5588942307695
Nombre d'outliers détectés : 76

Dimensions avant nettoyage : (1128, 6)
Dimensions après nettoyage : (1052, 6)


In [345]:
df_maisons_clean.head()

Unnamed: 0,Surface reelle bati,Nombre pieces principales,Surface terrain,Nombre de lots,prix_m2,Type local encoded
0,82.0,5.0,70.0,0,2681.707317,1
18,165.0,4.0,121.0,0,1848.484848,1
19,58.0,3.0,35.0,0,3103.448276,1
20,96.0,5.0,99.0,0,2395.833333,1
25,60.0,5.0,32.0,0,1916.666667,1


## 🤖 Étape 7 : Préparation des données pour l'entrainement
---

### ✅ Préparation des données pour l'entrainement des appartements 

In [346]:
from sklearn.model_selection import train_test_split

# Variables explicatives (X) : toutes les colonnes sauf la cible
X_appart = df_appartements_clean.drop(columns=['prix_m2'])

# Variable cible (y)
y_appart = df_appartements_clean['prix_m2']

# Séparation en jeu d'entraînement (80%) et de test (20%)
X_train_appart, X_test_appart, y_train_appart, y_test_appart = train_test_split(
    X_appart, y_appart, test_size=0.2, random_state=42
)

# Vérification des jeux d'entraînement et de test
print("Taille jeu d'entraînement pour les appartements :", X_train_appart.shape)
print("Taille jeu de test pour les appartements :", X_test_appart.shape)


Taille jeu d'entraînement pour les appartements : (846, 5)
Taille jeu de test pour les appartements : (212, 5)


### ✅ Préparation des données pour l'entrainement des maisons

In [347]:
from sklearn.model_selection import train_test_split

# Variables explicatives (X) : toutes les colonnes sauf la cible
X_maisons = df_maisons_clean.drop(columns=['prix_m2'])

# Variable cible (y)
y_maisons = df_maisons_clean['prix_m2']

# Séparation en jeu d'entraînement (80%) et de test (20%)
X_train_maisons, X_test_maisons, y_train_maisons, y_test_maisons = train_test_split(
    X_maisons, y_maisons, test_size=0.2, random_state=42
)

# Vérification des jeux d'entraînement et de test
print("Taille jeu d'entraînement pour les maisons :", X_train_maisons.shape)
print("Taille jeu de test pour les maisons :", X_test_maisons.shape)


Taille jeu d'entraînement pour les maisons : (841, 5)
Taille jeu de test pour les maisons : (211, 5)


### ⚙️ Standardisation des données avec StandardScaler 
---


### 🏢 StandardScaler pour les appartements : 

In [348]:
from sklearn.preprocessing import StandardScaler

# Initialiser le scaler
scaler = StandardScaler()

# Fit sur l'entraînement + transformation
X_train_appart_scaled = scaler.fit_transform(X_train_appart)
# Conversion en DataFrame pour conserver les noms de colonnes
X_train_appart_scaled = pd.DataFrame(X_train_appart_scaled, columns=X_train_appart.columns)
# Transformation du test
X_test_appart_scaled = scaler.transform(X_test_appart)


### 🏡 StandardScaler  pour les maisons : 

In [370]:
from sklearn.preprocessing import StandardScaler

# Initialiser le scaler
scaler = StandardScaler()

# Fit sur l'entraînement + transformation
X_train_maisons_scaled = scaler.fit_transform(X_train_maisons)
# Conversion en DataFrame pour conserver les noms de colonnes
X_train_maisons_scaled = pd.DataFrame(X_train_maisons_scaled, columns=X_train_maisons.columns)
# Transformation du test
X_test_maisons_scaled = scaler.transform(X_test_maisons)

print(X_train_appart_scaled.shape)


(846, 5)


## 🤖 Étape 8 : Entraîner les modèles de base avec scikit-learn
---

### ⏱️ Évaltuation des temps d'entrainement 

In [350]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import time

# Initialiser les modèles
models = {
    "LinearRegression": LinearRegression(),
    "DecisionTree": DecisionTreeRegressor(random_state=42),
    "RandomForest": RandomForestRegressor(random_state=42, n_jobs=-1)
}

# Stockage des résultats
results = {}

for name, model in models.items():
    print(f"\n🏗️ Entraînement du modèle : {name}")
    
    start_time_appart = time.time()
    model.fit(X_train_appart_scaled, y_train_appart)
    training_time_appart = time.time() - start_time_appart

    print(f"⏱️ Temps d'entraînement pour les appartements : {training_time_appart:.2f} secondes")
    
    start_time_maisons = time.time()
    model.fit(X_train_maisons_scaled, y_train_maisons)
    training_time_maisons = time.time() - start_time_maisons
    
    print(f"⏱️ Temps d'entraînement pour les maisons : {training_time_maisons:.2f} secondes")
    


🏗️ Entraînement du modèle : LinearRegression
⏱️ Temps d'entraînement pour les appartements : 0.01 secondes
⏱️ Temps d'entraînement pour les maisons : 0.00 secondes

🏗️ Entraînement du modèle : DecisionTree
⏱️ Temps d'entraînement pour les appartements : 0.02 secondes
⏱️ Temps d'entraînement pour les maisons : 0.02 secondes

🏗️ Entraînement du modèle : RandomForest
⏱️ Temps d'entraînement pour les appartements : 0.67 secondes
⏱️ Temps d'entraînement pour les maisons : 0.26 secondes


## 📉 Linear Regression Model

### 🏢 Entrainement du jeu de données pour les appartements 

In [351]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

model_lr_appart = LinearRegression()
model_lr_appart.fit(X_train_appart_scaled, y_train_appart)


0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [352]:
y_pred_lr_appart = model_lr_appart.predict(X_test_appart_scaled)

# Évaluation
mse_lr_appart = mean_squared_error(y_test_appart, y_pred_lr_appart)
r2_lr_appart = r2_score(y_test_appart, y_pred_lr_appart)

print("\n🏗️ Entraînement du modèle : Linear Regression")
print("MSE :", mean_squared_error(y_test_appart, y_pred_lr_appart))
print("RMSE :", np.sqrt(mean_squared_error(y_test_appart, y_pred_lr_appart)))
print("R²  :", r2_score(y_test_appart, y_pred_lr_appart))



🏗️ Entraînement du modèle : Linear Regression
MSE : 88223001.0791934
RMSE : 9392.709996544841
R²  : 0.14420710368731948




### 🏡 Entrainement du jeu de données pour les maisons avec LinearRegression : 

In [353]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

model_lr_maisons = LinearRegression()
model_lr_maisons.fit(X_train_maisons_scaled, y_train_maisons)


0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [354]:
y_pred_lr_maisons = model_lr_maisons.predict(X_test_maisons_scaled)

# Évaluation
mse_lr_maison = mean_squared_error(y_test_maisons, y_pred_lr_maisons)
r2_lr_maisons = r2_score(y_test_maisons, y_pred_lr_maisons)


print("\n🏗️ Entraînement du modèle : Linear Regression")
print("MSE :", mean_squared_error(y_test_maisons, y_pred_lr_maisons))
print("RMSE :", np.sqrt(mean_squared_error(y_test_maisons, y_pred_lr_maisons)))
print("R²  :", r2_score(y_test_maisons, y_pred_lr_maisons))



🏗️ Entraînement du modèle : Linear Regression
MSE : 990379.9814044206
RMSE : 995.1783666280234
R²  : 0.03130928415470979




## ⚖️🌳 DecisionTreeRegressor

###  🏢 Entrainement du jeu de données pour les appartements avec DecisionTreeRegressor : 

In [355]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Entraîner le modèle
dt_appart = DecisionTreeRegressor(random_state=42)
dt_appart.fit(X_train_appart_scaled, y_train_appart)

# Prédictions
y_pred_dtr_appart = dt_appart.predict(X_test_appart_scaled)


# Évaluation
mse_dtr_appart = mean_squared_error(y_test_appart, y_pred_dtr_appart)
r2_dtr_appart = r2_score(y_test_appart, y_pred_dtr_appart)

print("\n🏗️ Entraînement du modèle : DecisionTreeRegression")
print(f"MSE appart Lille : {mse_dtr_appart:.2f}")
print(f"R² appart Lille : {r2_dtr_appart:.2f}")



🏗️ Entraînement du modèle : DecisionTreeRegression
MSE appart Lille : 44359344.15
R² appart Lille : 0.57




### 🏡 Entrainement du jeu de données pour les maisons avec DecisionTreeRegressor : 

In [356]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score



# Entraîner le modèle
dt_maisons = DecisionTreeRegressor(random_state=42)
dt_maisons.fit(X_train_maisons_scaled, y_train_maisons)

# Prédictions
y_pred_dtr_maisons = dt_maisons.predict(X_test_maisons_scaled)

# Évaluation
mse_dtr_maisons = mean_squared_error(y_test_maisons, y_pred_dtr_maisons)
r2_dtr_maisons = r2_score(y_test_maisons, y_pred_dtr_maisons)

print("\n🏗️ Entraînement du modèle : DecisionTreeRegression")
print(f" MSE maisons Lille : {mse_dtr_maisons:.2f}")
print(f" R² maisons Lille : {r2_dtr_maisons:.2f}")



🏗️ Entraînement du modèle : DecisionTreeRegression
 MSE maisons Lille : 1729825.51
 R² maisons Lille : -0.69




## 🤖🌳 RandomForestRegressor

### 🏢 Entrainement du jeu de données pour les appartements avec RandomForestRegressor : 

In [357]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Entraînement du modèle
rf_appart = RandomForestRegressor(random_state=42, n_estimators=100)
rf_appart.fit(X_train_appart_scaled, y_train_appart)

# Prédictions sur les données de test
y_pred_rfr_appart = rf_appart.predict(X_test_appart_scaled)

# Évaluation
mse_rfr_appart = mean_squared_error(y_test_appart, y_pred_rfr_appart)
r2_rfr_appart = r2_score(y_test_appart, y_pred_rfr_appart)

print("\n🏗️ Entraînement du modèle : RandomForestRegressor")
print(f"MSE appart Lille: {mse_rfr_appart:.2f}")
print(f"R² appart Lille : {r2_rfr_appart:.2f}")



🏗️ Entraînement du modèle : RandomForestRegressor
MSE appart Lille: 36441395.73
R² appart Lille : 0.65




### 🏡 Entrainement du jeu de données pour les maisons avec RandomForestRegressor : 

In [358]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Entraînement du modèle
rfr_maisons = RandomForestRegressor(random_state=42, n_estimators=100)
rfr_maisons.fit(X_train_maisons_scaled, y_train_maisons)

# Prédictions sur les données de test
y_pred_rfr_maisons = rfr_maisons.predict(X_test_maisons_scaled)

# Évaluation
mse_rfr_maisons = mean_squared_error(y_test_maisons, y_pred_rfr_maisons)
r2_rfr_maisons = r2_score(y_test_maisons, y_pred_rfr_maisons)

print("\n🏗️ Entraînement du modèle : RandomForestRegressor")
print(f"MSE maisons Lille: {mse_rfr_maisons:.2f}")
print(f"R² maisons Lille : {r2_rfr_maisons:.2f}")



🏗️ Entraînement du modèle : RandomForestRegressor
MSE maisons Lille: 1032614.15
R² maisons Lille : -0.01




## 🤖 Étape 9 : Optimisation des modéles d'arbre avec GridSearchCV
---

### 🏢 RandomForestRegressor avec GridSearchCV pour les appartement : 

In [359]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor

# Définir la grille des hyperparamètres à tester
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2]
}

In [360]:
# Créer le modèle de base
gsc_rf_appart = RandomForestRegressor(random_state=42)

# GridSearch avec validation croisée
grid_search_appart = GridSearchCV(estimator=rf_appart, param_grid=param_grid, 
                           cv=5, n_jobs=-1, scoring='r2', verbose=2)

# Entraînement sur les données prétraitées
grid_search_appart.fit(X_train_appart_scaled, y_train_appart)

# Meilleur modèle
best_gsc_rf_appart = grid_search_appart.best_estimator_

# Évaluation pour les appartements
from sklearn.metrics import mean_squared_error, r2_score
y_pred_gsc_rfr_appart = best_gsc_rf_appart.predict(X_test_appart_scaled)
mse_gsc_rfr_appart = mean_squared_error(y_test_appart, y_pred_gsc_rfr_appart)
r2_gsc_rfr_appart = r2_score(y_test_appart, y_pred_gsc_rfr_appart)

# Affichage des résultats
print("🏢 Appartements")
print(f"Meilleurs hyperparamètres : {grid_search_appart.best_params_}")
print(f"MSE appartements Lille (GridSearchCV) : {mse_gsc_rfr_appart:.2f}")
print(f"R² appartements Lille (GridSearchCV) : {r2_gsc_rfr_appart:.2f}")

Fitting 5 folds for each of 36 candidates, totalling 180 fits
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.3s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.3s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.3s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.3s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.3s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.7s
[CV] END max_dep



### 🏡 RandomForestRegressor avec GridSearchCV pour les maisons : 

In [361]:
# Créer le modèle de base
gsc_rf_maison = RandomForestRegressor(random_state=42)

# GridSearch avec validation croisée
grid_search_maison = GridSearchCV(estimator=rfr_maisons, param_grid=param_grid, 
                           cv=5, n_jobs=-1, scoring='r2', verbose=2)

# Entraînement sur les données prétraitées
grid_search_maison.fit(X_train_maisons_scaled, y_train_maisons)

# Meilleur modèle
best_gsc_rf_maison = grid_search_maison.best_estimator_

# Évaluation pour les maisons
y_pred_gsc_rfr_maisons = best_gsc_rf_maison.predict(X_test_maisons_scaled)
mse_gsc_rfr_maisons = mean_squared_error(y_test_maisons, y_pred_gsc_rfr_maisons)
r2_gsc_rfr_maisons = r2_score(y_test_maisons, y_pred_gsc_rfr_maisons)

# Affichage des résultats
print("\n🏠 Maisons")
print(f"Meilleurs hyperparamètres : {grid_search_maison.best_params_}")
print(f"MSE maisons Lille (GridSearchCV) : {mse_gsc_rfr_maisons:.2f}")
print(f"R² maisons Lille (GridSearchCV) : {r2_gsc_rfr_maisons:.2f}")



Fitting 5 folds for each of 36 candidates, totalling 180 fits
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.5s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.6s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=50; total time=   0.4s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.8s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.8s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.8s
[CV] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=100; total time=   0.8s
[CV] END max_dep



### 🏢 DecisionTreeRegressor avec GridSearchCV pour les appartements :

In [362]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score

# Grille d'hyperparamètres pour DecisionTree
param_grid = {
    'max_depth': [None, 5, 10, 20],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [363]:
# 🏢 Appartements

gsc_dt_appart = DecisionTreeRegressor(random_state=42)
grid_search_appart = GridSearchCV(estimator=dt_appart, param_grid=param_grid,
                                  cv=5, n_jobs=-1, scoring='r2', verbose=1)

grid_search_appart.fit(X_train_appart_scaled, y_train_appart)
best_gsc_dt_appart = grid_search_appart.best_estimator_

y_pred_gsc_dtr_appart = best_gsc_dt_appart.predict(X_test_appart_scaled)
mse_gsc_dtr_appart = mean_squared_error(y_test_appart, y_pred_gsc_dtr_appart)
r2_gsc_dtr_appart = r2_score(y_test_appart, y_pred_gsc_dtr_appart)

# Affichage des résultats
print("\n🏢 Appartements")
print("Meilleurs hyperparamètres :", grid_search_appart.best_params_)
print(f"MSE      : {mse_gsc_dtr_appart:.2f}")
print(f"Score R² : {r2_gsc_dtr_appart:.2f}")

Fitting 5 folds for each of 36 candidates, totalling 180 fits

🏢 Appartements
Meilleurs hyperparamètres : {'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 5}
MSE      : 49052000.97
Score R² : 0.52




### 🏡 DecisionTreeRegressor avec GridSearchCV pour les maisons :

In [364]:
# 🏠 Maisons

gsc_dt_maison = DecisionTreeRegressor(random_state=42)
grid_search_maison = GridSearchCV(estimator=dt_maisons, param_grid=param_grid,
                                  cv=5, n_jobs=-1, scoring='r2', verbose=1)

grid_search_maison.fit(X_train_maisons_scaled, y_train_maisons)
best_gsc_dt_maison = grid_search_maison.best_estimator_

y_pred_gsc_dtr_maison = best_gsc_dt_maison.predict(X_test_maisons_scaled)
mse_gsc_dtr_maison = mean_squared_error(y_test_maisons, y_pred_gsc_dtr_maison)
r2_gsc_dtr_maison = r2_score(y_test_maisons, y_pred_gsc_dtr_maison)

# Affichage des résultats
print("\n🏠 Maisons")
print("Meilleurs hyperparamètres :", grid_search_maison.best_params_)
print(f"MSE      : {mse_gsc_dtr_maison:.2f}")
print(f"Score R² : {r2_gsc_dtr_maison:.2f}")

Fitting 5 folds for each of 36 candidates, totalling 180 fits

🏠 Maisons
Meilleurs hyperparamètres : {'max_depth': 5, 'min_samples_leaf': 4, 'min_samples_split': 2}
MSE      : 1004800.43
Score R² : 0.02




## 🎯 Étape 10 : Ajouter un modèle moderne : XGBRegressor pour les appartements et maisons, et l’évaluer.
---

In [365]:
# Importer les bibliothèques nécessaires
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error, r2_score


### 🏢 Créer et entraîner un modèle pour les appartements

In [366]:
# Créer le modèle XGBoost
xgb_appart = XGBRegressor(random_state=42, n_estimators=100)

# Entraîner sur les données d'appartements
xgb_appart.fit(X_train_appart_scaled, y_train_appart)

# Prédire sur les données de test
y_pred_xgbr_appart = xgb_appart.predict(X_test_appart_scaled)

# Évaluer les performances
mse_xgbr_appart = mean_squared_error(y_test_appart, y_pred_xgbr_appart)
r2_xgbr_appart = r2_score(y_test_appart, y_pred_xgbr_appart)

# Afficher les résultats
print("🏢 Appartements — XGBoost")
print(f"MSE : {mse_xgbr_appart:.2f}")
print(f"R²  : {r2_xgbr_appart:.2f}")


🏢 Appartements — XGBoost
MSE : 32993290.98
R²  : 0.68


### 🏠 Créer et entraîner un modèle pour les maisons 

In [367]:
# Créer le modèle XGBoost
xgb_maison = XGBRegressor(random_state=42, n_estimators=100)

# Entraîner sur les données de maisons
xgb_maison.fit(X_train_maisons_scaled, y_train_maisons)

# Prédire sur les données de test
y_pred_xgbr_maison = xgb_maison.predict(X_test_maisons_scaled)

# Évaluer les performances
mse_xgbr_maison = mean_squared_error(y_test_maisons, y_pred_xgbr_maison)
r2_xgbr_maison = r2_score(y_test_maisons, y_pred_xgbr_maison)

# Afficher les résultats
print("\n🏠 Maisons — XGBoost")
print(f"R²  : {r2_xgbr_maison:.2f}")
print(f"MSE : {mse_xgbr_maison:.2f}")



🏠 Maisons — XGBoost
R²  : -0.13
MSE : 1152406.04


## 📊  Étape 11 : Évaluation de la performance des modéles 
---

### ✅ Stockage des résultat

In [368]:
import pandas as pd

# 📊 Résultats pour les appartements
resultats_appart = {
    "                       LinearRegression": {"r2": r2_lr_appart, "mse": mse_lr_appart},
    "                           DecisionTree": {"r2": r2_dtr_appart, "mse": mse_dtr_appart},
    "                           RandomForest": {"r2": r2_rfr_appart, "mse": mse_rfr_appart},
    "RandomForestRegressor avec GridSearchCV": {"r2": r2_gsc_rfr_appart, "mse": mse_gsc_rfr_appart},
    "DecisionTreeRegressor avec GridSearchCV": {"r2": r2_gsc_dtr_appart, "mse": mse_gsc_dtr_appart},
    "                         XGBoost": {"r2": r2_xgbr_appart, "mse": mse_xgbr_appart}
}

# 📊 Résultats pour les maisons
resultats_maisons = {
    "                LinearRegression": {"r2": r2_lr_maisons, "mse": mse_lr_maison},
    "                    DecisionTree": {"r2": r2_dtr_maisons, "mse": mse_dtr_maisons},
    "                    RandomForest": {"r2": r2_rfr_maisons, "mse": mse_rfr_maisons},
    "RandomForestRegressor avec GridSearchCV": {"r2": r2_gsc_rfr_maisons, "mse": mse_gsc_rfr_maisons},
    "DecisionTreeRegressor avec GridSearchCV": {"r2": r2_gsc_dtr_maison, "mse": mse_gsc_dtr_maison},
    "                         XGBoost": {"r2": r2_xgbr_maison, "mse": mse_xgbr_maison}
}
# 📊 Résumé des résultats 

# Convertion en DataFrames
df_resultats_appart = pd.DataFrame(resultats_appart).T
df_resultats_maisons = pd.DataFrame(resultats_maisons).T

# Affichage des DataFrames
print("\n🏢 Résultats pour les appartements :")
display(df_resultats_appart.sort_values(by='r2', ascending=False))

print("\n🏠 Résultats pour les maisons :")
display(df_resultats_maisons.sort_values(by='r2', ascending=False))




🏢 Résultats pour les appartements :


Unnamed: 0,r2,mse
XGBoost,0.679954,32993290.0
RandomForest,0.646506,36441400.0
RandomForestRegressor avec GridSearchCV,0.645404,36555040.0
DecisionTree,0.569699,44359340.0
DecisionTreeRegressor avec GridSearchCV,0.524179,49052000.0
LinearRegression,0.144207,88223000.0



🏠 Résultats pour les maisons :


Unnamed: 0,r2,mse
RandomForestRegressor avec GridSearchCV,0.063912,957047.2
LinearRegression,0.031309,990380.0
DecisionTreeRegressor avec GridSearchCV,0.017205,1004800.0
RandomForest,-0.01,1032614.0
XGBoost,-0.127168,1152406.0
DecisionTree,-0.691942,1729826.0


## 💾 Sauvergarde des modéles 

In [369]:
import joblib
import os

# Créer le dossier 'models' s'il n'existe pas
os.makedirs("models", exist_ok=True)

# Dictionnaire des modèles à sauvegarder
models = {
    
    "linear_regression_apparts_Lille": model_lr_appart,
    "linear_regression_maisons_Lille": model_lr_maisons,
    "random_forest_apparts_Lille": rf_appart,
    "random_forest_maisons_Lille": rfr_maisons,
    "random_forest_gridsearchcv_apparts_Lille": best_gsc_rf_appart,
    "random_forest_gridsearchcv_maisons_Lille": best_gsc_rf_maison,
    "decision_tree_apparts_Lille": dt_appart,
    "decision_tree_maisons_Lille": dt_maisons,
    "decision_tree_gridsearchcv_apparts_Lille": best_gsc_dt_appart,
    "decision_tree_gridsearchcv_maisons_Lille": best_gsc_dt_maison,
    "xgboost_apparts_Lille": xgb_appart,
    "xgboost_maisons_Lille": xgb_maison,
}

# Sauvegarde de chaque modèle
for name, model in models.items():
    path = os.path.join("models", f"{name}.pkl")
    joblib.dump(model, path)
    
    print(f"✅ Modèle sauvegardé : {path}")


✅ Modèle sauvegardé : models/linear_regression_apparts_Lille.pkl
✅ Modèle sauvegardé : models/linear_regression_maisons_Lille.pkl
✅ Modèle sauvegardé : models/random_forest_apparts_Lille.pkl
✅ Modèle sauvegardé : models/random_forest_maisons_Lille.pkl
✅ Modèle sauvegardé : models/random_forest_gridsearchcv_apparts_Lille.pkl
✅ Modèle sauvegardé : models/random_forest_gridsearchcv_maisons_Lille.pkl
✅ Modèle sauvegardé : models/decision_tree_apparts_Lille.pkl
✅ Modèle sauvegardé : models/decision_tree_maisons_Lille.pkl
✅ Modèle sauvegardé : models/decision_tree_gridsearchcv_apparts_Lille.pkl
✅ Modèle sauvegardé : models/decision_tree_gridsearchcv_maisons_Lille.pkl
✅ Modèle sauvegardé : models/xgboost_apparts_Lille.pkl
✅ Modèle sauvegardé : models/xgboost_maisons_Lille.pkl
