### Étape 0 : Import de bibliothéque
---

In [11]:
import pandas as pd
import os
import numpy as np
import matplotlib as plt
from sklearn.linear_model import LinearRegression

### Étape 1 : Prise de connaissance du fichier lille_2022.csv
---

In [None]:
import os
print(os.getcwd())

In [24]:
df = pd.read_csv("../data/lille_2022.csv")
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11354 entries, 0 to 11353
Data columns (total 44 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Identifiant de document     0 non-null      float64
 1   Reference document          0 non-null      float64
 2   1 Articles CGI              0 non-null      float64
 3   2 Articles CGI              0 non-null      float64
 4   3 Articles CGI              0 non-null      float64
 5   4 Articles CGI              0 non-null      float64
 6   5 Articles CGI              0 non-null      float64
 7   No disposition              11354 non-null  int64  
 8   Date mutation               11354 non-null  object 
 9   Nature mutation             11354 non-null  object 
 10  Valeur fonciere             11354 non-null  float64
 11  No voie                     11248 non-null  float64
 12  B/T/Q                       652 non-null    object 
 13  Type de voie                113

Unnamed: 0,Identifiant de document,Reference document,1 Articles CGI,2 Articles CGI,3 Articles CGI,4 Articles CGI,5 Articles CGI,No disposition,Date mutation,Nature mutation,...,Nombre de lots,Code type local,Type local,Identifiant local,Surface reelle bati,Nombre pieces principales,Nature culture,Nature culture speciale,Surface terrain,prix_m2
0,,,,,,,,1,03/01/2022,Vente,...,0,1.0,Maison,,82.0,5.0,S,,70.0,2681.707317
1,,,,,,,,1,03/01/2022,Vente,...,2,2.0,Appartement,,63.0,3.0,,,,2936.507937
2,,,,,,,,1,03/01/2022,Vente,...,2,3.0,Dépendance,,0.0,0.0,,,,inf
3,,,,,,,,1,03/01/2022,Vente,...,1,3.0,Dépendance,,0.0,0.0,,,,inf
4,,,,,,,,1,03/01/2022,Vente,...,1,3.0,Dépendance,,0.0,0.0,,,,inf


### Étape 2 : Filtrer les biens de 4 pièces uniquement
---

In [28]:
# Vérification  des colonnes du dataframe pour être sûr du nom exact
print(df.columns)

# Filtrage sur 4.0 (float)
df_4_pieces = df[df['Nombre pieces principales'] == 4].copy()

# Vérifier que le filtrage a fonctionné
print(df_4_pieces.shape)
print(df_4_pieces.head())


Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
(789, 44)
    Identifiant de document  Reference document  1 Articles CGI  \
18                   

In [29]:
print(df['Nombre pieces principales'].dtype)
print(df['Nombre pieces principales'].unique())

float64
[ 5.  3.  0.  2.  1.  4.  7.  6.  8. 10. 14.  9. 12. 11. 13.]


### Étape 3 : Création de jeu de données distincs pour les appartements et les maisons 

### Jeu de données pour les appartements :



In [110]:
# # Filtrer le DataFrame pour ne garder que les appartements
df_appartements = df[df['Type local'] == 'Appartement'].copy()

# Afficher la liste des colonnes pour vérifier les colonnes disponibles
print(df_appartements.columns)

# Sélection dela liste des colonnes que l'on souhaite conserver
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',     
    'Nombre de lots',
    'Valeur fonciere'
]

# Filtrer cette liste pour ne garder que les colonnes qui existent vraiment dans le DataFrame
colonnes_disponibles = [col for col in colonnes_a_garder if col in df_appartements.columns]

# Sélectionner dans le DataFrame uniquement ces colonnes disponibles
df_appartements = df_appartements[colonnes_disponibles].copy()

# Afficher un aperçu pour vérifier
print(df_appartements.head())



Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
    Surface reelle bati  Nombre pieces principales   Type local  \
1                  63.0        

### Jeu de données pour les maisons : 



In [111]:
# # Filtrer le DataFrame pour ne garder que les maisons
df_maisons = df[df['Type local'] == 'Maison'].copy()

# Afficher la liste des colonnes pour vérifier les colonnes disponibles
print(df_maisons.columns)

# Sélection dela liste des colonnes que l'on souhaite conserver
colonnes_a_garder = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',     
    'Nombre de lots',
    'Valeur fonciere'
]

# Filtrer cette liste pour ne garder que les colonnes qui existent vraiment dans le DataFrame
colonnes_disponibles = [col for col in colonnes_a_garder if col in df_maisons.columns]

# Sélectionner dans le DataFrame uniquement ces colonnes disponibles
df_maisons = df_maisons[colonnes_disponibles].copy()

# Afficher un aperçu pour vérifier
print(df_maisons.head())



Index(['Identifiant de document', 'Reference document', '1 Articles CGI',
       '2 Articles CGI', '3 Articles CGI', '4 Articles CGI', '5 Articles CGI',
       'No disposition', 'Date mutation', 'Nature mutation', 'Valeur fonciere',
       'No voie', 'B/T/Q', 'Type de voie', 'Code voie', 'Voie', 'Code postal',
       'Commune', 'Code departement', 'Code commune', 'Prefixe de section',
       'Section', 'No plan', 'No Volume', '1er lot',
       'Surface Carrez du 1er lot', '2eme lot', 'Surface Carrez du 2eme lot',
       '3eme lot', 'Surface Carrez du 3eme lot', '4eme lot',
       'Surface Carrez du 4eme lot', '5eme lot', 'Surface Carrez du 5eme lot',
       'Nombre de lots', 'Code type local', 'Type local', 'Identifiant local',
       'Surface reelle bati', 'Nombre pieces principales', 'Nature culture',
       'Nature culture speciale', 'Surface terrain', 'prix_m2'],
      dtype='object')
    Surface reelle bati  Nombre pieces principales Type local  \
0                  82.0          

### Étape 5 : Création de la variable cible 
---

### Variable cible pour les appartements :

In [112]:
# Calcul du prix au m² pour les appartements
df_appartements['prix_m2'] = df_appartements['Valeur fonciere'] / df_appartements['Surface reelle bati']
print(df_appartements[['Surface reelle bati', 'Valeur fonciere', 'prix_m2']].head())

    Surface reelle bati  Valeur fonciere       prix_m2
1                  63.0         185000.0   2936.507937
6                  38.0         120350.0   3167.105263
7                  50.0         180000.0   3600.000000
10                 10.0         300000.0  30000.000000
11                 28.0         300000.0  10714.285714


### Variable cible pour les maisons : 
---

In [113]:
# Calcul du prix au m² pour les maisons
df_maisons['prix_m2'] = df_maisons['Valeur fonciere'] / df_maisons['Surface reelle bati']
print(df_maisons[['Surface reelle bati', 'Valeur fonciere', 'prix_m2']].head())

    Surface reelle bati  Valeur fonciere      prix_m2
0                  82.0         219900.0  2681.707317
18                165.0         305000.0  1848.484848
19                 58.0         180000.0  3103.448276
20                 96.0         230000.0  2395.833333
25                 60.0         115000.0  1916.666667


### Étape 6 : Nettoyage des données 
---

✅ Supprimer les lignes avec valeurs manquantes



In [114]:
# Supprimer les lignes avec des valeurs manquantes dans les colonnes utilisées
colonnes_utiles = [
    'Surface reelle bati',
    'Nombre pieces principales',
    'Type local',
    'Surface terrain',
    'Nombre de lots',
    'Valeur fonciere',
    'prix_m2'
]

df_appartements_clean = df_appartements.dropna(subset=colonnes_utiles).copy()
df_maisons_clean = df_maisons.dropna(subset=colonnes_utiles).copy()


✅ Retirer les valeurs aberrantes (prix_m2 trop faible ou trop élevé)

In [115]:
# Définir les bornes pour les valeurs normales du prix au m²
prix_m2_min = 1000
prix_m2_max = 10000

# Filtrer les valeurs aberrantes pour les appartements
df_appartements_clean = df_appartements_clean[
    (df_appartements_clean['prix_m2'] >= prix_m2_min) &
    (df_appartements_clean['prix_m2'] <= prix_m2_max)
].copy()

# Filtrer les valeurs aberrantes pour les maisons
df_maisons_lille_clean = df_maisons_clean[
    (df_maisons_clean['prix_m2'] >= prix_m2_min) &
    (df_maisons_clean['prix_m2'] <= prix_m2_max)
].copy()


In [116]:
# Vérification des dimensions finales des DataFrames
print("Appartements Lille : ", df_appartements_clean.shape)
print("Maisons Lille : ", df_maisons_clean.shape)


Appartements Lille :  (358, 7)
Maisons Lille :  (1128, 7)


### Étape 7 : Préparation des données pour l'entrainement
---

### Préparation des données pour l'entrainement des appartements 

In [117]:
from sklearn.model_selection import train_test_split

# Variables explicatives (X) : toutes les colonnes sauf la cible
X_appart = df_appartements_clean.drop(columns=['prix_m2'])

# Variable cible (y)
y_appart = df_appartements_clean['prix_m2']

# Séparation en jeu d'entraînement (80%) et de test (20%)
X_train_appart, X_test_appart, y_train_appart, y_test_appart = train_test_split(
    X_appart, y_appart, test_size=0.2, random_state=42
)

# Vérification des jeux d'entraînement et de test
print("Taille jeu d'entraînement :", X_train_appart.shape)
print("Taille jeu de test        :", X_test_appart.shape)


Taille jeu d'entraînement : (286, 6)
Taille jeu de test        : (72, 6)


### Préparation des données pour l'entrainement des maisons

In [118]:
from sklearn.model_selection import train_test_split

# Variables explicatives (X) : toutes les colonnes sauf la cible
X_maisons = df_maisons_clean.drop(columns=['prix_m2'])

# Variable cible (y)
y_maisons = df_maisons_clean['prix_m2']

# Séparation en jeu d'entraînement (80%) et de test (20%)
X_train_maisons, X_test_maisons, y_train_maisons, y_test_maisons = train_test_split(
    X_maisons, y_maisons, test_size=0.2, random_state=42
)

# Vérification des jeux d'entraînement et de test
print("Taille jeu d'entraînement :", X_train_maisons.shape)
print("Taille jeu de test        :", X_test_maisons.shape)


Taille jeu d'entraînement : (902, 6)
Taille jeu de test        : (226, 6)


### ⚙️ Standardisation des données avec StandardScaler 
---


### Standardisation pour les appartements :

In [131]:
from sklearn.preprocessing import StandardScaler
# Sélectionner uniquement les colonnes numériques
colonnes_numeriques = X_train_maisons.select_dtypes(include=['int64', 'float64']).columns

# Sous-ensemble uniquement numérique
X_train_appart = X_train_appart[colonnes_numeriques]
X_test_appart = X_test_appart[colonnes_numeriques]

# Initialiser le scaler
scaler = StandardScaler()

# Fit sur l'entraînement + transformation
X_train_appart_scaled = scaler.fit_transform(X_train_appart)
# Conversion en DataFrame pour conserver les noms de colonnes
X_train_appart_scaled = pd.DataFrame(X_train_appart_scaled, columns=X_train_appart.columns)
# Transformation du test
X_test_appart_scaled = scaler.transform(X_test_appart)


### Standardisation pour les maisons : 

In [132]:
# Sélectionner uniquement les colonnes numériques
colonnes_numeriques = X_train_maisons.select_dtypes(include=['int64', 'float64']).columns

# Sous-ensemble uniquement numérique
X_train_maisons = X_train_maisons[colonnes_numeriques]
X_test_maisons = X_test_maisons[colonnes_numeriques]

# Initialiser le scaler
scaler = StandardScaler()

# Fit sur l'entraînement + transformation
X_train_maison_scaled = scaler.fit_transform(X_train_maisons)

# Transformation du test
X_test_maisons_scaled = scaler.transform(X_test_maisons)


### Étape 8 : Entraîner les modèles de base avec scikit-learn

### Linear Regression
---

In [134]:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import time

# Initialiser les modèles
models = {
    "LinearRegression": LinearRegression(),
    "DecisionTree": DecisionTreeRegressor(random_state=42),
    "RandomForest": RandomForestRegressor(random_state=42, n_jobs=-1)
}

# Stockage des résultats
results = {}

for name, model in models.items():
    print(f"\n🏗️ Entraînement du modèle : {name}")
    
    start_time = time.time()
    model.fit(X_train_maison_scaled, y_train_maisons)
    training_time = time.time() - start_time

    print(f"⏱️ Temps d'entraînement : {training_time:.2f} secondes")


🏗️ Entraînement du modèle : LinearRegression
⏱️ Temps d'entraînement : 0.00 secondes

🏗️ Entraînement du modèle : DecisionTree
⏱️ Temps d'entraînement : 0.02 secondes

🏗️ Entraînement du modèle : RandomForest
⏱️ Temps d'entraînement : 0.39 secondes


### Entrainement du jeu de données pour les appartements avec LinearRegression : 

In [135]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

model_lr = LinearRegression()
model_lr.fit(X_train_appart_scaled, y_train_appart)


0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [137]:
y_pred = model_lr.predict(X_test_appart_scaled)

print("\n🏗️ Entraînement du modèle : Linear Regression")
print("MSE :", mean_squared_error(y_test_appart, y_pred))
print("RMSE :", np.sqrt(mean_squared_error(y_test_appart, y_pred)))
print("R²  :", r2_score(y_test_appart, y_pred))



🏗️ Entraînement du modèle : Linear Regression
MSE : 626709.808137874
RMSE : 791.6500540882151
R²  : 0.8370157247646036




### Entrainement du jeu de données pour les maisons avec LinearRegression : 

In [138]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

model_lr = LinearRegression()
model_lr.fit(X_train_maison_scaled, y_train_maisons)


0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [141]:
y_pred = model_lr.predict(X_test_maisons_scaled)

print("\n🏗️ Entraînement du modèle : Linear Regression")
print("MSE :", mean_squared_error(y_test_maisons, y_pred))
print("RMSE :", np.sqrt(mean_squared_error(y_test_maisons, y_pred)))
print("R²  :", r2_score(y_test_maisons, y_pred))



🏗️ Entraînement du modèle : Linear Regression
MSE : 1024650.2596113066
RMSE : 1012.2500973629524
R²  : 0.792640967505932


### DecisionTreeRegressor

### Entrainement du jeu de données pour les appartements avec DecisionTreeRegressor : 

In [149]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Entraîner le modèle
regressor = DecisionTreeRegressor(random_state=42)
regressor.fit(X_train_appart_scaled, y_train_appart)

# Prédictions
y_pred = regressor.predict(X_test_appart_scaled)

# Évaluation
mse = mean_squared_error(y_test_appart, y_pred)
r2 = r2_score(y_test_appart, y_pred)

print("\n🏗️ Entraînement du modèle : DecisionTreeRegression")
print(f"MSE appart Lille : {mse:.2f}")
print(f"R² appart Lille : {r2:.2f}")



🏗️ Entraînement du modèle : DecisionTreeRegression
MSE appart Lille : 554473.95
R² appart Lille : 0.86




### Entrainement du jeu de données pour les maisons avec DecisionTreeRegressor : 

In [147]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Entraîner le modèle
regressor = DecisionTreeRegressor(random_state=42)
regressor.fit(X_train_maison_scaled, y_train_maisons)

# Prédictions
y_pred = regressor.predict(X_test_maisons_scaled)

# Évaluation
mse = mean_squared_error(y_test_maisons, y_pred)
r2 = r2_score(y_test_maisons, y_pred)

print("\n🏗️ Entraînement du modèle : DecisionTreeRegression")
print(f" MSE maisons Lille : {mse:.2f}")
print(f" R² maisons Lille : {r2:.2f}")



🏗️ Entraînement du modèle : DecisionTreeRegression
 MSE maisons Lille : 434523.82
 R² maisons Lille : 0.91


### RandomForestRegressor

### Entrainement du jeu de données pour les appartements avec RandomForestRegressor : 

In [151]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Entraînement du modèle
rf = RandomForestRegressor(random_state=42, n_estimators=100)
rf.fit(X_train_appart_scaled, y_train_appart)

# Prédictions sur les données de test
y_pred = rf.predict(X_test_appart_scaled)

# Évaluation
mse = mean_squared_error(y_test_appart, y_pred)
r2 = r2_score(y_test_appart, y_pred)

print("\n🏗️ Entraînement du modèle : RandomForestRegressor")
print(f"MSE appart Lille: {mse:.2f}")
print(f"R² appart Lille : {r2:.2f}")



🏗️ Entraînement du modèle : RandomForestRegressor
MSE appart Lille: 362413.50
R² appart Lille : 0.91




### Entrainement du jeu de données pour les maisons avec RandomForestRegressor : 

In [152]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Entraînement du modèle
rf = RandomForestRegressor(random_state=42, n_estimators=100)
rf.fit(X_train_maison_scaled, y_train_maisons)

# Prédictions sur les données de test
y_pred = rf.predict(X_test_maisons_scaled)

# Évaluation
mse = mean_squared_error(y_test_maisons, y_pred)
r2 = r2_score(y_test_maisons, y_pred)

print("\n🏗️ Entraînement du modèle : RandomForestRegressor")
print(f"MSE maisons Lille: {mse:.2f}")
print(f"R² maisons Lille : {r2:.2f}")



🏗️ Entraînement du modèle : RandomForestRegressor
MSE maisons Lille: 63739.28
R² maisons Lille : 0.99
