# IMPORT DES LIBRAIRIES

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import RobustScaler
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline

# OPTIONS PANDAS 

In [2]:
pd.options.display.float_format = '{:.0f}'.format

# OUVERTURE DE NOTRE DATASET

In [3]:
df = pd.read_csv('../DATA/OUT/dataset_hors_outliers_surfaces_and_piece.csv')
df.head()

  df = pd.read_csv('../DATA/OUT/dataset_hors_outliers_surfaces_and_piece.csv')


Unnamed: 0,NoDisp,DateMutation,ValeurFonciere,NoVoie,BTQ,TypeVoie,CodeVoie,Voie,CP,Commune,...,Year,Month,AvecTerrain,SurfaceBatiCat,SurfaceCarrez,Localisation,ID,PrixTerrainM2,PrixBatiM2,PrixCarrezM2
0,1,2021-04-26,311650,16,,RUE,270,DE LA GRANGE DIMIERE,33850,LEOGNAN,...,2021,4,False,"(80.0, 90.0]",84,33238000AA,1,0,3710,3707
1,1,2021-04-26,122000,28,,CRS,840,DE VERDUN,33470,GUJAN MESTRAS,...,2021,4,False,"(0.999, 35.0]",0,33199000BO,2,0,3588,0
2,1,2021-04-23,420612,47,,RUE,144,JEAN MARIE PELT,33380,MIOS,...,2021,4,True,"(118.0, 144.0]",0,33284000CT,3,693,3235,0
3,1,2021-04-19,167000,1,,RUE,30,ARMAND DANEY,33470,GUJAN MESTRAS,...,2021,4,False,"(47.0, 60.0]",49,33199000BO,4,0,3408,3398
4,1,2021-05-05,450000,11,,ALL,1180,FRERES DUPUY CAZAUX,33260,LA TESTE-DE-BUCH,...,2021,5,True,"(100.0, 118.0]",0,33529000CT,5,658,4286,0


# SUPPRESSION DES FEATURES NON ESSENTIELLES

In [4]:
# Préparation de df_model en excluant les colonnes spécifiées dans votre code initial
columns_to_drop = ['NoDisp', 'NoVoie', 'BTQ', 'TypeVoie', 'CodeVoie', 'Voie', 'CP', 'Commune',
                   'CodeDepartement', 'CodeCommune', 'PrefixeSection', 'Section', 'NoPlan',
                   'PremierLot', 'SurfaceCarrez1erLot', 'DeuxiemeLot', 'SurfaceCarrez2emeLot',
                   'TroisiemeLot', 'SurfaceCarrez3emeLot', 'QuatriemeLot', 'SurfaceCarrez4emeLot',
                   'CinquiemeLot', 'SurfaceCarrez5emeLot', 'NatureCulture', 'NatureCultureSpeciale',
                   'slice', 'quarter', 'Month', 'DateMutation', 'SurfaceBatiCat', 'ID',
                   'PrixTerrainM2', 'PrixBatiM2', 'PrixCarrezM2', 'AvecTerrain']

# Créer df_model
df_model = df.drop(columns=columns_to_drop)

# Vérifier s'il reste des colonnes non numériques qui doivent être exclues ou traitées séparément
df_model.select_dtypes(exclude=['number']).columns.tolist()

df_model = df_model.dropna(subset=['ValeurFonciere', 'SurfaceReelleBati', 'Localisation'])
df_model.isna().sum()

ValeurFonciere             0
NombreLots                 0
CodeTypeLocal              0
SurfaceReelleBati          0
NombrePiecesPrincipales    0
SurfaceTerrain             0
Year                       0
SurfaceCarrez              0
Localisation               0
dtype: int64

In [5]:
df_model.shape

(147461, 9)

# TRANSFORMATION DE LOCALISATION EN NUMERIQUE (ONE HOT ENCODER)

In [9]:
# Réinitialiser l'index pour s'assurer que l'alignement est conservé après la suppression des NaN
df_model.reset_index(drop=True, inplace=True)

# Préparer la colonne Localisation pour le One-Hot Encoding
localisation = df_model[['Localisation']]

# Instancier le OneHotEncoder
encoder = OneHotEncoder(sparse_output=False)
localisation_encoded = encoder.fit_transform(localisation)

# Convertir les résultats encodés en DataFrame
localisation_encoded_df = pd.DataFrame(localisation_encoded,
                                       columns=encoder.get_feature_names_out(['Localisation']))

# Réinitialiser l'index sur le DataFrame encodé pour garantir l'alignement lors de la fusion
localisation_encoded_df.reset_index(drop=True, inplace=True)

# Fusionner le DataFrame encodé avec le df original en s'assurant que les indices sont alignés
df_model = pd.concat([df_model, localisation_encoded_df], axis=1)

# Supprimer la colonne 'CP' originale
df_model = df_model.drop(columns=['Localisation'])

# SEPARATION DU JEU DE DONNES

In [11]:
# Séparation du jeu de données en X (caractéristiques) et y (cible)
X, y = df_model.drop(columns=["ValeurFonciere"]), df_model["ValeurFonciere"]

# Séparation en ensembles de train, de test, et de validation
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
X_test, X_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.10, random_state=42)

In [12]:
# Instancier le RobustScaler
scaler = RobustScaler()

# Sélectionner les colonnes numériques dans X_train pour l'application du RobustScaler
num_cols = X_train.select_dtypes(include=['number']).columns

# Appliquer le RobustScaler uniquement sur les colonnes numériques de l'ensemble d'entraînement
X_train[num_cols] = scaler.fit_transform(X_train[num_cols])

# Utiliser le scaler ajusté pour transformer les ensembles de test et de validation
X_test[num_cols] = scaler.transform(X_test[num_cols])
X_val[num_cols] = scaler.transform(X_val[num_cols])

print(f'X_train : {X_train.shape[0]}, X_test : {X_test.shape[0]}, X_val : {X_val.shape[0]}')

X_train : 98798, X_test : 43796, X_val : 4867


In [13]:
# Étape 1: Instancier le modèle
rf = RandomForestRegressor(n_estimators=100, random_state=42)

In [14]:
# Étape 2: Entraîner le modèle
rf.fit(X_train, y_train)

In [15]:
# Étape 3: Faire des prédictions sur l'ensemble de test
y_pred = rf.predict(X_test)

In [16]:
# Étape 4: Évaluer les performances
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"Mean Absolute Error: {mae}")
print(f"R-squared: {round(r2*100)} % du prix est expliquer par nos features actuelles")

Mean Squared Error: 16266102786.646383
Mean Absolute Error: 82415.63284752515
R-squared: 50 % du prix est expliquer par nos features actuelles
