# Sélection des Variables Importantes

In [12]:
import pandas as pd

# Charger les données nettoyées
file_path = r"C:\Users\STEVE\desktop\house-price-prediction-france\data\processed\2024\full_clean.csv.gz"
df = pd.read_csv(file_path, compression="gzip", sep=",", low_memory=False)

# Sélectionner les variables pertinentes
features = [
    "valeur_fonciere",  # Prix (cible)
    "surface_reelle_bati",
    "nombre_pieces_principales",
    "code_departement",
    "latitude",
    "longitude",
    "type_local"
]

df = df[features]

# Vérifier les données après sélection
df.head()


Unnamed: 0,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,code_departement,latitude,longitude,type_local
0,329500.0,89,4,1,46.332212,6.058695,Appartement
1,94500.0,32,2,1,45.904292,5.348768,Appartement
2,94500.0,74,3,1,45.904292,5.348768,Appartement
3,220000.0,40,1,1,46.020243,5.46188,Maison
4,220000.0,80,2,1,46.020164,5.461676,Maison


# Traitement des Valeurs Manquantes

In [13]:
# Remplir les valeurs manquantes de la surface avec la médiane
df["surface_reelle_bati"].fillna(df["surface_reelle_bati"].median(), inplace=True)

# Remplir les valeurs manquantes de latitude/longitude avec la moyenne du département
df["latitude"].fillna(df.groupby("code_departement")["latitude"].transform("mean"), inplace=True)
df["longitude"].fillna(df.groupby("code_departement")["longitude"].transform("mean"), inplace=True)

# Supprimer les lignes restantes avec des NaN
df.dropna(inplace=True)

# Vérifier si des valeurs manquent encore
df.isna().sum()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["surface_reelle_bati"].fillna(df["surface_reelle_bati"].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["latitude"].fillna(df.groupby("code_departement")["latitude"].transform("mean"), inplace=True)
The behavior will change in pandas 3.0. This inplac

valeur_fonciere              0
surface_reelle_bati          0
nombre_pieces_principales    0
code_departement             0
latitude                     0
longitude                    0
type_local                   0
dtype: int64

# Encodage des Variables Catégorielles

In [14]:
df = pd.get_dummies(df, columns=["type_local"], drop_first=True)
df[["type_local_Local industriel. commercial ou assimilé", "type_local_Maison"]] = df[["type_local_Local industriel. commercial ou assimilé", "type_local_Maison"]].astype(int)

# Vérifier les nouvelles colonnes
df.head()

Unnamed: 0,valeur_fonciere,surface_reelle_bati,nombre_pieces_principales,code_departement,latitude,longitude,type_local_Local industriel. commercial ou assimilé,type_local_Maison
0,329500.0,89,4,1,46.332212,6.058695,0,0
1,94500.0,32,2,1,45.904292,5.348768,0,0
2,94500.0,74,3,1,45.904292,5.348768,0,0
3,220000.0,40,1,1,46.020243,5.46188,0,1
4,220000.0,80,2,1,46.020164,5.461676,0,1


In [15]:
import numpy as np

df["valeur_fonciere_log"] = np.log1p(df["valeur_fonciere"])
df["surface_log"] = np.log1p(df["surface_reelle_bati"])

# Vérifier l'effet de la transformation
df[["valeur_fonciere", "valeur_fonciere_log"]].head()

Unnamed: 0,valeur_fonciere,valeur_fonciere_log
0,329500.0,12.705335
1,94500.0,11.456366
2,94500.0,11.456366
3,220000.0,12.301387
4,220000.0,12.301387
