# Introduction

Ce notebook présente un projet de prédiction des prix immobiliers à l'aide de techniques de régression. À travers une série d'étapes méthodiques, nous traiterons, analyserons et modéliserons des données immobilières, afin de développer un outil performant. De la préparation des données à l'entraînement des modèles, chaque étape est conçue pour aboutir à une solution optimisée, qui sera déployée via une application Flask et encapsulée avec Docker pour assurer sa portabilité et son efficacité.

### Nettoyage des données

In [69]:
import pandas as pd


In [70]:
# Lecture du csv
df = pd.read_csv("houses_Madrid.csv")

In [71]:
# On affiche les premières lignes pour avoir un aperç des données
df.head()

Unnamed: 0.1,Unnamed: 0,id,title,subtitle,sq_mt_built,sq_mt_useful,n_rooms,n_bathrooms,n_floors,sq_mt_allotment,...,energy_certificate,has_parking,has_private_parking,has_public_parking,is_parking_included_in_price,parking_price,is_orientation_north,is_orientation_west,is_orientation_south,is_orientation_east
0,0,21742,"Piso en venta en calle de Godella, 64","San Cristóbal, Madrid",64.0,60.0,2,1.0,,,...,D,False,,,,,False,True,False,False
1,1,21741,Piso en venta en calle de la del Manojo de Rosas,"Los Ángeles, Madrid",70.0,,3,1.0,,,...,en trámite,False,,,,,,,,
2,2,21740,"Piso en venta en calle del Talco, 68","San Andrés, Madrid",94.0,54.0,2,2.0,,,...,no indicado,False,,,,,,,,
3,3,21739,Piso en venta en calle Pedro Jiménez,"San Andrés, Madrid",64.0,,2,1.0,,,...,en trámite,False,,,,,False,False,True,False
4,4,21738,Piso en venta en carretera de Villaverde a Val...,"Los Rosales, Madrid",108.0,90.0,2,2.0,,,...,en trámite,True,,,True,0.0,True,True,True,True


In [72]:
# On affiche les informations du dataset afin d'identifier les colonnes et les types de données
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21742 entries, 0 to 21741
Data columns (total 58 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Unnamed: 0                    21742 non-null  int64  
 1   id                            21742 non-null  int64  
 2   title                         21742 non-null  object 
 3   subtitle                      21742 non-null  object 
 4   sq_mt_built                   21616 non-null  float64
 5   sq_mt_useful                  8228 non-null   float64
 6   n_rooms                       21742 non-null  int64  
 7   n_bathrooms                   21726 non-null  float64
 8   n_floors                      1437 non-null   float64
 9   sq_mt_allotment               1432 non-null   float64
 10  latitude                      0 non-null      float64
 11  longitude                     0 non-null      float64
 12  raw_address                   16277 non-null  object 
 13  i

In [73]:
# Statistiques descriptives
df.describe()

Unnamed: 0.1,Unnamed: 0,id,sq_mt_built,sq_mt_useful,n_rooms,n_bathrooms,n_floors,sq_mt_allotment,latitude,longitude,...,rent_price_by_area,buy_price,buy_price_by_area,built_year,are_pets_allowed,is_furnished,is_kitchen_equipped,has_private_parking,has_public_parking,parking_price
count,21742.0,21742.0,21616.0,8228.0,21742.0,21726.0,1437.0,1432.0,0.0,0.0,...,0.0,21742.0,21742.0,10000.0,0.0,0.0,0.0,0.0,0.0,7719.0
mean,10870.5,10871.5,146.920892,103.458192,3.005749,2.091687,3.12874,241.692737,,,...,,653735.6,4020.523871,1970.0464,,,,,,2658.000518
std,6276.519112,6276.519112,134.181865,88.259192,1.510497,1.406992,0.907713,247.484853,,,...,,782082.1,1908.418774,69.386705,,,,,,13360.966258
min,0.0,1.0,13.0,1.0,0.0,1.0,1.0,1.0,,,...,,36000.0,447.0,1723.0,,,,,,0.0
25%,5435.25,5436.25,70.0,59.0,2.0,1.0,2.0,2.0,,,...,,198000.0,2551.0,1957.0,,,,,,0.0
50%,10870.5,10871.5,100.0,79.0,3.0,2.0,3.0,232.0,,,...,,375000.0,3720.0,1970.0,,,,,,0.0
75%,16305.75,16306.75,162.0,113.0,4.0,2.0,4.0,354.0,,,...,,763600.0,5000.0,1994.0,,,,,,0.0
max,21741.0,21742.0,999.0,998.0,24.0,16.0,7.0,997.0,,,...,,8800000.0,18889.0,8170.0,,,,,,600000.0


In [74]:
# Suppression des espaces inutiles dans les noms des colonnes
df.columns = df.columns.str.strip()

In [75]:
# On compte le nombre de valeurs manquantes par colonne
df.isnull().sum()

Unnamed: 0                          0
id                                  0
title                               0
subtitle                            0
sq_mt_built                       126
sq_mt_useful                    13514
n_rooms                             0
n_bathrooms                        16
n_floors                        20305
sq_mt_allotment                 20310
latitude                        21742
longitude                       21742
raw_address                      5465
is_exact_address_hidden             0
street_name                      5905
street_number                   15442
portal                          21742
floor                            2607
is_floor_under                   1170
door                            21742
neighborhood_id                     0
operation                           0
rent_price                          0
rent_price_by_area              21742
is_rent_price_known                 0
buy_price                           0
buy_price_by

In [76]:
# On supprime les colonnes qui ont plus de 50% de valeurs manquantes
df = df.dropna(thresh=df.shape[0] * 0.5, axis=1)

On a choisi de supprimer les variables ayant plus de 50% de données manquantes car l'imputation de plus de 50% des données peut influencer le résultat final ce qui n'est pas le but. De plus, les colonnes ayant ces valeurs manquantes ne sont pas forcément pertinentes au vu du nombre de variables disponible dans ce dataset.

In [77]:
# On re-check les colonnes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21742 entries, 0 to 21741
Data columns (total 34 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Unnamed: 0               21742 non-null  int64  
 1   id                       21742 non-null  int64  
 2   title                    21742 non-null  object 
 3   subtitle                 21742 non-null  object 
 4   sq_mt_built              21616 non-null  float64
 5   n_rooms                  21742 non-null  int64  
 6   n_bathrooms              21726 non-null  float64
 7   raw_address              16277 non-null  object 
 8   is_exact_address_hidden  21742 non-null  bool   
 9   street_name              15837 non-null  object 
 10  floor                    19135 non-null  object 
 11  is_floor_under           20572 non-null  object 
 12  neighborhood_id          21742 non-null  object 
 13  operation                21742 non-null  object 
 14  rent_price            

On remarque qu'il y avait 24 colonnes avec + de 50% de valeurs manquantes étant donné qu'on passe de 58 à 34 colonnes.

In [78]:
# On supprime la première colonne qui ne sert à rien
df = df.drop(columns=["Unnamed: 0"])

Cette colonne n'apporte rien à l'analyse donc elle peut être supprimée. 

In [79]:
# On vérifie les doublons
df.duplicated().sum()

np.int64(0)

Les colonnes sq_mt_built et n_bathrooms ont de nombreuses valeurs manquantes. Etant donné qu'il s'agit de variables pouvant potentiellement influencer le prix d'un bien nous allons imputer les valeurs manquantes par la médiane. Il ne manque pas beaucoup de valeurs dans ces 2 colonnes donc l'imputation semble être la meilleur solution.

In [80]:
# Imputation des valeurs manquantes à l'aide de la médiane des colonnes sq_mt_built et n_bathrooms
df["sq_mt_built"] = df["sq_mt_built"].fillna(df["sq_mt_built"].median())
df["n_bathrooms"] = df["n_bathrooms"].fillna(df["n_bathrooms"].median())

On va remplir les colonnes booléennes qui ne possède que TRUE comme valeur. Logiquement si la ligne est vide cela signifie que c'est FALSE.

In [81]:
# Remplacer les NaN par False dans toutes les colonnes contenant des valeurs True mais pas False
for col in df.columns:
    if df[col].dtype == 'object' and set(df[col].dropna().unique()) == {True}:  # Si la colonne contient uniquement True
        df[col] = df[col].fillna(False).astype(bool)


  df[col] = df[col].fillna(False).astype(bool)
  df[col] = df[col].fillna(False).astype(bool)


On va également supprimer les lignes qui ont uniquement plus de 70% de variables manquantes. Cela nous permettra de nous focaliser sur les lignes qui possède au minimum 1/3 des variables. 

In [82]:
# Suppression des lignes qui ont plus de 70% des valeurs manquantes
df = df.dropna(thresh=df.shape[1] * 0.7, axis=0)

In [83]:
# Sélectionnez les colonnes qui ont des valeurs en int
int_cols = df.select_dtypes(include=['int']).columns

# Calculez les quartiles et l'IQR
Q1 = df[int_cols].quantile(0.25)
Q3 = df[int_cols].quantile(0.75)
IQR = Q3 - Q1

# Définissez les limites pour les outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Supprimez les outliers
df_no_outliers = df[~((df[int_cols] < lower_bound) | (df[int_cols] > upper_bound)).any(axis=1)]

Ici on a utilisé la méthode des quartiles afin de supprimer les outliers et uniformiser notre dataset.

In [84]:
# Enregistrement du nouveau dataset
df.to_csv("houses_Madrid_cleaned.csv", index=False)

Pour la suite du projet merci de consulter le notebook 'main.ipynb'. Ce notebook contient les 3 algorithmes de régression linéaire ainsi que l'implémentation de notre conteunarisation.