<a href="https://colab.research.google.com/github/RMoulla/IYT/blob/main/TP_Seloger_Analyse_Donn%C3%A9es.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Travaux pratiques : analyse des prix des biens immobiliers.

Étude d'un jeu de données comportant des informations immobilières provenant du site seloger.com.

Dans un premier temps, nous nous proposons de faire une étude exploratoire pour se familiariser avec la donnée et comprendre comment les variables se comportent. Cette étape permettra egalement d'identifier d'eventuelles anomalies et de nettoyer la donnée si nécessaire.

Dans un second temps, nous nous attacherons à l'explicabilité des données, c'est à dire répondre à la question "Quelles sont les variables les plus importantes pour expliquer le prix d'un bien ?"

In [None]:
# Librairie pour lire des fichiers de données tabulaires
import pandas as pd

In [None]:
file_path = 'selogerdata.csv'
dataset = pd.read_csv(file_path)

In [None]:
dataset.shape

(8899, 24)

Le jeu de données contient 8899 lignes et 24 colonnes.

In [None]:
# Visualiser les 5 premières lignes du dataset
dataset.head()

Unnamed: 0,number,codeinsee,codepostal,cp,etage,idagence,idannonce,idtiers,idtypechauffage,idtypecommerce,...,nb_photos,nb_pieces,position,prix,si_balcon,si_sdEau,si_sdbain,surface,typedebien,ville
0,11,750116,75016,75016,0,178817,144013899,227883,0,0,...,13,3,11,59000,1,0,0,69.0,Appartement,Paris 16√®me
1,8,750110,75010,75010,0,12089,149750677,3765,0,0,...,7,1,8,77500,0,0,0,8.49,Appartement,Paris 10√®me
2,6,750118,75018,75018,0,115811,138648733,108873,0,0,...,8,2,6,94000,0,0,0,37.0,Appartement,Paris 18√®me
3,16,750110,75010,75010,0,12089,149750679,3765,0,0,...,4,1,16,96000,0,0,0,10.26,Appartement,Paris 10√®me
4,4,750116,75016,75016,0,97567,147153067,145098,0,0,...,5,2,4,100000,0,0,0,14.93,Appartement,Paris 16√®me


## Nettoyage des données

On peut d'ores et déjà remarquer que les colonnes `idtypecyuisine` et `ville` doivent etre nettoyées

In [None]:
# Afficher le nom des colonnes du dataset
dataset.columns

Index(['number', 'codeinsee', 'codepostal', 'cp', 'etage', 'idagence',
       'idannonce', 'idtiers', 'idtypechauffage', 'idtypecommerce',
       'idtypecuisine', 'idtypepublicationsourcecouplage', 'naturebien',
       'nb_chambres', 'nb_photos', 'nb_pieces', 'position', 'prix',
       'si_balcon', 'si_sdEau', 'si_sdbain', 'surface', 'typedebien', 'ville'],
      dtype='object')

In [None]:
# Afficher la fréquence des types de cuisine.
dataset['idtypecuisine'].unique()

array(['√©quip√©e', 'aucune', '0', 'coin cuisine √©quip√©',
       'coin cuisine', 's√©par√©e', 's√©par√©e √©quip√©e', 'am√©ricaine',
       'am√©ricaine √©quip√©e', '-1'], dtype=object)

Que veulent dire les valeurs 0 et -1 ?
On pourrait penser que 0 corresond à la situation ou il n'y a pas de cuisine mais ce n'est pas le cas en regardant les données. Nous allons créer des groupes à part pour ces catégories


In [None]:
# Correction des données
mapper = {
    's√©par√©e': 'séparée',
    '0': 'categorie_0',
    's√©par√©e √©quip√©e': 'séparée équipée',
    'aucune': 'aucune',
    'am√©ricaine √©quip√©e': 'américaine équipée',
    '√©quip√©e': 'équipée',
    'am√©ricaine': 'américaine',
    'coin cuisine': 'coin cuisine',
    'coin cuisine √©quip√©': 'coin cuisine équipé',
    '-1': 'catégorie_1'
}

In [None]:
# Appliquer les corrections
dataset['idtypecuisine'] = dataset['idtypecuisine'].map(mapper)

Nous allons également corriger les caractères accentués pour la variable ville.

In [None]:
# Afficher les 10 premières villes
dataset['ville'].unique()

array(['Paris 16√®me', 'Paris 10√®me', 'Paris 18√®me', 'Melun',
       'Corbeil Essonnes', '√âtampes', 'Issou', 'Limay', '√âvry', 'Avon',
       'Evry', 'Saint-Denis', 'Trappes', 'Ris Orangis', 'Paris 19√®me',
       'Paris 14√®me', '√âpinay-sous-S√©nart', 'Eragny sur Oise',
       'Argenteuil', 'Bessancourt', 'Etampes', 'Montlhery', 'Gagny',
       'Fleury Merogis', 'Villeparisis', 'Fosses', 'Vaujours', 'Les Ulis',
       'Meaux', 'Pontoise', 'Cergy', 'Verneuil sur Seine',
       'Brie Comte Robert', 'Carrieres sous Poissy', 'H√©ricy', 'Igny',
       'Paris 20√®me', 'Les Pavillons-sous-Bois', 'Mennecy',
       'Vert le Petit', 'Morsang-sur-Orge', 'Linas', 'Mandres les Roses',
       'Paris 17√®me', 'Villepinte', 'Paris 2√®me', 'Paris 15√®me',
       'Paris 6√®me', 'Paris 3√®me', 'Paris 8√®me', 'Paris 5√®me',
       'Paris 11√®me', 'Paris 9√®me', 'Paris 13√®me', 'Paris 12√®me',
       'Garches', 'Chatou', 'Sucy en Brie', 'Louveciennes', 'Le Pecq',
       'Enghien les Bains', 'Saint Ger

In [None]:
# Corriger les accents
dataset['ville'] =  (
    dataset['ville']
    .str.replace('√®', 'è')
    .str.replace('√â', 'É')
    .str.replace('√©', 'é')
    .str.replace('√¨', 'ê')
)

In [None]:
dataset['ville'].unique()

array(['Paris 16ème', 'Paris 10ème', 'Paris 18ème', 'Melun',
       'Corbeil Essonnes', 'Étampes', 'Issou', 'Limay', 'Évry', 'Avon',
       'Evry', 'Saint-Denis', 'Trappes', 'Ris Orangis', 'Paris 19ème',
       'Paris 14ème', 'Épinay-sous-Sénart', 'Eragny sur Oise',
       'Argenteuil', 'Bessancourt', 'Etampes', 'Montlhery', 'Gagny',
       'Fleury Merogis', 'Villeparisis', 'Fosses', 'Vaujours', 'Les Ulis',
       'Meaux', 'Pontoise', 'Cergy', 'Verneuil sur Seine',
       'Brie Comte Robert', 'Carrieres sous Poissy', 'Héricy', 'Igny',
       'Paris 20ème', 'Les Pavillons-sous-Bois', 'Mennecy',
       'Vert le Petit', 'Morsang-sur-Orge', 'Linas', 'Mandres les Roses',
       'Paris 17ème', 'Villepinte', 'Paris 2ème', 'Paris 15ème',
       'Paris 6ème', 'Paris 3ème', 'Paris 8ème', 'Paris 5ème',
       'Paris 11ème', 'Paris 9ème', 'Paris 13ème', 'Paris 12ème',
       'Garches', 'Chatou', 'Sucy en Brie', 'Louveciennes', 'Le Pecq',
       'Enghien les Bains', 'Saint Germain en Laye', 'Paris 

## Analyse exploratoire des données
Nous allons commencer par un aperçu sur les données sous forme de résumé statitiques des différentes variables numériques.

In [None]:
dataset.describe()

Unnamed: 0,number,codeinsee,codepostal,cp,etage,idagence,idannonce,idtiers,idtypechauffage,idtypecommerce,naturebien,nb_chambres,nb_photos,nb_pieces,position,prix,si_balcon,si_sdEau,si_sdbain,surface
count,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0,8899.0
mean,9.531296,751745.680189,75186.144735,75186.144735,0.0,124110.09428,147353100.0,136989.2525,0.0,0.0,1.638723,2.319474,9.697269,3.838746,9.531296,1210579.0,0.271716,0.0,0.0,96.070707
std,5.765614,16287.896954,1660.091189,1660.091189,0.0,104338.907661,3661055.0,109732.960794,0.0,0.0,0.931184,1.170877,4.511174,1.483164,5.765614,446292.3,0.444869,0.0,0.0,38.127731
min,0.0,750101.0,75001.0,75001.0,0.0,33.0,74372840.0,98.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,59000.0,0.0,0.0,0.0,0.0
25%,5.0,750108.0,75008.0,75008.0,0.0,39738.0,146317400.0,26516.0,0.0,0.0,1.0,1.0,6.0,3.0,5.0,795000.0,0.0,0.0,0.0,66.4
50%,10.0,750114.0,75014.0,75014.0,0.0,93920.0,148636100.0,123925.0,0.0,0.0,1.0,2.0,9.0,4.0,10.0,1475000.0,0.0,0.0,0.0,93.0
75%,15.0,750116.0,75017.0,75017.0,0.0,203657.0,149516100.0,213489.0,0.0,0.0,3.0,3.0,12.0,5.0,15.0,1490000.0,1.0,0.0,0.0,129.0
max,19.0,950500.0,95880.0,95880.0,0.0,362103.0,150249800.0,425123.0,0.0,0.0,3.0,22.0,27.0,53.0,19.0,2000000.0,1.0,0.0,0.0,250.0


Ce résumé statistique comporte déjà plusieurs enseignements :

* Les colonnes `etage`, `idtypechauffage`, `idtypecommerce`, `si_sdEau`,	`si_sdbain` ne comportent que des valeurs nulles. Elles n'apportent donc aucune information pour expliquer ou prédire le prix.

* Le jeu de données contient des outliers : on peut par exemple noter que le maximum du nombre de pièces est 53. De même le maximum du nombre de chambre est 22. Par ailleurs le minimum de la surface est 0.

Regardons ces outliers plus en détails.


In [None]:
# sélectionner la ligne qui correspond au bien ayant 53 pièces


In [None]:
# Sélectionner la ligne qui correspond au bien ayant 22 chambres


In [None]:
# Sélectionner la ligne qui correspond au bien dont la surface est nulle


On va maitnenant enlever les valeurs aberrantes du dataset.

In [None]:
# Supprimer les lignes aberrantes


Ragrdons maintenant la cardinalité des différentes variables. Ce qui nous intéresse ici, ce sont les variables catégorielles.

In [None]:
# Combien de valeurs uniques possède chaque colonne ?
dataset.nunique().sort_values()

si_sdbain                             1
si_sdEau                              1
etage                                 1
idtypechauffage                       1
idtypecommerce                        1
si_balcon                             2
typedebien                            2
idtypepublicationsourcecouplage       3
naturebien                            3
nb_chambres                           6
nb_pieces                             8
idtypecuisine                        10
position                             20
number                               20
nb_photos                            27
cp                                  105
codepostal                          105
codeinsee                           107
ville                               112
prix                               1051
surface                            1217
idagence                           1412
idtiers                            1412
idannonce                          3812
dtype: int64

* Les variables `si_sdbain`, `si_sdEau`, `etage`, `idtypechauffage`, `idtypecommerce` ne comportent qu'une unique valeur, comme nous venons de le voir plus haut.
* `cp` et `codepostal` semblent se référer à la même variable. Par ailleurs, `codeinsee` et `ville` ont l'air de vehiculer plus ou moins la même information. En première approximation nous ne garderons qu'une seule de ces 4 variables.

* Les variables `position` et `number` ont le même nombre de modalités.

* Plus important peut-être, il y a 3815 modalités pour `idannonce` (annonces différentes) alors que le jeu de données contient 8899 lignes. On peut soupçonner ici la présence de doublons.

* Les variables `idagence` et`idtiers` ont le même nombre de modalités, très élevé. Il y a 1413 modalités pour chacune des variables alors qu'il n'y a potentiellement que 3815 annonces uniques, soit un peu plus de deux annonces par modalité de `idagence`.

Regardons ce dernier point plus en détails.



In [None]:
idanonce_counts = dataset['idannonce'].value_counts()
display(idanonce_counts)
idanonce_counts.values[:100]

On peut noter la présence d'annonces qui se répètent 202 ou 53 fois. Il s'agit probablement de doublons dus à la fusions de plusieurs bases de données.

In [None]:
# Supprimer les doublons
dataset.drop_duplicates(inplace = True)
dataset.shape

(3833, 24)

In [None]:
# Vérifier si les colonnes "cp" et "codepostal" sont identiques
dataset['cp'].equals(dataset['codepostal'])

In [None]:
# Vérifier si les colonnes "position" et "number" sont identiques
dataset['position'].equals(dataset['number'])

Nous allons maintnant faire le bilan des variables à supprimer.

* Les variables `si_sdbain`, `si_sdEau`, `etage`, `idtypechauffage`, `idtypecommerce` ne comportent que des valeurs nulles.
* Les variables `idtiers` et `idagence` renvoient vers la même information. Par ailleurs, elles comportent beaucoup de trop de modalités par rapport au nombre d'oberservations.
* Les variables `cp`, `codepostal` sont identiques et contiennent à peu près la même information que `codeinsee`. Cette information est déjà présente dans la viable `ville`.

In [None]:
# Bilan des variables à supprimer
to_remove = [
    'si_sdbain', 'si_sdEau', 'etage',
    'idtypechauffage', 'idtypecommerce', 'codepostal',
    'number', 'idtiers', 'cp', 'codeinsee', 'idannonce', 'idagence']



In [None]:
# Enlever les colonnes dans to_remove

dataset.drop(to_remove, axis = 1, inplace = True)
dataset.shape

(3833, 12)

Il est également nécessaire de distinguer entre les variables quantitatives et les variables catégorielles, qui seront analysées de manières différentes.

In [None]:
categorical = [
    'si_balcon', 'typedebien', 'idtypepublicationsourcecouplage',
    'naturebien','idtypecuisine', 'ville'
]

numerical = [
    'nb_chambres', 'nb_pieces', 'nb_photos', 'surface', 'position'
]

## Analyse descriptive des variables quantitatives

Dans ce qui suit, nous allons analyser les distributions des variables ainsi que les corrélations entre les différentes variables explicatives abvec la variable `prix`. Nous allons utiliser ici les deux packages de visualisation en Python `matplotlib` et `seaborn`.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

Commençons d'abord par regarder la distribution de la variable d'intérêt `prix`.


In [None]:
# densité de la variable prix sous forme de disribution

Regardons maintenant les distributions des différentes variables numériques.

Nous allons étudier maintenant les corrélation entre les variables numériques et la variable d'intérêt `prix`.

In [None]:
# Tracer un corrélogramme des variables numériques


## Variables catégorielles

On peut commencer pas visualiser les variables qui ont un faible nombre de modalités en fonction de la variable `prix`.

Regardons maintenant les variables catégorielles ayant un nombre imortant de modalités. Commençons par la variable `ville`.

In [None]:
# Afficher le nombre de modalités de la variable ville
dataset['ville'].nunique()

112

In [None]:
# Répartition des observations sur les modalités
dataset['ville'].value_counts()

ville
Paris 16ème                443
Paris 18ème                308
Paris 15ème                299
Paris 17ème                294
Paris 13ème                278
                          ... 
Mennecy                      1
Les Pavillons-sous-Bois      1
Igny                         1
Héricy                       1
Clichy                       1
Name: count, Length: 112, dtype: int64

In [None]:
# Afficher la répartition des observations pour les modalités qui ne commencent pas par "Paris"
dataset[~dataset['ville'].str.startswith('Paris')]['ville'].value_counts()

ville
Corbeil Essonnes           5
Saint Germain en Laye      3
Le Pecq                    3
Villepinte                 3
Suresnes                   3
                          ..
Vert le Petit              1
Mennecy                    1
Les Pavillons-sous-Bois    1
Igny                       1
Clichy                     1
Name: count, Length: 92, dtype: int64

Nous voyons ici que les villes situées en dehors de Paris sont très faiblement représentées dans le jeu de données. Nous allons les regrouper dans une seule modalité "banlieue".

In [None]:
# Regrouper les observations dans une variable "banlieue"
dataset['ville'] = dataset['ville'].apply(lambda x: x if x.startswith('Paris') else 'Banlieue')
dataset['ville'].value_counts()

ville
Paris 16ème    443
Paris 18ème    308
Paris 15ème    299
Paris 17ème    294
Paris 13ème    278
Paris 19ème    212
Paris 11ème    195
Paris 14ème    194
Paris 20ème    194
Paris 10ème    167
Paris 6ème     164
Paris 12ème    162
Paris 7ème     144
Paris 8ème     129
Banlieue       120
Paris 5ème     115
Paris 4ème     110
Paris 9ème     100
Paris 3ème      96
Paris 2ème      65
Paris 1er       44
Name: count, dtype: int64

In [None]:
# Visualiser le prix en fonction des modalités de la variable ville

In [None]:
# Visualiser le prix en fonction de la variable idtypecuisine