# EDA finale – Prix de vente des appartements (DVF 2020)

Ce notebook présente l’analyse exploratoire finale réalisée sur un dataset
construit à partir des données DVF.

Périmètre :
- mutations de type "Vente"
- appartements uniquement
- une mutation = un appartement


In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
pd.set_option('display.max_columns', None)

from pathlib import Path

### 1. Chargement du dataset final

In [None]:
DATA_PATH = Path("../data/processed/dvf_appartements_vente_2020.parquet.gz")
df = pd.read_parquet(DATA_PATH)
df.shape

In [15]:
display(df.head())
df.info()

Unnamed: 0,id_mutation,date_mutation,numero_disposition,nature_mutation,valeur_fonciere,adresse_numero,adresse_suffixe,adresse_nom_voie,adresse_code_voie,code_postal,code_commune,nom_commune,code_departement,ancien_code_commune,ancien_nom_commune,id_parcelle,ancien_id_parcelle,numero_volume,lot1_numero,lot1_surface_carrez,lot2_numero,lot2_surface_carrez,lot3_numero,lot3_surface_carrez,lot4_numero,lot4_surface_carrez,lot5_numero,lot5_surface_carrez,nombre_lots,code_type_local,type_local,surface_reelle_bati,nombre_pieces_principales,code_nature_culture,nature_culture,code_nature_culture_speciale,nature_culture_speciale,surface_terrain_x,longitude,latitude,is_appartement,has_dependance,has_nan_type_local,surface_terrain_y,nb_lignes_mutation
0,2020-15,2020-07-02,1,Vente,136000.0,22.0,,RUE GEN DELESTRAINT,1650,1000.0,1053,Bourg-en-Bresse,1,,,01053000AM0095,,,127,,144.0,61.200001,,,,,,,2,2.0,Appartement,62.0,3.0,,,,,,5.219443,46.198795,True,True,False,0.0,2
1,2020-34,2020-07-09,1,Vente,72000.0,110.0,,RUE DU PRE PAQUIER,443,1750.0,1370,Saint-Laurent-sur-Saône,1,,,013700000A0680,,,16,48.099998,,,,,,,,,1,2.0,Appartement,47.0,2.0,,,,,,4.842984,46.3074,True,True,False,0.0,2
2,2020-45,2020-07-10,1,Vente,70000.0,20.0,,RUE BOURGMAYER,570,1000.0,1053,Bourg-en-Bresse,1,,,01053000AD0650,,,11,45.66,2.0,,,,,,,,2,2.0,Appartement,46.0,2.0,,,,,,5.222975,46.205639,True,False,False,0.0,1
3,2020-72,2020-07-10,1,Vente,15000.0,22.0,,AV DE MACON,2400,1000.0,1053,Bourg-en-Bresse,1,,,01053000AC0596,,,2,45.900002,6.0,,,,,,,,2,2.0,Appartement,65.0,3.0,,,,,,5.220961,46.208492,True,True,False,0.0,2
4,2020-87,2020-07-10,1,Vente,35000.0,22.0,,AV DE MACON,2400,1000.0,1053,Bourg-en-Bresse,1,,,01053000AC0596,,,1,41.299999,5.0,,,,,,,,2,2.0,Appartement,60.0,2.0,,,,,,5.220961,46.208492,True,True,False,0.0,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200546 entries, 0 to 200545
Data columns (total 45 columns):
 #   Column                        Non-Null Count   Dtype         
---  ------                        --------------   -----         
 0   id_mutation                   200546 non-null  object        
 1   date_mutation                 200546 non-null  datetime64[ns]
 2   numero_disposition            200546 non-null  int32         
 3   nature_mutation               200546 non-null  object        
 4   valeur_fonciere               200461 non-null  float32       
 5   adresse_numero                198350 non-null  float32       
 6   adresse_suffixe               200546 non-null  object        
 7   adresse_nom_voie              200546 non-null  object        
 8   adresse_code_voie             200546 non-null  object        
 9   code_postal                   200533 non-null  float32       
 10  code_commune                  200546 non-null  object        
 11  nom_commune  

### 2. Sanity checks globaux

In [None]:
# Unicité
print("Unicité des identifiants de mutation:", df["id_mutation"].is_unique)
# Moyenne des valeurs manquantes par colonne

(df.isna().mean()
    .sort_values(ascending=False)
    .head(15))

Unicité des identifiants de mutation: True


ancien_code_commune          0.999990
lot5_surface_carrez          0.999337
lot4_surface_carrez          0.997896
surface_terrain_x            0.996041
lot5_numero                  0.994535
lot3_surface_carrez          0.987988
lot4_numero                  0.984931
lot2_surface_carrez          0.843373
lot1_surface_carrez          0.462133
longitude                    0.016405
latitude                     0.016405
adresse_numero               0.010950
valeur_fonciere              0.000424
code_postal                  0.000065
nombre_pieces_principales    0.000005
dtype: float64

In [19]:
df.columns.tolist()

['id_mutation',
 'date_mutation',
 'numero_disposition',
 'nature_mutation',
 'valeur_fonciere',
 'adresse_numero',
 'adresse_suffixe',
 'adresse_nom_voie',
 'adresse_code_voie',
 'code_postal',
 'code_commune',
 'nom_commune',
 'code_departement',
 'ancien_code_commune',
 'ancien_nom_commune',
 'id_parcelle',
 'ancien_id_parcelle',
 'numero_volume',
 'lot1_numero',
 'lot1_surface_carrez',
 'lot2_numero',
 'lot2_surface_carrez',
 'lot3_numero',
 'lot3_surface_carrez',
 'lot4_numero',
 'lot4_surface_carrez',
 'lot5_numero',
 'lot5_surface_carrez',
 'nombre_lots',
 'code_type_local',
 'type_local',
 'surface_reelle_bati',
 'nombre_pieces_principales',
 'code_nature_culture',
 'nature_culture',
 'code_nature_culture_speciale',
 'nature_culture_speciale',
 'surface_terrain_x',
 'longitude',
 'latitude',
 'is_appartement',
 'has_dependance',
 'has_nan_type_local',
 'surface_terrain_y',
 'nb_lignes_mutation']

In [20]:
df[["valeur_fonciere", "surface_reelle_bati"]].describe()


Unnamed: 0,valeur_fonciere,surface_reelle_bati
count,200461.0,200545.0
mean,209091.2,57.678848
std,465285.1,28.863422
min,1.0,1.0
25%,94000.0,38.0
50%,150000.0,56.0
75%,239000.0,72.0
max,177600000.0,1874.0
