# Préparation et nettoyage des données DVF

**Objectif** : préparer un jeu de données propre pour l'analyse des **locaux commerciaux / boutiques** à **Paris** (arrondissements, prix/m², année, géolocalisation).



In [30]:
import pandas as pd
import numpy as np
import os

In [45]:
df = pd.read_csv('dvf.csv')

  df = pd.read_csv('dvf.csv')


##### on filtre les colonnes importantes

In [46]:
colonnes_importantes = [
    'date_mutation',
    'valeur_fonciere',
    'code_postal',
    'type_local',
    'surface_reelle_bati',
    'nombre_pieces_principales',
    'longitude',
    'latitude',
    'adresse_nom_voie',
    'nom_commune'
]

df = df[colonnes_importantes]

##### On enlève les lignes qui contiennent des valeurs NaN

In [47]:
df = df.dropna(subset=['valeur_fonciere', 'surface_reelle_bati', 
                       'nombre_pieces_principales',
                       'latitude', 'longitude'])

In [48]:
df.isna().sum()

date_mutation                 0
valeur_fonciere               0
code_postal                  79
type_local                    0
surface_reelle_bati           0
nombre_pieces_principales     0
longitude                     0
latitude                      0
adresse_nom_voie              4
nom_commune                   0
dtype: int64

##### On modifie le typage data en datetime

In [49]:
df['date_mutation'] = pd.to_datetime(df['date_mutation'], errors='coerce')

##### On ne retient que le type : "Local industriel. commercial ou assimilé"

In [50]:
type_autorise = ['Local industriel. commercial ou assimilé']
mask_type = df['type_local'].isin(type_autorise)
df = df[mask_type]

##### Puis on retire du dataframe la colonne "type_local"

In [51]:
df = df.drop('type_local', axis=1)

##### On s'intéresse uniquement au département de Paris

In [52]:
mask_paris = df['code_postal'].astype(str).str.startswith('75')
df = df[mask_paris]

##### Création d'une feature prix m²

In [53]:
df['prix_m2'] = df['valeur_fonciere'] / df['surface_reelle_bati']

##### On supprime les valeurs aberrantes au m²

In [54]:
df = df[(df['prix_m2'] > 500) & (df['prix_m2'] < 50000)]

##### Extraction de l'arrondissement (normalisation de code_postal)

In [55]:
df['code_postal'] = df['code_postal'].astype(int).astype(str).str.zfill(5)
df['arrondissement'] = pd.to_numeric(df['code_postal'].str[-2:], errors='coerce')
df.loc[~df['arrondissement'].between(1,20), 'arrondissement'] = np.nan
df['arrondissement'] = df['arrondissement'].dropna().astype(int)

##### on supprime la colonne code_postal (c'est toujours Paris)

In [56]:
df = df.drop('code_postal', axis=1)

##### Certains nom de communes ne sont pas Paris. On les supprime

In [59]:
df = df[df['nom_commune'].str.startswith('Paris')]

enregistrement du fichier csv clean

In [61]:
df.to_csv("dvf_nettoye.csv", sep=';', index=False, encoding='utf-8')