### Liens des fichiers csv à télécharger pour utiliser ce notebook : 

- https://www.data.gouv.fr/datasets/demandes-de-valeurs-foncieres-geolocalisees/#/resources/d7933994-2c66-4131-a4da-cf7cd18040a4
- https://www.data.gouv.fr/datasets/logement-encadrement-des-loyers/#/resources/d72d537a-2f7f-40af-bf1a-289ee25d5ae9
- https://www.data.gouv.fr/datasets/base-nationale-des-commerces-ouverte/#/resources/3d612ad7-f726-4fe5-a353-bdf76c5a44c2

## Persona : investisseur dans des boutiques à Paris pour les louer à des particuliers

### Besoins : 

- connaître le rendement locatif brut par arrondissement
- connaître le rendement locatif brut par quartier
- visualiser sur la carte les rendements locatifs
- connaître la superficie rentable
- connaître la distribution référence des loyers par arrondissement
- connaître prix vs loyers par quartiers
- évolution du rendement brut et du prix au m² dans le temps par quartier
- comment se manifeste la concentration du commerce dans Paris 
- conclusion

# Préparation et nettoyage des données DVF

**Objectif** : préparer un jeu de données propre pour l'analyse des locaux commerciaux / boutiques à Paris (arrondissements, prix/m², année, géolocalisation).



In [2]:
import pandas as pd
import numpy as np
import os

#### Lecture du fichier dvf.csv

On définit en premier lieu les **colonnes utiles** qui vont nous servir pour l'extraction et le nettoyage des données, dans le but d'**optimiser la lecture du fichier csv** qui est assez lourd (*+3Go*). Toujours dans le même objectif, la lecture se fait par **chunk** de 100000 lignes. Durant le processus, on réalise :
- La suppression des valeurs NaN
- La modification du type de la colonne 'date_mutation' en datetime
- La reduction des données au type "Local industriel, commercial ou assimilé"
- La filtration pour conserver uniquement les biens sur Paris

In [3]:
# Define columns to read upfront
colonnes_a_lire = [
    'date_mutation',
    'valeur_fonciere',
    'code_postal',
    'type_local',
    'surface_reelle_bati',
    'nombre_pieces_principales',
    'longitude',
    'latitude',
    'adresse_nom_voie',
    'nom_commune'
]

# Process CSV in chunks
chunk_size = 100000
filtered_chunks = []

for i, chunk in enumerate(pd.read_csv('dvf.csv', 
                                       usecols=colonnes_a_lire,
                                       chunksize=chunk_size,
                                       low_memory=False)):
    
    # Drop NaN values and create explicit copy
    chunk = chunk.dropna(subset=['valeur_fonciere', 'surface_reelle_bati', 
                                  'nombre_pieces_principales',
                                  'latitude', 'longitude']).copy()
    
    # Convert date
    chunk['date_mutation'] = pd.to_datetime(chunk['date_mutation'], errors='coerce')
    
    # Filter by type_local
    chunk = chunk[chunk['type_local'] == 'Local industriel. commercial ou assimilé'].copy()
    
    # Filter Paris postal codes
    chunk = chunk[chunk['code_postal'].astype(str).str.startswith('75')].copy()
    
    if len(chunk) > 0:
        filtered_chunks.append(chunk)

# Combine all filtered chunks
df = pd.concat(filtered_chunks, ignore_index=True)

##### On vérifie si les colonnes restantes contiennent des valeurs NaN

In [3]:
df.isna().sum()

date_mutation                0
valeur_fonciere              0
adresse_nom_voie             0
code_postal                  0
nom_commune                  0
type_local                   0
surface_reelle_bati          0
nombre_pieces_principales    0
longitude                    0
latitude                     0
dtype: int64

##### Puis on retire du dataframe la colonne "type_local"

In [4]:
df = df.drop('type_local', axis=1)

##### Création d'une feature prix m²

In [5]:
df['prix_m2'] = df['valeur_fonciere'] / df['surface_reelle_bati']

##### On supprime les valeurs aberrantes au m²

In [6]:
df = df[(df['prix_m2'] > 500) & (df['prix_m2'] < 50000)]

##### Extraction de l'arrondissement (normalisation de code_postal)

In [7]:
df['code_postal'] = df['code_postal'].astype(int).astype(str).str.zfill(5)
df['arrondissement'] = pd.to_numeric(df['code_postal'].str[-2:], errors='coerce')
df.loc[~df['arrondissement'].between(1,20), 'arrondissement'] = np.nan
df['arrondissement'] = df['arrondissement'].dropna().astype(int)

##### On supprime la colonne code_postal (c'est toujours Paris)

In [8]:
df = df.drop('code_postal', axis=1)

##### Certains noms de communes ne sont pas Paris, il faut donc les supprimer

In [9]:
df = df[df['nom_commune'].str.startswith('Paris')]
df.shape

(17586, 10)

In [37]:
df.head()

Unnamed: 0,date_mutation,valeur_fonciere,adresse_nom_voie,nom_commune,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,prix_m2,arrondissement,quartier,numero_insee_quartier,loyer_ref_m2,loyer_majore_m2,loyer_minore_m2,distance_quartier_m
26,2020-01-06,878378.0,BD DE LA MADELEINE,Paris 1er Arrondissement,43.0,0.0,2.326882,48.869331,20427.395349,1.0,Place-Vendôme,7510104,29.3,35.16,20.51,318.55449
27,2020-01-13,475000.0,RUE DE WASHINGTON,Paris 8e Arrondissement,50.0,0.0,2.301658,48.87263,9500.0,8.0,Faubourg-du-Roule,7510830,22.8,27.4,16.0,320.21802
28,2020-01-03,800000.0,BD DE SEBASTOPOL,Paris 3e Arrondissement,125.0,0.0,2.351054,48.863055,6400.0,3.0,Sainte-Avoie,7510312,31.8,38.16,22.26,425.13007
29,2020-01-06,710000.0,RUE SAINT HONORE,Paris 1er Arrondissement,30.0,0.0,2.326348,48.866939,23666.666667,1.0,Place-Vendôme,7510104,29.3,35.16,20.51,248.094155
31,2020-01-09,17400000.0,RUE DU FAUBOURG SAINT HONORE,Paris 8e Arrondissement,387.0,0.0,2.309755,48.873496,44961.24031,8.0,Faubourg-du-Roule,7510830,22.8,27.4,16.0,629.632252


# Nettoyage BDD Loyer

In [10]:
loyer_df = pd.read_csv("loyers.csv", sep=';', encoding='utf-8')

##### On supprime les colonnes inutiles

In [11]:
colonnes_a_supprimer = ["Secteurs géographiques", "Numéro du quartier", "Ville","geo_shape"]
loyer_df = loyer_df.drop(columns=colonnes_a_supprimer, errors='ignore')

##### Le dataframe ne contient pas de valeurs NaN ou null, ni de doublons

##### Nettoyage des coordonnées GPS (format "lat, lon")

In [12]:
loyer_df[['lat', 'lon']] = loyer_df['geo_point_2d'].str.split(',', expand=True)
loyer_df['lat'] = loyer_df['lat'].astype(float)
loyer_df['lon'] = loyer_df['lon'].astype(float)

##### Suppression de la colonne 'geo_point_2d'

In [13]:
loyer_df = loyer_df.drop('geo_point_2d', axis=1)

In [38]:
loyer_df.head()

Unnamed: 0,Année,Nom du quartier,Nombre de pièces principales,Epoque de construction,Type de location,Loyers de référence,Loyers de référence majorés,Loyers de référence minorés,Numéro INSEE du quartier,lat,lon
0,2024,Porte-Saint-Martin,3,Apres 1990,meublé,25.5,30.6,17.9,7511039,48.871245,2.361504
1,2024,Bercy,1,1946-1970,meublé,28.8,34.6,20.2,7511247,48.835209,2.38621
2,2025,Chaussée-d'Antin,2,1946-1970,non meublé,28.5,34.2,20.0,7510934,48.873547,2.332269
3,2025,Notre-Dame-des-Champs,3,Apres 1990,non meublé,30.2,36.2,21.1,7510623,48.846428,2.327357
4,2023,Muette,4,Apres 1990,meublé,29.3,35.2,20.5,7511662,48.863275,2.259936


# Jointure du dataframe des deux dataframes

In [15]:
from scipy.spatial import cKDTree

In [16]:
coords_quartiers = loyer_df[['lat', 'lon']].values
tree = cKDTree(coords_quartiers)

In [17]:
coords_dvf = df[['latitude', 'longitude']].values

In [18]:
distances, indices = tree.query(coords_dvf)

#### Ajouter les colonnes au DataFrame DVF

In [19]:
df['quartier'] = loyer_df.iloc[indices]['Nom du quartier'].values
df['numero_insee_quartier'] = loyer_df.iloc[indices]['Numéro INSEE du quartier'].values
df['loyer_ref_m2'] = loyer_df.iloc[indices]['Loyers de référence'].values
df['loyer_majore_m2'] = loyer_df.iloc[indices]['Loyers de référence majorés'].values
df['loyer_minore_m2'] = loyer_df.iloc[indices]['Loyers de référence minorés'].values
df['distance_quartier_m'] = distances * 111000  # Conversion approximative en mètres

#### Checking s'il y a pas des lignes ou le quartier est loin de la réalité

In [20]:
df = df[df['distance_quartier_m'] <= 1000]

In [21]:
df.head()

Unnamed: 0,date_mutation,valeur_fonciere,adresse_nom_voie,nom_commune,surface_reelle_bati,nombre_pieces_principales,longitude,latitude,prix_m2,arrondissement,quartier,numero_insee_quartier,loyer_ref_m2,loyer_majore_m2,loyer_minore_m2,distance_quartier_m
26,2020-01-06,878378.0,BD DE LA MADELEINE,Paris 1er Arrondissement,43.0,0.0,2.326882,48.869331,20427.395349,1.0,Place-Vendôme,7510104,29.3,35.16,20.51,318.55449
27,2020-01-13,475000.0,RUE DE WASHINGTON,Paris 8e Arrondissement,50.0,0.0,2.301658,48.87263,9500.0,8.0,Faubourg-du-Roule,7510830,22.8,27.4,16.0,320.21802
28,2020-01-03,800000.0,BD DE SEBASTOPOL,Paris 3e Arrondissement,125.0,0.0,2.351054,48.863055,6400.0,3.0,Sainte-Avoie,7510312,31.8,38.16,22.26,425.13007
29,2020-01-06,710000.0,RUE SAINT HONORE,Paris 1er Arrondissement,30.0,0.0,2.326348,48.866939,23666.666667,1.0,Place-Vendôme,7510104,29.3,35.16,20.51,248.094155
31,2020-01-09,17400000.0,RUE DU FAUBOURG SAINT HONORE,Paris 8e Arrondissement,387.0,0.0,2.309755,48.873496,44961.24031,8.0,Faubourg-du-Roule,7510830,22.8,27.4,16.0,629.632252


In [22]:
df['nombre_pieces_principales'].value_counts()

nombre_pieces_principales
0.0    16486
Name: count, dtype: int64

#### Création du fichier final dvf_loyers.csv

In [23]:
df.to_csv("dvf_loyers.csv", sep=";", encoding="utf-8", index=False)
df.shape

(16486, 16)

### Ouverture et préparation du fichier Commerces

ouverture du fichier

In [26]:
commerce = pd.read_csv("commerce.csv", sep=';', encoding_errors='replace')

Sélection des colonnes utiles

In [27]:
commerce = commerce[['X', 'Y', 'type']].copy()

Renommage clair des colonnes

In [28]:
commerce.rename(columns={'X': 'longitude', 'Y': 'latitude', 'type': 'categorie_commerce'}, inplace=True)

Nettoyage des données NaN

In [29]:
commerce = commerce.dropna(subset=['longitude', 'latitude', 'categorie_commerce'])

Suppression des doublons (même point + même catégorie)

In [30]:
commerce = commerce.drop_duplicates(subset=['longitude', 'latitude', 'categorie_commerce'])

Filtrage des coordonnées aberrantes
À Paris : latitude entre 48.80 et 48.90, longitude entre 2.25 et 2.42

In [31]:
commerce = commerce[
    (commerce['latitude'].between(48.80, 48.90)) &
    (commerce['longitude'].between(2.25, 2.42))
]

In [32]:
commerce.to_csv("commerce_nettoye.csv", sep=";", encoding="utf-8", index=False)

Suppression des types génériques ou vides

In [33]:
commerce = commerce[commerce['categorie_commerce'].str.strip() != '']

Nettoyage des majuscules / minuscules

In [34]:
commerce['categorie_commerce'] = commerce['categorie_commerce'].str.strip().str.lower()

In [39]:
commerce.head()

Unnamed: 0,longitude,latitude,categorie_commerce
46133,2.419019,48.846524,optician
46350,2.400633,48.885848,restaurant
46362,2.414612,48.879459,clothes
46509,2.393475,48.81553,bakery
46821,2.373102,48.817713,restaurant


création du fichier clean

In [35]:
df.to_csv("commerce_nettoye.csv", sep=";", encoding="utf-8", index=False)