# Nettoyage BDD Loyer

In [6]:
import pandas as pd

# 1️⃣ Chargement du fichier CSV
fichier = "loyers.csv"
df = pd.read_csv(fichier, sep=';', encoding='utf-8')

print("=== 📥 Chargement du fichier ===")
print(f"Nombre de lignes initial : {df.shape[0]}")
print(f"Nombre de colonnes initial : {df.shape[1]}\n")

# 2️⃣ Suppression des colonnes inutiles
colonnes_a_supprimer = ["Secteurs géographiques", "Numéro du quartier", "Ville","geo_shape"]
df = df.drop(columns=colonnes_a_supprimer, errors='ignore')




=== 📥 Chargement du fichier ===
Nombre de lignes initial : 17920
Nombre de colonnes initial : 14



Suppression des colonnes

In [7]:
print("Colonnes restantes après suppression :")
print(list(df.columns), "\n")

# 3️⃣ Vérification des valeurs manquantes
print("=== 🔍 Vérification des données manquantes ===")
missing = df.isnull().sum()
print(missing[missing > 0].sort_values(ascending=False), "\n")

# Suppression des lignes avec des valeurs essentielles manquantes
colonnes_essentielles = ["Année", "Loyers de référence", "geo_point_2d"]
df = df.dropna(subset=colonnes_essentielles)

# 4️⃣ Vérification des doublons
print("=== 🧬 Vérification des doublons ===")
nb_doublons = df.duplicated().sum()
print(f"Nombre de doublons détectés : {nb_doublons}")

# Suppression des doublons si présents
if nb_doublons > 0:
    df = df.drop_duplicates()
    print(f"✅ {nb_doublons} doublons supprimés.\n")
else:
    print("✅ Aucun doublon détecté.\n")

# 5️⃣ Nettoyage des coordonnées GPS (format "lat, lon")
if "geo_point_2d" in df.columns:
    df[['lat', 'lon']] = df['geo_point_2d'].str.split(',', expand=True)
    df['lat'] = df['lat'].astype(float)
    df['lon'] = df['lon'].astype(float)

# 6️⃣ Vérification finale
print("=== ✅ Résumé après nettoyage ===")
print(f"Nombre de lignes après nettoyage : {df.shape[0]}")
print(f"Nombre de colonnes après nettoyage : {df.shape[1]}\n")



Colonnes restantes après suppression :
['Année', 'Nom du quartier', 'Nombre de pièces principales', 'Epoque de construction', 'Type de location', 'Loyers de référence', 'Loyers de référence majorés', 'Loyers de référence minorés', 'Numéro INSEE du quartier', 'geo_point_2d'] 

=== 🔍 Vérification des données manquantes ===
Series([], dtype: int64) 

=== 🧬 Vérification des doublons ===
Nombre de doublons détectés : 0
✅ Aucun doublon détecté.

=== ✅ Résumé après nettoyage ===
Nombre de lignes après nettoyage : 17920
Nombre de colonnes après nettoyage : 12



Création d'un CSV de notre base nettoyé

In [8]:

# (Optionnel) Sauvegarde du fichier nettoyé
df.to_csv("loyers_nettoye.csv", sep=';', index=False, encoding='utf-8')
print("\n💾 Fichier nettoyé sauvegardé sous : loyers_nettoye.csv")


💾 Fichier nettoyé sauvegardé sous : loyers_nettoye.csv


## Aperçu BDD

In [9]:
df.head

<bound method NDFrame.head of        Année        Nom du quartier  Nombre de pièces principales  \
0       2024     Porte-Saint-Martin                             3   
1       2024                  Bercy                             1   
2       2025       Chaussée-d'Antin                             2   
3       2025  Notre-Dame-des-Champs                             3   
4       2023                 Muette                             4   
...      ...                    ...                           ...   
17915   2022           Palais-Royal                             2   
17916   2022             Notre-Dame                             1   
17917   2022                Gaillon                             1   
17918   2023           Montparnasse                             2   
17919   2023            Javel 15Art                             2   

      Epoque de construction Type de location  Loyers de référence  \
0                 Apres 1990           meublé                 25.5   
1

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17920 entries, 0 to 17919
Data columns (total 12 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Année                         17920 non-null  int64  
 1   Nom du quartier               17920 non-null  object 
 2   Nombre de pièces principales  17920 non-null  int64  
 3   Epoque de construction        17920 non-null  object 
 4   Type de location              17920 non-null  object 
 5   Loyers de référence           17920 non-null  float64
 6   Loyers de référence majorés   17920 non-null  float64
 7   Loyers de référence minorés   17920 non-null  float64
 8   Numéro INSEE du quartier      17920 non-null  int64  
 9   geo_point_2d                  17920 non-null  object 
 10  lat                           17920 non-null  float64
 11  lon                           17920 non-null  float64
dtypes: float64(5), int64(3), object(4)
memory usage: 1.6+ MB
