# Nettoyage BDD Loyer

In [3]:
import pandas as pd

# 1️⃣ Chargement du fichier CSV
fichier = "loyers.csv"
df = pd.read_csv(fichier, sep=';', encoding='utf-8')

print("=== 📥 Chargement du fichier ===")
print(f"Nombre de lignes initial : {df.shape[0]}")
print(f"Nombre de colonnes initial : {df.shape[1]}\n")

# 2️⃣ Suppression des colonnes inutiles
colonnes_a_supprimer = ["Secteurs géographiques", "Numéro du quartier", "Ville","geo_shape"]
df = df.drop(columns=colonnes_a_supprimer, errors='ignore')

print("Colonnes restantes après suppression :")
print(list(df.columns), "\n")

# 3️⃣ Vérification des valeurs manquantes
print("=== 🔍 Vérification des données manquantes ===")
missing = df.isnull().sum()
print(missing[missing > 0].sort_values(ascending=False), "\n")

# Suppression des lignes avec des valeurs essentielles manquantes
colonnes_essentielles = ["Année", "Loyers de référence", "geo_point_2d"]
df = df.dropna(subset=colonnes_essentielles)

# 4️⃣ Vérification des doublons
print("=== 🧬 Vérification des doublons ===")
nb_doublons = df.duplicated().sum()
print(f"Nombre de doublons détectés : {nb_doublons}")

# Suppression des doublons si présents
if nb_doublons > 0:
    df = df.drop_duplicates()
    print(f"✅ {nb_doublons} doublons supprimés.\n")
else:
    print("✅ Aucun doublon détecté.\n")

# 5️⃣ Nettoyage des coordonnées GPS (format "lat, lon")
if "geo_point_2d" in df.columns:
    df[['lat', 'lon']] = df['geo_point_2d'].str.split(',', expand=True)
    df['lat'] = df['lat'].astype(float)
    df['lon'] = df['lon'].astype(float)

# 6️⃣ Vérification finale
print("=== ✅ Résumé après nettoyage ===")
print(f"Nombre de lignes après nettoyage : {df.shape[0]}")
print(f"Nombre de colonnes après nettoyage : {df.shape[1]}\n")

# 7️⃣ Aperçu final
print("Aperçu des 5 premières lignes propres :")
print(df.head())

# (Optionnel) Sauvegarde du fichier nettoyé
df.to_csv("loyers_nettoye.csv", sep=';', index=False, encoding='utf-8')
print("\n💾 Fichier nettoyé sauvegardé sous : loyers_nettoye.csv")


=== 📥 Chargement du fichier ===
Nombre de lignes initial : 17920
Nombre de colonnes initial : 14

Colonnes restantes après suppression :
['Année', 'Nom du quartier', 'Nombre de pièces principales', 'Epoque de construction', 'Type de location', 'Loyers de référence', 'Loyers de référence majorés', 'Loyers de référence minorés', 'Numéro INSEE du quartier', 'geo_point_2d'] 

=== 🔍 Vérification des données manquantes ===
Series([], dtype: int64) 

=== 🧬 Vérification des doublons ===
Nombre de doublons détectés : 0
✅ Aucun doublon détecté.

=== ✅ Résumé après nettoyage ===
Nombre de lignes après nettoyage : 17920
Nombre de colonnes après nettoyage : 12

Aperçu des 5 premières lignes propres :
   Année        Nom du quartier  Nombre de pièces principales  \
0   2024     Porte-Saint-Martin                             3   
1   2024                  Bercy                             1   
2   2025       Chaussée-d'Antin                             2   
3   2025  Notre-Dame-des-Champs            