## PREPARATION DES DONNEES POUR ANALYSE ET MODELISATION

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn as sk 
import datetime
import re
import pyproj

### Importation des données

In [2]:
DEPT_CODE = 73  # à changer facilement ici

# --- Chargement des fichiers ---
path_existants = f"../data/donnees_dpe_existants_{DEPT_CODE}.csv"
path_neufs = f"../data/donnees_dpe_neufs_{DEPT_CODE}.csv"

logements_existants = pd.read_csv(path_existants)
logements_neufs = pd.read_csv(path_neufs)

print(f"✅ Chargé DPE {DEPT_CODE} : {logements_existants.shape[0]} existants, {logements_neufs.shape[0]} neufs")

  logements_existants = pd.read_csv(path_existants)


✅ Chargé DPE 73 : 110526 existants, 10816 neufs


  logements_neufs = pd.read_csv(path_neufs)


In [3]:
# Ajouter de la colonne "Logement" dans chaque DF
logements_existants["Logement"]="Ancien"
logements_neufs["Logement"]="Neuf"

In [4]:
# Ajout année de construction
now=datetime.datetime.now()
logements_neufs["annee_construction"]=now.year
print (logements_neufs["annee_construction"].value_counts())

annee_construction
2025    10816
Name: count, dtype: int64


In [5]:
# Fusionner les deux DF
logements_merged=pd.concat([logements_neufs,logements_existants], join = 'inner')
print(logements_merged.columns)
print(len(logements_merged.columns))

Index(['numero_dpe', 'date_derniere_modification_dpe',
       'date_visite_diagnostiqueur', 'date_etablissement_dpe',
       'date_reception_dpe', 'date_fin_validite_dpe', 'numero_dpe_remplace',
       'numero_dpe_immeuble_associe', 'id_rnb', 'provenance_id_rnb',
       ...
       'surface_totale_capteurs_pv', 'nombre_module',
       'production_electricite_pv_kwhep_par_an',
       'electricite_pv_autoconsommee', '_geopoint', '_id', '_i', '_rand',
       'Logement', 'annee_construction'],
      dtype='object', length=209)
209


In [6]:
# Créer une colonne avec uniquement l'année de la Date de réception du DPE
logements_merged["annee_reception_DPE"]=logements_merged["date_reception_dpe"].str[:4]
print(logements_merged[["annee_reception_DPE","date_reception_dpe"]])

       annee_reception_DPE date_reception_dpe
0                     2021         2021-07-01
1                     2021         2021-07-02
2                     2021         2021-07-02
3                     2021         2021-07-08
4                     2021         2021-07-09
...                    ...                ...
110521                2025         2025-10-27
110522                2025         2025-10-27
110523                2025         2025-10-27
110524                2025         2025-10-27
110525                2025         2025-10-27

[121342 rows x 2 columns]


  logements_merged["annee_reception_DPE"]=logements_merged["date_reception_dpe"].str[:4]


In [7]:
# Créer une colonne periode_construction avec ces classes ci-dessous
def periode_construction(année):
    if année < 1960:
        return "Avant 1960"
    elif 1960 <= année <= 1970:
        return "1961 - 1970" 
    elif 1971 <= année <= 1980:
        return "1971 - 1980" 
    elif 1981 <= année <= 1990:
        return "1981 - 1990"
    elif 1991 <= année <= 2000:
        return "1991 - 2000"
    elif 2001 <= année <= 2010:
        return "2001 - 2010"
    elif pd.isna(année):
        return "Année inconnue"
    else:
        return "Après 2010"

logements_merged["periode_construction"]=logements_merged["annee_construction"].apply(periode_construction)
print(logements_merged[["periode_construction","annee_construction"]])

       periode_construction  annee_construction
0                Après 2010              2025.0
1                Après 2010              2025.0
2                Après 2010              2025.0
3                Après 2010              2025.0
4                Après 2010              2025.0
...                     ...                 ...
110521           Après 2010              2015.0
110522           Avant 1960              1930.0
110523       Année inconnue                 NaN
110524           Avant 1960              1900.0
110525       Année inconnue                 NaN

[121342 rows x 2 columns]


  logements_merged["periode_construction"]=logements_merged["annee_construction"].apply(periode_construction)


In [8]:
pd.set_option('display.max_columns', None)  # Affiche toutes les colonnes
logements_merged.head(10)

Unnamed: 0,numero_dpe,date_derniere_modification_dpe,date_visite_diagnostiqueur,date_etablissement_dpe,date_reception_dpe,date_fin_validite_dpe,numero_dpe_remplace,numero_dpe_immeuble_associe,id_rnb,provenance_id_rnb,numero_rpls_logement,numero_immatriculation_copropriete,modele_dpe,version_dpe,methode_application_dpe,etiquette_dpe,etiquette_ges,classe_altitude,zone_climatique,type_batiment,type_installation_chauffage,type_installation_ecs,hauteur_sous_plafond,nombre_appartement,nombre_niveau_immeuble,nombre_niveau_logement,typologie_logement,appartement_non_visite,surface_habitable_immeuble,surface_habitable_logement,surface_tertiaire_immeuble,classe_inertie_batiment,adresse_ban,numero_voie_ban,nom_rue_ban,nom_commune_ban,code_postal_ban,code_insee_ban,code_departement_ban,code_region_ban,identifiant_ban,coordonnee_cartographique_x_ban,coordonnee_cartographique_y_ban,score_ban,statut_geocodage,adresse_brut,nom_commune_brut,code_postal_brut,numero_etage_appartement,position_logement_dans_immeuble,nom_residence,complement_adresse_batiment,complement_adresse_logement,indicateur_confort_ete,protection_solaire_exterieure,logement_traversant,presence_brasseur_air,inertie_lourde,isolation_toiture,deperditions_enveloppe,deperditions_ponts_thermiques,deperditions_murs,deperditions_planchers_hauts,deperditions_planchers_bas,deperditions_portes,deperditions_baies_vitrees,deperditions_renouvellement_air,qualite_isolation_enveloppe,qualite_isolation_murs,qualite_isolation_plancher_haut_comble_amenage,qualite_isolation_plancher_bas,qualite_isolation_menuiseries,ubat_w_par_m2_k,besoin_chauffage,besoin_ecs,besoin_refroidissement,conso_5_usages_ep,conso_5_usages_par_m2_ep,conso_chauffage_ep,conso_ecs_ep,conso_refroidissement_ep,conso_eclairage_ep,conso_auxiliaires_ep,conso_5_usages_ef,conso_5_usages_par_m2_ef,conso_chauffage_ef,conso_ecs_ef,conso_refroidissement_ef,conso_eclairage_ef,conso_auxiliaires_ef,emission_ges_5_usages,emission_ges_5_usages_par_m2,emission_ges_chauffage,emission_ges_ecs,emission_ges_refroidissement,emission_ges_eclairage,emission_ges_auxiliaires,type_energie_n1,conso_5_usages_ef_energie_n1,conso_chauffage_ef_energie_n1,conso_ecs_ef_energie_n1,cout_total_5_usages_energie_n1,cout_chauffage_energie_n1,cout_ecs_energie_n1,emission_ges_5_usages_energie_n1,emission_ges_chauffage_energie_n1,emission_ges_ecs_energie_n1,type_energie_n2,conso_5_usages_ef_energie_n2,conso_chauffage_ef_energie_n2,conso_ecs_ef_energie_n2,cout_total_5_usages_energie_n2,cout_chauffage_energie_n2,cout_ecs_energie_n2,emission_ges_5_usages_energie_n2,emission_ges_chauffage_energie_n2,emission_ges_ecs_energie_n2,type_energie_n3,conso_5_usages_ef_energie_n3,conso_chauffage_ef_energie_n3,conso_ecs_ef_energie_n3,cout_total_5_usages_energie_n3,cout_chauffage_energie_n3,cout_ecs_energie_n3,emission_ges_5_usages_energie_n3,emission_ges_chauffage_energie_n3,emission_ges_ecs_energie_n3,cout_total_5_usages,cout_chauffage,cout_ecs,cout_refroidissement,cout_eclairage,cout_auxiliaires,type_energie_principale_chauffage,type_generateur_chauffage_principal,type_installation_chauffage_n1,type_emetteur_installation_chauffage_n1,configuration_installation_chauffage_n1,description_installation_chauffage_n1,conso_chauffage_installation_chauffage_n1,surface_chauffee_installation_chauffage_n1,type_generateur_n1_installation_n1,type_energie_generateur_n1_installation_n1,usage_generateur_n1_installation_n1,conso_chauffage_generateur_n1_installation_n1,type_generateur_n2_installation_n1,type_energie_generateur_n2_installation_n1,usage_generateur_n2_installation_n1,conso_chauffage_generateur_n2_installation_n1,type_installation_chauffage_n2,type_emetteur_installation_chauffage_n2,configuration_installation_chauffage_n2,description_installation_chauffage_n2,conso_chauffage_installation_chauffage_n2,surface_chauffee_installation_chauffage_n2,type_generateur_n1_installation_n2,type_energie_generateur_n1_installation_n2,usage_generateur_n1_installation_n2,conso_chauffage_generateur_n1_installation_n2,type_generateur_n2_installation_n2,type_energie_generateur_n2_installation_n2,usage_generateur_n2_installation_n2,conso_chauffage_generateur_n2_installation_n2,type_energie_principale_ecs,type_generateur_chauffage_principal_ecs,besoin_ecs_batiment,besoin_ecs_logement,type_installation_ecs_n1,configuration_installation_ecs_n1,description_installation_ecs_n1,conso_ef_installation_ecs_n1,nombre_logements_desservis_par_installation_ecs_n1,surface_habitable_desservie_par_installation_ecs_n1,type_installation_solaire_n1,production_ecs_solaire_installation_n1,type_generateur_n1_ecs_n1,type_energie_generateur_n1_ecs_n1,usage_generateur_n1_ecs_n1,description_generateur_n1_ecs_n1,volume_stockage_generateur_n1_ecs_n1,cop_generateur_n1_ecs_n1,conso_ef_generateur_n1_ecs_n1,type_generateur_n2_ecs_n1,type_energie_generateur_n2_ecs_n1,usage_generateur_n2_ecs_n1,description_generateur_n2_ecs_n1,volume_stockage_generateur_n2_ecs_n1,cop_generateur_n2_ecs_n1,conso_ef_generateur_n2_ecs_n1,type_ventilation,surface_ventilee,ventilation_posterieure_2012,type_generateur_froid,description_generateur_froid,surface_climatisee,conso_refroidissement_annuel,categorie_enr,systeme_production_electricite_origine_renouvelable,presence_production_pv,surface_totale_capteurs_pv,nombre_module,production_electricite_pv_kwhep_par_an,electricite_pv_autoconsommee,_geopoint,_id,_i,_rand,Logement,annee_construction,annee_reception_DPE,periode_construction
0,2173N0055368S,2023-11-08,2021-06-30,2021-06-30,2021-07-01,2031-06-29,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,1.0,,0.0,95.4,95.4,,,Rue de la Gare 73100 Grésy-sur-Aix,,271 RUE DE LA GARE,Grésy-sur-Aix,73100,73128,73.0,84.0,73128_0144,927396.82,6518105.11,0.55,adresse géocodée ban à l'adresse,271 RUE DE LA GARE,Grésy-sur-Aix,73100,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,très bonne,très bonne,0.39,,,,5956.5,62.3,3859.4,1773.9,0.0,447.5,139.8,2589.8,27.1,1678.0,547.0,0.0,194.6,60.8,192.4,2.0,132.6,50.1,0.0,13.4,3.9,Électricité,2225.0,1678.0,547.0,706.0,457.0,149.0,24.3,0.0,0.0,,,,,,,,,,,,,,,,,,,,,706.0,457.0,149.0,0.0,53.0,17.0,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.72463099785684,5.924249988414545",ceedbab92458122685bef911986df90703ea53c5600bea...,3058365700346,594729,Neuf,2025.0,2021,Après 2010
1,2173N0056245L,2023-11-08,2021-07-01,2021-07-01,2021-07-02,2031-06-30,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,B,A,,,maison,,,2.5,1.0,1.0,1.0,,0.0,102.2,102.2,,,Chemin de la montaz 73250 Saint-Pierre-d'Albigny,,Chemin de la montaz,Saint-Pierre-d'Albigny,73250,73270,73.0,84.0,73270_0449,946042.17,6501898.56,0.6,adresse non géocodée ban car aucune correspond...,Lieu Dit : La Montaz,SAINT-PIERRE-D'ALBIGNY,73250,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,bonne,très bonne,0.32,,,,7417.5,72.5,5200.3,1968.5,0.0,547.4,82.1,3225.0,31.6,2261.0,607.0,0.0,238.0,35.7,242.1,2.3,178.6,55.6,0.0,16.4,2.3,Électricité,2868.0,2261.0,607.0,822.0,576.0,155.0,24.0,0.0,0.0,,,,,,,,,,,,,,,,,,,,,822.0,576.0,155.0,0.0,61.0,9.0,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.57233998228651,6.1554530588261995",066169624b89ed98c932b7b2060e3cc1781aec0d87db38...,3057222764355,933564,Neuf,2025.0,2021,Après 2010
2,2173N0056170O,2023-11-08,2021-07-01,2021-07-01,2021-07-02,2031-06-30,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,1.0,,0.0,92.0,92.0,,,Route du ravet 73520 Saint-Béron,,Route du ravet,Saint-Béron,73520,73226,73.0,84.0,73226_3570,912675.52,6492089.43,0.46,adresse non géocodée ban car aucune correspond...,Lieu Dit ''Le Sourd'',SAINT-BERON,73520,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,bonne,très bonne,0.31,,,,4367.7,47.5,2343.7,1949.0,0.0,468.9,0.0,1899.0,20.6,1019.0,601.0,0.0,203.9,0.0,138.4,1.5,80.5,55.1,0.0,14.1,0.0,Électricité,1620.0,1019.0,601.0,559.0,300.0,177.0,18.9,0.0,0.0,,,,,,,,,,,,,,,,,,,,,559.0,300.0,177.0,0.0,60.0,0.0,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.49525496134123,5.723560000975685",8240f14f25fa902de05dad964c0021dc19fc6425ce27df...,3058708134819,843332,Neuf,2025.0,2021,Après 2010
3,2173N0048901Z,2024-12-30,2021-07-01,2021-07-07,2021-07-08,2031-07-06,,,8D4VV4D1VDR2,Reprise RNB,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,B,A,400-800m,H1c,maison,,,2.5,,,1.0,,,,69.9,,,549 Route de Verel 73230 Saint-Alban-Leysse,549,Route de Verel,Saint-Alban-Leysse,73230,73222,73.0,84.0,73222_0390_00549,929588.58,6503657.47,0.96,adresse non géocodée ban car aucune correspond...,de verel,SAINT-ALBAN-LEYSSE,73230,,,,,,moyen,1.0,1.0,1.0,,1.0,,,,,,,,,très bonne,très bonne,,bonne,bonne,0.29,,,,5074.4,72.5,2522.1,2205.1,0.0,337.7,9.4,2206.3,31.6,1096.6,958.8,0.0,146.8,4.1,185.2,2.6,92.1,80.5,0.0,12.3,0.3,Électricité,2325.0,1096.6,958.8,650.3,306.7,268.2,195.3,92.1,80.5,,,,,,,,,,,,,,,,,,,,,617.1,306.7,268.2,0.0,41.1,1.1,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,Il existe plusieurs descriptifs ENR,,,,,0.0,,"45.593889040285,5.945481993655041",eb0a8a601f6c4c64f4f9cfaa09a39adb9db6f201155021...,8795636076536,493288,Neuf,2025.0,2021,Après 2010
4,2173N0037996O,2023-11-08,2021-07-05,2021-07-08,2021-07-09,2031-07-07,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,1.0,,0.0,120.7,120.7,,,1684 Route de Bellecombette 73000 Jacob-Bellec...,1684,Route de Bellecombette,Jacob-Bellecombette,73000,73137,73.0,84.0,73137_0010_01684,927655.99,6498678.55,0.68,adresse géocodée ban à l'adresse,1684 Route de Bellecombette,Jacob-Bellecombette,73000,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,très bonne,très bonne,0.34,,,,6594.1,54.6,4209.0,2176.1,0.0,526.1,105.2,2867.0,23.7,1830.0,671.0,0.0,228.8,45.8,212.8,1.8,144.6,61.5,0.0,15.8,2.9,Électricité,2501.0,1830.0,671.0,756.0,483.0,177.0,24.6,0.0,0.0,,,,,,,,,,,,,,,,,,,,,756.0,483.0,177.0,0.0,60.0,12.0,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.54973204074813,5.918351005863102",3199cbd283359c561142a8502fd1439e239cf489685c54...,3057666838795,913921,Neuf,2025.0,2021,Après 2010
5,2173N0038053T,2023-11-08,2021-07-07,2021-07-08,2021-07-09,2031-07-07,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,B,B,,,maison,,,2.5,1.0,1.0,1.0,,0.0,80.5,80.5,,,Rd 923 73800 Laissaud,,,Laissaud,73800,73141,73.0,84.0,73141_0680,937222.33,6487349.89,0.47,adresse non géocodée ban car aucune correspond...,315 RD 923 - Lot N°1,LAISSAUD,73800,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,très bonne,très bonne,0.31,,,,5339.4,66.4,3051.2,2513.3,0.0,361.2,0.0,3936.9,48.9,2942.0,775.0,0.0,157.1,0.0,720.6,9.0,655.4,71.0,0.0,10.8,0.0,Gaz naturel,2858.0,2858.0,0.0,412.0,412.0,0.0,0.0,0.0,0.0,Électricité,859.0,84.0,775.0,381.0,30.0,274.0,14.9,0.0,0.0,,,,,,,,,,,793.0,442.0,274.0,0.0,55.0,0.0,Gaz naturel,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.444547005510174,6.035285000946646",d643aa44f876b2d18dd72a6a137672f4c1a05672b4f246...,3058689814444,749728,Neuf,2025.0,2021,Après 2010
6,2173N0038016I,2023-11-08,2021-07-05,2021-07-08,2021-07-09,2031-07-07,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,1.0,,0.0,145.2,145.2,,,Route de la Combe 73160 Saint-Cassin,n°6,le clos du petit pré,Saint-Cassin,73160,73228,73.0,84.0,73228_0800,924524.26,6496689.28,0.23,adresse géocodée ban à l'adresse,n°6 le clos du petit pré,Saint-Cassin,73160,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,très bonne,très bonne,0.37,,,,8129.5,56.0,5543.0,2315.5,0.0,615.8,123.2,3534.6,24.3,2410.0,714.0,0.0,267.8,53.6,264.4,1.8,190.4,65.4,0.0,18.5,3.4,Électricité,3124.0,2410.0,714.0,880.0,600.0,178.0,27.6,0.0,0.0,,,,,,,,,,,,,,,,,,,,,880.0,600.0,178.0,0.0,67.0,13.0,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.5328659775814,5.877311940254301",04dab6653215589168c4d6e2822e7deaa1a6e935f31bd4...,3059254807428,240595,Neuf,2025.0,2021,Après 2010
7,2173N0038068I,2023-11-08,2021-07-07,2021-07-08,2021-07-09,2031-07-07,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,B,B,,,maison,,,2.5,1.0,1.0,1.0,,0.0,87.2,87.2,,,Rd 923 73800 Laissaud,,,Laissaud,73800,73141,73.0,84.0,73141_0680,937222.33,6487349.89,0.47,adresse non géocodée ban car aucune correspond...,315 RD 923 - Lot N°2,LAISSAUD,73800,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,très bonne,très bonne,0.32,,,,5399.6,61.8,2971.9,2549.0,0.0,387.4,77.5,3750.5,43.0,2695.0,786.0,0.0,168.5,33.7,649.4,7.4,580.2,72.0,0.0,11.6,2.2,Gaz naturel,2482.0,2482.0,0.0,358.0,358.0,0.0,0.0,0.0,0.0,Électricité,999.0,213.0,786.0,422.0,71.0,262.0,18.1,0.0,0.0,,,,,,,,,,,780.0,429.0,262.0,0.0,56.0,11.0,Gaz naturel,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.444547005510174,6.035285000946646",46e9ea915cffcc0e0932f4ca9ff14c2a237692242ee0e4...,3059365940795,662693,Neuf,2025.0,2021,Après 2010
8,2173N0038088C,2023-11-08,2021-07-07,2021-07-08,2021-07-09,2031-07-07,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,1.0,,0.0,101.3,101.3,,,Montée du serre 73800 Les Mollettes,,Montée du serre,Les Mollettes,73800,73159,73.0,84.0,73159_0850,938305.01,6488808.95,0.73,adresse non géocodée ban car aucune correspond...,Montée de Serré,LES MOLLETTES,73800,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,très bonne,très bonne,0.34,,,,4473.4,44.2,2442.6,1868.0,0.0,470.7,88.3,1945.0,19.2,1062.0,576.0,0.0,204.6,38.4,142.0,1.3,83.9,52.8,0.0,14.1,2.5,Électricité,1638.0,1062.0,576.0,568.0,310.0,168.0,20.7,0.0,0.0,,,,,,,,,,,,,,,,,,,,,568.0,310.0,168.0,0.0,60.0,11.0,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.45729996011879,6.04984497426018",5bf221093eb5f5db642dc3f69a900b1067678475958d8a...,3059448734570,7876,Neuf,2025.0,2021,Après 2010
9,2173N0038136Y,2023-11-08,2021-07-07,2021-07-08,2021-07-09,2031-07-07,,,,,,,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,1.0,,0.0,116.0,116.0,,,Route des Collets 73460 Verrens-Arvey,,rue du pré joli,Verrens-Arvey,73460,73312,73.0,84.0,73312_0013,957906.12,6510641.8,0.3,adresse géocodée ban à l'adresse,rue du pré joli,Verrens-Arvey,73460,,,,,,,,,,,,,,,,,,,,très bonne,très bonne,,très bonne,très bonne,0.31,,,,6215.2,53.6,3822.6,2202.0,0.0,565.0,99.7,2702.3,23.3,1662.0,679.0,0.0,245.7,43.4,199.8,1.6,131.3,62.2,0.0,16.9,2.8,Électricité,2341.0,1662.0,679.0,725.0,446.0,182.0,24.3,0.0,0.0,,,,,,,,,,,,,,,,,,,,,725.0,446.0,182.0,0.0,66.0,12.0,Électricité,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,,,,,,,,,,,,,,0,,,,,,,,,,0.0,,"45.646631036537634,6.312132975766295",03796cf1a4f2754df9190a3c79137763add40b29e110cb...,3059567332969,868398,Neuf,2025.0,2021,Après 2010


In [9]:
# ---Filtrage des types de bâtiment ---
print("\nRépartition avant filtrage :")
print(logements_merged["type_batiment"].value_counts(dropna=False))

# On garde uniquement les logements individuels (maisons et appartements)
logements_merged = logements_merged[
    logements_merged["type_batiment"].isin(["maison", "appartement"])
]

print("\n✅ Filtrage effectué.")
print(logements_merged["type_batiment"].value_counts(dropna=False))
print(f"📊 Nouvelle dimension du DF : {logements_merged.shape}")


Répartition avant filtrage :
type_batiment
appartement    96964
maison         20744
immeuble        3634
Name: count, dtype: int64

✅ Filtrage effectué.
type_batiment
appartement    96964
maison         20744
Name: count, dtype: int64
📊 Nouvelle dimension du DF : (117708, 211)


In [10]:
# 🌍 Conversion des coordonnées Lambert93 → WGS84 (latitude / longitude)
# Vérification des colonnes
if {"coordonnee_cartographique_x_ban", "coordonnee_cartographique_y_ban"}.issubset(logements_merged.columns):
    print("Conversion des coordonnées Lambert93 (EPSG:2154) vers WGS84 (EPSG:4326)...")

    # Création du transformateur
    transformer = pyproj.Transformer.from_crs("EPSG:2154", "EPSG:4326", always_xy=True)

    # Transformation vectorisée
    logements_merged["longitude"], logements_merged["latitude"] = transformer.transform(
        logements_merged["coordonnee_cartographique_x_ban"].values,
        logements_merged["coordonnee_cartographique_y_ban"].values
    )

    # Vérification rapide de la transformation
    print("✅ Conversion terminée.")
    print("Exemple de coordonnées converties :")
    print(logements_merged[["coordonnee_cartographique_x_ban", "coordonnee_cartographique_y_ban", "longitude", "latitude"]].head(3))

    # Optionnel : suppression des anciennes colonnes pour alléger le dataset
    # (décommente si tu veux les retirer après conversion)
    logements_merged = logements_merged.drop(columns=["coordonnee_cartographique_x_ban", "coordonnee_cartographique_y_ban"])

else:
    print("⚠️ Les colonnes de coordonnées Lambert93 ne sont pas présentes dans le dataframe.")

Conversion des coordonnées Lambert93 (EPSG:2154) vers WGS84 (EPSG:4326)...
✅ Conversion terminée.
Exemple de coordonnées converties :
   coordonnee_cartographique_x_ban  coordonnee_cartographique_y_ban  \
0                        927396.82                       6518105.11   
1                        946042.17                       6501898.56   
2                        912675.52                       6492089.43   

   longitude   latitude  
0   5.924250  45.724631  
1   6.155453  45.572340  
2   5.723560  45.495255  


  logements_merged["longitude"], logements_merged["latitude"] = transformer.transform(
  logements_merged["longitude"], logements_merged["latitude"] = transformer.transform(


Gestion des valeurs manquantes

In [11]:
# Identifier et supprimer les colonnes entièrement vides
empty_cols = logements_merged.columns[logements_merged.isna().all()]
logements_merged = logements_merged.drop(columns=empty_cols)

# Supprimer colonnes inutiles
cols_to_drop = ["_geopoint", "_id", "_rand", "_i"]
existing_cols = [col for col in cols_to_drop if col in logements_merged.columns]
logements_merged = logements_merged.drop(columns=existing_cols)

print(f"✅ {len(empty_cols)} colonnes vides supprimées.")
print(f"✅ Colonnes inutiles supprimées : {existing_cols}")
print(f"📊 Nouvelle dimension du DF : {logements_merged.shape}")

✅ 2 colonnes vides supprimées.
✅ Colonnes inutiles supprimées : ['_geopoint', '_id', '_rand', '_i']
📊 Nouvelle dimension du DF : (117708, 205)


In [12]:
# Pourcentage de valeurs manquantes par colonne
missing_ratio = logements_merged.isna().mean().sort_values(ascending=False)
print(missing_ratio.head(100))  # affiche les 20 colonnes les plus vides

type_energie_generateur_n2_ecs_n1          0.999983
type_generateur_n2_ecs_n1                  0.999983
usage_generateur_n2_ecs_n1                 0.999983
description_generateur_n2_ecs_n1           0.999983
volume_stockage_generateur_n2_ecs_n1       0.999983
                                             ...   
volume_stockage_generateur_n1_ecs_n1       0.114903
type_energie_generateur_n1_ecs_n1          0.114631
type_generateur_chauffage_principal_ecs    0.114631
usage_generateur_n1_ecs_n1                 0.114631
configuration_installation_ecs_n1          0.114631
Length: 100, dtype: float64


In [13]:
print("📊 Taux moyen de valeurs manquantes avant nettoyage :")
print(f"{logements_merged.isna().mean().mean():.2%}")

# Sélection des colonnes à supprimer (plus de 80% de valeurs manquantes)
cols_to_drop = missing_ratio[missing_ratio > 0.5].index
print(f"📉 Colonnes à supprimer (>{50}% de valeurs manquantes) : {len(cols_to_drop)}")

# Suppression de ces colonnes
logements_merged = logements_merged.drop(columns=cols_to_drop)
print(f"✅ Colonnes supprimées : {len(cols_to_drop)}")
print(f"📊 Nouvelle dimension du DF : {logements_merged.shape}")

print("📊 Taux moyen de valeurs manquantes après nettoyage :")
print(f"{logements_merged.isna().mean().mean():.2%}")

📊 Taux moyen de valeurs manquantes avant nettoyage :
33.61%
📉 Colonnes à supprimer (>50% de valeurs manquantes) : 62
✅ Colonnes supprimées : 62
📊 Nouvelle dimension du DF : (117708, 143)
📊 Taux moyen de valeurs manquantes après nettoyage :
8.99%


In [14]:
# --- 💾 Sauvegarde du jeu de données nettoyé ---
output_path = f"../data/donnees_dpe_{DEPT_CODE}_clean.csv"
logements_merged.to_csv(output_path, index=False)

print("\n✅ Données nettoyées sauvegardées avec succès.")
print(f"📁 Fichier exporté : {output_path}")

# --- 🔍 Vérification rapide ---
print("\nAperçu final :")
display(logements_merged.head(3))

print("\nTypes de données :")
print(logements_merged.dtypes.head(10))

print("\nTaux de valeurs manquantes par colonne (top 10) :")
print(logements_merged.isna().mean().sort_values(ascending=False).head(10))



✅ Données nettoyées sauvegardées avec succès.
📁 Fichier exporté : ../data/donnees_dpe_73_clean.csv

Aperçu final :


Unnamed: 0,numero_dpe,date_derniere_modification_dpe,date_visite_diagnostiqueur,date_etablissement_dpe,date_reception_dpe,date_fin_validite_dpe,modele_dpe,version_dpe,methode_application_dpe,etiquette_dpe,etiquette_ges,classe_altitude,zone_climatique,type_batiment,type_installation_chauffage,type_installation_ecs,hauteur_sous_plafond,nombre_appartement,nombre_niveau_logement,surface_habitable_immeuble,surface_habitable_logement,classe_inertie_batiment,adresse_ban,numero_voie_ban,nom_rue_ban,nom_commune_ban,code_postal_ban,code_insee_ban,code_departement_ban,code_region_ban,identifiant_ban,score_ban,statut_geocodage,adresse_brut,nom_commune_brut,code_postal_brut,numero_etage_appartement,complement_adresse_batiment,complement_adresse_logement,indicateur_confort_ete,protection_solaire_exterieure,logement_traversant,presence_brasseur_air,inertie_lourde,isolation_toiture,deperditions_enveloppe,deperditions_ponts_thermiques,deperditions_murs,deperditions_planchers_hauts,deperditions_planchers_bas,deperditions_portes,deperditions_baies_vitrees,deperditions_renouvellement_air,qualite_isolation_enveloppe,qualite_isolation_murs,qualite_isolation_plancher_bas,qualite_isolation_menuiseries,ubat_w_par_m2_k,besoin_chauffage,besoin_ecs,besoin_refroidissement,conso_5_usages_ep,conso_5_usages_par_m2_ep,conso_chauffage_ep,conso_ecs_ep,conso_refroidissement_ep,conso_eclairage_ep,conso_auxiliaires_ep,conso_5_usages_ef,conso_5_usages_par_m2_ef,conso_chauffage_ef,conso_ecs_ef,conso_refroidissement_ef,conso_eclairage_ef,conso_auxiliaires_ef,emission_ges_5_usages,emission_ges_5_usages_par_m2,emission_ges_chauffage,emission_ges_ecs,emission_ges_refroidissement,emission_ges_eclairage,emission_ges_auxiliaires,type_energie_n1,conso_5_usages_ef_energie_n1,conso_chauffage_ef_energie_n1,conso_ecs_ef_energie_n1,cout_total_5_usages_energie_n1,cout_chauffage_energie_n1,cout_ecs_energie_n1,emission_ges_5_usages_energie_n1,emission_ges_chauffage_energie_n1,emission_ges_ecs_energie_n1,type_energie_n2,conso_5_usages_ef_energie_n2,conso_chauffage_ef_energie_n2,conso_ecs_ef_energie_n2,cout_total_5_usages_energie_n2,cout_chauffage_energie_n2,cout_ecs_energie_n2,emission_ges_5_usages_energie_n2,emission_ges_chauffage_energie_n2,emission_ges_ecs_energie_n2,cout_total_5_usages,cout_chauffage,cout_ecs,cout_refroidissement,cout_eclairage,cout_auxiliaires,type_energie_principale_chauffage,type_generateur_chauffage_principal,type_installation_chauffage_n1,type_emetteur_installation_chauffage_n1,configuration_installation_chauffage_n1,description_installation_chauffage_n1,conso_chauffage_installation_chauffage_n1,surface_chauffee_installation_chauffage_n1,type_generateur_n1_installation_n1,type_energie_generateur_n1_installation_n1,usage_generateur_n1_installation_n1,conso_chauffage_generateur_n1_installation_n1,type_energie_principale_ecs,type_generateur_chauffage_principal_ecs,type_installation_ecs_n1,configuration_installation_ecs_n1,description_installation_ecs_n1,conso_ef_installation_ecs_n1,nombre_logements_desservis_par_installation_ecs_n1,surface_habitable_desservie_par_installation_ecs_n1,type_installation_solaire_n1,type_generateur_n1_ecs_n1,type_energie_generateur_n1_ecs_n1,usage_generateur_n1_ecs_n1,description_generateur_n1_ecs_n1,volume_stockage_generateur_n1_ecs_n1,conso_ef_generateur_n1_ecs_n1,ventilation_posterieure_2012,production_electricite_pv_kwhep_par_an,Logement,annee_construction,annee_reception_DPE,periode_construction,longitude,latitude
0,2173N0055368S,2023-11-08,2021-06-30,2021-06-30,2021-07-01,2031-06-29,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,95.4,95.4,,Rue de la Gare 73100 Grésy-sur-Aix,,271 RUE DE LA GARE,Grésy-sur-Aix,73100,73128,73.0,84.0,73128_0144,0.55,adresse géocodée ban à l'adresse,271 RUE DE LA GARE,Grésy-sur-Aix,73100,,,,,,,,,,,,,,,,,,très bonne,très bonne,très bonne,très bonne,0.39,,,,5956.5,62.3,3859.4,1773.9,0.0,447.5,139.8,2589.8,27.1,1678.0,547.0,0.0,194.6,60.8,192.4,2.0,132.6,50.1,0.0,13.4,3.9,Électricité,2225.0,1678.0,547.0,706.0,457.0,149.0,24.3,0.0,0.0,,,,,,,,,,,706.0,457.0,149.0,0.0,53.0,17.0,Électricité,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,0,0.0,Neuf,2025.0,2021,Après 2010,5.92425,45.724631
1,2173N0056245L,2023-11-08,2021-07-01,2021-07-01,2021-07-02,2031-06-30,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,B,A,,,maison,,,2.5,1.0,1.0,102.2,102.2,,Chemin de la montaz 73250 Saint-Pierre-d'Albigny,,Chemin de la montaz,Saint-Pierre-d'Albigny,73250,73270,73.0,84.0,73270_0449,0.6,adresse non géocodée ban car aucune correspond...,Lieu Dit : La Montaz,SAINT-PIERRE-D'ALBIGNY,73250,,,,,,,,,,,,,,,,,,très bonne,très bonne,bonne,très bonne,0.32,,,,7417.5,72.5,5200.3,1968.5,0.0,547.4,82.1,3225.0,31.6,2261.0,607.0,0.0,238.0,35.7,242.1,2.3,178.6,55.6,0.0,16.4,2.3,Électricité,2868.0,2261.0,607.0,822.0,576.0,155.0,24.0,0.0,0.0,,,,,,,,,,,822.0,576.0,155.0,0.0,61.0,9.0,Électricité,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,0,0.0,Neuf,2025.0,2021,Après 2010,6.155453,45.57234
2,2173N0056170O,2023-11-08,2021-07-01,2021-07-01,2021-07-02,2031-06-30,DPE NEUF logement : RT2012,1.0,dpe issu d'une étude thermique réglementaire R...,A,A,,,maison,,,2.5,1.0,1.0,92.0,92.0,,Route du ravet 73520 Saint-Béron,,Route du ravet,Saint-Béron,73520,73226,73.0,84.0,73226_3570,0.46,adresse non géocodée ban car aucune correspond...,Lieu Dit ''Le Sourd'',SAINT-BERON,73520,,,,,,,,,,,,,,,,,,très bonne,très bonne,bonne,très bonne,0.31,,,,4367.7,47.5,2343.7,1949.0,0.0,468.9,0.0,1899.0,20.6,1019.0,601.0,0.0,203.9,0.0,138.4,1.5,80.5,55.1,0.0,14.1,0.0,Électricité,1620.0,1019.0,601.0,559.0,300.0,177.0,18.9,0.0,0.0,,,,,,,,,,,559.0,300.0,177.0,0.0,60.0,0.0,Électricité,,,,,,,,,,,,Non affecté,,,,,,,,,,,,,,,0,0.0,Neuf,2025.0,2021,Après 2010,5.72356,45.495255



Types de données :
numero_dpe                         object
date_derniere_modification_dpe     object
date_visite_diagnostiqueur         object
date_etablissement_dpe             object
date_reception_dpe                 object
date_fin_validite_dpe              object
modele_dpe                         object
version_dpe                       float64
methode_application_dpe            object
etiquette_dpe                      object
dtype: object

Taux de valeurs manquantes par colonne (top 10) :
inertie_lourde                       0.468150
isolation_toiture                    0.462645
protection_solaire_exterieure        0.459994
logement_traversant                  0.459994
presence_brasseur_air                0.459994
indicateur_confort_ete               0.455950
type_energie_n2                      0.365192
emission_ges_chauffage_energie_n2    0.365192
emission_ges_ecs_energie_n2          0.365192
conso_5_usages_ef_energie_n2         0.365192
dtype: float64
