# Extraction des données complètes pour le Rhones

In [1]:
import requests
import pandas as pd
from concurrent.futures import ThreadPoolExecutor
import time

# URL de base de l'API
base_url = "https://data.ademe.fr/data-fair/api/v1/datasets/dpe03existant/lines"

In [2]:
# Chargement du ficher des adresses du rhones.
df69 = pd.read_csv("data/adresses-69.csv", sep=";", low_memory=False)

In [3]:
# Extraction des codes postaux.
code_postaux = df69["code_postal"].unique()

# Methode de requête de l'API

In [None]:
# Liste des codes qui n'ont pas pu être récupérés.
missed_codes = list()

def query_api(params: dict, base_url: str = base_url, next_url: str | None = None, retries: int = 3, backoff: int = 2) -> list[dict]:
    """Récupère toutes les pages d'une requête API en boucle avec gestion des erreurs."""

    all_results = []

    recuperated = 0

    # Recuperation du code postal des paramètres.
    postal_code = params["qs"].split(":")[-1]

    while True:
        for attempt in range(retries):
            try:
                if next_url:
                    response = requests.get(url=next_url)
                else:
                    response = requests.get(url=base_url, params=params)

                if response.status_code == 200:

                    content = response.json()

                    # Monitoring
                    recuperated += (content["total"]- recuperated) if (content["total"] - recuperated) < params["size"] else params["size"]

                    

                    if content["total"] == 0:
                        print("No data found from the query.", flush=True)
                        return []
                
                    
                    all_results.extend(content["results"])
                    print(f"{postal_code}: {recuperated} éléments sur {content["total"]} ({int(recuperated*100/content["total"])}%)", flush=True)

                    next_url = content.get("next")
                    break  # sortie du retry loop si succès

                # Gestion d'erreur si requête invalide.
                else:
                    print(f"{postal_code}: Erreur de connexion avec l'API!, tentative {attempt+1}/{retries}", flush=True)
                    time.sleep(backoff * (attempt + 1))  # backoff progressif

            # Gestion d'erreur si problème de connexion.
            except requests.RequestException as e:
                print(f"{postal_code}: Erreur réseau: {e}, tentative {attempt+1}/{retries}", flush=True)
                time.sleep(backoff * (attempt + 1))  # backoff progressif

        # else de boucle for (si trop d'échecs.)
        else:
            print(f"{postal_code}: Échec permanent, abandon de cette requête.")

            # Addition du code manqué dans le dictionnaire.
            missed_codes.append(postal_code)

            return all_results # Retourner les informations récupérés jusqu'à présent.

        if not next_url:
            break

    return all_results

## Extraction normale

In [6]:
df_list = list()

for i, code in enumerate(code_postaux):

    print()
    print(f"==Récupération codes postaux: {i+1}/{len(code_postaux)}==")

    params = {
            "size": 1500,   
            "qs": f"code_postal_ban:{code}"
        }
    df_list.extend(query_api(params=params, retries=5))

# Concaténation de la liste de dictionnaire en dataframe.
df = pd.DataFrame(df_list)

df.to_csv("existants_69.csv")



==Récupération codes postaux: 1/91==
69790: 197 éléments sur 197 (100%)

==Récupération codes postaux: 2/91==
69170: 1500 éléments sur 2893 (51%)
69170: 2893 éléments sur 2893 (100%)

==Récupération codes postaux: 3/91==
69250: 1500 éléments sur 3167 (47%)
69250: 3000 éléments sur 3167 (94%)
69250: 3167 éléments sur 3167 (100%)

==Récupération codes postaux: 4/91==
69380: 1500 éléments sur 3216 (46%)
69380: 3000 éléments sur 3216 (93%)
69380: 3216 éléments sur 3216 (100%)

==Récupération codes postaux: 5/91==
69009: 1500 éléments sur 21052 (7%)
69009: 3000 éléments sur 21052 (14%)
69009: 4500 éléments sur 21052 (21%)
69009: 6000 éléments sur 21052 (28%)
69009: 7500 éléments sur 21052 (35%)
69009: 9000 éléments sur 21052 (42%)
69009: 10500 éléments sur 21052 (49%)
69009: 12000 éléments sur 21052 (57%)
69009: 13500 éléments sur 21052 (64%)
69009: 15000 éléments sur 21052 (71%)
69009: 16500 éléments sur 21052 (78%)
69009: 18000 éléments sur 21052 (85%)
69009: 19500 éléments sur 21052 (92

## Multitreading code

Le code finit en erreur, car trop de requêtes simultannées sont demandées à l'API (l'API coupe la connection).

In [None]:
# def fetch_for_code(code):
#     """Exécute query_api pour un code postal donné."""
#     params = {
#         "size": 750,
#         "page": 1,
#         "qs": f"code_postal_ban:{code}"
#     }
#     return query_api(params=params, retries=5)


# # Liste des DataFrames pour tous les codes postaux
# with ThreadPoolExecutor(max_workers=10) as executor: 
#     all_lists = list(executor.map(fetch_for_code, code_postaux))

# list_to_df = []
# for sublist in all_lists:
#     list_to_df.extend(sublist)

# # Concaténation finale
# df_final = pd.DataFrame(list_to_df)

# # Ecriture.
# df_final.to_csv("existants_69.csv")


In [None]:
# # Vérification de l'extraction.
# df = pd.read_csv("existants_69.csv", index_col=0)

# Batiment neuf

Utiliser l'URL suivante: https://data.ademe.fr/data-fair/api/v1/datasets/dpe02neuf/lines

In [None]:
# Récupération des logements neufs.
new_habitation_list = list()

base_url = "https://data.ademe.fr/data-fair/api/v1/datasets/dpe02neuf/lines"

for i, code in enumerate(code_postaux):

    print()
    print(f"==Récupération codes postaux: {i+1}/{len(code_postaux)}==")

    params = {
            "size": 1500,   
            "qs": f"code_postal_ban:{code}"
        }

    new_habitation_list.extend(query_api(params=params))

# Concaténation de la liste de dictionnaire en dataframe.
df_news = pd.DataFrame(df_list)

# Ecriture du fichier en csv.
df_news.to_csv("neufs_69.csv")

# Concaténation des bâtiments existants et neufs.

In [5]:
# Relecture des fichiers csv si nécessaires.
df1 = pd.read_csv("existants_69.csv")

  df1 = pd.read_csv("existants_69.csv")


In [7]:
# neufs
df2 = pd.read_csv("neufs_69.csv")

  df2 = pd.read_csv("neufs_69.csv")


In [None]:
# Effectuer la concaténation des deux dataframes.
df = pd.concat([df1, df2], join="inner")

In [20]:
# Exports du resultat final.
df.to_csv("logements_69.csv")

# Extraction des données d'ENEDIS de consommation par adresse.

In [24]:
# Ouverture du fichier d'ENEDIS.
df_enedis = pd.read_csv("data/consommation-annuelle-residentielle-par-adresse-69008.csv", sep=";")

In [25]:
df_enedis

Unnamed: 0.1,Unnamed: 0,annee,code_iris,nom_iris,numero_de_voie,indice_de_repetition,type_de_voie,libelle_de_voie,code_commune,nom_commune,segment_de_client,nombre_de_logements,consommation_annuelle_totale_de_l_adresse_mwh,consommation_annuelle_moyenne_par_site_de_l_adresse_mwh,consommation_annuelle_moyenne_de_la_commune_mwh,adresse,code_epci,code_departement,code_region,tri_des_adresses
0,66969,2022,693880202,Les Alouettes-Bachut,54.0,B,RUE,SAINT MATHIEU,69123,Lyon,RESIDENTIEL,17,109.700,6.453,2.771,54 B RUE SAINT MATHIEU,200046977.0,69.0,84.0,170031
1,66978,2022,693880202,Les Alouettes-Bachut,49.0,,RUE,SAINT NESTOR,69123,Lyon,RESIDENTIEL,25,95.018,3.801,2.771,49 RUE SAINT NESTOR,200046977.0,69.0,84.0,170101
2,66979,2022,693880102,Colbert,3.0,,RUE,SAINT NESTOR,69123,Lyon,RESIDENTIEL,123,244.940,1.991,2.771,3 RUE SAINT NESTOR,200046977.0,69.0,84.0,170106
3,66980,2022,693880104,Marius Berliet Nord,26.0,,RUE,SAINT NESTOR,69123,Lyon,RESIDENTIEL,35,164.746,4.707,2.771,26 RUE SAINT NESTOR,200046977.0,69.0,84.0,170109
4,66981,2022,693880101,Jean Moulin,2.0,,RUE,SAINT NESTOR,69123,Lyon,RESIDENTIEL,11,21.472,1.952,2.771,2 RUE SAINT NESTOR,200046977.0,69.0,84.0,170111
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9307,2368625,2023,693880204,Montplaisir Sud,10.0,,PROMENADE,L ET N BULLUKIAN,69123,Lyon,RESIDENTIEL,56,65.831,1.176,2.654,10 PROMENADE L ET N BULLUKIAN,200046977.0,69.0,84.0,169802
9308,2368636,2023,693880302,Rockefeller-La Buire,127.0,,RUE,LAENNEC,69123,Lyon,RESIDENTIEL,16,25.171,1.573,2.654,127 RUE LAENNEC,200046977.0,69.0,84.0,169886
9309,2368637,2023,693880302,Rockefeller-La Buire,123.0,,RUE,LAENNEC,69123,Lyon,RESIDENTIEL,14,31.795,2.271,2.654,123 RUE LAENNEC,200046977.0,69.0,84.0,169888
9310,2368638,2023,693880302,Rockefeller-La Buire,113.0,,RUE,LAENNEC,69123,Lyon,RESIDENTIEL,13,25.944,1.996,2.654,113 RUE LAENNEC,200046977.0,69.0,84.0,169893


In [None]:
# Utilisation de l'API d'ENEDIS

def query_enedis_api(params: dict, base_url: str = base_url, retries: int = 3, backoff: int = 2) -> list[dict]:
    """Récupère toutes les pages d'une requête API en boucle avec gestion des erreurs."""

    # Create a copy of the parameters.
    params_local = params.copy()
    all_results = []

    recuperated = 0
    n = params_local["limit"]
    total = None
    params_local["offset"] = 0

    while True:
        for attempt in range(retries):
            try:
                response = requests.get(url=base_url, params=params_local)

                if response.status_code == 200:

                    content = response.json()

                    # Check if the query have found data.
                    if content["total_count"] == 0:
                        print("No data found from the query.", flush=True)
                        return []


                    # Monitoring.

                    # Update the count of total and recuperated.
                    if not total:
                        total = content["total_count"]
                    
                    total = total - n if total - n > 0 else 0
                    recuperated = recuperated + n if total - n > 0 else recuperated + total

                    # Add the result to the list.
                    all_results.extend(content["results"])

                    print(f"{recuperated}/{content["total_count"]} éléments récupérés ({int(recuperated*100/content["total_count"])}%)", flush=True)

                    # Rajotuer l'offset
                    params_local["offset"] += n

                    break  # sortie du retry loop si succès

                # Gestion d'erreur si requête invalide.
                else:
                    print(f"Erreur de connexion avec l'API!, tentative {attempt+1}/{retries}", flush=True)
                    time.sleep(backoff * (attempt + 1))  # backoff progressif

            # Gestion d'erreur si problème de connexion.
            except requests.RequestException as e:
                print(f"Erreur réseau: {e}, tentative {attempt+1}/{retries}", flush=True)
                time.sleep(backoff * (attempt + 1))  # backoff progressif

        # else de boucle for (si trop d'échecs.)
        else:
            print("Échec permanent, abandon de cette requête.")

            return all_results # Retourner les informations récupérés jusqu'à présent.

        # arrêt de la boucle si tout a été extrait.
        if total == 0:
            break

        # endfor
    
    # endwhile

    return all_results

In [95]:
base_url="https://data.enedis.fr/api/explore/v2.1/"
dataset= "consommation-annuelle-residentielle-par-adresse"
url=base_url + f"catalog/datasets/{dataset}/records"

In [None]:
# Test de requete
response = requests.get(
    url=url,
    params={
        "limit": 100,
        "where": f'code_commune=69006 and nom_commune like "Amplepuis"'
    }
    )

if response.status_code == 200:
    content = response.json()
else:
    print(response)

In [111]:
pd.DataFrame(content["results"])

Unnamed: 0,annee,code_iris,nom_iris,numero_de_voie,indice_de_repetition,type_de_voie,libelle_de_voie,code_commune,nom_commune,segment_de_client,nombre_de_logements,consommation_annuelle_totale_de_l_adresse_mwh,consommation_annuelle_moyenne_par_site_de_l_adresse_mwh,consommation_annuelle_moyenne_de_la_commune_mwh,adresse,code_epci,code_departement,code_region,tri_des_adresses
0,2022,690060102,Contour,2,,RUE,JOSEPH VIGNON,69006,Amplepuis,RESIDENTIEL,10,14.096,1.410,4.069,2 RUE JOSEPH VIGNON,200040566,69,84,7318
1,2022,690060101,Centre,12,,RUE,PAUL DE LA GOUTTE,69006,Amplepuis,RESIDENTIEL,24,36.461,1.519,4.069,12 RUE PAUL DE LA GOUTTE,200040566,69,84,7323
2,2020,690060101,Centre,4,,ROND POINT,DE LA FERME,69006,Amplepuis,RESIDENTIEL,22,75.270,3.421,4.238,4 ROND POINT DE LA FERME,200040566,69,84,7228
3,2024,690060102,Contour,35,,RUE,AUGUSTE VILLY,69006,Amplepuis,RESIDENTIEL,10,44.014,4.401,3.921,35 RUE AUGUSTE VILLY,200040566,69,84,7609
4,2024,690060101,Centre,41,,LIEU DIT,LE REVERDY,69006,Amplepuis,RESIDENTIEL,11,15.136,1.376,3.921,41 LIEU DIT LE REVERDY,200040566,69,84,7621
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,2019,690060101,Centre,11,,LIEU DIT,LE REVERDY,69006,Amplepuis,RESIDENTIEL,12,18.020,1.502,4.214,11 LIEU DIT LE REVERDY,200040566,69,84,7065
96,2021,690060101,Centre,17,,RUE,DES FONTAINES,69006,Amplepuis,RESIDENTIEL,31,55.070,1.776,4.496,17 RUE DES FONTAINES,200040566,69,84,7234
97,2021,690060102,Contour,5,,RUE,JOSEPH VIGNON,69006,Amplepuis,RESIDENTIEL,10,14.067,1.407,4.496,5 RUE JOSEPH VIGNON,200040566,69,84,7239
98,2024,690060102,Contour,4,,RUE,JOSEPH VIGNON,69006,Amplepuis,RESIDENTIEL,10,12.887,1.289,3.921,4 RUE JOSEPH VIGNON,200040566,69,84,7617


In [114]:
enedis_data = []

# Boucle pour requêter tous les codes postaux du département de rhone alpes.
for i, code in enumerate(code_postaux):

    print()
    print(f"==Récupération codes postaux: {i+1}/{len(code_postaux)}==")

    params = {
        "limit": 100,
        "where": f'code_commune={code}'
    }

    enedis_data.extend(query_enedis_api(base_url=url, params=params))


==Récupération codes postaux: 1/91==
No data found from the query.

==Récupération codes postaux: 2/91==
0/6 éléments récupérés (0%)

==Récupération codes postaux: 3/91==
44/144 éléments récupérés (30%)
44/144 éléments récupérés (30%)

==Récupération codes postaux: 4/91==
No data found from the query.

==Récupération codes postaux: 5/91==
100/238 éléments récupérés (42%)
138/238 éléments récupérés (57%)
138/238 éléments récupérés (57%)

==Récupération codes postaux: 6/91==
No data found from the query.

==Récupération codes postaux: 7/91==
0/100 éléments récupérés (0%)

==Récupération codes postaux: 8/91==
0/29 éléments récupérés (0%)

==Récupération codes postaux: 9/91==
No data found from the query.

==Récupération codes postaux: 10/91==
No data found from the query.

==Récupération codes postaux: 11/91==
No data found from the query.

==Récupération codes postaux: 12/91==
No data found from the query.

==Récupération codes postaux: 13/91==
0/77 éléments récupérés (0%)

==Récupérati

In [115]:
pd.DataFrame(enedis_data)

Unnamed: 0,annee,code_iris,nom_iris,numero_de_voie,indice_de_repetition,type_de_voie,libelle_de_voie,code_commune,nom_commune,segment_de_client,nombre_de_logements,consommation_annuelle_totale_de_l_adresse_mwh,consommation_annuelle_moyenne_par_site_de_l_adresse_mwh,consommation_annuelle_moyenne_de_la_commune_mwh,adresse,code_epci,code_departement,code_region,tri_des_adresses
0,2023,691700000,Rontalon (commune non irisée),40,,ROUTE,DE FONDRIEU,69170,Rontalon,RESIDENTIEL,19,28.373,1.493,5.578,40 ROUTE DE FONDRIEU,246900740,69,84,306339
1,2019,691700000,Rontalon (commune non irisée),40,,ROUTE,DE FONDRIEU,69170,Rontalon,RESIDENTIEL,19,39.701,2.090,6.380,40 ROUTE DE FONDRIEU,246900740,69,84,309872
2,2020,691700000,Rontalon (commune non irisée),40,,ROUTE,DE FONDRIEU,69170,Rontalon,RESIDENTIEL,19,38.007,2.000,6.391,40 ROUTE DE FONDRIEU,246900740,69,84,314051
3,2021,691700000,Rontalon (commune non irisée),40,,ROUTE,DE FONDRIEU,69170,Rontalon,RESIDENTIEL,19,38.119,2.006,6.633,40 ROUTE DE FONDRIEU,246900740,69,84,314961
4,2024,691700000,Rontalon (commune non irisée),40,,ROUTE,DE FONDRIEU,69170,Rontalon,RESIDENTIEL,19,32.556,1.713,5.657,40 ROUTE DE FONDRIEU,246900740,69,84,329504
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5692,2022,692600000,Vernaison (commune non irisée),7,,RUE,DU PERONNET,69260,Vernaison,RESIDENTIEL,24,45.285,1.887,5.492,7 RUE DU PERONNET,200046977,69,84,370615
5693,2022,692600000,Vernaison (commune non irisée),3,,RUE,DU PERONNET,69260,Vernaison,RESIDENTIEL,21,42.657,2.031,5.492,3 RUE DU PERONNET,200046977,69,84,370617
5694,2022,691260000,Marcy (commune non irisée),125,,ROUTE,DE FRONTENAS,69126,Marcy,RESIDENTIEL,11,79.578,7.234,8.258,125 ROUTE DE FRONTENAS,200040574,69,84,174940
5695,2024,691260000,Marcy (commune non irisée),125,,ROUTE,DE FRONTENAS,69126,Marcy,RESIDENTIEL,12,99.043,8.254,7.696,125 ROUTE DE FRONTENAS,200040574,69,84,190848
