## Utiliser l'API de l'ADEME avec Python


In [2]:
import requests

root_url = 'https://data.ademe.fr/data-fair/api/v1/datasets/dpe03existant/lines'


def quick_requests(params:dict) -> dict:
    response = requests.get(root_url, params=params)
    response.raise_for_status()
    return response.json()

Effectuer une première requête GET en récupérant les données de la première page. Observer la réponse de la requête.


In [24]:
params = {
    'page': 1
}

quick_requests(params)

{'total': 12867611,
 'next': 'https://data.ademe.fr/data-fair/api/v1/datasets/meg-83tjwtg8dyz4vv7h1dqe/lines?after=1362404395025%2C572937',
 'results': [{'configuration_installation_chauffage_n1': 'Installation de chauffage simple',
   'conso_chauffage_installation_chauffage_n1': 3506.6,
   'type_generateur_n1_ecs_n1': 'Réseau de chaleur isolé',
   'numero_voie_ban': '50',
   'score_ban': 0.66,
   'surface_habitable_immeuble': 23551,
   'conso_auxiliaires_ep': 932.1,
   'deperditions_murs': 14.2,
   'cout_eclairage': 17.6,
   'conso_auxiliaires_ef': 405.2,
   'statut_geocodage': "adresse géocodée ban à l'adresse",
   'ventilation_posterieure_2012': 0,
   'cout_chauffage': 276,
   'conso_5_usages_par_m2_ep': 257,
   'date_etablissement_dpe': '2022-02-07',
   'conso_ecs_ef_energie_n1': 3670.8,
   'conso_ecs_ef_energie_n2': 0,
   'emission_ges_chauffage': 550.5,
   'description_installation_chauffage_n1': 'Réseau de chaleur vertueux isolé (système collectif). Emetteur(s): radiateur bitube

Effectuer une requête GET en récupérant les données de la page 1 avec 5 résultats


In [25]:
params = {
    'page': 1,
    'size': 5,
    'select': 'numero_dpe,etiquette_dpe,date_reception_dpe'
}

quick_requests(params)

{'total': 12867611,
 'next': 'https://data.ademe.fr/data-fair/api/v1/datasets/meg-83tjwtg8dyz4vv7h1dqe/lines?size=5&select=numero_dpe%2Cetiquette_dpe%2Cdate_reception_dpe&after=1362404395012%2C361733',
 'results': [{'numero_dpe': '2275E0252200Y',
   'date_reception_dpe': '2022-02-08',
   'etiquette_dpe': 'D',
   '_score': None},
  {'numero_dpe': '2254E0866216D',
   'date_reception_dpe': '2022-04-25',
   'etiquette_dpe': 'E',
   '_score': None},
  {'numero_dpe': '2275E1242094U',
   'date_reception_dpe': '2022-06-07',
   'etiquette_dpe': 'D',
   '_score': None},
  {'numero_dpe': '2244E1489464V',
   'date_reception_dpe': '2022-06-30',
   'etiquette_dpe': 'D',
   '_score': None},
  {'numero_dpe': '2293E0210795D',
   'date_reception_dpe': '2022-02-02',
   'etiquette_dpe': 'D',
   '_score': None}]}

Effectuer une requête GET en récupérant les données de la page 1 avec 5 résultats et en sélectionnant les colonnes N°DPE, Etiquette_DPE et Date_réception_DPE et en filtrant par Etiquette_DPE égale à E


In [26]:
params = {
    'page': 1,
    'size': 5,
    'select': 'numero_dpe,etiquette_dpe,date_reception_dpe',
    'q_fields': 'etiquette_dpe',
    'q': 'E'
}

quick_requests(params)

{'total': 2487267,
 'next': 'https://data.ademe.fr/data-fair/api/v1/datasets/meg-83tjwtg8dyz4vv7h1dqe/lines?size=5&select=numero_dpe%2Cetiquette_dpe%2Cdate_reception_dpe&q_fields=etiquette_dpe&q=E&after=5.54806%2C1362404395028%2C24677',
 'results': [{'numero_dpe': '2254E0866216D',
   'date_reception_dpe': '2022-04-25',
   'etiquette_dpe': 'E',
   '_score': 5.54806},
  {'numero_dpe': '2289E0379633T',
   'date_reception_dpe': '2022-02-25',
   'etiquette_dpe': 'E',
   '_score': 5.54806},
  {'numero_dpe': '2256E0388464D',
   'date_reception_dpe': '2022-02-25',
   'etiquette_dpe': 'E',
   '_score': 5.54806},
  {'numero_dpe': '2268E1169752D',
   'date_reception_dpe': '2022-05-29',
   'etiquette_dpe': 'E',
   '_score': 5.54806},
  {'numero_dpe': '2202E1104459I',
   'date_reception_dpe': '2022-05-19',
   'etiquette_dpe': 'E',
   '_score': 5.54806}]}

Effectuer une requête GET en récupérant les données de la page 1 avec 20 résultats et en sélectionnant les colonnes N°DPE, Etiquette_DPE et Date_réception_DPE et en filtrant par Etiquette_DPE égale à E, F ou G.


In [27]:
params = {
    'page': 1,
    'size': 5,
    'select': 'numero_dpe,etiquette_dpe,date_reception_dpe',
    'q_fields': 'etiquette_dpe',
    'q': 'E,F,G'
}

quick_requests(params)

{'total': 4116790,
 'next': 'https://data.ademe.fr/data-fair/api/v1/datasets/meg-83tjwtg8dyz4vv7h1dqe/lines?size=5&select=numero_dpe%2Cetiquette_dpe%2Cdate_reception_dpe&q_fields=etiquette_dpe&q=E%2CF%2CG&after=7.8537674%2C1362404395262%2C749176',
 'results': [{'numero_dpe': '2263E0767291R',
   'date_reception_dpe': '2022-04-12',
   'etiquette_dpe': 'G',
   '_score': 7.8537674},
  {'numero_dpe': '2222E0682673O',
   'date_reception_dpe': '2022-04-02',
   'etiquette_dpe': 'G',
   '_score': 7.8537674},
  {'numero_dpe': '2272E0353529C',
   'date_reception_dpe': '2022-02-22',
   'etiquette_dpe': 'G',
   '_score': 7.8537674},
  {'numero_dpe': '2261E0066009F',
   'date_reception_dpe': '2022-01-13',
   'etiquette_dpe': 'G',
   '_score': 7.8537674},
  {'numero_dpe': '2273E0251590K',
   'date_reception_dpe': '2022-02-08',
   'etiquette_dpe': 'G',
   '_score': 7.8537674}]}

Effectuer une requête GET en récupérant les données de la page 1 avec 5 résultats et en sélectionnant les colonnes N°DPE, Etiquette_DPE et Date_réception_DPE et en filtrant par Date_réception_DPE entre le 2024-01-01 au 2024-01-31


In [28]:
params = {
    'page': 1,
    'size': 5,
    'select': 'numero_dpe,etiquette_dpe,date_reception_dpe',
    'qs': 'date_reception_dpe:[2024-01-01 TO 2024-01-31]'
}

quick_requests(params)

{'total': 320979,
 'next': 'https://data.ademe.fr/data-fair/api/v1/datasets/meg-83tjwtg8dyz4vv7h1dqe/lines?size=5&select=numero_dpe%2Cetiquette_dpe%2Cdate_reception_dpe&qs=date_reception_dpe%3A%5B2024-01-01+TO+2024-01-31%5D&after=3741286580090%2C834008',
 'results': [{'numero_dpe': '2465E0137289Z',
   'date_reception_dpe': '2024-01-14',
   'etiquette_dpe': 'C',
   '_score': None},
  {'numero_dpe': '2459E0264861J',
   'date_reception_dpe': '2024-01-24',
   'etiquette_dpe': 'D',
   '_score': None},
  {'numero_dpe': '2493E0115701T',
   'date_reception_dpe': '2024-01-11',
   'etiquette_dpe': 'G',
   '_score': None},
  {'numero_dpe': '2469E0344404C',
   'date_reception_dpe': '2024-01-30',
   'etiquette_dpe': 'D',
   '_score': None},
  {'numero_dpe': '2440E0346728J',
   'date_reception_dpe': '2024-01-30',
   'etiquette_dpe': 'C',
   '_score': None}]}

Effectuer une requête GET en récupérant les données de la page 1 avec 5 résultats et en sélectionnant les colonnes N°DPE, Etiquette_DPE et Date_réception_DPE et en filtrant par Date_réception_DPE après le 2024-07-31


In [29]:
params = {
    'page': 1,
    'size': 5,
    'select': 'numero_dpe,etiquette_dpe,date_reception_dpe',
    'qs': 'date_reception_dpe:[2024-07-31 TO *]'
}

quick_requests(params)

{'total': 3894930,
 'next': 'https://data.ademe.fr/data-fair/api/v1/datasets/meg-83tjwtg8dyz4vv7h1dqe/lines?size=5&select=numero_dpe%2Cetiquette_dpe%2Cdate_reception_dpe&qs=date_reception_dpe%3A%5B2024-07-31+TO+*%5D&after=7770079089006%2C824425',
 'results': [{'numero_dpe': '2477E4416759L',
   'date_reception_dpe': '2024-12-12',
   'etiquette_dpe': 'B',
   '_score': None},
  {'numero_dpe': '2457E3676767L',
   'date_reception_dpe': '2024-10-18',
   'etiquette_dpe': 'C',
   '_score': None},
  {'numero_dpe': '2592E0857815P',
   'date_reception_dpe': '2025-03-13',
   'etiquette_dpe': 'D',
   '_score': None},
  {'numero_dpe': '2456E3827496R',
   'date_reception_dpe': '2024-10-30',
   'etiquette_dpe': 'D',
   '_score': None},
  {'numero_dpe': '2440E4239301S',
   'date_reception_dpe': '2024-11-29',
   'etiquette_dpe': 'E',
   '_score': None}]}

Effectuer une requête GET en récupérant les données de la page 1 avec 5 résultats et en sélectionnant les colonnes N°DPE, Etiquette_DPE, Date_réception_DPE et Code_postal_(BAN) en filtrant par le Code_postal_(BAN) 69360. Combien y a t-il de logements concernés dans la base de données ?


In [30]:
params = {
    'page': 1,
    'size': 5,
    'select': 'numero_dpe,etiquette_dpe,date_reception_dpe,code_postal_ban',
    'q_fields': 'code_postal_ban',
    'q': '69360'
}

quick_requests(params)

{'total': 2828,
 'next': 'https://data.ademe.fr/data-fair/api/v1/datasets/meg-83tjwtg8dyz4vv7h1dqe/lines?size=5&select=numero_dpe%2Cetiquette_dpe%2Cdate_reception_dpe%2Ccode_postal_ban&q_fields=code_postal_ban&q=69360&after=33.731533%2C1362525211737%2C545369',
 'results': [{'numero_dpe': '2269E1399563B',
   'date_reception_dpe': '2022-06-22',
   'code_postal_ban': '69360',
   'etiquette_dpe': 'C',
   '_score': 33.731533},
  {'numero_dpe': '2269E0041218A',
   'date_reception_dpe': '2022-01-10',
   'code_postal_ban': '69360',
   'etiquette_dpe': 'D',
   '_score': 33.731533},
  {'numero_dpe': '2269E0499359V',
   'date_reception_dpe': '2022-03-12',
   'code_postal_ban': '69360',
   'etiquette_dpe': 'C',
   '_score': 33.731533},
  {'numero_dpe': '2269E1447584A',
   'date_reception_dpe': '2022-06-27',
   'code_postal_ban': '69360',
   'etiquette_dpe': 'F',
   '_score': 33.731533},
  {'numero_dpe': '2269E1404078S',
   'date_reception_dpe': '2022-06-22',
   'code_postal_ban': '69360',
   'etiq

## Extraction des données complètes pour le Rhône


Setup cwd

In [3]:
import os

os.chdir('/Users/marinnagy/Documents/SISE/Python ML/Chapitre 2')

Récupérer tous les codes postaux du département du Rhône(69) à l'aide du fichier `adresses-69.csv`


In [4]:
import pandas as pd

adresses = pd.read_csv('resources/adresses-69.csv', sep=';', low_memory=False)
adresses.shape

(348195, 23)

Avec une boucle, parcourir chaque code postal afin de reconstruire le dataframe complet des logements existants sur le département. Exporter le résultat dans un fichier appelé `existants_69.csv`

Fonction de requette a l'API

In [5]:
import time

def requests_API(params:dict = None, custom_url:str = None, tic:int = 0) -> dict:

    try:

        if custom_url:
            response = requests.get(custom_url)
        else:
            response = requests.get(root_url, params=params)

    except ConnectionError:

        print(f'ConnectionError, network failed to request API ({tic+1}/3)')

        if(tic == 3):
            print('Failed to fetch')
            return None
        
        print('Trying again in 1 second')
        time.sleep(1)
        return requests_API(params=params, custom_url=custom_url, tic=tic+1)
        
    if response.status_code != 200:
        print(response.text)
        return None
    
    return response.json()

Fonction d'ajoutt de donnée au dataframe

In [6]:
def append_data(df:pd.DataFrame, data:list[dict]) -> None:
    
    data_df = pd.DataFrame(data)
    return pd.concat([df, data_df], ignore_index=True)

```python
from datetime import datetime

existants = pd.DataFrame()

for code_postal in adresses['code_postal'].unique():

    params = {
        'q_fields': 'code_postal_ban',
        'q': code_postal,
        'size': 0
    }

    # requests the count of results
    response = requests_API(params)
    print(f'Gettting {code_postal} ({response[0]} items)')

    # if more than 1000 results, split the requests into months
    if response[0] > 10000:
        for year in range(2021, datetime.now().year+1):
            print(f'   {year}', end=' ', flush=True)
            for month in range(1, 12+1):
                print(month, end='..')
                params['size'] = 10000
                params['qs'] = f'date_visite_diagnostiqueur:[{year}-{month:02}-01 TO {year}-{month:02}-31]'
                response = requests_API(params)
                existants = append_data(existants, response[1])
            print()
        continue
    
    params['size'] = 10000
    response = requests_API(params)
    existants = append_data(existants, response[1])
```

```python
import time

for code_postal in ['69100']:

    # first, get the total count
    base_params = {
        'q_fields': 'code_postal_ban',
        'q': code_postal,
        'size': 0
    }
    resp = requests_API(base_params)
    if resp is None:
        continue
    total = resp[0]
    print(f'Getting {code_postal} ({total} items)')

    # if more than 10000 results, split requests by month and fetch months concurrently
    if total > 10000:
        for year in range(2021, datetime.now().year + 1):
            print(f'   {year}', end=' ', flush=True)

            # build the 12 monthly requests
            reqs = []
            for month in range(1, 13):
                params_month = {
                    'q_fields': 'code_postal_ban',
                    'q': code_postal,
                    'size': 10000,
                    'qs': f'date_visite_diagnostiqueur:[{year}-{month:02}-01 TO {year}-{month:02}-31]'
                }
                reqs.append(grequests.get(root_url, params=params_month))

            # fire all 12 at once and wait
            responses = grequests.map(reqs, size=12)

            # collect results
            for r in responses:
                if not r:
                    print('Hmm NULL')
                elif r.status_code != 200:
                    print(f'Hoho, code {r.stattus_code}')
                    print(r.text)
                content = r.json()
                existants = append_data(existants, content.get('results', []))
            print(existants.shape)  # newline for the year block
            time.sleep(1)

        continue

    # otherwise, single shot (<= 10000)
    params = {
        'q_fields': 'code_postal_ban',
        'q': code_postal,
        'size': 10000
    }
    resp = requests_API(params)
    if resp is not None:
        existants = append_data(existants, resp[1])
```

Il est possible de passer outre la limitation de requette de l'API `size * page < 10000` en utilisant l'argument `after` au lieu de `page`. Un lien pre-construit utilisant cette argument est fourni dans la reponse sous la clef `next` du json.

In [None]:
def get_all_data() -> pd.DataFrame:

    df = pd.DataFrame()

    for code_postal in adresses['code_postal'].unique():
        
        # requests the count of results

        params = {
            'q_fields': 'code_postal_ban',
            'q': code_postal,
            'size': 0
        }

        response = requests_API(params=params)
        _total = response['total']
        print(f'{code_postal} ({_total} items)', end=' -> ', flush=True)

        # init for the requests

        params['size'] = 10000
        print('1', end=' ... ', flush=True)
        response = requests_API(params=params)
        df = append_data(df, response['results'])

        # loop through the results

        index = 2
        while 'next' in response.keys():
            print(index, end=' ... ', flush=True)
            response = requests_API(None, custom_url=response['next'])
            df = append_data(df, response['results'])
            index += 1

        print('done')

    return df

In [None]:
root_url = 'https://data.ademe.fr/data-fair/api/v1/datasets/dpe03existant/lines'
existants = get_all_data()
existants.to_csv('existants_69.csv')

Même chose pour les logements neufs

In [None]:
root_url = 'https://data.ademe.fr/data-fair/api/v1/datasets/dpe02neuf/lines'
neufs = get_all_data()
neufs.to_csv('neufs_69.csv')

69790 (1 items) ... 1 ... done
69170 (232 items) ... 1 ... done
69250 (480 items) ... 1 ... done
69380 (556 items) ... 1 ... done
69009 (1363 items) ... 1 ... done
69008 (3041 items) ... 1 ... done
69006 (323 items) ... 1 ... done
69007 (2349 items) ... 1 ... done
69005 (414 items) ... 1 ... done
69001 (44 items) ... 1 ... done
69004 (207 items) ... 1 ... done
69002 (378 items) ... 1 ... done
69003 (1015 items) ... 1 ... done
69780 (353 items) ... 1 ... done
69360 (512 items) ... 1 ... done
69124 (91 items) ... 1 ... done
69580 (286 items) ... 1 ... done
69720 (419 items) ... 1 ... done
69960 (254 items) ... 1 ... done
69320 (204 items) ... 1 ... done
69800 (1141 items) ... 1 ... done
69140 (874 items) ... 1 ... done
69330 (370 items) ... 1 ... done
69970 (268 items) ... 1 ... done
69730 (45 items) ... 1 ... done
69740 (206 items) ... 1 ... done
69150 (669 items) ... 1 ... done
69680 (217 items) ... 1 ... done
69510 (354 items) ... 1 ... done
69390 (309 items) ... 1 ... done
69910 (18 

Fusionner les deux dataframes avec uniquement les colonnes communes.

In [None]:
logements = pd.concat([existants, neufs], join="inner")
logements.shape

Exporter le résultat en dans un fichie appelé logements_69.csv

In [None]:
logements.to_csv('logements_69.csv')

## Extraction des données d'ENEDIS de consommation par adresse


Extraire l'ensemble des données de la region lyonnaise (69)

In [7]:
root_url = 'https://data.enedis.fr/api/explore/v2.1/catalog/datasets/consommation-annuelle-residentielle-par-adresse/records'

params = {
    'refine': 'code_departement:69',
    'limit': 1
}

response = requests_API(params=params)
response['total_count']

165267

Nous devons extraire 165267 logements, or l'API nous limits au 10000 premiers resultats d'une recherche. On peut donc essayer de séparer nos recherche par code de communes

In [8]:
params = {
    'select': 'count(code_commune) as count, code_commune',
    'refine': 'code_departement:69',
    'group_by': 'code_commune',
    'order_by': 'count DESC',
    'limit': 10
}

response = requests_API(params=params)

print(response['total_count'])
for commune in response['results']:
    print(commune['code_commune'], commune['count'])

170
69123 78963
69266 19834
69259 6553
69264 4439
69034 4412
69029 3961
69290 3960
69256 3270
69286 2924
69149 2892


Nous avons 170 communes, mais 2 d'entre elles comportent plus de 10000 logements (69123 et 69266)... Lyon et Villeurbanne nous posent soucie ici. Il nous faut prévoir une condition dans notre boucle pour que les requettes sur ces communes soient découpées en plusieur requette. Essayons de voir si diviser la requette par `code_iris` peut faire l'affaire

In [9]:
params = {
    'select': 'count(*) as count',
    'group_by': 'code_iris',
    'order_by': 'count DESC',
    'limit': 1
}

for code_commune in [69123, 69266]:
    params['refine'] = f'code_commune:{code_commune}'
    response = requests_API(params=params)
    print(response['results'][0]['count'])

1471
1050


Top! Nous avons moins de 10000 logements pour chacune des requettes! Voyons maintenant comment recolter l'entiereté du dataset de l'API. Nous pouvons d'abord construire une fonction qui nous permettera de faire des appelels a d'API page par page pour une requette

In [10]:
def loop_API(params, limit=100):

    results = []

    stop = False
    index = 0
    while not stop:

        params['limit'] = limit
        params['offset'] = limit * index
        response = requests_API(params=params)

        # stop the loop if last page
        if len(response['results']) < limit:
            stop = True

        results.extend(response['results'])

        # increase index
        index += 1

    return results

        

Recoltons d'abords la liste des code de communes a parser ainsi que leur nombre de logements

In [11]:
params = {
    'select': 'count(code_commune) as count, code_commune',
    'refine': 'code_departement:69',
    'group_by': 'code_commune'
}

communes = loop_API(params)

Nous pouvons maintenant construire une boucle pour collecter l'ensemble des logement de ces communes

In [12]:
enedis_69 = pd.DataFrame()

for commune in communes:

    code = commune['code_commune']
    count = commune['count']
    print(code, count, end=" ... ")

    if count > 10000:

        params = {
            'select': 'count(*) as count, code_iris',
            'refine': f'code_commune:{code}',
            'group_by': 'code_iris'
        }

        codes_iris = loop_API(params)
        for i, data_iris in enumerate(codes_iris):
            
            iris = data_iris['code_iris']
            params = {
                'refine': [
                    f'code_commune:{code}',
                    f'code_iris:{iris}'
                ]
            }

            data = loop_API(params)
            enedis_69 = append_data(enedis_69, data)

    else:

        params = {
            'refine': f'code_commune:{code}'
        }

        data = loop_API(params)
        enedis_69 = append_data(enedis_69, data)

    print('done')



69003 77 ... done
69006 100 ... done
69007 29 ... done
69009 238 ... done
69010 413 ... done
69013 110 ... done
69018 13 ... done
69019 639 ... done
69020 5 ... done
69021 6 ... done
69023 11 ... done
69024 20 ... done
69027 898 ... done
69028 222 ... done
69029 3961 ... done
69031 22 ... done
69032 15 ... done
69033 73 ... done
69034 4412 ... done
69036 1 ... done
69040 478 ... done
69043 331 ... done
69044 297 ... done
69045 1 ... done
69046 72 ... done
69049 47 ... done
69050 7 ... done
69052 76 ... done
69055 36 ... done
69056 7 ... done
69057 7 ... done
69059 11 ... done
69061 2 ... done
69063 220 ... done
69064 208 ... done
69066 26 ... done
69067 6 ... done
69068 81 ... done
69069 706 ... done
69071 27 ... done
69072 221 ... done
69074 3 ... done
69076 66 ... done
69080 21 ... done
69081 1315 ... done
69082 1 ... done
69085 41 ... done
69086 54 ... done
69087 73 ... done
69088 733 ... done
69089 838 ... done
69090 1 ... done
69091 1408 ... done
69092 457 ... done
69094 237 ... d

Sauvegarder le dataframe en CSV

In [None]:
enedis_69.shape
enedis_69.to_csv('enedis_69.csv')