In [1]:
import pandas as pd

df = pd.read_csv("enedis_clean.csv")

assert "adresse_clean" in df.columns

# Table des adresses uniques à géocoder
adresses_unique = (
    df[["adresse_clean"]]
    .drop_duplicates()
    .reset_index(drop=True)
)

print(len(adresses_unique), "adresses uniques à géocoder")
adresses_unique.head()

482090 adresses uniques à géocoder


Unnamed: 0,adresse_clean
0,52 RUE ETIENNE DOLET BONDY
1,2 PLACE EUDEMON BONDY
2,211 AVENUE GALLIENI BONDY
3,132 AVENUE GALLIENI BONDY
4,75 AVENUE GENEVIEVE ANTHONIOZ DE GAULLE BONDY


In [2]:
import requests
import time

def geocode_ban(adresse: str, pause: float = 0.0):
    """
    Géocodage via addok en local (http://localhost:7878/search).
    Compatible avec le format JSON de l'API adresse.data.gouv.fr.
    """
    if not isinstance(adresse, str) or adresse.strip() == "":
        return {
            "adresse_clean": adresse,
            "adress_ban": None,
            "ban_lat": None,
            "ban_lon": None,
            "ban_score": None,
            "ban_id": None,
        }

    # API locale
    url = "http://localhost:7878/search"
    params = {
        "q": adresse,
        "limit": 1
    }

    try:
        resp = requests.get(url, params=params, timeout=10)
        resp.raise_for_status()
        data = resp.json()

        # Même logique que pour l'API officielle : on suppose "features"
        features = data.get("features", [])
        if len(features) == 0:
            res = {
                "adress_ban": None,
                "ban_lat": None,
                "ban_lon": None,
                "ban_score": None,
                "ban_id": None,
            }
        else:
            feat = features[0]
            props = feat.get("properties", {})
            geometry = feat.get("geometry", {})

            coords = geometry.get("coordinates", [None, None])
            lon = coords[0]
            lat = coords[1]

            res = {
                "adress_ban": props.get("label"),
                "ban_lat": lat,
                "ban_lon": lon,
                "ban_score": props.get("score"),
                "ban_id": props.get("id"),
            }

    except Exception as e:
        print(f"Erreur BAN locale pour '{adresse}': {e}")
        res = {
            "adress_ban": None,
            "ban_lat": None,
            "ban_lon": None,
            "ban_score": None,
            "ban_id": None,
        }

    # Pas vraiment besoin de pause en local, mais on garde l’option
    if pause and pause > 0:
        time.sleep(pause)

    res["adresse_clean"] = adresse
    return res

In [3]:
# Échantillon de 1000 lignes
df_sample = df.sample(n=1000, random_state=42).copy()

results = []
for i, adresse in enumerate(df_sample["adresse_clean"]):
    res = geocode_ban(adresse)  # plus de pause obligatoire
    results.append(res)

    if (i + 1) % 100 == 0:
        print(f"{i + 1} adresses traitées...")

ban_sample = pd.DataFrame(results)
ban_sample.head()

100 adresses traitées...
200 adresses traitées...
300 adresses traitées...
400 adresses traitées...
500 adresses traitées...
600 adresses traitées...
700 adresses traitées...
800 adresses traitées...
900 adresses traitées...
1000 adresses traitées...


Unnamed: 0,adress_ban,ban_lat,ban_lon,ban_score,ban_id,adresse_clean
0,10 Rue du tunnel 64700 Hendaye,43.356741,-1.771562,0.960313,64260_2200_00010,10 RUE DU TUNNEL HENDAYE
1,12 Rue Cécile Vallet 92340 Bourg-la-Reine,48.785048,2.315348,0.963415,92014_1440_00012,12 RUE CECILE VALLET BOURG LA REINE
2,42 Cours Fauriel 42100 Saint-Étienne,45.428667,4.397697,0.781338,42218_3390_00042,42 CRS FAURIEL SAINT ETIENNE
3,11 Rue Jean Ferrat 95480 Pierrelaye,49.027482,2.151829,0.960117,95488_0261_00011,11 RUE JEAN FERRAT PIERRELAYE
4,4 Rue Hélène Boucher 31700 Cornebarrieu,43.644979,1.318573,0.952579,31150_0074_00004,4 RUE HELENE BOUCHER CORNEBARRIEU


In [4]:
from tqdm import tqdm
import os

output_file = "ban_enedis_full.csv"
batch_size = 10_000

results = []
first_write = not os.path.exists(output_file)

n = len(adresses_unique)
print("Nombre d'adresses à géocoder :", n)

for i, addr in enumerate(tqdm(adresses_unique["adresse_clean"], total=n, desc="Géocodage BAN local")):
    res = geocode_ban(addr)   # pas de pause
    results.append(res)

    if (i + 1) % batch_size == 0:
        chunk_df = pd.DataFrame(results)

        mode = "w" if first_write else "a"
        header = first_write

        chunk_df.to_csv(output_file, index=False, mode=mode, header=header)
        print(f"Chunk écrit : {i+1} lignes")

        results = []
        first_write = False

# Flush final
if len(results) > 0:
    chunk_df = pd.DataFrame(results)
    mode = "w" if first_write else "a"
    header = first_write

    chunk_df.to_csv(output_file, index=False, mode=mode, header=header)
    print(f"Dernier chunk écrit : {n} lignes au total")


Nombre d'adresses à géocoder : 482090


Géocodage BAN local:   2%|██▍                                                                                                                   | 10048/482090 [00:25<19:45, 398.15it/s]

Chunk écrit : 10000 lignes


Géocodage BAN local:   4%|████▉                                                                                                                 | 20048/482090 [00:50<17:24, 442.27it/s]

Chunk écrit : 20000 lignes


Géocodage BAN local:   6%|███████▎                                                                                                              | 30083/482090 [01:15<16:10, 465.81it/s]

Chunk écrit : 30000 lignes


Géocodage BAN local:   8%|█████████▊                                                                                                            | 40078/482090 [01:38<16:06, 457.49it/s]

Chunk écrit : 40000 lignes


Géocodage BAN local:  10%|████████████▎                                                                                                         | 50065/482090 [02:02<18:26, 390.32it/s]

Chunk écrit : 50000 lignes


Géocodage BAN local:  12%|██████████████▋                                                                                                       | 60041/482090 [02:28<21:44, 323.53it/s]

Chunk écrit : 60000 lignes


Géocodage BAN local:  15%|█████████████████▏                                                                                                    | 70041/482090 [02:54<17:27, 393.31it/s]

Chunk écrit : 70000 lignes


Géocodage BAN local:  17%|███████████████████▌                                                                                                  | 80063/482090 [03:19<15:13, 440.12it/s]

Chunk écrit : 80000 lignes


Géocodage BAN local:  19%|██████████████████████                                                                                                | 90073/482090 [03:44<14:33, 448.86it/s]

Chunk écrit : 90000 lignes


Géocodage BAN local:  21%|████████████████████████▎                                                                                            | 100044/482090 [04:08<17:03, 373.34it/s]

Chunk écrit : 100000 lignes


Géocodage BAN local:  23%|██████████████████████████▋                                                                                          | 110059/482090 [04:34<15:06, 410.25it/s]

Chunk écrit : 110000 lignes


Géocodage BAN local:  25%|█████████████████████████████▏                                                                                       | 120086/482090 [04:59<13:46, 438.09it/s]

Chunk écrit : 120000 lignes


Géocodage BAN local:  27%|███████████████████████████████▌                                                                                     | 130026/482090 [05:25<13:33, 432.97it/s]

Chunk écrit : 130000 lignes


Géocodage BAN local:  29%|█████████████████████████████████▉                                                                                   | 140048/482090 [05:49<14:47, 385.36it/s]

Chunk écrit : 140000 lignes


Géocodage BAN local:  31%|████████████████████████████████████▍                                                                                | 150056/482090 [06:14<14:02, 393.98it/s]

Chunk écrit : 150000 lignes


Géocodage BAN local:  33%|██████████████████████████████████████▊                                                                              | 160041/482090 [06:39<14:42, 364.88it/s]

Chunk écrit : 160000 lignes


Géocodage BAN local:  35%|█████████████████████████████████████████▎                                                                           | 170046/482090 [07:03<12:51, 404.43it/s]

Chunk écrit : 170000 lignes


Géocodage BAN local:  37%|███████████████████████████████████████████▋                                                                         | 180051/482090 [07:28<11:32, 436.28it/s]

Chunk écrit : 180000 lignes


Géocodage BAN local:  39%|██████████████████████████████████████████████▏                                                                      | 190057/482090 [07:52<15:24, 315.83it/s]

Chunk écrit : 190000 lignes


Géocodage BAN local:  41%|████████████████████████████████████████████████▌                                                                    | 200032/482090 [08:17<11:21, 413.78it/s]

Chunk écrit : 200000 lignes


Géocodage BAN local:  44%|██████████████████████████████████████████████████▉                                                                  | 210046/482090 [08:42<10:09, 446.48it/s]

Chunk écrit : 210000 lignes


Géocodage BAN local:  46%|█████████████████████████████████████████████████████▍                                                               | 220064/482090 [09:06<09:47, 445.73it/s]

Chunk écrit : 220000 lignes


Géocodage BAN local:  48%|███████████████████████████████████████████████████████▊                                                             | 230056/482090 [09:31<10:51, 386.56it/s]

Chunk écrit : 230000 lignes


Géocodage BAN local:  50%|██████████████████████████████████████████████████████████▎                                                          | 240019/482090 [09:57<10:37, 379.78it/s]

Chunk écrit : 240000 lignes


Géocodage BAN local:  52%|████████████████████████████████████████████████████████████▋                                                        | 250063/482090 [10:21<12:04, 320.21it/s]

Chunk écrit : 250000 lignes


Géocodage BAN local:  54%|███████████████████████████████████████████████████████████████                                                      | 260052/482090 [10:46<08:23, 441.30it/s]

Chunk écrit : 260000 lignes


Géocodage BAN local:  56%|█████████████████████████████████████████████████████████████████▌                                                   | 270076/482090 [11:12<08:34, 412.33it/s]

Chunk écrit : 270000 lignes


Géocodage BAN local:  58%|███████████████████████████████████████████████████████████████████▉                                                 | 280088/482090 [11:37<07:17, 461.47it/s]

Chunk écrit : 280000 lignes


Géocodage BAN local:  60%|██████████████████████████████████████████████████████████████████████▍                                              | 290046/482090 [12:03<08:05, 395.36it/s]

Chunk écrit : 290000 lignes


Géocodage BAN local:  62%|████████████████████████████████████████████████████████████████████████▊                                            | 300066/482090 [12:28<07:50, 386.48it/s]

Chunk écrit : 300000 lignes


Géocodage BAN local:  64%|███████████████████████████████████████████████████████████████████████████▎                                         | 310065/482090 [12:54<07:27, 384.24it/s]

Chunk écrit : 310000 lignes


Géocodage BAN local:  66%|█████████████████████████████████████████████████████████████████████████████▋                                       | 320073/482090 [13:18<06:47, 397.77it/s]

Chunk écrit : 320000 lignes


Géocodage BAN local:  68%|████████████████████████████████████████████████████████████████████████████████                                     | 330064/482090 [13:43<07:46, 326.16it/s]

Chunk écrit : 330000 lignes


Géocodage BAN local:  71%|██████████████████████████████████████████████████████████████████████████████████▌                                  | 340078/482090 [14:09<05:56, 397.83it/s]

Chunk écrit : 340000 lignes


Géocodage BAN local:  73%|████████████████████████████████████████████████████████████████████████████████████▉                                | 350052/482090 [14:35<06:34, 334.86it/s]

Chunk écrit : 350000 lignes


Géocodage BAN local:  75%|███████████████████████████████████████████████████████████████████████████████████████▍                             | 360056/482090 [14:59<05:07, 396.89it/s]

Chunk écrit : 360000 lignes


Géocodage BAN local:  77%|█████████████████████████████████████████████████████████████████████████████████████████▊                           | 370072/482090 [15:26<04:56, 377.68it/s]

Chunk écrit : 370000 lignes


Géocodage BAN local:  79%|████████████████████████████████████████████████████████████████████████████████████████████▏                        | 380080/482090 [15:52<04:08, 410.99it/s]

Chunk écrit : 380000 lignes


Géocodage BAN local:  81%|██████████████████████████████████████████████████████████████████████████████████████████████▋                      | 390058/482090 [16:16<04:05, 374.51it/s]

Chunk écrit : 390000 lignes


Géocodage BAN local:  83%|█████████████████████████████████████████████████████████████████████████████████████████████████                    | 400043/482090 [16:41<03:54, 349.80it/s]

Chunk écrit : 400000 lignes


Géocodage BAN local:  85%|███████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 409998/482090 [17:08<09:19, 128.79it/s]

Chunk écrit : 410000 lignes


Géocodage BAN local:  87%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 420051/482090 [17:35<02:29, 415.60it/s]

Chunk écrit : 420000 lignes


Géocodage BAN local:  89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎            | 430060/482090 [18:01<02:18, 374.49it/s]

Chunk écrit : 430000 lignes


Géocodage BAN local:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 440036/482090 [18:28<02:02, 343.75it/s]

Chunk écrit : 440000 lignes


Géocodage BAN local:  93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 450002/482090 [18:54<01:21, 392.21it/s]

Chunk écrit : 450000 lignes


Géocodage BAN local:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 460034/482090 [19:23<01:11, 306.63it/s]

Chunk écrit : 460000 lignes


Géocodage BAN local:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 470050/482090 [19:54<00:42, 284.32it/s]

Chunk écrit : 470000 lignes


Géocodage BAN local: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 480066/482090 [20:24<00:05, 365.90it/s]

Chunk écrit : 480000 lignes


Géocodage BAN local: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 482090/482090 [20:30<00:00, 391.81it/s]

Dernier chunk écrit : 482090 lignes au total



