In [1]:
import pandas as pd
import dotenv
dotenv.load_dotenv(dotenv.find_dotenv())
from pathlib import Path

# Page de téléchargement : https://www.insee.fr/fr/information/6800675

regions_url = "https://www.insee.fr/fr/statistiques/fichier/6800675/v_region_2023.csv"
departements_url = "https://www.insee.fr/fr/statistiques/fichier/6800675/v_departement_2023.csv"
communes_url = "https://www.insee.fr/fr/statistiques/fichier/6800675/v_commune_2023.csv"

seeds_dir= Path('../../../pipeline/dbt/seeds/schema/')


In [2]:
def download_format_cog_file(url: str, type: str, column_mapping: dict):
    print(f"Processing {type}...")
    columns: list = list(column_mapping.keys())
    print(columns)
    
    df: pd.DataFrame = pd.read_csv(url, usecols=columns, dtype=str)

    df.rename(columns=column_mapping, inplace=True)

    print(df.head(3))

    # To CSV
    df.to_csv(seeds_dir / f"insee_{type}.csv", index=False)
    

In [3]:
# Régions
download_format_cog_file(regions_url, 'regions', {'REG': 'code', 'LIBELLE': 'label'})

# Départements
download_format_cog_file(departements_url, 'departements', {'DEP': 'code', 'LIBELLE': 'label'})

# Communes
download_format_cog_file(communes_url, 'communes', {'COM': 'code', 'LIBELLE': 'label'})


Processing regions...
['REG', 'LIBELLE']
  code       label
0   01  Guadeloupe
1   02  Martinique
2   03      Guyane
Processing departements...
['DEP', 'LIBELLE']
  code   label
0   01     Ain
1   02   Aisne
2   03  Allier
Processing communes...
['COM', 'LIBELLE']
    code                    label
0  01001  L'Abergement-Clémenciat
1  01002    L'Abergement-de-Varey
2  01004        Ambérieu-en-Bugey
