In [2]:
import os

import pandas as pd

files_directory = os.path.join("..", "additional_files", "archives", "lien_2")
file_commune = "v_commune_2024.csv"
file_departement = "v_departement_2024.csv"
file_region = "v_region_2024.csv"


## <u> df_commune </u>

In [3]:
df_commune = pd.read_csv(
    os.path.join(files_directory, file_commune),
    usecols=[
        "COM",
        "REG",
        "DEP",
        "LIBELLE",
    ],
)


In [4]:
df_commune


Unnamed: 0,COM,REG,DEP,LIBELLE
0,01001,84.0,01,L'Abergement-Clémenciat
1,01002,84.0,01,L'Abergement-de-Varey
2,01004,84.0,01,Ambérieu-en-Bugey
3,01005,84.0,01,Ambérieux-en-Dombes
4,01006,84.0,01,Ambléon
...,...,...,...,...
37539,97613,6.0,976,M'Tsangamouji
37540,97614,6.0,976,Ouangani
37541,97615,6.0,976,Pamandzi
37542,97616,6.0,976,Sada


In [5]:
df_commune.rename(
    {
        "COM": "code_commune",
        "REG": "code_region",
        "DEP": "code_departement",
        "LIBELLE": "nom_commune",
    },
    axis=1,
    inplace=True,
)


In [6]:
# On ajoute une colonne nom_ville (idem que nom_commune sans les arrondissements pour Paris, Marseille et Lyon)
#  car on va préférer "Lyon" à "Lyon 1er Arrondissement" ou "Lyon 2e Arrondissement"...

df_commune["nom_ville"] = df_commune.apply(lambda x: x.nom_commune.split(" ")[0] if "Arrondissement" in x.nom_commune else x.nom_commune, axis=1)


In [7]:
# Vérification
df_commune[df_commune.nom_commune.str.contains("Arrondissement")]


Unnamed: 0,code_commune,code_region,code_departement,nom_commune,nom_ville
4598,13201,93.0,13,Marseille 1er Arrondissement,Marseille
4599,13202,93.0,13,Marseille 2e Arrondissement,Marseille
4600,13203,93.0,13,Marseille 3e Arrondissement,Marseille
4601,13204,93.0,13,Marseille 4e Arrondissement,Marseille
4602,13205,93.0,13,Marseille 5e Arrondissement,Marseille
4603,13206,93.0,13,Marseille 6e Arrondissement,Marseille
4604,13207,93.0,13,Marseille 7e Arrondissement,Marseille
4605,13208,93.0,13,Marseille 8e Arrondissement,Marseille
4606,13209,93.0,13,Marseille 9e Arrondissement,Marseille
4607,13210,93.0,13,Marseille 10e Arrondissement,Marseille


In [8]:
df_commune


Unnamed: 0,code_commune,code_region,code_departement,nom_commune,nom_ville
0,01001,84.0,01,L'Abergement-Clémenciat,L'Abergement-Clémenciat
1,01002,84.0,01,L'Abergement-de-Varey,L'Abergement-de-Varey
2,01004,84.0,01,Ambérieu-en-Bugey,Ambérieu-en-Bugey
3,01005,84.0,01,Ambérieux-en-Dombes,Ambérieux-en-Dombes
4,01006,84.0,01,Ambléon,Ambléon
...,...,...,...,...,...
37539,97613,6.0,976,M'Tsangamouji,M'Tsangamouji
37540,97614,6.0,976,Ouangani,Ouangani
37541,97615,6.0,976,Pamandzi,Pamandzi
37542,97616,6.0,976,Sada,Sada


## <u> df_departement </u>

In [9]:
df_departement = pd.read_csv(
    os.path.join(files_directory, file_departement),
    usecols=[
        "DEP",
        "LIBELLE",
    ],
)


In [10]:
df_departement.rename(
    {
        "DEP": "code_departement",
        "LIBELLE": "nom_departement",
    },
    axis=1,
    inplace=True,
)


In [11]:
df_departement


Unnamed: 0,code_departement,nom_departement
0,01,Ain
1,02,Aisne
2,03,Allier
3,04,Alpes-de-Haute-Provence
4,05,Hautes-Alpes
...,...,...
96,971,Guadeloupe
97,972,Martinique
98,973,Guyane
99,974,La Réunion


## <u> df_region </u>

In [12]:
df_region = pd.read_csv(
    os.path.join(files_directory, file_region),
    usecols=[
        "REG",
        "LIBELLE",
    ],
)


In [13]:
df_region.rename(
    {
        "REG": "code_region",
        "LIBELLE": "nom_region",
    },
    axis=1,
    inplace=True,
)


In [14]:
df_region


Unnamed: 0,code_region,nom_region
0,1,Guadeloupe
1,2,Martinique
2,3,Guyane
3,4,La Réunion
4,6,Mayotte
5,11,Île-de-France
6,24,Centre-Val de Loire
7,27,Bourgogne-Franche-Comté
8,28,Normandie
9,32,Hauts-de-France


## <u> merging </u>

In [15]:
df_commune.head(2)


Unnamed: 0,code_commune,code_region,code_departement,nom_commune,nom_ville
0,1001,84.0,1,L'Abergement-Clémenciat,L'Abergement-Clémenciat
1,1002,84.0,1,L'Abergement-de-Varey,L'Abergement-de-Varey


In [16]:
df_departement.head(2)


Unnamed: 0,code_departement,nom_departement
0,1,Ain
1,2,Aisne


In [17]:
df_region.head(2)


Unnamed: 0,code_region,nom_region
0,1,Guadeloupe
1,2,Martinique


In [18]:
df = df_commune.merge(df_departement, on="code_departement").merge(df_region, on="code_region")


In [19]:
df = df[["code_commune", "nom_commune", "nom_ville", "nom_departement", "nom_region"]]


In [20]:
df[df.nom_commune.str.contains("Saint-Cyr")]


Unnamed: 0,code_commune,nom_commune,nom_ville,nom_departement,nom_region
288,1343,Saint-Cyr-sur-Menthon,Saint-Cyr-sur-Menthon,Ain,Auvergne-Rhône-Alpes
1746,5051,Étoile-Saint-Cyrice,Étoile-Saint-Cyrice,Hautes-Alpes,Provence-Alpes-Côte d'Azur
2247,7227,Saint-Cyr,Saint-Cyr,Ardèche,Auvergne-Rhône-Alpes
5866,17322,Saint-Cyr-du-Doret,Saint-Cyr-du-Doret,Charente-Maritime,Nouvelle-Aquitaine
6498,19196,Saint-Cyr-la-Roche,Saint-Cyr-la-Roche,Corrèze,Nouvelle-Aquitaine
8224,24397,Saint-Cyr-les-Champagnes,Saint-Cyr-les-Champagnes,Dordogne,Nouvelle-Aquitaine
9765,27527,Saint-Cyr-de-Salerne,Saint-Cyr-de-Salerne,Eure,Normandie
9767,27529,Saint-Cyr-la-Campagne,Saint-Cyr-la-Campagne,Eure,Normandie
13701,36188,Saint-Cyran-du-Jambot,Saint-Cyran-du-Jambot,Indre,Centre-Val de Loire
13966,37214,Saint-Cyr-sur-Loire,Saint-Cyr-sur-Loire,Indre-et-Loire,Centre-Val de Loire


In [None]:
df.to_csv(
    os.path.join("..", "additional_files", "ville_departement_region_names.csv"),
    index=False,  # pour ne pas écrire les index
)
