In [317]:
import os

import pandas as pd


# <u> Fichiers du lien_2 </u>

In [318]:
files_directory = os.path.join("..", "additional_files", "archives", "lien_2")
file_commune = "v_commune_2024.csv"
file_departement = "v_departement_2024.csv"
file_region = "v_region_2024.csv"


## <u> df_commune </u>

In [319]:
df_commune = pd.read_csv(
    os.path.join(files_directory, file_commune),
    usecols=[
        "COM",
        "REG",
        "DEP",
        "LIBELLE",
    ],
)


In [320]:
df_commune


Unnamed: 0,COM,REG,DEP,LIBELLE
0,01001,84.0,01,L'Abergement-Clémenciat
1,01002,84.0,01,L'Abergement-de-Varey
2,01004,84.0,01,Ambérieu-en-Bugey
3,01005,84.0,01,Ambérieux-en-Dombes
4,01006,84.0,01,Ambléon
...,...,...,...,...
37539,97613,6.0,976,M'Tsangamouji
37540,97614,6.0,976,Ouangani
37541,97615,6.0,976,Pamandzi
37542,97616,6.0,976,Sada


In [321]:
df_commune.rename(
    {
        "COM": "code_insee",
        "REG": "code_region",
        "DEP": "code_departement",
        "LIBELLE": "nom_commune",
    },
    axis=1,
    inplace=True,
)


In [322]:
# On ajoute une colonne nom_ville (idem que nom_commune sans les arrondissements pour Paris, Marseille et Lyon)
#  car on va préférer "Lyon" à "Lyon 1er Arrondissement" ou "Lyon 2e Arrondissement"...

df_commune["nom_ville"] = df_commune.apply(lambda x: x.nom_commune.split(" ")[0] if "Arrondissement" in x.nom_commune else x.nom_commune, axis=1)


In [None]:
# Vérification
df_commune[df_commune.nom_commune.str.contains("Arrondissement")]


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville
4598,13201,93.0,13,Marseille 1er Arrondissement,Marseille
4599,13202,93.0,13,Marseille 2e Arrondissement,Marseille
4600,13203,93.0,13,Marseille 3e Arrondissement,Marseille
4601,13204,93.0,13,Marseille 4e Arrondissement,Marseille
4602,13205,93.0,13,Marseille 5e Arrondissement,Marseille
4603,13206,93.0,13,Marseille 6e Arrondissement,Marseille
4604,13207,93.0,13,Marseille 7e Arrondissement,Marseille
4605,13208,93.0,13,Marseille 8e Arrondissement,Marseille
4606,13209,93.0,13,Marseille 9e Arrondissement,Marseille
4607,13210,93.0,13,Marseille 10e Arrondissement,Marseille


In [324]:
df_commune


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville
0,01001,84.0,01,L'Abergement-Clémenciat,L'Abergement-Clémenciat
1,01002,84.0,01,L'Abergement-de-Varey,L'Abergement-de-Varey
2,01004,84.0,01,Ambérieu-en-Bugey,Ambérieu-en-Bugey
3,01005,84.0,01,Ambérieux-en-Dombes,Ambérieux-en-Dombes
4,01006,84.0,01,Ambléon,Ambléon
...,...,...,...,...,...
37539,97613,6.0,976,M'Tsangamouji,M'Tsangamouji
37540,97614,6.0,976,Ouangani,Ouangani
37541,97615,6.0,976,Pamandzi,Pamandzi
37542,97616,6.0,976,Sada,Sada


## <u> df_departement </u>

In [325]:
df_departement = pd.read_csv(
    os.path.join(files_directory, file_departement),
    usecols=[
        "DEP",
        "LIBELLE",
    ],
)


In [326]:
df_departement.rename(
    {
        "DEP": "code_departement",
        "LIBELLE": "nom_departement",
    },
    axis=1,
    inplace=True,
)


In [327]:
df_departement


Unnamed: 0,code_departement,nom_departement
0,01,Ain
1,02,Aisne
2,03,Allier
3,04,Alpes-de-Haute-Provence
4,05,Hautes-Alpes
...,...,...
96,971,Guadeloupe
97,972,Martinique
98,973,Guyane
99,974,La Réunion


## <u> df_region </u>

In [328]:
df_region = pd.read_csv(
    os.path.join(files_directory, file_region),
    usecols=[
        "REG",
        "LIBELLE",
    ],
)


In [329]:
df_region.rename(
    {
        "REG": "code_region",
        "LIBELLE": "nom_region",
    },
    axis=1,
    inplace=True,
)


In [330]:
df_region


Unnamed: 0,code_region,nom_region
0,1,Guadeloupe
1,2,Martinique
2,3,Guyane
3,4,La Réunion
4,6,Mayotte
5,11,Île-de-France
6,24,Centre-Val de Loire
7,27,Bourgogne-Franche-Comté
8,28,Normandie
9,32,Hauts-de-France


## <u> merging </u>

In [331]:
df_commune.head(2)


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville
0,1001,84.0,1,L'Abergement-Clémenciat,L'Abergement-Clémenciat
1,1002,84.0,1,L'Abergement-de-Varey,L'Abergement-de-Varey


In [332]:
df_departement.head(2)


Unnamed: 0,code_departement,nom_departement
0,1,Ain
1,2,Aisne


In [333]:
df_region.head(2)


Unnamed: 0,code_region,nom_region
0,1,Guadeloupe
1,2,Martinique


In [334]:
df_lien_2 = df_commune.merge(df_departement, on="code_departement").merge(df_region, on="code_region")


In [335]:
df_lien_2 = df_lien_2[["code_insee", "nom_commune", "nom_ville", "nom_departement", "nom_region"]]


------------

# <u> Fichier du lien_3 </u>

## <u> Mapping code insee <> code postal </u>

In [336]:
df_lien_3 = pd.read_csv(
    os.path.join("..", "additional_files", "archives", "lien_3", "cities.csv"),
    usecols=["insee_code", "zip_code"],
)


In [337]:
df_lien_3.rename(
    {
        "insee_code": "code_insee",
        "zip_code": "code_postal",
    },
    axis=1,
    inplace=True,
)


In [338]:
df_lien_3


Unnamed: 0,code_insee,code_postal
0,25620,25650
1,25624,25640
2,25615,25310
3,25619,25240
4,25622,25170
...,...,...
39140,98829,98829
39141,98831,98833
39142,98832,98834
39143,98612,98620


In [339]:
df_lien_3.dtypes


code_insee     object
code_postal     int64
dtype: object

In [340]:
# df_lien_3.astype({"code_postal": "str"})
df_lien_3["code_postal"] = df_lien_3["code_postal"].astype(str)


# <u> Merge des df des liens 2 et 3 </u>

In [341]:
df_lien_2.head(2)


Unnamed: 0,code_insee,nom_commune,nom_ville,nom_departement,nom_region
0,1001,L'Abergement-Clémenciat,L'Abergement-Clémenciat,Ain,Auvergne-Rhône-Alpes
1,1002,L'Abergement-de-Varey,L'Abergement-de-Varey,Ain,Auvergne-Rhône-Alpes


In [342]:
df_lien_3.head(2)


Unnamed: 0,code_insee,code_postal
0,25620,25650
1,25624,25640


In [343]:
display(df_lien_2.dtypes, df_lien_3.dtypes)


code_insee         object
nom_commune        object
nom_ville          object
nom_departement    object
nom_region         object
dtype: object

code_insee     object
code_postal    object
dtype: object

In [344]:
df = pd.merge(left=df_lien_2, right=df_lien_3, on="code_insee")


In [345]:
df.columns


Index(['code_insee', 'nom_commune', 'nom_ville', 'nom_departement',
       'nom_region', 'code_postal'],
      dtype='object')

In [346]:
df = df[["code_insee", "code_postal", "nom_commune", "nom_ville", "nom_departement", "nom_region"]]


In [347]:
df["code_postal"] = df["code_postal"].str.zfill(5)


In [348]:
df


Unnamed: 0,code_insee,code_postal,nom_commune,nom_ville,nom_departement,nom_region
0,01001,01400,L'Abergement-Clémenciat,L'Abergement-Clémenciat,Ain,Auvergne-Rhône-Alpes
1,01002,01640,L'Abergement-de-Varey,L'Abergement-de-Varey,Ain,Auvergne-Rhône-Alpes
2,01004,01500,Ambérieu-en-Bugey,Ambérieu-en-Bugey,Ain,Auvergne-Rhône-Alpes
3,01005,01330,Ambérieux-en-Dombes,Ambérieux-en-Dombes,Ain,Auvergne-Rhône-Alpes
4,01006,01300,Ambléon,Ambléon,Ain,Auvergne-Rhône-Alpes
...,...,...,...,...,...,...
38895,97614,97670,Ouangani,Ouangani,Mayotte,Mayotte
38896,97615,97615,Pamandzi,Pamandzi,Mayotte,Mayotte
38897,97616,97640,Sada,Sada,Mayotte,Mayotte
38898,97617,97680,Tsingoni,Tsingoni,Mayotte,Mayotte


In [349]:
df.dtypes


code_insee         object
code_postal        object
nom_commune        object
nom_ville          object
nom_departement    object
nom_region         object
dtype: object

In [352]:
display(
    df_lien_2.isna().sum().sum(),
    df_lien_3.isna().sum().sum(),
    df.isna().sum().sum(),
)


0

0

0

# <u> Ecriture dans un fichier .csv </u>

In [351]:
df.to_csv(
    os.path.join("..", "additional_files", "codes__city_department_region.csv"),
    index=False,  # pour ne pas écrire les index
)
