In [1]:
import os

import pandas as pd


# <u> Fichiers du lien_2 </u>

In [2]:
files_directory = os.path.join("..", "api_extract__transform", "locations_information", "archives", "lien_2")
file_commune = "v_commune_2024.csv"
file_departement = "v_departement_2024.csv"
file_region = "v_region_2024.csv"


## <u> df_commune </u>

In [3]:
df_commune = pd.read_csv(
    os.path.join(files_directory, file_commune),
    usecols=[
        "COM",
        "REG",
        "DEP",
        "LIBELLE",
    ],
)


In [None]:
df_commune


Unnamed: 0,COM,REG,DEP,LIBELLE
0,01001,84.0,01,L'Abergement-Clémenciat
1,01002,84.0,01,L'Abergement-de-Varey
2,01004,84.0,01,Ambérieu-en-Bugey
3,01005,84.0,01,Ambérieux-en-Dombes
4,01006,84.0,01,Ambléon
...,...,...,...,...
37539,97613,6.0,976,M'Tsangamouji
37540,97614,6.0,976,Ouangani
37541,97615,6.0,976,Pamandzi
37542,97616,6.0,976,Sada


In [5]:
df_commune.rename(
    {
        "COM": "code_insee",
        "REG": "code_region",
        "DEP": "code_departement",
        "LIBELLE": "nom_commune",
    },
    axis=1,
    inplace=True,
)


In [6]:
df_commune[df_commune.code_insee == "75056"]


Unnamed: 0,code_insee,code_region,code_departement,nom_commune
31482,75056,11.0,75,Paris


In [7]:
# On ajoute une colonne nom_ville (idem que nom_commune sans les arrondissements pour Paris, Marseille et Lyon)
#  car on va préférer "Lyon" à "Lyon 1er Arrondissement" ou "Lyon 2e Arrondissement"...

df_commune["nom_ville"] = df_commune.apply(lambda x: x.nom_commune.split(" ")[0] if "Arrondissement" in x.nom_commune else x.nom_commune, axis=1)


In [None]:
# Vérification
df_commune[df_commune.nom_commune.str.contains("Arrondissement")]


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville
4598,13201,93.0,13,Marseille 1er Arrondissement,Marseille
4599,13202,93.0,13,Marseille 2e Arrondissement,Marseille
4600,13203,93.0,13,Marseille 3e Arrondissement,Marseille
4601,13204,93.0,13,Marseille 4e Arrondissement,Marseille
4602,13205,93.0,13,Marseille 5e Arrondissement,Marseille
4603,13206,93.0,13,Marseille 6e Arrondissement,Marseille
4604,13207,93.0,13,Marseille 7e Arrondissement,Marseille
4605,13208,93.0,13,Marseille 8e Arrondissement,Marseille
4606,13209,93.0,13,Marseille 9e Arrondissement,Marseille
4607,13210,93.0,13,Marseille 10e Arrondissement,Marseille


In [9]:
df_commune


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville
0,01001,84.0,01,L'Abergement-Clémenciat,L'Abergement-Clémenciat
1,01002,84.0,01,L'Abergement-de-Varey,L'Abergement-de-Varey
2,01004,84.0,01,Ambérieu-en-Bugey,Ambérieu-en-Bugey
3,01005,84.0,01,Ambérieux-en-Dombes,Ambérieux-en-Dombes
4,01006,84.0,01,Ambléon,Ambléon
...,...,...,...,...,...
37539,97613,6.0,976,M'Tsangamouji,M'Tsangamouji
37540,97614,6.0,976,Ouangani,Ouangani
37541,97615,6.0,976,Pamandzi,Pamandzi
37542,97616,6.0,976,Sada,Sada


## <u> df_departement </u>

In [10]:
df_departement = pd.read_csv(
    os.path.join(files_directory, file_departement),
    usecols=[
        "DEP",
        "LIBELLE",
    ],
)


In [11]:
df_departement.rename(
    {
        "DEP": "code_departement",
        "LIBELLE": "nom_departement",
    },
    axis=1,
    inplace=True,
)


In [12]:
df_departement


Unnamed: 0,code_departement,nom_departement
0,01,Ain
1,02,Aisne
2,03,Allier
3,04,Alpes-de-Haute-Provence
4,05,Hautes-Alpes
...,...,...
96,971,Guadeloupe
97,972,Martinique
98,973,Guyane
99,974,La Réunion


## <u> df_region </u>

In [13]:
df_region = pd.read_csv(
    os.path.join(files_directory, file_region),
    usecols=[
        "REG",
        "LIBELLE",
    ],
)


In [14]:
df_region.rename(
    {
        "REG": "code_region",
        "LIBELLE": "nom_region",
    },
    axis=1,
    inplace=True,
)


In [15]:
df_region


Unnamed: 0,code_region,nom_region
0,1,Guadeloupe
1,2,Martinique
2,3,Guyane
3,4,La Réunion
4,6,Mayotte
5,11,Île-de-France
6,24,Centre-Val de Loire
7,27,Bourgogne-Franche-Comté
8,28,Normandie
9,32,Hauts-de-France


## <u> merging </u>

In [16]:
df_commune.head(2)


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville
0,1001,84.0,1,L'Abergement-Clémenciat,L'Abergement-Clémenciat
1,1002,84.0,1,L'Abergement-de-Varey,L'Abergement-de-Varey


In [17]:
df_departement.head(2)


Unnamed: 0,code_departement,nom_departement
0,1,Ain
1,2,Aisne


In [18]:
df_region.head(2)


Unnamed: 0,code_region,nom_region
0,1,Guadeloupe
1,2,Martinique


In [19]:
df_lien_2 = df_commune.merge(df_departement, on="code_departement").merge(df_region, on="code_region")


In [20]:
df_lien_2


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville,nom_departement,nom_region
0,01001,84.0,01,L'Abergement-Clémenciat,L'Abergement-Clémenciat,Ain,Auvergne-Rhône-Alpes
1,01002,84.0,01,L'Abergement-de-Varey,L'Abergement-de-Varey,Ain,Auvergne-Rhône-Alpes
2,01004,84.0,01,Ambérieu-en-Bugey,Ambérieu-en-Bugey,Ain,Auvergne-Rhône-Alpes
3,01005,84.0,01,Ambérieux-en-Dombes,Ambérieux-en-Dombes,Ain,Auvergne-Rhône-Alpes
4,01006,84.0,01,Ambléon,Ambléon,Ain,Auvergne-Rhône-Alpes
...,...,...,...,...,...,...,...
34975,97613,6.0,976,M'Tsangamouji,M'Tsangamouji,Mayotte,Mayotte
34976,97614,6.0,976,Ouangani,Ouangani,Mayotte,Mayotte
34977,97615,6.0,976,Pamandzi,Pamandzi,Mayotte,Mayotte
34978,97616,6.0,976,Sada,Sada,Mayotte,Mayotte


In [None]:
df_lien_2[df_lien_2.code_insee == "75056"]


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville,nom_departement,nom_region
29269,75056,11.0,75,Paris,Paris,Paris,Île-de-France


In [22]:
df_lien_2.code_region = df_lien_2.code_region.astype(int).astype(str)
# pour avoir code_region = 84 au lieu de 84.0 par exemple


In [None]:
df_lien_2


Unnamed: 0,code_insee,code_region,code_departement,nom_commune,nom_ville,nom_departement,nom_region
0,01001,84,01,L'Abergement-Clémenciat,L'Abergement-Clémenciat,Ain,Auvergne-Rhône-Alpes
1,01002,84,01,L'Abergement-de-Varey,L'Abergement-de-Varey,Ain,Auvergne-Rhône-Alpes
2,01004,84,01,Ambérieu-en-Bugey,Ambérieu-en-Bugey,Ain,Auvergne-Rhône-Alpes
3,01005,84,01,Ambérieux-en-Dombes,Ambérieux-en-Dombes,Ain,Auvergne-Rhône-Alpes
4,01006,84,01,Ambléon,Ambléon,Ain,Auvergne-Rhône-Alpes
...,...,...,...,...,...,...,...
34975,97613,6,976,M'Tsangamouji,M'Tsangamouji,Mayotte,Mayotte
34976,97614,6,976,Ouangani,Ouangani,Mayotte,Mayotte
34977,97615,6,976,Pamandzi,Pamandzi,Mayotte,Mayotte
34978,97616,6,976,Sada,Sada,Mayotte,Mayotte


In [24]:
df_lien_2 = df_lien_2[["code_insee", "nom_commune", "nom_ville", "code_departement", "nom_departement", "code_region", "nom_region"]]


In [25]:
df_lien_2


Unnamed: 0,code_insee,nom_commune,nom_ville,code_departement,nom_departement,code_region,nom_region
0,01001,L'Abergement-Clémenciat,L'Abergement-Clémenciat,01,Ain,84,Auvergne-Rhône-Alpes
1,01002,L'Abergement-de-Varey,L'Abergement-de-Varey,01,Ain,84,Auvergne-Rhône-Alpes
2,01004,Ambérieu-en-Bugey,Ambérieu-en-Bugey,01,Ain,84,Auvergne-Rhône-Alpes
3,01005,Ambérieux-en-Dombes,Ambérieux-en-Dombes,01,Ain,84,Auvergne-Rhône-Alpes
4,01006,Ambléon,Ambléon,01,Ain,84,Auvergne-Rhône-Alpes
...,...,...,...,...,...,...,...
34975,97613,M'Tsangamouji,M'Tsangamouji,976,Mayotte,6,Mayotte
34976,97614,Ouangani,Ouangani,976,Mayotte,6,Mayotte
34977,97615,Pamandzi,Pamandzi,976,Mayotte,6,Mayotte
34978,97616,Sada,Sada,976,Mayotte,6,Mayotte


------------

# <u> Fichier du lien_3 </u>

## <u> Mapping code insee <> code postal </u>

In [26]:
df_lien_3 = pd.read_csv(
    os.path.join("..", "api_extract__transform", "locations_information", "archives", "lien_3", "cities.csv"),
    usecols=["insee_code", "zip_code"],
)


In [27]:
df_lien_3.rename(
    {
        "insee_code": "code_insee",
        "zip_code": "code_postal",
    },
    axis=1,
    inplace=True,
)


In [28]:
df_lien_3


Unnamed: 0,code_insee,code_postal
0,25620,25650
1,25624,25640
2,25615,25310
3,25619,25240
4,25622,25170
...,...,...
39140,98829,98829
39141,98831,98833
39142,98832,98834
39143,98612,98620


In [29]:
df_lien_3[df_lien_3.code_insee == "75056"]  # non disponible dans ce fichier, donc attention au merge


Unnamed: 0,code_insee,code_postal


In [30]:
df_lien_3.dtypes


code_insee     object
code_postal     int64
dtype: object

In [31]:
# df_lien_3.astype({"code_postal": "str"})
df_lien_3["code_postal"] = df_lien_3["code_postal"].astype(str)


# <u> Merge des df des liens 2 et 3 </u>

In [32]:
df_lien_2.head(2)


Unnamed: 0,code_insee,nom_commune,nom_ville,code_departement,nom_departement,code_region,nom_region
0,1001,L'Abergement-Clémenciat,L'Abergement-Clémenciat,1,Ain,84,Auvergne-Rhône-Alpes
1,1002,L'Abergement-de-Varey,L'Abergement-de-Varey,1,Ain,84,Auvergne-Rhône-Alpes


In [33]:
df_lien_3.head(2)


Unnamed: 0,code_insee,code_postal
0,25620,25650
1,25624,25640


In [34]:
df_lien_2[df_lien_2.code_insee == "75056"]


Unnamed: 0,code_insee,nom_commune,nom_ville,code_departement,nom_departement,code_region,nom_region
29269,75056,Paris,Paris,75,Paris,11,Île-de-France


In [35]:
display(df_lien_2.dtypes, df_lien_3.dtypes)


code_insee          object
nom_commune         object
nom_ville           object
code_departement    object
nom_departement     object
code_region         object
nom_region          object
dtype: object

code_insee     object
code_postal    object
dtype: object

In [36]:
df = pd.merge(left=df_lien_2, right=df_lien_3, on="code_insee", how="left")  # left car tous les code_insee ne sont pas disponibles dans df_lien_3


In [37]:
df[df.code_insee == "75056"]


Unnamed: 0,code_insee,nom_commune,nom_ville,code_departement,nom_departement,code_region,nom_region,code_postal
32592,75056,Paris,Paris,75,Paris,11,Île-de-France,


In [38]:
df.columns


Index(['code_insee', 'nom_commune', 'nom_ville', 'code_departement',
       'nom_departement', 'code_region', 'nom_region', 'code_postal'],
      dtype='object')

In [39]:
df = df[["code_insee", "nom_commune", "code_postal", "nom_ville", "code_departement", "nom_departement", "code_region", "nom_region"]]


In [40]:
df["code_postal"] = df["code_postal"].str.zfill(5)


In [41]:
df = df.drop_duplicates(["code_insee", "code_postal"])


In [42]:
df.code_insee.value_counts()


code_insee
31555    6
97415    6
50129    6
49244    5
33063    5
        ..
31462    1
31461    1
31460    1
31459    1
97617    1
Name: count, Length: 34980, dtype: int64

In [None]:
df.dtypes


code_insee          object
nom_commune         object
code_postal         object
nom_ville           object
code_departement    object
nom_departement     object
code_region         object
nom_region          object
dtype: object

In [None]:
display(
    df_lien_2.isna().sum().sum(),
    df_lien_3.isna().sum().sum(),
    df.isna().sum().sum(),
)


0

0

7

# <u> Ecriture dans un fichier .csv </u>

In [None]:
df


Unnamed: 0,code_insee,nom_commune,code_postal,nom_ville,code_departement,nom_departement,code_region,nom_region
0,01001,L'Abergement-Clémenciat,01400,L'Abergement-Clémenciat,01,Ain,84,Auvergne-Rhône-Alpes
1,01002,L'Abergement-de-Varey,01640,L'Abergement-de-Varey,01,Ain,84,Auvergne-Rhône-Alpes
2,01004,Ambérieu-en-Bugey,01500,Ambérieu-en-Bugey,01,Ain,84,Auvergne-Rhône-Alpes
3,01005,Ambérieux-en-Dombes,01330,Ambérieux-en-Dombes,01,Ain,84,Auvergne-Rhône-Alpes
4,01006,Ambléon,01300,Ambléon,01,Ain,84,Auvergne-Rhône-Alpes
...,...,...,...,...,...,...,...,...
38900,97613,M'Tsangamouji,97650,M'Tsangamouji,976,Mayotte,6,Mayotte
38901,97614,Ouangani,97670,Ouangani,976,Mayotte,6,Mayotte
38903,97615,Pamandzi,97615,Pamandzi,976,Mayotte,6,Mayotte
38904,97616,Sada,97640,Sada,976,Mayotte,6,Mayotte


In [46]:
df.to_csv(
    os.path.join(
        "..",
        "api_extract__transform",
        "locations_information",
        # "code_name__city_department_region",
        "code_name__city_department_region.csv",
    ),
    index=False,  # pour ne pas écrire les index
)


In [47]:
df_merge = pd.read_csv(
    os.path.join(
        os.path.join("..", "api_extract__transform", "locations_information"),
        # "code_name__city_department_region",
        "code_name__city_department_region.csv",
    ),
    dtype=str,
)


In [48]:
df_merge[df_merge.code_insee == "14654"]


Unnamed: 0,code_insee,nom_commune,code_postal,nom_ville,code_departement,nom_departement,code_region,nom_region
4937,14654,Saint-Pierre-en-Auge,14140,Saint-Pierre-en-Auge,14,Calvados,28,Normandie
4938,14654,Saint-Pierre-en-Auge,14170,Saint-Pierre-en-Auge,14,Calvados,28,Normandie


In [49]:
df_merge[df_merge.code_insee == "75056"]


Unnamed: 0,code_insee,nom_commune,code_postal,nom_ville,code_departement,nom_departement,code_region,nom_region
29631,75056,Paris,,Paris,75,Paris,11,Île-de-France


In [50]:
df


Unnamed: 0,code_insee,nom_commune,code_postal,nom_ville,code_departement,nom_departement,code_region,nom_region
0,01001,L'Abergement-Clémenciat,01400,L'Abergement-Clémenciat,01,Ain,84,Auvergne-Rhône-Alpes
1,01002,L'Abergement-de-Varey,01640,L'Abergement-de-Varey,01,Ain,84,Auvergne-Rhône-Alpes
2,01004,Ambérieu-en-Bugey,01500,Ambérieu-en-Bugey,01,Ain,84,Auvergne-Rhône-Alpes
3,01005,Ambérieux-en-Dombes,01330,Ambérieux-en-Dombes,01,Ain,84,Auvergne-Rhône-Alpes
4,01006,Ambléon,01300,Ambléon,01,Ain,84,Auvergne-Rhône-Alpes
...,...,...,...,...,...,...,...,...
38900,97613,M'Tsangamouji,97650,M'Tsangamouji,976,Mayotte,6,Mayotte
38901,97614,Ouangani,97670,Ouangani,976,Mayotte,6,Mayotte
38903,97615,Pamandzi,97615,Pamandzi,976,Mayotte,6,Mayotte
38904,97616,Sada,97640,Sada,976,Mayotte,6,Mayotte
