In [74]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

pd.options.display.max_columns = None # affiche toutes les colonnes lors de l'affichage des DataFrames

Les données affichées sont les suivantes :
- Nom : Nom de la gare
- Trigramme : Codification de la gare, chaque gare possède un trigramme unique
- Segment(s) DRG : segment(s) de la gare associé au document de référence des gares
- Position géographique : coordonnées géographiques de la gare
- Code Commune : Le code INSEE de chaque commune est constitué de 5 chiffres, les 2 premiers sont le numéro du département (codé sur 2 chiffres) et les 3 autres chiffres sont un code donné à la commune (codée sur 3 chiffres).
- Codes(s) UIC : liste des codes UIC rattachés à la gare 

---

Segment DRG :

Comme détaillé dans DRG-2026...pdf, les gares de voyageurs sont réparties en trois catégories (Segment DRG) :

- A : Les gares de voyageurs d’intérêt national, dites de catégorie A. Ces gares sont celles
dont la fréquentation par les voyageurs des services nationaux et internationaux de
voyageurs est au moins égale à 250 000 voyageurs par an ou dont ces mêmes
voyageurs représentent 100% des voyageurs. Le périmètre des voyageurs nationaux
est défini par le cumul des voyageurs utilisant des services non conventionnés, des
services conventionnés nationaux et des services conventionnés inter-régionaux à
plus de 100km.

-  B : Les gares de voyageurs d’intérêt régional, dites de catégorie B. Ces gares sont celles
qui n’appartiennent pas à la catégorie A mais dont la fréquentation totale est au
moins égale à 100 000 voyageurs par an.

-  C : Les gares de voyageurs d’intérêt local, dites de catégorie C. Ce sont toutes les autres
gares de voyageurs.




In [99]:
gares = pd.read_csv( "../data/1-raw/gares-de-voyageurs.csv", sep=";", dtype={
    'Nom' : 'string',
    'Trigramme' : 'string',
    'Segment(s) DRG' : 'string',
    'Position géographique' : 'string',
    'Code commune' : 'string',
    "Code(s) UIC" : 'string',
})
gares

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Position géographique,Code commune,Code(s) UIC
0,Abancourt,ABT,C,"49.6852237, 1.7743058",60001,87313759
1,Abbaretz,AAR,C,"47.5546432, -1.5244159",44001,87481614
2,Abbeville,ABB,B,"50.10221, 1.82449",80001,87317362
3,Ablon-sur-Seine,ABL,B,"48.725468, 2.419151",94001,87545269
4,Achères Grand Cormier,GCR,B,"48.9551835, 2.0919031",78551,87386052
...,...,...,...,...,...,...
2780,Yffiniac,YFV,C,"48.4702462, -2.6524629",22389,87473116
2781,Ygos-Saint-Saturnin,YGV,C,"43.9781851, -0.7361528",40333,87671487
2782,Ytrac,YTC,C,"44.9106891, 2.3644474",15267,87645101
2783,Yvetot,YVT,B,"49.622035, 0.750115",76758,87413385


In [100]:
gares['Segment(s) DRG'].value_counts()

Segment(s) DRG
C        1756
B         926
A          94
A;A         3
C;C         2
B;B         1
B;A         1
A;B         1
A;B;A       1
Name: count, dtype: Int64

In [101]:
gares.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2785 entries, 0 to 2784
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Nom                    2785 non-null   string
 1   Trigramme              2785 non-null   string
 2   Segment(s) DRG         2785 non-null   string
 3   Position géographique  2778 non-null   string
 4   Code commune           2785 non-null   string
 5   Code(s) UIC            2785 non-null   string
dtypes: string(6)
memory usage: 130.7 KB


In [102]:
gares.isna().sum()

Nom                      0
Trigramme                0
Segment(s) DRG           0
Position géographique    7
Code commune             0
Code(s) UIC              0
dtype: int64

In [103]:
gares[["lat", "lon"]] = gares["Position géographique"].str.split(",", expand=True)
gares["lat"] = gares["lat"].astype(float)
gares["lon"] = gares["lon"].astype(float)
gares = gares.drop(columns=['Position géographique'])
gares

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Code commune,Code(s) UIC,lat,lon
0,Abancourt,ABT,C,60001,87313759,49.685224,1.774306
1,Abbaretz,AAR,C,44001,87481614,47.554643,-1.524416
2,Abbeville,ABB,B,80001,87317362,50.102210,1.824490
3,Ablon-sur-Seine,ABL,B,94001,87545269,48.725468,2.419151
4,Achères Grand Cormier,GCR,B,78551,87386052,48.955183,2.091903
...,...,...,...,...,...,...,...
2780,Yffiniac,YFV,C,22389,87473116,48.470246,-2.652463
2781,Ygos-Saint-Saturnin,YGV,C,40333,87671487,43.978185,-0.736153
2782,Ytrac,YTC,C,15267,87645101,44.910689,2.364447
2783,Yvetot,YVT,B,76758,87413385,49.622035,0.750115


In [None]:
# certaines gares ont plusieurs codes UIC & segment DRG, séparés par des ;
gares[gares["Code(s) UIC"].str.contains(";")]

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Code commune,Code(s) UIC,lat,lon
8,Aéroport Charles de Gaulle 2 TGV,RYT,A;A,93073,87271494;87001479,49.003652,2.570892
151,Avignon TGV,AVV,A;A,84007,87318964;87981902,43.921586,4.786079
525,Châteaubriant,CTB,C;C,44036,87481648;87590372,47.717521,-1.371515
789,Ermont - Eaubonne,ERT,B;B,95219,87534131;87276055,48.98032,2.27176
867,Fourqueux - Bel-Air,EBL,B,78551,87733675;87366922,48.89494,2.0705
1550,Mareil-Marly,MPJ,C;C,78367,87733667;87382812,48.880747,2.079068
1840,Noisy-le-Roi,NIO,B,78455,87393876;87733659,48.841519,2.061839
1908,Paris Austerlitz,PAZ,B;A,75113,87547026;87547000,48.842285,2.364891
1911,Paris Gare de Lyon,PLY,A;B,75112,87686006;87686030,48.844888,2.37352
1912,Paris Gare du Nord,PNO,A;B;A,75110,87271007;87271023;87271031,48.880185,2.355151


In [None]:
# on va faire une ligne par code UIC, en dupliquant les autres colonnes :
df_exploded = gares.copy()
df_exploded["Code(s) UIC"] = df_exploded["Code(s) UIC"].str.split(";")
df_exploded = df_exploded.explode("Code(s) UIC", ignore_index=True)
df_exploded.rename(columns={"Code(s) UIC": "Code UIC"}, inplace=True)

In [82]:
# pour le segment DRG, on garde la plus petite valeur (ordre alphabétique)
df_exploded["Segment(s) DRG"] = df_exploded["Segment(s) DRG"].str.split(";")
df_exploded["Segment(s) DRG"] = df_exploded["Segment(s) DRG"].apply(lambda x: min(x))

In [83]:
df_exploded[df_exploded["Segment(s) DRG"].str.contains(";")]

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Code commune,Code UIC,lat,lon


In [84]:
df_exploded[df_exploded['Nom'] == 'Paris Austerlitz']

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Code commune,Code UIC,lat,lon
1915,Paris Austerlitz,PAZ,A,75113,87547026,48.842285,2.364891
1916,Paris Austerlitz,PAZ,A,75113,87547000,48.842285,2.364891


In [85]:
df_exploded[df_exploded['Nom'] == 'Paris Gare du Nord']

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Code commune,Code UIC,lat,lon
1921,Paris Gare du Nord,PNO,A,75110,87271007,48.880185,2.355151
1922,Paris Gare du Nord,PNO,A,75110,87271023,48.880185,2.355151
1923,Paris Gare du Nord,PNO,A,75110,87271031,48.880185,2.355151


In [86]:
# extraction du code_ci à partir du code UIC
# "Pour les points remarquables de type bâtiment voyageur ou halte ferroviaire, le code_ci correspond aux 6 derniers chiffres du Code UIC"
df_exploded['code_ci'] = df_exploded['Code UIC'].str[-6:]

In [87]:
# extraction du département à partir du code commune
df_exploded['departement'] = df_exploded['Code commune'].str[0:2]
df_exploded

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Code commune,Code UIC,lat,lon,code_ci,departement
0,Abancourt,ABT,C,60001,87313759,49.685224,1.774306,313759,60
1,Abbaretz,AAR,C,44001,87481614,47.554643,-1.524416,481614,44
2,Abbeville,ABB,B,80001,87317362,50.102210,1.824490,317362,80
3,Ablon-sur-Seine,ABL,B,94001,87545269,48.725468,2.419151,545269,94
4,Achères Grand Cormier,GCR,B,78551,87386052,48.955183,2.091903,386052,78
...,...,...,...,...,...,...,...,...,...
2793,Yffiniac,YFV,C,22389,87473116,48.470246,-2.652463,473116,22
2794,Ygos-Saint-Saturnin,YGV,C,40333,87671487,43.978185,-0.736153,671487,40
2795,Ytrac,YTC,C,15267,87645101,44.910689,2.364447,645101,15
2796,Yvetot,YVT,B,76758,87413385,49.622035,0.750115,413385,76


In [104]:
# Ajout de quelques gares manquantes :
gares2 = pd.concat([
    df_exploded,
    pd.DataFrame({
        'code_ci': ['281188', '001545', '212076', '191973', '193201', '715227', '295030', '212068', '756882', '756403'],
        'Nom': ['Wannehain', 'Fréthun-Tunnel', 'Strasbourg-Port-du-Rhin', 'Zoufftgen (IE)', 'Stiring-Wendel', 'Les Longevilles-Rochejean', 'Feignies', 'Strasbourg-Neudorf', 'Tende', 'Monaco-Monte-Carlo'],
        'departement': ['59', '62', '67', '57', '57', '25', '59', '67', '06', '06']
    })
], ignore_index=True)

In [110]:
# A partir du code de département, on peut récupérer le nom du département et la région
correspondance_region_dpt = pd.read_excel("../data/1-raw/regions-et-departements-francais.xlsx", dtype={
    'numero departement' : 'string',
    'nom departement' : 'string',
    'region' : 'string'
})
correspondance_region_dpt

Unnamed: 0,numero departement,nom departement,region
0,01,Ain,Auvergne-Rhône-Alpes
1,02,Aisne,Hauts-de-France
2,03,Allier,Auvergne-Rhône-Alpes
3,04,Alpes-de-Haute-Provence,Provence-Alpes-Côte d'Azur
4,05,Hautes-Alpes,Provence-Alpes-Côte d'Azur
...,...,...,...
96,971,Guadeloupe,Guadeloupe
97,972,Martinique,Martinique
98,973,Guyane,Guyane
99,974,La Réunion,La Réunion


In [116]:
gares3 = gares2.merge(
    correspondance_region_dpt,
    left_on='departement',
    right_on='numero departement',
    how='left'
)
gares3 = gares3.rename(columns={
    "departement": "code_departement",
    'nom departement': 'nom_departement',
    'region': 'region'
})
gares3 = gares3.drop(columns=['numero departement'])
gares3

Unnamed: 0,Nom,Trigramme,Segment(s) DRG,Code commune,Code UIC,lat,lon,code_ci,code_departement,nom_departement,region
0,Abancourt,ABT,C,60001,87313759,49.685224,1.774306,313759,60,Oise,Hauts-de-France
1,Abbaretz,AAR,C,44001,87481614,47.554643,-1.524416,481614,44,Loire-Atlantique,Pays de la Loire
2,Abbeville,ABB,B,80001,87317362,50.102210,1.824490,317362,80,Somme,Hauts-de-France
3,Ablon-sur-Seine,ABL,B,94001,87545269,48.725468,2.419151,545269,94,Val-de-Marne,Ile-de-France
4,Achères Grand Cormier,GCR,B,78551,87386052,48.955183,2.091903,386052,78,Yvelines,Ile-de-France
...,...,...,...,...,...,...,...,...,...,...,...
2803,Les Longevilles-Rochejean,,,,,,,715227,25,Doubs,Bourgogne-Franche-Comté
2804,Feignies,,,,,,,295030,59,Nord,Hauts-de-France
2805,Strasbourg-Neudorf,,,,,,,212068,67,Bas-Rhin,Grand Est
2806,Tende,,,,,,,756882,06,Alpes-Maritimes,Provence-Alpes-Côte d'Azur


In [117]:
# sauvegarde du fichier nettoyé en format parquet
gares3.to_parquet("../data/2-clean/gares-de-voyageurs.parquet", index=False)