# Vérification de l'intégrité de la clé ZdC et transformation de la base des stations

*remarque* : la base des stations a déjà été jointe avec les données de l'Insee précédemment.

Ce NoteBook a pour but de vérifier l'intégriter de la clé ZdC, seule code disponible pour faire une jointure avec les données de validation d'Île De France Mobilités (_IDFM_).

Il s'agit donc de vérifier que l'on peut faire la jointure sans problème (i.e. sans redoncance), puis de modifier la base si besoin.

## Packages et importation des données

In [1]:
import pandas as pd
from _importation_donnees import donnees_validation_23
from _pre_proces_Insee_IDFM import data_INSEE_stations

In [2]:
stations_RER=data_INSEE_stations()

ERROR 1: PROJ: proj_create_from_database: Open of /opt/mamba/share/proj failed


## Vérification de l'intégrité de la clé *ZdC* sur les données de *RER*

In [3]:
print(stations_RER['nom_ZdC'].nunique())
print(stations_RER['id_ref_ZdC'].nunique())

234
234


*A priori* il n'y a pas d'écart. Il reste à vérifier qu'il s'agit bien d'une petite erreur et non pas de mauvais matching.

### ZdC avec plusieurs noms de stations différents

In [4]:
stations_RER

Unnamed: 0,Geo Point,Geo Shape,gares_id,nom_long,nom_so_gar,nom_su_gar,id_ref_ZdC,nom_ZdC,id_ref_ZdA,nom_ZdA,...,ind_25_39,ind_40_54,ind_55_64,ind_65_79,ind_80p,ind_inc,pre_IDF,select,expt,Unnamed: 21
0,"48.93230541513496, 2.475674370833511","{""coordinates"": [2.475674370833511, 48.9323054...",77,Le Blanc-Mesnil,,,72648,Le Blanc-Mesnil,46163,Le Blanc-Mesnil,...,1406.0,1374.0,758.0,603.0,210.0,18.0,1.0,1.0,1.0,
1,"48.955402243597064, 2.093521901580611","{""coordinates"": [2.093521901580611, 48.9554022...",4,Achères-Grand-Cormier,,,65190,Achères Grand Cormier,47915,Achères Grand Cormier,...,17.4,20.6,8.0,0.7,0.8,0.0,1.0,1.0,1.0,
2,"49.03646397979169, 2.079534939997373","{""coordinates"": [2.079534939997373, 49.0364639...",129,Cergy-Préfecture,,,66696,Cergy Préfecture,44559,Cergy Préfecture,...,1789.1,1143.0,559.1,409.0,107.0,26.0,1.0,1.0,1.0,
3,"48.56494949473517, 2.594551816007612","{""coordinates"": [2.594551816007612, 48.5649494...",135,Cesson,,,62176,Cesson,42516,Cesson,...,461.0,544.0,324.0,300.0,192.0,3.0,1.0,1.0,1.0,
4,"48.861822271863645, 2.3470126872387564","{""coordinates"": [2.347012687238756, 48.8618222...",163,Châtelet-Les Halles,,,474151,Châtelet les Halles,45102,Châtelet les Halles,...,8501.5,6004.0,2991.0,2856.0,863.0,20.0,1.0,1.0,1.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
249,"48.962709512366416, 2.5126446278196126","{""coordinates"": [2.512644627819613, 48.9627095...",905,Villepinte,,,73547,Villepinte,58793,Villepinte,...,0.0,0.0,0.0,0.0,0.0,,,,,664313.9648
250,"49.00468746087186, 2.57058948552452","{""coordinates"": [2.57058948552452, 49.00468746...",744,Aéroport Charles De Gaulle 2-TGV,,,73699,Aéroport CDG - Terminal 2 (TGV),473364,Aéroport Charles de Gaulle 2 (Terminal 2),...,0.0,0.0,0.0,0.0,0.0,,,,,668582.2523
251,"49.00975645120457, 2.5612326952251054","{""coordinates"": [2.561232695225105, 49.0097564...",743,Aéroport Charles De Gaulle 1,,,73596,Aéroport CDG 1 (Terminal 3),462398,Aéroport CDG 1 (Terminal 3) - RER,...,0.0,0.0,0.0,0.0,0.0,,,,,667900.8037
252,"48.97342490628139, 2.5143602855334923","{""coordinates"": [2.514360285533492, 48.9734249...",621,Parc des Expositions,,,73568,Parc des Expositions,47878,Parc des Expositions,...,0.0,0.0,0.0,0.0,0.0,,,,,664446.9190


In [5]:
stations_RER[stations_RER['nom_long']=='Cesson']

Unnamed: 0,Geo Point,Geo Shape,gares_id,nom_long,nom_so_gar,nom_su_gar,id_ref_ZdC,nom_ZdC,id_ref_ZdA,nom_ZdA,...,ind_25_39,ind_40_54,ind_55_64,ind_65_79,ind_80p,ind_inc,pre_IDF,select,expt,Unnamed: 21
3,"48.56494949473517, 2.594551816007612","{""coordinates"": [2.594551816007612, 48.5649494...",135,Cesson,,,62176,Cesson,42516,Cesson,...,461.0,544.0,324.0,300.0,192.0,3.0,1.0,1.0,1.0,


In [6]:
#On se restreint aux colonnes lda et LIBELLE_ARRET
sub_data = stations_RER[['id_ref_ZdC', 'nom_ZdC']]
#Suppression des doublons
unique_stations = sub_data.drop_duplicates()
#On aggrège et on filre pour avoir les stations qui ont structement plus de 1 LDA
multi_zdc_stations = unique_stations.groupby('nom_ZdC').filter(lambda x: x['id_ref_ZdC'].nunique() > 1)
#On trie par ordre alphabétique pour faciliter la lecture
multi_zdc_stations.sort_values(by='nom_ZdC')

Unnamed: 0,id_ref_ZdC,nom_ZdC


Pas de problème dans ce sens là.

### Noms de stations avec plusieurs ZdC

In [7]:
#On se restreint aux colonnes lda et LIBELLE_ARRET
sub_data = stations_RER[['id_ref_ZdC', 'nom_ZdC']]
#Suppression des doublons
unique_stations = sub_data.drop_duplicates()
#On aggrège et on filre pour avoir les stations qui ont structement plus de 1 LDA
multi_zdc_stations = unique_stations.groupby('id_ref_ZdC').filter(lambda x: x['nom_ZdC'].nunique() > 1)
#On trie par ordre alphabétique pour faciliter la lecture
multi_zdc_stations.sort_values(by='id_ref_ZdC')

Unnamed: 0,id_ref_ZdC,nom_ZdC


## Suppression des redondance des stations

La base que nous avions déjà préparées pour les stations de RER est donc quasi-opérationnelle. Il nous reste maintenant a éliminer les redondances car les stations avec correspondance sont comptées autant de fois qu'il y a de ligne (cela posera problème si l'on fait une jointure).

In [8]:
# Étape 1: Trouver les valeurs de 'id_ref_ZdC' qui apparaissent plus d'une fois.
duplicate_id_ref_ZdC = stations_RER['id_ref_ZdC'].value_counts()
duplicate_id_ref_ZdC = duplicate_id_ref_ZdC[duplicate_id_ref_ZdC > 1].index

# Étape 2: Filtrer le DataFrame pour afficher seulement les lignes avec les valeurs répétées de 'id_ref_ZdC'
stations_RER_duplicates = stations_RER[stations_RER['id_ref_ZdC'].isin(duplicate_id_ref_ZdC)]
stations_RER_duplicates

Unnamed: 0,Geo Point,Geo Shape,gares_id,nom_long,nom_so_gar,nom_su_gar,id_ref_ZdC,nom_ZdC,id_ref_ZdA,nom_ZdA,...,ind_25_39,ind_40_54,ind_55_64,ind_65_79,ind_80p,ind_inc,pre_IDF,select,expt,Unnamed: 21
4,"48.861822271863645, 2.3470126872387564","{""coordinates"": [2.347012687238756, 48.8618222...",163,Châtelet-Les Halles,,,474151,Châtelet les Halles,45102,Châtelet les Halles,...,8501.5,6004.0,2991.0,2856.0,863.0,20.0,1.0,1.0,1.0,
5,"48.861822271863645, 2.3470126872387564","{""coordinates"": [2.347012687238756, 48.8618222...",164,Châtelet-Les Halles,,,474151,Châtelet les Halles,45102,Châtelet les Halles,...,8501.5,6004.0,2991.0,2856.0,863.0,20.0,1.0,1.0,1.0,
6,"48.861822271863645, 2.3470126872387564","{""coordinates"": [2.347012687238756, 48.8618222...",170,Châtelet-Les Halles,,,474151,Châtelet les Halles,45102,Châtelet les Halles,...,8501.5,6004.0,2991.0,2856.0,863.0,20.0,1.0,1.0,1.0,
14,"48.725997091123524, 2.2583229936112406","{""coordinates"": [2.258322993611241, 48.7259970...",522,Massy-Palaiseau,,,63244,Massy - Palaiseau,58774,Massy - Palaiseau,...,3106.0,1273.0,404.0,300.0,94.1,20.0,1.0,1.0,1.0,
15,"48.72509804026411, 2.259946049525821","{""coordinates"": [2.259946049525821, 48.7250980...",520,Massy-Palaiseau,,,63244,Massy - Palaiseau,58774,Massy - Palaiseau,...,3106.0,1273.0,404.0,300.0,94.1,20.0,1.0,1.0,1.0,
19,"48.88077520385858, 2.358732959087859","{""coordinates"": [2.358732959087859, 48.8807752...",490,Magenta,,,478733,Gare du Nord,58572,Magenta,...,8465.5,5728.5,3116.0,2783.0,803.0,167.0,1.0,1.0,1.0,
20,"48.881759488218286, 2.357570193470876","{""coordinates"": [2.357570193470876, 48.8817594...",309,Gare du Nord,,,478733,Gare du Nord,58572,Magenta,...,8465.5,5728.5,3116.0,2783.0,803.0,167.0,1.0,1.0,1.0,
21,"48.881759488218286, 2.357570193470876","{""coordinates"": [2.357570193470876, 48.8817594...",310,Gare du Nord,,,478733,Gare du Nord,58572,Magenta,...,8465.5,5728.5,3116.0,2783.0,803.0,167.0,1.0,1.0,1.0,
47,"48.8437725759169, 2.373916469806498","{""coordinates"": [2.373916469806498, 48.8437725...",307,Gare de Lyon,,,73626,Gare de Lyon,470195,Gare de Lyon,...,1894.4,1595.4,1062.1,864.0,266.0,28.0,1.0,1.0,1.0,
48,"48.844139348918475, 2.373259976710645","{""coordinates"": [2.373259976710645, 48.8441393...",306,Gare de Lyon,,,73626,Gare de Lyon,470195,Gare de Lyon,...,1894.4,1595.4,1062.1,864.0,266.0,28.0,1.0,1.0,1.0,


Il y finallement 18 lignes pour 8 stations redondantes. On décide de completer la colonne *res_com* avec toutes les lignes en correspondance.

In [9]:
stations_RER.shape

(244, 64)

In [10]:
# Grouper les données par 'id_ref_ZdC' et appliquer une fonction personnalisée pour concaténer 'res_com'
def concatenate_res_com(group):
    # Concaténer toutes les 'res_com' avec un séparateur, par exemple une virgule ou un espace
    return ', '.join(group['res_com'])

# Appliquer la fonction personnalisée pour chaque groupe
aggregated_stations = stations_RER.groupby('id_ref_ZdC').apply(concatenate_res_com).reset_index(name='res_com')

In [11]:
aggregated_stations

Unnamed: 0,id_ref_ZdC,res_com
0,59420,RER D
1,59447,RER D
2,59470,RER D
3,59531,RER C
4,59565,RER D
...,...,...
229,478505,"RER C, RER D"
230,478733,"RER E, RER B, RER D"
231,478855,RER C
232,478926,RER A


In [12]:
unique_stations = stations_RER.drop_duplicates(subset='id_ref_ZdC').drop(columns=['res_com'])
final_stations = unique_stations.merge(aggregated_stations, on='id_ref_ZdC')

In [13]:
final_stations.shape

(234, 64)

Il y a bien 10 lignes de moins. On vérifie que l'opération a été faite correctement sur la station Gare du Nord.

In [21]:
final_stations[final_stations['nom_long']=='Magenta']

Unnamed: 0,Geo Point,Geo Shape,gares_id,nom_long,nom_so_gar,nom_su_gar,id_ref_ZdC,nom_ZdC,id_ref_ZdA,nom_ZdA,...,ind_40_54,ind_55_64,ind_65_79,ind_80p,ind_inc,pre_IDF,select,expt,Unnamed: 20,res_com
16,"48.88077520385858, 2.358732959087859","{""coordinates"": [2.358732959087859, 48.8807752...",490,Magenta,,,478733,Gare du Nord,58572,Magenta,...,5728.5,3116.0,2783.0,803.0,167.0,1.0,1.0,1.0,,"RER E, RER B, RER D"


In [22]:
final_stations[final_stations['nom_long']=='Magenta'].loc[:,['nom_long', 'res_com']]

Unnamed: 0,nom_long,res_com
16,Magenta,"RER E, RER B, RER D"


Pour une seule ligne on a bien accès à toutes les lignes. On vérifie qu'il n'y a plus de redondance pour être certain que la procédure a fonctionné correctement.

In [15]:
# Étape 1: Trouver les valeurs de 'id_ref_ZdC' qui apparaissent plus d'une fois.
duplicate_id_ref_ZdC = final_stations['id_ref_ZdC'].value_counts()
duplicate_id_ref_ZdC = duplicate_id_ref_ZdC[duplicate_id_ref_ZdC > 1].index

# Étape 2: Filtrer le DataFrame pour afficher seulement les lignes avec les valeurs répétées de 'id_ref_ZdC'
stations_RER_duplicates = final_stations[final_stations['id_ref_ZdC'].isin(duplicate_id_ref_ZdC)]
stations_RER_duplicates

Unnamed: 0,Geo Point,Geo Shape,gares_id,nom_long,nom_so_gar,nom_su_gar,id_ref_ZdC,nom_ZdC,id_ref_ZdA,nom_ZdA,...,ind_40_54,ind_55_64,ind_65_79,ind_80p,ind_inc,pre_IDF,select,expt,Unnamed: 20,res_com


In [16]:
final_stations.shape

(234, 64)

Tout est bon !