# Analyse de la data pour l'utilisation du tramway de montpellier

## I. Premier apperçu

In [2]:
# pip install pandas

Collecting pandas
  Downloading pandas-2.3.3-cp313-cp313-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-2.3.4-cp313-cp313-win_amd64.whl.metadata (60 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.3.3-cp313-cp313-win_amd64.whl (11.0 MB)
   ---------------------------------------- 0.0/11.0 MB ? eta -:--:--
   --- ------------------------------------ 1.0/11.0 MB 5.6 MB/s eta 0:00:02
   ------- -------------------------------- 2.1/11.0 MB 5.6 MB/s eta 0:00:02
   ----------- ---------------------------- 3.1/11.0 MB 5.5 MB/s eta 0:00:02
   ---------------- ----------------------- 4.5/11.0 MB 5.8 MB/s eta 0:00:02
   --------------------- ------------------ 6.0/11.0 MB 6.1 MB/s eta 0:00:01
   -------------------------- ------------- 7.3/11.0 MB 6.1 MB/s eta 0:00:01
  


[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [1]:
import pandas as pd
import os

# Chemin vers le dossier contenant les fichiers GTFS
gtfs_directory = './gtfs'

# Lister les fichiers .txt dans le dossier
gtfs_files = [f for f in os.listdir(gtfs_directory) if f.endswith('.txt')]

# Charger chaque fichier dans un DataFrame et stocker dans un dictionnaire
gtfs_data = {}
for file in gtfs_files:
    file_path = os.path.join(gtfs_directory, file)
    gtfs_data[file.replace('.txt', '')] = pd.read_csv(file_path, low_memory=False)

# Afficher les noms des fichiers chargés
print("Fichiers chargés :", list(gtfs_data.keys()))

# Afficher un aperçu de chaque fichier
for name, df in gtfs_data.items():
    print(f"\nFichier: {name}.txt")
    print(f"Forme: {df.shape}")
    print("Aperçu des données :")
    display(df.head())
    print("\nColonnes :", list(df.columns))
    print("\nTypes de données :")
    print(df.dtypes)
    print("\n" + "="*50)


Fichiers chargés : ['agency', 'calendar_dates', 'routes', 'stops', 'stop_times', 'transfers', 'trips']

Fichier: agency.txt
Forme: (2, 7)
Aperçu des données :


Unnamed: 0,agency_id,agency_name,agency_url,agency_timezone,agency_lang,agency_phone,agency_fare_url
0,TAM,TAM,http://www.tam-voyages.com,Europe/Paris,fr,467228787,
1,TMTP,Transdev Montpellier,http://www.tam-voyages.com,Europe/Paris,fr,467228787,



Colonnes : ['agency_id', 'agency_name', 'agency_url', 'agency_timezone', 'agency_lang', 'agency_phone', 'agency_fare_url']

Types de données :
agency_id           object
agency_name         object
agency_url          object
agency_timezone     object
agency_lang         object
agency_phone         int64
agency_fare_url    float64
dtype: object


Fichier: calendar_dates.txt
Forme: (84, 3)
Aperçu des données :


Unnamed: 0,service_id,date,exception_type
0,10_8,20251026,1
1,10_9,20251026,1
2,10_1,20251027,1
3,10_4,20251027,1
4,10_9,20251027,1



Colonnes : ['service_id', 'date', 'exception_type']

Types de données :
service_id        object
date               int64
exception_type     int64
dtype: object


Fichier: routes.txt
Forme: (51, 8)
Aperçu des données :


Unnamed: 0,route_id,agency_id,route_short_name,route_long_name,route_type,route_color,route_text_color,route_url
0,1,TAM,T1,Mosson - Gare Sud de France,0,005CA9,,
1,10,TAM,10,Aiguelongue (Jussieu)-Celleneuve,3,FFB900,,
2,11,TAM,11,La Martelle - Tournezy,3,5FC3E1,,
3,13,TAM,13,Universites - Universites,3,941B80,,
4,14,TAM,14,Leon Blum - Place de l'Europe,3,F3A08C,,



Colonnes : ['route_id', 'agency_id', 'route_short_name', 'route_long_name', 'route_type', 'route_color', 'route_text_color', 'route_url']

Types de données :
route_id             object
agency_id            object
route_short_name     object
route_long_name      object
route_type            int64
route_color          object
route_text_color    float64
route_url           float64
dtype: object


Fichier: stops.txt
Forme: (1554, 9)
Aperçu des données :


Unnamed: 0,stop_id,stop_code,stop_name,tts_stop_name,stop_lat,stop_lon,location_type,parent_station,wheelchair_boarding
0,5,21,Gare Saint-Roch (Pont de Sète),"gare, pont de sète",43.604115,3.878247,,,1
1,20,1112,Tonnelles,TONNELLES,43.614075,3.837982,,,1
2,21,1113,Petit Bard,PETIT BARD,43.614632,3.835423,,,1
3,22,1114,Marie Curie,MARIE CURIE,43.614841,3.831283,,,1
4,23,1115,Renaudel,RENAUDEL,43.614635,3.828098,,,1



Colonnes : ['stop_id', 'stop_code', 'stop_name', 'tts_stop_name', 'stop_lat', 'stop_lon', 'location_type', 'parent_station', 'wheelchair_boarding']

Types de données :
stop_id                  int64
stop_code                int64
stop_name               object
tts_stop_name           object
stop_lat               float64
stop_lon               float64
location_type          float64
parent_station         float64
wheelchair_boarding      int64
dtype: object


Fichier: stop_times.txt
Forme: (161882, 7)
Aperçu des données :


Unnamed: 0,trip_id,arrival_time,departure_time,stop_id,stop_sequence,pickup_type,drop_off_type
0,1582773426-10,05:10:01,05:10:01,1184,1,0,0
1,1582773426-10,05:12:01,05:12:01,1185,2,0,0
2,1582773426-10,05:13:00,05:13:00,1186,3,0,0
3,1582773426-10,05:14:09,05:14:09,1187,4,0,0
4,1582773426-10,05:15:46,05:15:46,1188,5,0,0



Colonnes : ['trip_id', 'arrival_time', 'departure_time', 'stop_id', 'stop_sequence', ' pickup_type', 'drop_off_type']

Types de données :
trip_id           object
arrival_time      object
departure_time    object
stop_id            int64
stop_sequence      int64
 pickup_type       int64
drop_off_type      int64
dtype: object


Fichier: transfers.txt
Forme: (0, 3)
Aperçu des données :


Unnamed: 0,from_stop_id,to_stop_id,transfer_type



Colonnes : ['from_stop_id', 'to_stop_id', 'transfer_type']

Types de données :
from_stop_id     object
to_stop_id       object
transfer_type    object
dtype: object


Fichier: trips.txt
Forme: (7372, 8)
Aperçu des données :


Unnamed: 0,route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,wheelchair_accessible,bikes_allowed
0,1,10_1,1582928178-10,MOSSON,1,1,,
1,1,10_1,1582927882-10,GARE SUD DE FRANCE,1,0,,
2,1,10_1,1582928172-10,MOSSON,1,1,,
3,1,10_1,1582928179-10,MOSSON,1,1,,
4,1,10_1,1582927845-10,GARE SUD DE FRANCE,1,0,,



Colonnes : ['route_id', 'service_id', 'trip_id', 'trip_headsign', 'trip_short_name', 'direction_id', 'wheelchair_accessible', 'bikes_allowed']

Types de données :
route_id                  object
service_id                object
trip_id                   object
trip_headsign             object
trip_short_name           object
direction_id               int64
wheelchair_accessible    float64
bikes_allowed            float64
dtype: object



## II. Selection des lignes de tram

In [4]:
folder = './gtfs/'
save='./analyses/'
# Charger les fichiers
trips_df = pd.read_csv(folder+'trips.txt')
stop_times_df = pd.read_csv(folder+'stop_times.txt')
stops_df = pd.read_csv(folder+'stops.txt')

# Convertir route_id en numérique et supprimer les NaN
trips_df['route_id'] = pd.to_numeric(trips_df['route_id'], errors='coerce')
trips_df = trips_df.dropna(subset=['route_id'])

# Exclure les lignes où trip_id contient 'A'
trips_df = trips_df[~trips_df['trip_id'].astype(str).str.contains('A', na=False)]

# Convertir route_id en int
trips_df['route_id'] = trips_df['route_id'].astype(int)

# Filtrer les trips pour les route_id 1, 2, 3, et 4
trips_filtered = trips_df[trips_df['route_id'].isin([1, 2, 3, 4])]

# Fusionner trips_filtered avec stop_times_df sur trip_id
merged_trips_stop_times = pd.merge(trips_filtered, stop_times_df, on='trip_id')

# Convertir stop_id en numérique et supprimer les NaN
merged_trips_stop_times['stop_id'] = pd.to_numeric(merged_trips_stop_times['stop_id'], errors='coerce')
merged_trips_stop_times = merged_trips_stop_times.dropna(subset=['stop_id'])

# Convertir stop_id en int
merged_trips_stop_times['stop_id'] = merged_trips_stop_times['stop_id'].astype(int)

# Fusionner le résultat avec stops_df sur stop_id pour obtenir les noms des arrêts
final_df = pd.merge(merged_trips_stop_times, stops_df, on='stop_id')

# Sélectionner uniquement les colonnes souhaitées : route_id, stop_id, et stop_name
final_df = final_df[['route_id', 'stop_id', 'stop_name']]

# Supprimer les doublons
final_df = final_df.drop_duplicates()

# Afficher le résultat
print(final_df)

# Pour enregistrer le résultat dans un fichier CSV
# final_df.to_csv(save+'stops_by_route.csv', index=False)


       route_id  stop_id                 stop_name
0             1     1122                Saint-Paul
1             1     1123     Halles de la Paillade
2             1     1765        Stade de la Mosson
3             1     1071                    Mosson
5             1     1764        Stade de la Mosson
...         ...      ...                       ...
75479         4     1950  Peyrou - Arc de Triomphe
75480         4     1952  Saint-Guilhem - Courreau
75488         4     1947              Garcia Lorca
75489         4     1728                 Restanque
75490         4     1729              Saint-Martin

[190 rows x 3 columns]


## III. Regroupement des arrêts par ligne de tram

In [5]:
# Grouper par route_id et stop_name, puis agréger les stop_id en listes
grouped_df = final_df.groupby(['route_id', 'stop_name'])['stop_id'].agg(list).reset_index()

# Supprimer les doublons dans les listes de stop_id
grouped_df['stop_id'] = grouped_df['stop_id'].apply(lambda x: list(set(x)))

# Grouper par route_id et créer un dictionnaire de dictionnaires
result = grouped_df.groupby('route_id').apply(lambda x: dict(zip(x['stop_name'], x['stop_id']))).to_dict()

# Afficher les résultats
for route_id, stops in result.items():
    print(f"Route ID: {route_id}")
    for stop_name, stop_ids in stops.items():
        print(f"  {stop_name}: {stop_ids}")
    print()

Route ID: 1
  Antigone: [1105, 1090]
  Boutonnet - Cité des Arts: [1113, 1082]
  Château d'Ô: [1077, 1118]
  Comédie: [1108, 1087]
  Corum: [1109, 1086]
  Du Guesclin: [1752, 1751]
  Euromédecine: [1120, 1075]
  Gare Saint-Roch: [1088, 1107]
  Gare Sud de France: [2446, 2447]
  Halles de la Paillade: [1072, 1123]
  Hauts de Massane: [1121, 1074]
  Hôpital Lapeyronie: [1116, 1079]
  Louis Blanc - Agora de la Danse: [1085, 1110]
  Léon Blum: [1104, 1091]
  Malbosc - Domaine d'Ô: [1076, 1119]
  Millénaire: [1096, 1099]
  Mondial 98: [1652, 1653]
  Mosson: [1071]
  Moularès (Hôtel de Ville): [1101, 1094]
  Occitanie: [1117, 1078]
  Odysseum: [1097, 1098]
  Place Albert 1er - Saint-Charles: [1084, 1111]
  Place de France: [1540, 1541]
  Place de l'Europe: [1092, 1103]
  Port Marianne: [1100, 1095]
  Rives du Lez: [1093, 1102]
  Saint-Paul: [1073, 1122]
  Saint-Éloi: [1081, 1114]
  Stade Philippidès: [1112, 1083]
  Stade de la Mosson: [1764, 1765]
  Universités Sciences et Lettres: [1080, 11

  result = grouped_df.groupby('route_id').apply(lambda x: dict(zip(x['stop_name'], x['stop_id']))).to_dict()


In [6]:
# Grouper par route_id et stop_name, puis agréger les stop_id en listes uniques
grouped_df = final_df.groupby(['route_id', 'stop_name'])['stop_id'].agg(lambda x: list(set(x))).reset_index()

# Créer un dictionnaire de DataFrames, un pour chaque route_id
dfs = {route_id: df[['stop_name', 'stop_id']].set_index('stop_name')
       for route_id, df in grouped_df.groupby('route_id')}

# Afficher les DataFrames
for route_id, df in dfs.items():
    print(f"Route ID: {route_id}")
    print(df)
    print()


Route ID: 1
                                       stop_id
stop_name                                     
Antigone                          [1105, 1090]
Boutonnet - Cité des Arts         [1113, 1082]
Château d'Ô                       [1077, 1118]
Comédie                           [1108, 1087]
Corum                             [1109, 1086]
Du Guesclin                       [1752, 1751]
Euromédecine                      [1120, 1075]
Gare Saint-Roch                   [1088, 1107]
Gare Sud de France                [2446, 2447]
Halles de la Paillade             [1072, 1123]
Hauts de Massane                  [1121, 1074]
Hôpital Lapeyronie                [1116, 1079]
Louis Blanc - Agora de la Danse   [1085, 1110]
Léon Blum                         [1104, 1091]
Malbosc - Domaine d'Ô             [1076, 1119]
Millénaire                        [1096, 1099]
Mondial 98                        [1652, 1653]
Mosson                                  [1071]
Moularès (Hôtel de Ville)         [1101, 1094]
O

In [7]:
for route_id, df in dfs.items():
    df.to_csv(f'{save}route_{route_id}.csv')


## Analyse pour la ligne 3

In [9]:
import pandas as pd
# Charger les fichiers
trips_df = pd.read_csv(folder+'trips.txt')
stop_times_df = pd.read_csv(folder+'stop_times.txt')
stops_df = pd.read_csv(folder+'stops.txt')

# Convertir route_id en numérique et supprimer les NaN
trips_df['route_id'] = pd.to_numeric(trips_df['route_id'], errors='coerce')
trips_df = trips_df.dropna(subset=['route_id'])

# Exclure les lignes où trip_id contient 'A'
trips_df = trips_df[~trips_df['trip_id'].astype(str).str.contains('A', na=False)]

# Convertir route_id en int
trips_df['route_id'] = trips_df['route_id'].astype(int)

# Filtrer les trips pour les route_id 3
trips_filtered = trips_df[trips_df['route_id'].isin([3])]

# Fusionner trips_filtered avec stop_times_df sur trip_id
merged_trips_stop_times = pd.merge(trips_filtered, stop_times_df, on='trip_id')

merged_trips_stop_times




Unnamed: 0,route_id,service_id,trip_id,trip_headsign,trip_short_name,direction_id,wheelchair_accessible,bikes_allowed,arrival_time,departure_time,stop_id,stop_sequence,pickup_type,drop_off_type
0,3,10_1,1582949758-10,PORT MARIANNE,3,1,,,04:16:01,04:16:01,1694,1,0,0
1,3,10_1,1582949758-10,PORT MARIANNE,3,1,,,04:17:48,04:17:48,1695,2,0,0
2,3,10_1,1582949758-10,PORT MARIANNE,3,1,,,04:19:56,04:19:56,1696,3,0,0
3,3,10_1,1582949758-10,PORT MARIANNE,3,1,,,04:21:00,04:21:00,1697,4,0,0
4,3,10_1,1582949758-10,PORT MARIANNE,3,1,,,04:22:51,04:22:51,1698,5,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
17530,3,10_8,1582937414-10,MOSSON,3,0,,,25:43:24,25:43:24,1738,14,0,0
17531,3,10_8,1582937414-10,MOSSON,3,0,,,25:45:00,25:45:00,1739,15,0,0
17532,3,10_8,1582937414-10,MOSSON,3,0,,,25:46:17,25:46:17,1740,16,0,0
17533,3,10_8,1582937414-10,MOSSON,3,0,,,25:48:52,25:48:52,1741,17,0,0


### Rencontre de problème sur la donnée -> Résolution : analyse durant des travaux entrainant la suppression de certains arrêts.

Le code qui suit est en commentaire.

## BEGIN //////////////////////////////////////////

In [14]:
# exists = final_df['stop_name'].str.lower().eq('boirargues').any()
# print(exists)

In [15]:
# Fusionner le résultat avec stops_df sur stop_id pour obtenir les noms des arrêts
# final_df = pd.merge(merged_trips_stop_times, stops_df, on='stop_id')
# final_df


In [16]:
# final_df[['route_id', 'trip_headsign','direction_id','stop_id','stop_name']]

In [17]:
# exists = final_df['stop_name'].str.lower().eq('boirargues').any()
# print(exists)

In [18]:
# On garde une seule ligne par stop_id et stop_name
# merged_df = (
#     final_df
#     .pivot_table(
#         index=['route_id', 'stop_id', 'stop_name'],
#         columns='direction_id',
#         values='trip_headsign',
#         aggfunc='first'
#     )
#     .reset_index()
# )

# # Renommer les colonnes pour plus de clarté
# merged_df.columns.name = None
# merged_df = merged_df.rename(columns={0: 'trip_headsign_dir0', 1: 'trip_headsign_dir1'})


# # Afficher le résultat
# merged_df

## Avec la data récupéré par un fetch. Même problème que précédemment.

In [19]:
# import pandas as pd

# # Lire les fichiers
# stops_df = pd.read_csv('stops.txt')
# tam_df = pd.read_csv('TAM_MMM_TpsReel.csv', sep=';')

# # Afficher les colonnes pour vérifier
# print("Colonnes dans stops_df:", stops_df.columns)
# print("Colonnes dans tam_df avant modification:", tam_df.columns)

# # Supprimer la colonne stop_code de tam_df
# tam_df.drop(columns=['stop_code'], inplace=True, errors='ignore')

# # Renommer la colonne stop_id en stop_code dans tam_df
# tam_df.rename(columns={'stop_id': 'stop_code'}, inplace=True)

# # Extraire stop_code et stop_id depuis stops.txt
# stops_info = stops_df[['stop_id', 'stop_code']]

# # Convertir stop_code en chaîne de caractères dans les deux DataFrames
# tam_df['stop_code'] = tam_df['stop_code'].astype(str)
# stops_info['stop_code'] = stops_info['stop_code'].astype(str)

# # Fusionner les deux DataFrames sur stop_code
# merged_df = pd.merge(tam_df, stops_info, on='stop_code', how='left')

# # Convertir la colonne stop_id en entier
# merged_df['stop_id'] = pd.to_numeric(merged_df['stop_id'], errors='coerce').astype('Int64')

# # Afficher les colonnes après modification pour vérifier
# print("Colonnes dans tam_df après modification:", tam_df.columns)

# # Afficher un aperçu du résultat
# print(merged_df.head())

# # Enregistrer le résultat dans un nouveau fichier CSV
# # merged_df.to_csv('merged_file.csv', index=False)


In [21]:
# # Lire le fichier merged_file.csv
# merged_df = pd.read_csv('merged_file.csv')

# # Convertir route_short_name en numérique si nécessaire
# if merged_df['route_short_name'].dtype == object:
#     merged_df['route_short_name'] = pd.to_numeric(merged_df['route_short_name'], errors='coerce')

# # Convertir stop_id en entier si nécessaire
# if merged_df['stop_id'].dtype == object:
#     merged_df['stop_id'] = pd.to_numeric(merged_df['stop_id'], errors='coerce')

# # Filtrer les lignes où route_short_name est égal à 1, 2, 3 ou 4
# filtered_df = merged_df[merged_df['route_short_name'].isin([1, 2, 3, 93, 4])]

# # Convertir route_short_name et stop_id en entiers (type Int64 pour gérer les NaN)
# filtered_df['route_short_name'] = filtered_df['route_short_name'].astype('Int64')
# filtered_df['stop_id'] = filtered_df['stop_id'].astype('Int64')

# # Afficher un aperçu du résultat
# print(filtered_df.head())
# print(filtered_df.dtypes)  # Vérifier les types de données

# # Enregistrer le résultat dans un nouveau fichier CSV
# filtered_df.to_csv(folder+'filtered_merged_file.csv', index=False)

In [22]:
# # Lire le fichier filtré en spécifiant les types de données
# filtered_df = pd.read_csv(folder+'filtered_merged_file.csv',dtype={'route_short_name': 'Int64', 'stop_id': 'Int64'})

# # Filtrer les lignes où stop_name contient "Boirargues" (insensible à la casse)
# boirargues_df = filtered_df[filtered_df['stop_name'].str.contains('Boirargues', case=False, na=False)]

# # Afficher le résultat
# boirargues_df

In [23]:
# # Sélectionner uniquement les colonnes souhaitées : route_id, stop_id, et stop_name
# filtered_df = filtered_df[['route_short_name', 'stop_id', 'stop_name','trip_headsign','direction_id']]
# filtered_df

In [24]:
# # Grouper par route_short_name, stop_name et direction_id, puis agréger les stop_id et trip_headsign en listes
# grouped_stop_id = filtered_df.groupby(['route_short_name', 'stop_name', 'direction_id'])['stop_id'].agg(list).reset_index()
# grouped_trip_headsign = filtered_df.groupby(['route_short_name', 'stop_name', 'direction_id'])['trip_headsign'].agg(list).reset_index()

# # Supprimer les doublons dans les listes de stop_id et trip_headsign
# grouped_stop_id['stop_id'] = grouped_stop_id['stop_id'].apply(lambda x: list(set(x)))
# grouped_trip_headsign['trip_headsign'] = grouped_trip_headsign['trip_headsign'].apply(lambda x: list(set(x)))

# # Fusionner les deux DataFrames groupés
# merged_grouped_df = pd.merge(grouped_stop_id, grouped_trip_headsign, on=['route_short_name', 'stop_name', 'direction_id'])

# # Pivoter pour avoir direction_id comme colonnes pour stop_id
# pivot_stop_id = merged_grouped_df.pivot(index=['route_short_name', 'stop_name'], columns='direction_id', values='stop_id').reset_index()

# # Pivoter pour avoir direction_id comme colonnes pour trip_headsign
# pivot_trip_headsign = merged_grouped_df.pivot(index=['route_short_name', 'stop_name'], columns='direction_id', values='trip_headsign').reset_index()

# # Remplir les NaN par des listes vides
# for col in [0, 1]:
#     pivot_stop_id[col] = pivot_stop_id[col].apply(lambda x: x if isinstance(x, list) else [])
#     pivot_trip_headsign[col] = pivot_trip_headsign[col].apply(lambda x: x if isinstance(x, list) else [])

# # Fonction pour convertir les stop_id en chaînes et formater en liste de 2 éléments
# def format_stop_ids(row):
#     val_0 = str(row[0][0]) if isinstance(row[0], list) and row[0] else ""
#     val_1 = str(row[1][0]) if isinstance(row[1], list) and row[1] else ""
#     return [val_0, val_1]

# # Fonction pour formater les trip_headsign en liste de 2 strings
# def format_trip_headsign(row):
#     val_0 = row[0][0] if isinstance(row[0], list) and row[0] else ""
#     val_1 = row[1][0] if isinstance(row[1], list) and row[1] else ""
#     return [val_0, val_1]

# # Appliquer les fonctions pour créer les colonnes stop_ids et trip_headsigns
# pivot_stop_id['stop_ids'] = pivot_stop_id.apply(format_stop_ids, axis=1)
# pivot_trip_headsign['trip_headsigns'] = pivot_trip_headsign.apply(format_trip_headsign, axis=1)

# # Fusionner les deux DataFrames pivotés
# pivot_df = pd.merge(pivot_stop_id[['route_short_name', 'stop_name', 'stop_ids']],
#                     pivot_trip_headsign[['route_short_name', 'stop_name', 'trip_headsigns']],
#                     on=['route_short_name', 'stop_name'])

# # Afficher le DataFrame final
# print(pivot_df)


In [25]:
# # Pour chaque route_short_name, créer un CSV
# for route_short_name, group in pivot_df.groupby('route_short_name'):
#     # Sélectionner les colonnes souhaitées (stop_name, stop_ids et trip_headsigns)
#     result_df = group[['stop_name', 'stop_ids', 'trip_headsigns']]

#     # Enregistrer dans un fichier CSV
#     filename = f'{folder}route_{route_short_name}_stops.csv'
#     result_df.to_csv(filename, index=False)
#     print(f"Fichier {filename} créé avec succès.")


## END //////////////////////////////////////////

In [27]:
# Charger les fichiers
trips_df = pd.read_csv(folder+'trips.txt')
stop_times_df = pd.read_csv(folder+'stop_times.txt')
stops_df = pd.read_csv(folder+'stops.txt')

# Convertir route_id en numérique et supprimer les NaN
trips_df['route_id'] = pd.to_numeric(trips_df['route_id'], errors='coerce')
trips_df = trips_df.dropna(subset=['route_id'])

# Exclure les lignes où trip_id contient 'A'
trips_df = trips_df[~trips_df['trip_id'].astype(str).str.contains('A', na=False)]

# Convertir route_id en int
trips_df['route_id'] = trips_df['route_id'].astype(int)

# Filtrer les trips pour les route_id 1, 2, 3, et 4
trips_filtered = trips_df[trips_df['route_id'].isin([1, 2, 3, 4])]

# Fusionner trips_filtered avec stop_times_df sur trip_id
merged_trips_stop_times = pd.merge(trips_filtered, stop_times_df, on='trip_id')

# Convertir stop_id en numérique et supprimer les NaN
merged_trips_stop_times['stop_id'] = pd.to_numeric(merged_trips_stop_times['stop_id'], errors='coerce')
merged_trips_stop_times = merged_trips_stop_times.dropna(subset=['stop_id'])

# Convertir stop_id en int
merged_trips_stop_times['stop_id'] = merged_trips_stop_times['stop_id'].astype(int)

# Fusionner le résultat avec stops_df sur stop_id pour obtenir les noms des arrêts
final_df = pd.merge(merged_trips_stop_times, stops_df, on='stop_id')

# Sélectionner uniquement les colonnes souhaitées : route_id, stop_id, et stop_name
final_df = final_df[['route_id', 'stop_id', 'stop_name']]

# Supprimer les doublons
final_df = final_df.drop_duplicates()

# Afficher le résultat
print(final_df)

# Pour enregistrer le résultat dans un fichier CSV
final_df.to_csv(folder+'stops_by_route.csv', index=False)


       route_id  stop_id                 stop_name
0             1     1122                Saint-Paul
1             1     1123     Halles de la Paillade
2             1     1765        Stade de la Mosson
3             1     1071                    Mosson
5             1     1764        Stade de la Mosson
...         ...      ...                       ...
75479         4     1950  Peyrou - Arc de Triomphe
75480         4     1952  Saint-Guilhem - Courreau
75488         4     1947              Garcia Lorca
75489         4     1728                 Restanque
75490         4     1729              Saint-Martin

[190 rows x 3 columns]


### Nouvelle tentative avec l'extra ligne 3 et 93

## BEGIN //////////////////////////////////////////

In [28]:
# import pandas as pd
# import os

# # Chemin vers le dossier contenant les fichiers GTFS
# gtfs_directory = './gtfs/'

# # Lister les fichiers .txt dans le dossier
# gtfs_files = [f for f in os.listdir(gtfs_directory) if f.endswith('.txt')]

# # Charger chaque fichier dans un DataFrame et stocker dans un dictionnaire
# gtfs_data = {}
# for file in gtfs_files:
#     file_path = os.path.join(gtfs_directory, file)
#     gtfs_data[file.replace('.txt', '')] = pd.read_csv(file_path, low_memory=False)

# # Afficher les noms des fichiers chargés
# print("Fichiers chargés :", list(gtfs_data.keys()))

# # Afficher un aperçu de chaque fichier
# for name, df in gtfs_data.items():
#     print(f"\nFichier: {name}.txt")
#     print(f"Forme: {df.shape}")
#     print("Aperçu des données :")
#     display(df.head())
#     print("\nColonnes :", list(df.columns))
#     print("\nTypes de données :")
#     print(df.dtypes)
#     print("\n" + "="*50)


In [29]:
# # Charger les fichiers
# trips_df = pd.read_csv(folder+'trips.txt')
# stop_times_df = pd.read_csv(folder+'stop_times.txt')
# stops_df = pd.read_csv(folder+'stops.txt')

# # Convertir route_id en numérique et supprimer les NaN
# trips_df['route_id'] = pd.to_numeric(trips_df['route_id'], errors='coerce')
# trips_df = trips_df.dropna(subset=['route_id'])

# # Exclure les lignes où trip_id contient 'A'
# trips_df = trips_df[~trips_df['trip_id'].astype(str).str.contains('A', na=False)]

# # Convertir route_id en int
# trips_df['route_id'] = trips_df['route_id'].astype(int)

# # Filtrer les trips pour les route_id 1, 2, 3, et 4
# trips_filtered = trips_df[trips_df['route_id'].isin([1, 2, 3, 93, 4])]

# # Fusionner trips_filtered avec stop_times_df sur trip_id
# merged_trips_stop_times = pd.merge(trips_filtered, stop_times_df, on='trip_id')

# # Convertir stop_id en numérique et supprimer les NaN
# merged_trips_stop_times['stop_id'] = pd.to_numeric(merged_trips_stop_times['stop_id'], errors='coerce')
# merged_trips_stop_times = merged_trips_stop_times.dropna(subset=['stop_id'])

# # Convertir stop_id en int
# merged_trips_stop_times['stop_id'] = merged_trips_stop_times['stop_id'].astype(int)

# # Fusionner le résultat avec stops_df sur stop_id pour obtenir les noms des arrêts
# final_df = pd.merge(merged_trips_stop_times, stops_df, on='stop_id')

# # Sélectionner uniquement les colonnes souhaitées : route_id, stop_id, et stop_name
# final_df = final_df[['route_id', 'stop_id', 'stop_name']]

# # Supprimer les doublons
# final_df = final_df.drop_duplicates()

# # Afficher le résultat
# print(final_df)

# # Pour enregistrer le résultat dans un fichier CSV
# final_df.to_csv('stops_by_route.csv', index=False)


In [30]:
# exists = final_df['stop_name'].str.lower().eq('boirargues').any()
# print(exists)

## Analyse de la data reçu - Après travaux

In [31]:
import pandas as pd
import json

df = pd.read_json("feed_entity_exemple_v2.json")

with open("feed_entity_exemple_v2.json") as f:
    data = json.load(f)

df = pd.json_normalize(data)

df

Unnamed: 0,id,tripUpdate.trip.tripId,tripUpdate.trip.scheduleRelationship,tripUpdate.trip.routeId,tripUpdate.trip.directionId,tripUpdate.stopTimeUpdate,tripUpdate.vehicle.id,tripUpdate.vehicle.label,tripUpdate.timestamp
0,1582926369-11,1582926369-11,SCHEDULED,1,1,"[{'arrival': {'delay': 0, 'time': '1762242901'...",2072,2072,1762245395
1,1582926221-11,1582926221-11,SCHEDULED,1,0,"[{'arrival': {'delay': 108, 'time': '176224306...",2014,2014,1762245395
2,1582926376-11,1582926376-11,SCHEDULED,1,1,"[{'arrival': {'delay': 28, 'time': '1762247009...",,,1762245395
3,1582926237-11,1582926237-11,SCHEDULED,1,0,"[{'arrival': {'delay': -245, 'time': '17622445...",2023,2023,1762245404
4,1582926288-11,1582926288-11,SCHEDULED,1,1,"[{'departure': {'time': '1762248781'}, 'stopId...",,,1762243396
...,...,...,...,...,...,...,...,...,...
376,1582886810-11,1582886810-11,SCHEDULED,A,0,"[{'arrival': {'delay': -538, 'time': '17622444...",708,708,1762245407
377,1582886747-11,1582886747-11,SCHEDULED,A,1,"[{'arrival': {'delay': -918, 'time': '17622458...",,,1762245407
378,1582886815-11,1582886815-11,SCHEDULED,A,0,"[{'arrival': {'delay': -360, 'time': '17622476...",,,1762243447
379,1582886742-11,1582886742-11,SCHEDULED,A,1,"[{'arrival': {'delay': -960, 'time': '17622488...",,,1762245247


In [2]:
route_id_list = df['tripUpdate.trip.routeId'].unique().tolist()
route_id_list

['1',
 '2',
 '3',
 '4',
 '6',
 '13',
 '10',
 '19',
 '7',
 '8',
 '11',
 '17',
 '52',
 '15',
 '14',
 '16',
 '53',
 'A']

In [32]:
route_three_list = df[df['tripUpdate.trip.routeId']=='3']
route_three_list

Unnamed: 0,id,tripUpdate.trip.tripId,tripUpdate.trip.scheduleRelationship,tripUpdate.trip.routeId,tripUpdate.trip.directionId,tripUpdate.stopTimeUpdate,tripUpdate.vehicle.id,tripUpdate.vehicle.label,tripUpdate.timestamp
87,1582778215-11,1582778215-11,SCHEDULED,3,0,"[{'arrival': {'delay': -880, 'time': '17622423...",2088.0,2088.0,1762245406
88,1582778437-11,1582778437-11,SCHEDULED,3,1,"[{'departure': {'time': '1762246981'}, 'stopId...",,,1762244414
89,1582778252-11,1582778252-11,SCHEDULED,3,0,"[{'arrival': {'delay': -614, 'time': '17622440...",2086.0,2086.0,1762245404
90,1582778253-11,1582778253-11,SCHEDULED,3,1,"[{'arrival': {'delay': -111, 'time': '17622479...",,,1762245406
91,1582778282-11,1582778282-11,SCHEDULED,3,1,"[{'arrival': {'delay': -11, 'time': '176224247...",2089.0,2089.0,1762245396
92,1582778521-11,1582778521-11,SCHEDULED,3,0,"[{'arrival': {'delay': -809, 'time': '17622455...",,,1762245396
93,1582778520-11,1582778520-11,SCHEDULED,3,1,"[{'arrival': {'delay': 32, 'time': '1762243293...",2080.0,2080.0,1762245394
94,1582778311-11,1582778311-11,SCHEDULED,3,0,"[{'arrival': {'delay': -1195, 'time': '1762246...",,,1762245396
95,1582778310-11,1582778310-11,SCHEDULED,3,1,"[{'arrival': {'delay': 45, 'time': '1762244206...",2077.0,2077.0,1762245366
96,1582778384-11,1582778384-11,SCHEDULED,3,0,"[{'arrival': {'delay': -1134, 'time': '1762247...",,,1762245366


In [33]:
route_three_list_test = route_three_list[['tripUpdate.trip.routeId', 'tripUpdate.trip.directionId','tripUpdate.stopTimeUpdate']]
route_three_list_test

Unnamed: 0,tripUpdate.trip.routeId,tripUpdate.trip.directionId,tripUpdate.stopTimeUpdate
87,3,0,"[{'arrival': {'delay': -880, 'time': '17622423..."
88,3,1,"[{'departure': {'time': '1762246981'}, 'stopId..."
89,3,0,"[{'arrival': {'delay': -614, 'time': '17622440..."
90,3,1,"[{'arrival': {'delay': -111, 'time': '17622479..."
91,3,1,"[{'arrival': {'delay': -11, 'time': '176224247..."
92,3,0,"[{'arrival': {'delay': -809, 'time': '17622455..."
93,3,1,"[{'arrival': {'delay': 32, 'time': '1762243293..."
94,3,0,"[{'arrival': {'delay': -1195, 'time': '1762246..."
95,3,1,"[{'arrival': {'delay': 45, 'time': '1762244206..."
96,3,0,"[{'arrival': {'delay': -1134, 'time': '1762247..."


In [34]:
route_three_list_test['tripUpdate.stopTimeUpdate'] = route_three_list_test['tripUpdate.stopTimeUpdate'].apply(
    lambda stops: [int(stop['stopId']) for stop in stops]
)

route_three_list_test

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  route_three_list_test['tripUpdate.stopTimeUpdate'] = route_three_list_test['tripUpdate.stopTimeUpdate'].apply(


Unnamed: 0,tripUpdate.trip.routeId,tripUpdate.trip.directionId,tripUpdate.stopTimeUpdate
87,3,0,"[1719, 1720, 1721, 1722, 1723, 1724, 1100, 110..."
88,3,1,[1694]
89,3,0,"[1719, 1720, 1721, 1722, 1723, 1724, 1100, 110..."
90,3,1,"[1693, 1694, 1695, 1696, 1697, 1698, 1699, 170..."
91,3,1,"[1694, 1695, 1696, 1697, 1698, 1699, 1700, 170..."
92,3,0,"[1719, 1720, 1721, 1722, 1723, 1724, 1100, 110..."
93,3,1,"[1694, 1695, 1696, 1697, 1698, 1699, 1700, 170..."
94,3,0,"[1719, 1720, 1721, 1722, 1723, 1724, 1100, 110..."
95,3,1,"[1694, 1695, 1696, 1697, 1698, 1699, 1700, 170..."
96,3,0,"[1719, 1720, 1721, 1722, 1723, 1724, 1100, 110..."


In [35]:
from itertools import chain

# Direction 0 : sélectionner et aplatir les listes
stop_lists_dir0 = route_three_list_test.loc[
    route_three_list_test['tripUpdate.trip.directionId'] == 0, 'tripUpdate.stopTimeUpdate'
].tolist()
all_stops_dir0 = list(set(chain.from_iterable(stop_lists_dir0)))  # set pour l'unicité

# Direction 1 : sélectionner et aplatir les listes
stop_lists_dir1 = route_three_list_test.loc[
    route_three_list_test['tripUpdate.trip.directionId'] == 1, 'tripUpdate.stopTimeUpdate'
].tolist()
all_stops_dir1 = list(set(chain.from_iterable(stop_lists_dir1)))  # set pour l'unicité

print("Direction 0 :", all_stops_dir0)
print("Direction 1 :", all_stops_dir1)

len(all_stops_dir0)


Direction 0 : [1693, 1706, 1719, 1720, 1721, 1722, 1723, 1724, 1731, 1732, 1733, 1734, 1735, 1736, 1737, 1738, 1739, 1100, 1101, 1740, 1741, 1232, 1233, 1234, 1742, 1743, 1744]
Direction 1 : [1693, 1694, 1695, 1696, 1697, 1698, 1699, 1700, 1701, 1702, 1703, 1704, 1705, 1193, 1194, 1195, 1712, 1713, 1714, 1715, 1716, 1718, 1719, 1730, 1094, 1095, 1743]


27

In [36]:
# Lire le fichier stops.txt
stops_df = pd.read_csv(folder+'stops.txt')

# Convertir stop_id en entier pour faciliter la comparaison
stops_df['stop_id'] = stops_df['stop_id'].astype(int)

# Créer un DataFrame pour les stops de la direction 0
stops_dir0 = stops_df[stops_df['stop_id'].isin(all_stops_dir0)].copy()
stops_dir0['direction'] = 0

# Créer un DataFrame pour les stops de la direction 1
stops_dir1 = stops_df[stops_df['stop_id'].isin(all_stops_dir1)].copy()
stops_dir1['direction'] = 1

# Fusionner les deux DataFrames
all_stops_df = pd.concat([stops_dir0, stops_dir1])

# Supprimer les doublons (un stop_id peut être dans les deux directions)
all_stops_df = all_stops_df.drop_duplicates(subset=['stop_id'])

# Afficher le résultat
print(all_stops_df[['stop_id', 'stop_name', 'direction']])

# Optionnel : Enregistrer le résultat dans un fichier CSV
# all_stops_df.to_csv('stops_with_directions.csv', index=False)

      stop_id                      stop_name  direction
621      1100                  Port Marianne          0
622      1101      Moularès (Hôtel de Ville)          0
708      1232  Rives du Lez - Consuls de Mer          0
709      1233                       Voltaire          0
710      1234                   Place Carnot          0
987      1693                       Juvignac          0
1000     1706   Gare Saint-Roch - République          0
1011     1719           Pérols Étang de l'Or          0
1012     1720                  Pérols Centre          0
1013     1721                      Parc Expo          0
1014     1722                        EcoPôle          0
1015     1723                     Boirargues          0
1016     1724                  Pablo Picasso          0
1022     1731                   Observatoire          0
1023     1732                    Saint-Denis          0
1024     1733                   Plan Cabanes          0
1025     1734                    Les Arceaux    

## IV. Analyse du temps avec directions

In [37]:
import pandas as pd
import json

# Charger les données (comme dans votre exemple)
df = pd.read_json("feed_entity_exemple_v2.json")
with open("feed_entity_exemple_v2.json") as f:
    data = json.load(f)
df = pd.json_normalize(data)

def get_stop_times(df, stop_id):
    # Filtrer les lignes où stopId correspond à celui recherché
    stop_times = []

    # Parcourir chaque entité dans le DataFrame
    for _, entity in df.iterrows():
        if 'tripUpdate.stopTimeUpdate' in entity:
            for stop_update in entity['tripUpdate.stopTimeUpdate']:
                if stop_update['stopId'] == stop_id:
                    # Extraire les informations
                    trip_id = entity['tripUpdate.trip.tripId']
                    route_id = entity['tripUpdate.trip.routeId']
                    direction_id = entity['tripUpdate.trip.directionId']
                    timestamp = entity['tripUpdate.timestamp']

                    arrival = stop_update.get('arrival', {})
                    departure = stop_update.get('departure', {})

                    stop_times.append({
                        'trip_id': trip_id,
                        'route_id': route_id,
                        'direction_id': direction_id,
                        'arrival_time': arrival.get('time'),
                        'arrival_delay': arrival.get('delay'),
                        'departure_time': departure.get('time'),
                        'departure_delay': departure.get('delay'),
                        'schedule_relationship': stop_update.get('scheduleRelationship'),
                        'timestamp': timestamp
                    })

    # Créer un DataFrame à partir des résultats
    result_df = pd.DataFrame(stop_times)

    # Convertir les timestamps en datetime
    if 'arrival_time' in result_df.columns:
        result_df['arrival_datetime'] = pd.to_datetime(result_df['arrival_time'], unit='s')
    if 'departure_time' in result_df.columns:
        result_df['departure_datetime'] = pd.to_datetime(result_df['departure_time'], unit='s')
    if 'timestamp' in result_df.columns:
        result_df['update_timestamp'] = pd.to_datetime(result_df['timestamp'], unit='s')

    return result_df

# Exemple d'utilisation pour le stopId "1071"
stop_id = "1071"
stop_times_df = get_stop_times(df, stop_id)

# Afficher le résultat
print(stop_times_df[[
    'trip_id', 'route_id', 'direction_id',
    'arrival_datetime', 'arrival_delay',
    'departure_datetime', 'departure_delay',
    'schedule_relationship', 'update_timestamp'
]])

# Optionnel : Enregistrer dans un fichier CSV
# stop_times_df.to_csv(f"stop_times_{stop_id}.csv", index=False)


          trip_id route_id  direction_id    arrival_datetime  arrival_delay  \
0   1582926369-11        1             1 2025-11-04 08:55:12            192   
1   1582926221-11        1             0 2025-11-04 07:57:48            108   
2   1582926376-11        1             1 2025-11-04 10:00:29             29   
3   1582926237-11        1             0 2025-11-04 08:21:55           -245   
4   1582926429-11        1             1 2025-11-04 08:49:29            509   
5   1582926240-11        1             0 2025-11-04 08:49:29            209   
6   1582926430-11        1             1 2025-11-04 08:56:41             41   
7   1582926242-11        1             0 2025-11-04 08:56:41           -259   
8   1582926357-11        1             1 2025-11-04 09:01:21            141   
9   1582926243-11        1             0 2025-11-04 09:01:21           -279   
10  1582926204-11        1             1 2025-11-04 09:05:02            -58   
11  1582926244-11        1             0 2025-11-04 

  result_df['arrival_datetime'] = pd.to_datetime(result_df['arrival_time'], unit='s')
  result_df['departure_datetime'] = pd.to_datetime(result_df['departure_time'], unit='s')
  result_df['update_timestamp'] = pd.to_datetime(result_df['timestamp'], unit='s')


In [38]:
stop_times_df[stop_times_df['direction_id']==0]

Unnamed: 0,trip_id,route_id,direction_id,arrival_time,arrival_delay,departure_time,departure_delay,schedule_relationship,timestamp,arrival_datetime,departure_datetime,update_timestamp
1,1582926221-11,1,0,1762243068,108,1762243278,318,SCHEDULED,1762245395,2025-11-04 07:57:48,2025-11-04 08:01:18,2025-11-04 08:36:35
3,1582926237-11,1,0,1762244515,-245,1762244769,9,SCHEDULED,1762245404,2025-11-04 08:21:55,2025-11-04 08:26:09,2025-11-04 08:36:44
5,1582926240-11,1,0,1762246169,209,1762246169,209,SCHEDULED,1762245395,2025-11-04 08:49:29,2025-11-04 08:49:29,2025-11-04 08:36:35
7,1582926242-11,1,0,1762246601,-259,1762246860,0,SCHEDULED,1762245405,2025-11-04 08:56:41,2025-11-04 09:01:00,2025-11-04 08:36:45
9,1582926243-11,1,0,1762246881,-279,1762247160,0,SCHEDULED,1762245405,2025-11-04 09:01:21,2025-11-04 09:06:00,2025-11-04 08:36:45
11,1582926244-11,1,0,1762247102,-358,1762247460,0,SCHEDULED,1762245395,2025-11-04 09:05:02,2025-11-04 09:11:00,2025-11-04 08:36:35
14,1582926241-11,1,0,1762246203,-57,1762246260,0,SCHEDULED,1762245405,2025-11-04 08:50:03,2025-11-04 08:51:00,2025-11-04 08:36:45
16,1582926248-11,1,0,1762248737,-223,1762248960,0,SCHEDULED,1762245405,2025-11-04 09:32:17,2025-11-04 09:36:00,2025-11-04 08:36:45
18,1582926384-11,1,0,1762248059,-301,1762248360,0,SCHEDULED,1762245405,2025-11-04 09:20:59,2025-11-04 09:26:00,2025-11-04 08:36:45
20,1582926247-11,1,0,1762248245,-415,1762248660,0,SCHEDULED,1762245405,2025-11-04 09:24:05,2025-11-04 09:31:00,2025-11-04 08:36:45


### Exemples avec d'autres lignes

In [39]:
# route_a_list = df[df['tripUpdate.trip.routeId']=='A']
# route_a_list

In [40]:
# route_a_list_test = route_a_list[['tripUpdate.trip.routeId', 'tripUpdate.trip.directionId','tripUpdate.stopTimeUpdate']]
# route_a_list_test['tripUpdate.stopTimeUpdate'] = route_a_list_test['tripUpdate.stopTimeUpdate'].apply(
#     lambda stops: [int(stop['stopId']) for stop in stops]
# )

# route_a_list_test

In [41]:
# from itertools import chain

# # Direction 0 : sélectionner et aplatir les listes
# stop_lists_dira0 = route_a_list_test.loc[
#     route_a_list_test['tripUpdate.trip.directionId'] == 0, 'tripUpdate.stopTimeUpdate'
# ].tolist()
# all_stops_dira0 = list(set(chain.from_iterable(stop_lists_dira0)))  # set pour l'unicité

# # Direction 1 : sélectionner et aplatir les listes
# stop_lists_dira1 = route_a_list_test.loc[
#     route_a_list_test['tripUpdate.trip.directionId'] == 1, 'tripUpdate.stopTimeUpdate'
# ].tolist()
# all_stops_dira1 = list(set(chain.from_iterable(stop_lists_dira1)))  # set pour l'unicité

# print("Direction 0 :", all_stops_dira0)
# print("Direction 1 :", all_stops_dira1)

# len(all_stops_dira0)

In [42]:
# route_treize_list = df[df['tripUpdate.trip.routeId']=='13']

# route_treize_list_test = route_treize_list[['tripUpdate.trip.routeId', 'tripUpdate.trip.directionId','tripUpdate.stopTimeUpdate']]
# route_treize_list_test['tripUpdate.stopTimeUpdate'] = route_treize_list_test['tripUpdate.stopTimeUpdate'].apply(
#     lambda stops: [int(stop['stopId']) for stop in stops]
# )

# # Direction 0 : sélectionner et aplatir les listes
# stop_lists_dirtreize0 = route_treize_list_test.loc[
#     route_treize_list_test['tripUpdate.trip.directionId'] == 0, 'tripUpdate.stopTimeUpdate'
# ].tolist()
# all_stops_dirtreize0 = list(set(chain.from_iterable(stop_lists_dirtreize0)))  # set pour l'unicité

# # Direction 1 : sélectionner et aplatir les listes
# stop_lists_dirtreize1 = route_treize_list_test.loc[
#     route_treize_list_test['tripUpdate.trip.directionId'] == 1, 'tripUpdate.stopTimeUpdate'
# ].tolist()
# all_stops_dirtreize1 = list(set(chain.from_iterable(stop_lists_dirtreize1)))  # set pour l'unicité

# print("Direction 0 :", all_stops_dirtreize0)
# print("Direction 1 :", all_stops_dirtreize1)

# len(all_stops_dirtreize0)

In [43]:
# route_cinquantetrois_list = df[df['tripUpdate.trip.routeId']=='53']

# route_cinquantetrois_list_test = route_cinquantetrois_list[['tripUpdate.trip.routeId', 'tripUpdate.trip.directionId','tripUpdate.stopTimeUpdate']]
# route_cinquantetrois_list_test['tripUpdate.stopTimeUpdate'] = route_cinquantetrois_list_test['tripUpdate.stopTimeUpdate'].apply(
#     lambda stops: [int(stop['stopId']) for stop in stops]
# )

# # Direction 0 : sélectionner et aplatir les listes
# stop_lists_dircinquantetrois0 = route_cinquantetrois_list_test.loc[
#     route_cinquantetrois_list_test['tripUpdate.trip.directionId'] == 0, 'tripUpdate.stopTimeUpdate'
# ].tolist()
# all_stops_dircinquantetrois0 = list(set(chain.from_iterable(stop_lists_dircinquantetrois0)))  # set pour l'unicité

# # Direction 1 : sélectionner et aplatir les listes
# stop_lists_dircinquantetrois1 = route_cinquantetrois_list_test.loc[
#     route_cinquantetrois_list_test['tripUpdate.trip.directionId'] == 1, 'tripUpdate.stopTimeUpdate'
# ].tolist()
# all_stops_dircinquantetrois1 = list(set(chain.from_iterable(stop_lists_dircinquantetrois1)))  # set pour l'unicité

# print("Direction 0 :", all_stops_dircinquantetrois0)
# print("Direction 1 :", all_stops_dircinquantetrois1)

# len(all_stops_dircinquantetrois0)

In [44]:
route_one_list = df[df['tripUpdate.trip.routeId']=='1']

route_one_list_test = route_one_list[['tripUpdate.trip.routeId', 'tripUpdate.trip.directionId','tripUpdate.stopTimeUpdate']]
route_one_list_test['tripUpdate.stopTimeUpdate'] = route_one_list_test['tripUpdate.stopTimeUpdate'].apply(
    lambda stops: [int(stop['stopId']) for stop in stops]
)

# Direction 0 : sélectionner et aplatir les listes
stop_lists_dirone0 = route_one_list_test.loc[
    route_one_list_test['tripUpdate.trip.directionId'] == 0, 'tripUpdate.stopTimeUpdate'
].tolist()
all_stops_dirone0 = list(set(chain.from_iterable(stop_lists_dirone0)))  # set pour l'unicité

# Direction 1 : sélectionner et aplatir les listes
stop_lists_dirone1 = route_one_list_test.loc[
    route_one_list_test['tripUpdate.trip.directionId'] == 1, 'tripUpdate.stopTimeUpdate'
].tolist()
all_stops_dirone1 = list(set(chain.from_iterable(stop_lists_dirone1)))  # set pour l'unicité

print("Direction 0 :", all_stops_dirone0)
print("Direction 1 :", all_stops_dirone1)

len(all_stops_dirone0)

Direction 0 : [1540, 2446, 1071, 1072, 1073, 1074, 1075, 1076, 1077, 1078, 1079, 1080, 1081, 1082, 1083, 1084, 1085, 1086, 1087, 1088, 1090, 1091, 1092, 1093, 1094, 1095, 1096, 1097, 1752, 1764, 1652]
Direction 1 : [1541, 2447, 1071, 1098, 1099, 1100, 1101, 1102, 1103, 1104, 1105, 1107, 1108, 1109, 1110, 1751, 1111, 1113, 1112, 1114, 1115, 1116, 1117, 1118, 1119, 1120, 1121, 1122, 1123, 1765, 1653]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  route_one_list_test['tripUpdate.stopTimeUpdate'] = route_one_list_test['tripUpdate.stopTimeUpdate'].apply(


31

In [46]:
# Lire le fichier stops.txt
stops_df = pd.read_csv(folder+'stops.txt')

# Convertir stop_id en entier pour faciliter la comparaison
stops_df['stop_id'] = stops_df['stop_id'].astype(int)

# Créer un DataFrame pour les stops de la direction 0
stops_dir0 = stops_df[stops_df['stop_id'].isin(all_stops_dirone0)].copy()
stops_dir0['direction'] = 0

# Créer un DataFrame pour les stops de la direction 1
stops_dir1 = stops_df[stops_df['stop_id'].isin(all_stops_dirone1)].copy()
stops_dir1['direction'] = 1

# Fusionner les deux DataFrames
all_stops_df = pd.concat([stops_dir0, stops_dir1])

# Supprimer les doublons (un stop_id peut être dans les deux directions)
all_stops_df = all_stops_df.drop_duplicates(subset=['stop_id'])

# Afficher le résultat
print(all_stops_df[['stop_id', 'stop_name', 'direction']])

# Optionnel : Enregistrer le résultat dans un fichier CSV
all_stops_df.to_csv(save+'stops_with_directions_one.csv', index=False)

      stop_id              stop_name  direction
593      1071                 Mosson          0
594      1072  Halles de la Paillade          0
595      1073             Saint-Paul          0
596      1074       Hauts de Massane          0
597      1075           Euromédecine          0
...       ...                    ...        ...
930      1541        Place de France          1
972      1653             Mondial 98          1
1036     1751            Du Guesclin          1
1043     1765     Stade de la Mosson          1
1501     2447     Gare Sud de France          1

[61 rows x 3 columns]


### Analyses de toutes les lignes

In [47]:
from itertools import chain

route_keys = ['1', '2', '3', '4', '5', '6', '13', '7', '19', '11', '8', '10', '16', '14', '52', '15', '53', '17', 'A']

all_stops_by_route = {}

for route in route_keys:
    route_list = df[df['tripUpdate.trip.routeId'] == route]
    route_list_test = route_list[['tripUpdate.trip.routeId', 'tripUpdate.trip.directionId','tripUpdate.stopTimeUpdate']].copy()
    
    # Transformer stopTimeUpdate en liste de stopId
    route_list_test['tripUpdate.stopTimeUpdate'] = route_list_test['tripUpdate.stopTimeUpdate'].apply(
        lambda stops: [int(stop['stopId']) for stop in stops]
    )
    
    # Direction 0
    stop_lists_dir0 = route_list_test.loc[
        route_list_test['tripUpdate.trip.directionId'] == 0, 'tripUpdate.stopTimeUpdate'
    ].tolist()
    all_stops_dir0 = list(set(chain.from_iterable(stop_lists_dir0)))
    
    # Direction 1
    stop_lists_dir1 = route_list_test.loc[
        route_list_test['tripUpdate.trip.directionId'] == 1, 'tripUpdate.stopTimeUpdate'
    ].tolist()
    all_stops_dir1 = list(set(chain.from_iterable(stop_lists_dir1)))
    
    # Stocker les résultats
    all_stops_by_route[route] = {0: all_stops_dir0, 1: all_stops_dir1}
    
    # Afficher la longueur des tableaux pour cette route
    print(f"Route {route} -> Direction 0 : {len(all_stops_dir0)}, Direction 1 : {len(all_stops_dir1)}")


Route 1 -> Direction 0 : 31, Direction 1 : 31
Route 2 -> Direction 0 : 28, Direction 1 : 28
Route 3 -> Direction 0 : 27, Direction 1 : 27
Route 4 -> Direction 0 : 19, Direction 1 : 19
Route 5 -> Direction 0 : 0, Direction 1 : 0
Route 6 -> Direction 0 : 20, Direction 1 : 21
Route 13 -> Direction 0 : 19, Direction 1 : 21
Route 7 -> Direction 0 : 14, Direction 1 : 15
Route 19 -> Direction 0 : 17, Direction 1 : 18
Route 11 -> Direction 0 : 29, Direction 1 : 33
Route 8 -> Direction 0 : 13, Direction 1 : 10
Route 10 -> Direction 0 : 34, Direction 1 : 37
Route 16 -> Direction 0 : 14, Direction 1 : 14
Route 14 -> Direction 0 : 30, Direction 1 : 29
Route 52 -> Direction 0 : 5, Direction 1 : 5
Route 15 -> Direction 0 : 45, Direction 1 : 45
Route 53 -> Direction 0 : 12, Direction 1 : 12
Route 17 -> Direction 0 : 20, Direction 1 : 20
Route A -> Direction 0 : 8, Direction 1 : 8
