# API SNCF: Les retards de train

__Auteur :__ 

Steve Caron

__Présentation :__ 

Ce script permet de requêter les informations sur les arrivées des trains en gare pour la journée d'hier. 

Il retourne les réponses des requêtes dans deux répertoires:

* data/arrivees/ : répertoire contenant les informations sur les arrivées en gare

* data/perturbations/ : répertoire contenant les informations sur les perturabations observées sur les arrivées en gare


__Inputs :__ 

Un fichier data/top{n}gare.json contenant les informations permettant de faire les requêtes pour chaques gares. Les enregistrements sont classés en fonction de la fréquentation des gares.

__Params :__

* CLEF_API : nom sous lequel est enregistrer la cle API

In [1]:
from dotenv import load_dotenv
import os
import requests
import json
import csv
import datetime
from dataclasses import dataclass,asdict
import pandas as pd
from sqlalchemy import create_engine,text
from sqlalchemy.types import *
import logging

In [2]:
CLEF_API = "API_KEY"
DB_PORT = 3306

In [3]:
db_log_file_name = 'db.log'
db_handler_log_level = logging.DEBUG
db_logger_log_level = logging.DEBUG

db_handler = logging.FileHandler(db_log_file_name)
db_handler.setLevel(db_handler_log_level)

db_logger = logging.getLogger('sqlalchemy')
db_logger.addHandler(db_handler)
db_logger.setLevel(db_logger_log_level)

In [4]:
def convertir_en_string(dt):
    '''Cette fonction convertit un datetime en chaîne de caractères'''
    if str is None:
        return None
    else:
        return datetime.datetime.strftime(dt,'%Y%m%dT%H%M%S')

In [5]:
def convertir_en_datetime(str):
    '''Cette fonction convertit une chaîne de caractères en datetime'''
    if str is None:
        return None
    else:
        return datetime.datetime.strptime(str,"%Y%m%dT%H%M%S")

In [6]:
def to_json(data,nom_fichier):
    '''Cette fonction permet d'enregistrer un fichier JSON'''
    with open(nom_fichier, "w") as fc:
        json.dump(data, fc)

In [7]:
def to_csv(data,nom_fichier):
    '''Cette fonction permet d'enregistrer un fichier CSV'''
    with open(nom_fichier,"w", newline='', encoding='utf-8')as fc:
        writer = csv.DictWriter(fc,fieldnames=data[0].keys())
        writer.writeheader()
        writer.writerows(data)

In [8]:
def requete_api(code_gare,code_reseau,date):
    '''Cette fonction effectue une requête API pour collecter la liste des arrivées pour une gare spécifique sur un réseau spécifique '''

    base_url = "https://api.sncf.com/v1/coverage/sncf"
    #Requete sans le filtre sur les trains
    requete = f"{base_url}/stop_areas/{code_gare}/networks/{code_reseau}/arrivals?from_datetime={date}"
    reponse = requests.get(requete, auth=(api_key,""))
    reponse_json = reponse.json()
    
    return reponse_json

In [9]:
def requete_entre_dates(code_gare,code_reseau,date_min,date_max,liste_arrivee,liste_perturbation,compteur_requete):
    '''Cette fonction permet de faire des requêtes pour récupérer des données sur tous les enregistrements de la journée.
    Elle sépare en deux listes les informations concernant les départs et les informations concernant les arrivées'''

    date_requete = date_min

    while date_requete < date_max:
        # Requete api
        reponse = requete_api(code_gare,code_reseau,date_requete)
        compteur_requete += 1
        # extrait les arrivées
        arrivees = reponse["arrivals"]
        # extrait les perturbations
        perturbations = reponse["disruptions"]
        # Ajoute chaque arrivées de la requete à la liste
        [liste_arrivee.append(arrivee) for arrivee in arrivees]
        # Ajoute chaque perturbations de la requete à la liste
        [liste_perturbation.append(perturbation)  for perturbation in perturbations]
        # Si il a moins de 10 arrivées, alors la prochaine requete ne donnera rien, on retourne donc directement les résultats
        if len(arrivees) < 10:
            return liste_arrivee,liste_perturbation,compteur_requete
        
        date_derniere_requete = convertir_en_datetime(arrivees[-1]["stop_date_time"]["arrival_date_time"])
        date_requete = convertir_en_string(date_derniere_requete + datetime.timedelta(seconds=1))
    
    return liste_arrivee,liste_perturbation,compteur_requete


In [10]:
def liste_id(nom_fichier):
    '''Cette fonction ouvre un fichier json et récupère une liste de toutes les clés d'un dictionnaire
    Il retourne le fichier json dans une variable et la liste de toutes les clés'''

    #Ouverture du fichier csv
    with open(nom_fichier,"r") as jsonfil:
        data_gare = json.load(jsonfil)
    toutes_id = data_gare["id"]
    liste_cles = []
    # J'ajoute toutes les clés du dictionnaire id dans une liste
    [liste_cles.append(cle) for cle in toutes_id.keys()]
    return data_gare,liste_cles

In [11]:
@dataclass
class Arrivee:
    arrivee_id:                         str
    gare_id:                            str | None
    departure_date_time:                datetime.datetime | None
    base_departure_date_time:           datetime.datetime | None
    arrival_date_time:                  datetime.datetime | None
    base_arrival_date_time:             datetime.datetime | None
    network:                            str | None
    ligne:                              str | None
    trip:                               str | None
    direction:                          str | None
    disruption_id:                      str | None

In [12]:
@dataclass
class Perturbation:
    perturbation_id:                        str | None
    debut:                                  datetime.datetime | None
    fin:                                    datetime.datetime | None
    effet:                                  str | None
    message:                                str | None

In [13]:
def extraire_donnees(data,liste_cles:list):
    '''Cette fonction permet d'extraire une donnée dans un dictionnaire'''
    try:
        for cle in liste_cles:
            #Cas ou la donnée est stockée dans un dictionnaire
            if type(data) is dict:
                data = data[cle]
            #Cas ou la données est stockée dans une liste, alors on prend le premier element de la liste
            else:
                data=data[0][cle]
        return data
    except (KeyError,IndexError):
        return None

In [14]:
def collecte_donnees_arrivee(json_arrivee):
    '''Cette fonction instancie une arrivée et remplie les champs en extrayant les données d'un dictionnaire'''
    arrivee = Arrivee(
        arrivee_id = extraire_donnees(json_arrivee,["stop_point","stop_area","id"]).split(":")[-1]+"-" \
            + convertir_en_datetime(extraire_donnees(json_arrivee,["stop_date_time","arrival_date_time"])).strftime("%Y%m%d") + "-"\
            + extraire_donnees(json_arrivee,["display_informations","trip_short_name"]),
        gare_id = extraire_donnees(json_arrivee,["stop_point","stop_area","id"]),
        departure_date_time = convertir_en_datetime(extraire_donnees(json_arrivee,["stop_date_time","departure_date_time"])),
        base_departure_date_time = convertir_en_datetime(extraire_donnees(json_arrivee,["stop_date_time","base_departure_date_time"])),
        arrival_date_time = convertir_en_datetime(extraire_donnees(json_arrivee,["stop_date_time","arrival_date_time"])),
        base_arrival_date_time = convertir_en_datetime(extraire_donnees(json_arrivee,["stop_date_time","base_arrival_date_time"])),
        network = extraire_donnees(json_arrivee,["display_informations","network"]),
        ligne = extraire_donnees(json_arrivee,["display_informations","label"]),
        trip = extraire_donnees(json_arrivee,["display_informations","trip_short_name"]),
        direction = extraire_donnees(json_arrivee,["display_informations","direction"]),
        disruption_id = extraire_donnees(json_arrivee,["display_informations","links","id"])
    )
    return asdict(arrivee)

In [15]:
def collecte_donnees_perturbation(json_perturbation):
    '''Cette fonction instancie une perturbation et remplie les champs en extrayant les données d'un dictionnaire'''
    perturbation = Perturbation(
        perturbation_id = extraire_donnees(json_perturbation,["id"]),
        debut = extraire_donnees(json_perturbation,["application_periods","begin"]),
        fin = extraire_donnees(json_perturbation,["application_periods","end"]),
        effet = extraire_donnees(json_perturbation,["severity","effect"]),
        message = extraire_donnees(json_perturbation,["messages","text"])
    )
    return asdict(perturbation)

In [16]:
def stockage_en_bdd(nom_fichier):
    '''Cette fonction place des données dans un dataframe et stocke le dataframe dans une base de donnée'''

    #Chargement des données
    df = pd.read_csv(nom_fichier)


    #Schema de la table avec formatage
    df_schema = {
        "arrivee_id": String(255),
        "gare_id": String(255),
        "departure_date_time": DateTime,
        "base_departure_date_time": DateTime,
        "arrival_date_time": DateTime,
        "base_arrival_date_time": DateTime,
        "network": String(255),
        "ligne": String(255),
        "trip": String(255),
        "direction": String(255),
        "disruption_id": String(255)}

    #Connexion à la base de données
    con_string = f"mysql+pymysql://root:{db_password}@localhost:{DB_PORT}/APP_SNCF"
    engine = create_engine(con_string,echo=False)
    
    try:
        #Ajout des données à la base de donnée
        with engine.connect() as con:
            df.to_sql("arrivees",con,if_exists="append",index=False, dtype=df_schema)
    except:
        con.rollback()
        print("Fait un petit rollback")
        raise

    # Modifier la colonne arrivee_id pour la désigner comme primary key
    # with engine.connect() as con:
    #     con.execute(text('ALTER TABLE arrivees ADD PRIMARY KEY(arrivee_id)'))

    print(f"Enregistrement dans la BDD de {len(df.axes[0])} lignes")

In [17]:
def run(data_gare,cle,date_min,date_max):
    '''Cette fontion lance les fonctions pour traiter les données d'une gare'''
    code_gare = data_gare["id"].get(cle)
    nom_gare = data_gare["nom"].get(cle)
    print(f"Debut des requetes pour la gare: {nom_gare}")

    compteur_requete = 0
    liste_code_reseau = []
    liste_arrivees = []
    liste_perturbations = []

    #Récupération des identifiant réseaux pour la gare en cours
    [liste_code_reseau.append(reseau["id"]) for reseau in data_gare["networks"].get(cle)]

    # Je traite réseau par réseau
    for reseau in liste_code_reseau:
        liste_arrivees, liste_perturbations,compteur_requete = requete_entre_dates(code_gare,reseau,date_min,date_max,liste_arrivees,liste_perturbations,compteur_requete)

    #Sauvegarde données brutes
    nom_fichier_arrivees = f"data/arrivees/{code_gare}-{date_max}.json".replace(":","_")
    nom_fichier_perturbations = f"data/perturbations/{code_gare}-{date_max}.json".replace(":","_")
    to_json(liste_arrivees,nom_fichier_arrivees)
    to_json(liste_perturbations,nom_fichier_perturbations)
    
    #Nettoyage des données
    liste_arrivees_clean=[]
    for arrivee in liste_arrivees:
        data_clean_arrivees = collecte_donnees_arrivee(arrivee)
        liste_arrivees_clean.append(data_clean_arrivees)    
    liste_perturbations_clean=[]
    for perturbation in liste_perturbations:
        data_clean_perturbation =collecte_donnees_perturbation(perturbation)
        liste_perturbations_clean.append(data_clean_perturbation)
        
    
    print(f"Fin des requetes pour la gare :{nom_gare} \n {compteur_requete} requetes effectuées")
    
    #Sauvegarde des données propres
    nom_ficher_arrivees_clean = f"data/arrivees_propres/{code_gare}-{date_max}.csv".replace(":","_")
    nom_ficher_perturbations_clean = f"data/perturbations_propres/{code_gare}-{date_max}.csv".replace(":","_")
    #Vérifie si les listes contiennent des données
    if liste_arrivees_clean:
        to_csv(liste_arrivees_clean,nom_ficher_arrivees_clean)
    if liste_perturbations_clean:
        to_csv(liste_perturbations_clean,nom_ficher_perturbations_clean)
    #Enregistrement en BDD
    stockage_en_bdd(nom_ficher_arrivees_clean)

In [18]:
# Récupération de la clé API
load_dotenv()
api_key = os.getenv(CLEF_API)
db_password = os.getenv("DB_PASSWORD")

In [19]:
# Creation des string date permettant de faire les requete API 
aujourdhui = datetime.date.today()
hier_debut_journee = datetime.datetime(year=aujourdhui.year, month=aujourdhui.month, day=aujourdhui.day-1, hour=0, minute=0 ,second=0)
hier_fin_journee = datetime.datetime(year=aujourdhui.year, month=aujourdhui.month, day=aujourdhui.day-1, hour=23, minute=59 ,second=59)
date_min = convertir_en_string(hier_debut_journee)
date_max = convertir_en_string(hier_fin_journee)

In [20]:
# Récupération des clés dictionnaire contenant les informations des gares
data_gare,liste_cle = liste_id("data/top200gare.json")
# Exécution du run pour chaque gare
for cle in liste_cle[2:3]:
    run(data_gare,cle,date_min,date_max)

Debut des requetes pour la gare: Paris - Gare de Lyon - Hall 1 & 2
Première requete pour la gare stop_area:SNCF:87686006 à la date 20240214T000000 sur le reseau network:SNCF:TGVOUIGO
Dernière requete pour la gare stop_area:SNCF:87686006 à la date 20240214T000000 sur le reseau network:SNCF:TGVOUIGO // dernieres requetes 9 arrivées
Première requete pour la gare stop_area:SNCF:87686006 à la date 20240214T000000 sur le reseau network:SNCF:OUIGO_TC
Dernière requete pour la gare stop_area:SNCF:87686006 à la date 20240214T000000 sur le reseau network:SNCF:OUIGO_TC // dernieres requetes 0 arrivées
Première requete pour la gare stop_area:SNCF:87686006 à la date 20240214T000000 sur le reseau network:SNCF:TNRER
Dernière requete pour la gare stop_area:SNCF:87686006 à la date 20240215T000927 sur le reseau network:SNCF:TNRER
Première requete pour la gare stop_area:SNCF:87686006 à la date 20240214T000000 sur le reseau network:SNCF:TER
Dernière requete pour la gare stop_area:SNCF:87686006 à la date 20

IntegrityError: (pymysql.err.IntegrityError) (1062, "Duplicate entry '87686006-20240214-7802' for key 'arrivees.PRIMARY'")
[SQL: INSERT INTO arrivees (arrivee_id, gare_id, departure_date_time, base_departure_date_time, arrival_date_time, base_arrival_date_time, network, ligne, trip, direction, disruption_id) VALUES (%(arrivee_id)s, %(gare_id)s, %(departure_date_time)s, %(base_departure_date_time)s, %(arrival_date_time)s, %(base_arrival_date_time)s, %(network)s, %(ligne)s, %(trip)s, %(direction)s, %(disruption_id)s)]
[parameters: [{'arrivee_id': '87686006-20240214-7802', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 10:38:00', 'base_departure_date_time': '2024-02-14 10:38:00', 'arrival_date_time': '2024-02-14 10:38:00', 'base_arrival_date_time': '2024-02-14 10:38:00', 'network': 'OUIGO', 'ligne': 'Paris - Gare de Lyon - Hall 1 & 2 - Lyon Perrache', 'trip': '7802', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}, {'arrivee_id': '87686006-20240214-7822', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 11:16:00', 'base_departure_date_time': '2024-02-14 11:16:00', 'arrival_date_time': '2024-02-14 11:16:00', 'base_arrival_date_time': '2024-02-14 11:16:00', 'network': 'OUIGO', 'ligne': 'Paris - Gare de Lyon - Hall 1 & 2 - Marseille Saint-Charles', 'trip': '7822', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}, {'arrivee_id': '87686006-20240214-7858', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 11:46:00', 'base_departure_date_time': '2024-02-14 11:46:00', 'arrival_date_time': '2024-02-14 11:46:00', 'base_arrival_date_time': '2024-02-14 11:46:00', 'network': 'OUIGO', 'ligne': 'Nice - Paris - Gare de Lyon - Hall 1 & 2', 'trip': '7858', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}, {'arrivee_id': '87686006-20240214-7820', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 15:18:00', 'base_departure_date_time': '2024-02-14 15:18:00', 'arrival_date_time': '2024-02-14 15:18:00', 'base_arrival_date_time': '2024-02-14 15:18:00', 'network': 'OUIGO', 'ligne': 'Paris - Gare de Lyon - Hall 1 & 2 - Marseille Saint-Charles', 'trip': '7820', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}, {'arrivee_id': '87686006-20240214-7804', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 17:44:00', 'base_departure_date_time': '2024-02-14 17:34:00', 'arrival_date_time': '2024-02-14 17:44:00', 'base_arrival_date_time': '2024-02-14 17:34:00', 'network': 'OUIGO', 'ligne': 'Paris - Gare de Lyon - Hall 1 & 2 - Lyon Perrache', 'trip': '7804', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': 'a43ab9fd-5710-4281-bf99-34c576bdff84'}, {'arrivee_id': '87686006-20240214-7872', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 19:04:00', 'base_departure_date_time': '2024-02-14 19:04:00', 'arrival_date_time': '2024-02-14 19:04:00', 'base_arrival_date_time': '2024-02-14 19:04:00', 'network': 'OUIGO', 'ligne': 'Montpellier Sud de France - Paris - Gare de Lyon - Hall 1 & 2', 'trip': '7872', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}, {'arrivee_id': '87686006-20240214-7856', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 20:38:00', 'base_departure_date_time': '2024-02-14 20:38:00', 'arrival_date_time': '2024-02-14 20:38:00', 'base_arrival_date_time': '2024-02-14 20:38:00', 'network': 'OUIGO', 'ligne': 'Nice - Paris - Gare de Lyon - Hall 1 & 2', 'trip': '7856', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}, {'arrivee_id': '87686006-20240214-7824', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-14 21:02:00', 'base_departure_date_time': '2024-02-14 20:52:00', 'arrival_date_time': '2024-02-14 21:02:00', 'base_arrival_date_time': '2024-02-14 20:52:00', 'network': 'OUIGO', 'ligne': 'Paris - Gare de Lyon - Hall 1 & 2 - Marseille Saint-Charles', 'trip': '7824', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': 'f1b27f6d-ccd5-4647-be3f-6b34d4f70861'}  ... displaying 10 of 716 total bound parameter sets ...  {'arrivee_id': '87686006-20240215-151910', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-15 06:30:00', 'base_departure_date_time': '2024-02-15 06:30:00', 'arrival_date_time': '2024-02-15 06:30:00', 'base_arrival_date_time': '2024-02-15 06:30:00', 'network': 'TRANSILIEN', 'ligne': 'R', 'trip': '151910', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}, {'arrivee_id': '87686006-20240215-152922', 'gare_id': 'stop_area:SNCF:87686006', 'departure_date_time': '2024-02-15 06:43:00', 'base_departure_date_time': '2024-02-15 06:43:00', 'arrival_date_time': '2024-02-15 06:43:00', 'base_arrival_date_time': '2024-02-15 06:43:00', 'network': 'TRANSILIEN', 'ligne': 'R', 'trip': '152922', 'direction': 'Paris - Gare de Lyon - Hall 1 & 2 (Paris)', 'disruption_id': None}]]
(Background on this error at: https://sqlalche.me/e/20/gkpj)