importer cette data https://www.data.gouv.fr/api/1/datasets/r/cbacca02-6925-4a46-aab6-7194debbb9b7 dans une table


In [0]:
# Afficher un aperçu de vos données
display(spark.table("gares_de_voyageurs"))

# Voir le schéma (types de colonnes)
spark.table("gares_de_voyageurs").printSchema()

# Compter le nombre de gares
nombre_gares = spark.table("gares_de_voyageurs").count()
print(f"📍 Nombre total de gares : {nombre_gares}")

Nom,Trigramme,Segment(s) DRG,Position géographique,Code commune,Code(s) UIC
Abancourt,ABT,C,"49.6852237, 1.7743058",60001,87313759
Abbaretz,AAR,C,"47.5546432, -1.5244159",44001,87481614
Abbeville,ABB,B,"50.10221, 1.82449",80001,87317362
Ablon-sur-Seine,ABL,B,"48.725468, 2.419151",94001,87545269
Achères Grand Cormier,GCR,B,"48.9551835, 2.0919031",78551,87386052
Achères Ville,ACW,B,"48.97011, 2.07739",78005,87381657
Achiet-le-Grand,ACT,C,"50.1317525, 2.780168",62005,87342048
Aéroport Charles de Gaulle 1,RSY,B,"49.00956, 2.56135",93073,87271460
Aéroport Charles de Gaulle 2 TGV,RYT,A;A,"49.003652, 2.570892",93073,87271494;87001479
Agay,AGH,C,"43.4313701, 6.8564997",83118,87757559


root
 |-- Nom: string (nullable = true)
 |-- Trigramme: string (nullable = true)
 |-- Segment(s) DRG: string (nullable = true)
 |-- Position géographique: string (nullable = true)
 |-- Code commune: long (nullable = true)
 |-- Code(s) UIC: string (nullable = true)

📍 Nombre total de gares : 2769


In [0]:
import requests
import pandas as pd
from io import StringIO
from pyspark.sql.functions import col

# 1 Télécharger le fichier
url = "https://www.data.gouv.fr/api/1/datasets/r/cbacca02-6925-4a46-aab6-7194debbb9b7"

print("Téléchargement en cours...")
response = requests.get(url)
print("Téléchargement réussi !")

# 2 Convertir en DataFrame Pandas puis Spark
df_pandas = pd.read_csv(StringIO(response.text), sep=";", encoding="utf-8")
df_spark = spark.createDataFrame(df_pandas)

print(f"📊 {df_spark.count()} lignes chargées")

# 3 Renommer les colonnes pour Delta Lake
df_clean = df_spark \
    .withColumnRenamed("Segment(s) DRG", "segment_drg") \
    .withColumnRenamed("Position géographique", "position_geo") \
    .withColumnRenamed("Code commune", "code_commune") \
    .withColumnRenamed("Code(s) UIC", "code_uic") \
    .withColumnRenamed("Nom", "nom") \
    .withColumnRenamed("Trigramme", "trigramme")

print("Colonnes renommées !")

# 4 Afficher les nouvelles colonnes
print(f"\n Nouvelles colonnes : {df_clean.columns}")

# 5 Aperçu des données
display(df_clean)

# 6 Sauvegarder en table Delta
df_clean.write.mode("overwrite").saveAsTable("gares_france")

print("\n Table 'gares_france' créée avec succès !")

Téléchargement en cours...
Téléchargement réussi !
📊 2769 lignes chargées
Colonnes renommées !

 Nouvelles colonnes : ['nom', 'trigramme', 'segment_drg', 'position_geo', 'code_commune', 'code_uic']


nom,trigramme,segment_drg,position_geo,code_commune,code_uic
Abancourt,ABT,C,"49.6852237, 1.7743058",60001,87313759
Abbaretz,AAR,C,"47.5546432, -1.5244159",44001,87481614
Abbeville,ABB,B,"50.10221, 1.82449",80001,87317362
Ablon-sur-Seine,ABL,B,"48.725468, 2.419151",94001,87545269
Achères Grand Cormier,GCR,B,"48.9551835, 2.0919031",78551,87386052
Achères Ville,ACW,B,"48.97011, 2.07739",78005,87381657
Achiet-le-Grand,ACT,C,"50.1317525, 2.780168",62005,87342048
Aéroport Charles de Gaulle 1,RSY,B,"49.00956, 2.56135",93073,87271460
Aéroport Charles de Gaulle 2 TGV,RYT,A;A,"49.003652, 2.570892",93073,87271494;87001479
Agay,AGH,C,"43.4313701, 6.8564997",83118,87757559



 Table 'gares_france' créée avec succès !


In [0]:
print("VERIFICATION DE LA TABLE")
print("=" * 70)

# Charger la table que vous avez creee
df_gares = spark.table("gares_france")

print(f"Nombre de lignes : {df_gares.count()}")
print(f"Nombre de colonnes : {len(df_gares.columns)}")

print("\nColonnes disponibles :")
for col in df_gares.columns:
    print(f"  - {col}")

print("\nApercu des donnees :")
df_gares.show(10, truncate=False)

print("\nSchema :")
df_gares.printSchema()

VERIFICATION DE LA TABLE
Nombre de lignes : 2769
Nombre de colonnes : 6

Colonnes disponibles :
  - nom
  - trigramme
  - segment_drg
  - position_geo
  - code_commune
  - code_uic

Apercu des donnees :
+---------------------+---------+-----------+----------------------+------------+--------+
|nom                  |trigramme|segment_drg|position_geo          |code_commune|code_uic|
+---------------------+---------+-----------+----------------------+------------+--------+
|Noyen-sur-Sarthe     |NON      |C          |47.8744544, -0.0981755|72223       |87396374|
|Noyon                |NOY      |B          |49.57736, 3.00641     |60471       |87276782|
|Nozières - Brignon   |NOZ      |C          |43.9760134, 4.2072916 |30046       |87775353|
|Nuits sous Ravières  |NUR      |C          |47.7291142, 4.211186  |89280       |87713156|
|Nuits-Saint-Georges  |NUI      |B          |47.130545, 4.956204   |21464       |87713529|
|Nurieux-Volognat     |NEX      |C          |46.1842195, 5.5327486 |1

In [0]:
from pyspark.sql.functions import col, split, trim, regexp_replace, when
import re

print("TRANSFORMATION : BRONZE vers SILVER")
print("=" * 70)

# BRONZE : donnees brutes
df_bronze = df_gares
print(f"BRONZE : {df_bronze.count()} lignes")

# SILVER : nettoyer et enrichir
df_silver = df_bronze

# Separer latitude et longitude
df_silver = df_silver \
    .withColumn("latitude", split(col("position_geo"), ",").getItem(0).cast("double")) \
    .withColumn("longitude", split(col("position_geo"), ",").getItem(1).cast("double"))

# Nettoyer le segment (parfois "A;A" vers "A")
df_silver = df_silver \
    .withColumn("segment_clean", regexp_replace(col("segment_drg"), ";.*", ""))

# Extraire le departement (2 premiers chiffres du code commune)
df_silver = df_silver \
    .withColumn("code_departement", col("code_commune").cast("string").substr(1, 2))

# Categoriser les gares
df_silver = df_silver \
    .withColumn("categorie_gare",
        when(col("segment_clean") == "A", "Gare Principale")
        .when(col("segment_clean") == "B", "Gare Importante")
        .when(col("segment_clean") == "C", "Gare Regionale")
        .otherwise("Autre")
    )

# Filtrer les donnees valides
df_silver = df_silver \
    .filter(col("nom").isNotNull()) \
    .filter(col("latitude").isNotNull()) \
    .filter(col("longitude").isNotNull())

print(f"SILVER : {df_silver.count()} lignes nettoyees")

print("\nApercu Silver :")
df_silver.select("nom", "trigramme", "segment_clean", "categorie_gare", "code_departement", "latitude", "longitude").show(10)

TRANSFORMATION : BRONZE vers SILVER
BRONZE : 2769 lignes
SILVER : 2762 lignes nettoyees

Apercu Silver :
+--------------------+---------+-------------+---------------+----------------+----------+----------+
|                 nom|trigramme|segment_clean| categorie_gare|code_departement|  latitude| longitude|
+--------------------+---------+-------------+---------------+----------------+----------+----------+
|    Noyen-sur-Sarthe|      NON|            C| Gare Regionale|              72|47.8744544|-0.0981755|
|               Noyon|      NOY|            B|Gare Importante|              60|  49.57736|   3.00641|
|  Nozières - Brignon|      NOZ|            C| Gare Regionale|              30|43.9760134| 4.2072916|
| Nuits sous Ravières|      NUR|            C| Gare Regionale|              89|47.7291142|  4.211186|
| Nuits-Saint-Georges|      NUI|            B|Gare Importante|              21| 47.130545|  4.956204|
|    Nurieux-Volognat|      NEX|            C| Gare Regionale|              12|

In [0]:
from pyspark.sql.functions import count, avg, min, max, when

print("AGREGATION : SILVER vers GOLD")
print("=" * 70)

# GOLD 1 : Statistiques par segment
df_gold_segment = df_silver.groupBy("segment_clean", "categorie_gare").agg(
    count("*").alias("nombre_gares")
).orderBy("segment_clean")

print("\nGOLD 1 - Repartition par segment :")
df_gold_segment.show()

# GOLD 2 : Statistiques par departement
df_gold_dept = df_silver.groupBy("code_departement").agg(
    count("*").alias("nombre_gares"),
    count(when(col("segment_clean") == "A", 1)).alias("gares_principales"),
    count(when(col("segment_clean") == "B", 1)).alias("gares_importantes"),
    count(when(col("segment_clean") == "C", 1)).alias("gares_regionales")
).orderBy(col("nombre_gares").desc())

print("\nGOLD 2 - Top 15 departements :")
df_gold_dept.show(15)

# GOLD 3 : Liste des gares principales (segment A)
df_gold_principales = df_silver \
    .filter(col("segment_clean") == "A") \
    .select("nom", "trigramme", "code_departement", "latitude", "longitude") \
    .orderBy("nom")

print(f"\nGOLD 3 - Gares principales : {df_gold_principales.count()} gares")
df_gold_principales.show(20)

# GOLD 4 : Statistiques geographiques
df_gold_geo = df_silver.groupBy("segment_clean").agg(
    count("*").alias("nombre_gares"),
    avg("latitude").alias("latitude_moyenne"),
    avg("longitude").alias("longitude_moyenne"),
    min("latitude").alias("latitude_min"),
    max("latitude").alias("latitude_max"),
    min("longitude").alias("longitude_min"),
    max("longitude").alias("longitude_max")
).orderBy("segment_clean")

print("\nGOLD 4 - Repartition geographique :")
df_gold_geo.show()

AGREGATION : SILVER vers GOLD

GOLD 1 - Repartition par segment :
+-------------+---------------+------------+
|segment_clean| categorie_gare|nombre_gares|
+-------------+---------------+------------+
|            A|Gare Principale|         100|
|            B|Gare Importante|         920|
|            C| Gare Regionale|        1742|
+-------------+---------------+------------+


GOLD 2 - Top 15 departements :
+----------------+------------+-----------------+-----------------+----------------+
|code_departement|nombre_gares|gares_principales|gares_importantes|gares_regionales|
+----------------+------------+-----------------+-----------------+----------------+
|              59|         111|                3|               27|              81|
|              67|          94|                1|               34|              59|
|              60|          92|                3|               34|              55|
|              62|          79|                1|               19|         

In [0]:
print("SAUVEGARDE DES COUCHES")
print("=" * 70)

# Sauvegarder Bronze
df_bronze.write.format("delta").mode("overwrite").saveAsTable("gares_bronze")
print("Bronze sauvegarde : gares_bronze")

# Sauvegarder Silver
df_silver.write.format("delta").mode("overwrite").saveAsTable("gares_silver")
print("Silver sauvegarde : gares_silver")

# Sauvegarder Gold
df_gold_segment.write.format("delta").mode("overwrite").saveAsTable("gares_gold_segment")
print("Gold Segment sauvegarde : gares_gold_segment")

df_gold_dept.write.format("delta").mode("overwrite").saveAsTable("gares_gold_departement")
print("Gold Departement sauvegarde : gares_gold_departement")

df_gold_principales.write.format("delta").mode("overwrite").saveAsTable("gares_gold_principales")
print("Gold Principales sauvegarde : gares_gold_principales")

df_gold_geo.write.format("delta").mode("overwrite").saveAsTable("gares_gold_geo")
print("Gold Geo sauvegarde : gares_gold_geo")

print("\nPipeline complete sauvegardee !")
print(f"Total : {df_silver.count()} gares analysees")

SAUVEGARDE DES COUCHES
Bronze sauvegarde : gares_bronze
Silver sauvegarde : gares_silver
Gold Segment sauvegarde : gares_gold_segment
Gold Departement sauvegarde : gares_gold_departement
Gold Principales sauvegarde : gares_gold_principales
Gold Geo sauvegarde : gares_gold_geo

Pipeline complete sauvegardee !
Total : 2762 gares analysees


In [0]:
%sql
-- Vue d'ensemble des segments
SELECT 
    segment_clean as segment,
    categorie_gare,
    nombre_gares
FROM gares_gold_segment
ORDER BY segment_clean

segment,categorie_gare,nombre_gares
A,Gare Principale,100
B,Gare Importante,920
C,Gare Regionale,1742


In [0]:
%sql
-- Top 10 departements avec le plus de gares
SELECT 
    code_departement as dept,
    nombre_gares as total,
    gares_principales as principales,
    gares_importantes as importantes,
    gares_regionales as regionales
FROM gares_gold_departement
ORDER BY nombre_gares DESC
LIMIT 10

dept,total,principales,importantes,regionales
59,111,3,27,81
67,94,1,34,59
60,92,3,34,55
62,79,1,19,59
78,78,0,74,4
33,71,1,23,47
77,69,1,49,19
91,68,1,56,11
95,68,0,59,9
69,60,3,28,29


In [0]:
%sql
-- Chercher toutes les gares contenant "Paris"
SELECT 
    nom,
    trigramme,
    segment_clean,
    categorie_gare,
    code_departement
FROM gares_silver
WHERE nom LIKE '%Paris%'
ORDER BY nom

nom,trigramme,segment_clean,categorie_gare,code_departement
Cormeilles-en-Parisis,CPA,B,Gare Importante,95
Paris Austerlitz,PAZ,A,Gare Principale,75
Paris Bercy Bourgogne - Pays d'Auvergne,PBY,A,Gare Principale,75
Paris Est,PES,A,Gare Principale,75
Paris Gare de Lyon,PLY,A,Gare Principale,75
Paris Gare du Nord,PNO,A,Gare Principale,75
Paris Montparnasse,PMP,A,Gare Principale,75
Paris Saint-Lazare,PSL,A,Gare Principale,75


In [0]:
%sql
-- Gares TGV uniquement
SELECT 
    nom,
    trigramme,
    code_departement
FROM gares_silver
WHERE nom LIKE '%TGV%'
ORDER BY nom

nom,trigramme,code_departement
Aix-en-Provence TGV,AXV,13
Avignon TGV,AVV,84
Aéroport Charles de Gaulle 2 TGV,RYT,93
Belfort - Montbéliard TGV,BFB,90
Besançon Franche-Comté TGV,BFC,25
Champagne-Ardenne TGV,CGV,51
Haute Picardie TGV,HPI,80
Le Creusot - Montceau-les-Mines - Montchanin TGV,LCM,71
Lorraine TGV,TGL,57
Lyon Saint-Exupéry TGV,SXA,69


In [0]:
%sql
-- Nombre de gares par categorie avec pourcentage
SELECT 
    categorie_gare,
    COUNT(*) as nombre,
    ROUND(COUNT(*) * 100.0 / SUM(COUNT(*)) OVER(), 2) as pourcentage
FROM gares_silver
GROUP BY categorie_gare
ORDER BY nombre DESC

categorie_gare,nombre,pourcentage
Gare Regionale,1742,63.07
Gare Importante,920,33.31
Gare Principale,100,3.62
