In [0]:
from pyspark.sql.types import DoubleType, IntegerType, StringType, StructType, StructField

# Définir les variables utilisées dans le code ci-dessous
file_path = "/databricks-datasets/songs/data-001/"  # Chemin des fichiers de données
table_name = "table"  # Nom de la table Delta à créer
checkpoint_path = "/tmp/pipeline_get_started/_checkpoint/song_data"  # Chemin pour stocker les checkpoints
# Ingérer les données brutes

# Définir le schéma des données
schema = StructType(
  [
    StructField("artist_id", StringType(), True),  # ID de l'artiste (chaîne de caractères)
    StructField("artist_lat", DoubleType(), True),  # Latitude de l'artiste (nombre décimal)
    StructField("artist_long", DoubleType(), True),  # Longitude de l'artiste (nombre décimal)
    StructField("artist_location", StringType(), True),  # Localisation de l'artiste (chaîne de caractères)
    StructField("artist_name", StringType(), True),  # Nom de l'artiste (chaîne de caractères)
    StructField("duration", DoubleType(), True),  # Durée de la chanson (nombre décimal)
    StructField("end_of_fade_in", DoubleType(), True),  # Fin du fade-in (nombre décimal)
    StructField("key", IntegerType(), True),  # Tonalité (nombre entier)
    StructField("key_confidence", DoubleType(), True),  # Confiance dans la tonalité (nombre décimal)
    StructField("loudness", DoubleType(), True),  # Niveau sonore (nombre décimal)
    StructField("release", StringType(), True),  # Nom de l'album ou de la sortie (chaîne de caractères)
    StructField("song_hotnes", DoubleType(), True),  # Popularité de la chanson (nombre décimal)
    StructField("song_id", StringType(), True),  # ID de la chanson (chaîne de caractères)
    StructField("start_of_fade_out", DoubleType(), True),  # Début du fade-out (nombre décimal)
    StructField("tempo", DoubleType(), True),  # Tempo de la chanson (nombre décimal)
    StructField("time_signature", DoubleType(), True),  # Signature temporelle (nombre décimal)
    StructField("time_signature_confidence", DoubleType(), True),  # Confiance dans la signature temporelle (nombre décimal)
    StructField("title", StringType(), True),  # Titre de la chanson (chaîne de caractères)
    StructField("year", IntegerType(), True),  # Année de sortie (nombre entier)
    StructField("partial_sequence", IntegerType(), True)  # Séquence partielle (nombre entier)
  ]
)

# Lire les données en streaming et écrire dans une table Delta
(spark.readStream
  .format("cloudFiles")  # Utiliser le connecteur cloudFiles pour gérer les fichiers entrants
  .schema(schema)  # Appliquer le schéma défini
  .option("cloudFiles.format", "csv")  # Format des fichiers source : CSV
  .option("sep","\t")  # Séparateur des colonnes : tabulation
  .load(file_path)  # Charger les fichiers à partir du chemin spécifié
  .writeStream
  .option("checkpointLocation", checkpoint_path)  # Chemin pour stocker les checkpoints
  .trigger(availableNow=True)  # Traiter toutes les données disponibles immédiatement
  .toTable(table_name)  # Écrire les données dans une table Delta avec le nom spécifié
)


Out[6]: <pyspark.sql.streaming.query.StreamingQuery at 0x7fd173513130>