In [25]:
# Importation des bibliothèques nécessaires
import os
import findspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_json, col
from pyspark.sql.types import StructType, StructField, StringType, ArrayType, LongType

# Initialisation de findspark
findspark.init()

# Créer la session Spark
spark = SparkSession.builder \
    .appName("MastodonStreamProcessing") \
    .config("spark.jars.packages", "org.apache.spark:spark-sql-kafka-0-10_2.12:3.5.3") \
    .getOrCreate()

# Schéma des toots pour interpréter les messages Kafka
schema = StructType([
    StructField("id", LongType(), True),
    StructField("content", StringType(), True),
    StructField("created_at", StringType(), True),
    StructField("account", StringType(), True),
    StructField("hashtags", ArrayType(StringType()), True),
    StructField("favourites_count", LongType(), True),
    StructField("reblogs_count", LongType(), True)
])

# Lire les données de Kafka en mode streaming
df = spark \
    .readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "localhost:9092") \
    .option("subscribe", "mastodon_stream") \
    .load()

# Transformation des données
df = df.selectExpr("CAST(value AS STRING)")

# Transformation des données pour correspondre au schéma
toots_df = df.select(from_json(col("value"), schema).alias("toot")).select("toot.*")

# Affichage des données en streaming dans une table mémoire
query = toots_df.writeStream \
    .outputMode("append") \
    .format("memory") \
    .queryName("toots") \
    .start()

# Assurez-vous que le streaming est en cours
query.awaitTermination(60)  # Exécutez pendant 5 secondes pour le test

# Afficher les données à partir de la table
spark.sql("SELECT * FROM toots").show(5)  # Affichez les résultats en utilisant SQL

# Une fois terminé, arrêtez la requête
query.stop()


+---+-------+----------+-------+--------+----------------+-------------+
| id|content|created_at|account|hashtags|favourites_count|reblogs_count|
+---+-------+----------+-------+--------+----------------+-------------+
+---+-------+----------+-------+--------+----------------+-------------+



In [20]:

!pip install findspark

Collecting findspark
  Downloading findspark-2.0.1-py2.py3-none-any.whl.metadata (352 bytes)
Downloading findspark-2.0.1-py2.py3-none-any.whl (4.4 kB)
Installing collected packages: findspark
Successfully installed findspark-2.0.1


In [27]:
# Afficher les données à partir de la table après un certain temps
for _ in range(5):  # Essayez plusieurs fois pour voir les nouvelles données
    spark.sql("SELECT * FROM toots").show(5)
    time.sleep(2)  # Attendre 2 secondes entre les requêtes


+---+-------+----------+-------+--------+----------------+-------------+
| id|content|created_at|account|hashtags|favourites_count|reblogs_count|
+---+-------+----------+-------+--------+----------------+-------------+
+---+-------+----------+-------+--------+----------------+-------------+



NameError: name 'time' is not defined