In [None]:
!hadoop fs -ls -t   "s3a://projet-spark-lab/diffusion/tweets/input" | grep "tweets"| head -n2

In [None]:
!hadoop fs -ls -r -t "s3a://projet-spark-lab/diffusion/tweets/input" | head -n2 |awk '{print $8}' | xargs -I{} hadoop fs -cat {} | head -n1

In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkConf, SparkContext
import os
import pickle
from pyspark.sql.functions import explode,split
from pyspark.sql.functions import col
from pyspark.sql.functions import window, col,from_utc_timestamp,to_timestamp,explode, split
from IPython.display import display, clear_output
from datetime import datetime
import time

In [None]:
conf = SparkConf()

#url par défaut d'une api kubernetes accédé depuis l'intérieur du cluster (ici le notebook tourne lui même dans kubernetes)
conf.setMaster("k8s://https://kubernetes.default.svc:443")

#image des executors spark: pour des raisons de simplicité on réutilise l'image du notebook
conf.set("spark.kubernetes.container.image", os.environ['IMAGE_NAME'])

# Nom du compte de service pour contacter l'api kubernetes : attention le package du datalab crée lui même cette variable d'enviromment.
# Dans un pod du cluster kubernetes il faut lire le fichier /var/run/secrets/kubernetes.io/serviceaccount/token
# Néanmoins ce paramètre est inutile car le contexte kubernetes local de ce notebook est préconfiguré
# conf.set("spark.kubernetes.authenticate.driver.serviceAccountName", os.environ['KUBERNETES_SERVICE_ACCOUNT']) 

# Nom du namespace kubernetes
conf.set("spark.kubernetes.namespace", os.environ['KUBERNETES_NAMESPACE'])

# Nombre d'executeur spark, il se lancera autant de pods kubernetes que le nombre indiqué.
conf.set("spark.executor.instances", "5")

# Mémoire alloué à la JVM
# Attention par défaut le pod kubernetes aura une limite supérieur qui dépend d'autres paramètres.
# On manipulera plus bas pour vérifier la limite de mémoire totale d'un executeur
conf.set("spark.executor.memory", "4g")

conf.set("spark.kubernetes.driver.pod.name", os.environ['KUBERNETES_POD_NAME'])

# Paramètres d'enregistrement des logs spark d'application
# Attention ce paramètres nécessitent la création d'un dossier spark-history. Spark ne le fait pas lui même pour des raisons obscurs
# import s3fs
# endpoint = "https://"+os.environ['AWS_S3_ENDPOINT']
# fs = s3fs.S3FileSystem(client_kwargs={'endpoint_url': endpoint})
# fs.touch('s3://tm8enk/spark-history/.keep')
# sparkconf.set("spark.eventLog.enabled","true")
# sparkconf.set("spark.eventLog.dir","s3a://tm8enk/spark-history")
#ici pour gérer le dateTimeFormatter dépendant de la verion de java...
conf.set("spark.sql.legacy.timeParserPolicy","LEGACY")
#conf.set("spark.sql.session.timeZone", "UTC")

spark = SparkSession.builder.appName("streaming").config(conf = conf).getOrCreate()

In [None]:
!mc cp s3/auredisanto/data-exemples-avantages-spark/spark-streaming/schema.p ~/work/schema.p 

In [None]:
schema = pickle.load(open("/home/onyxia/work/schema.p", "rb" ))
print(schema)

In [None]:
df = spark.readStream.format("json")  \
    .schema(schema) \
    .option("latestFirst","true") \
    .load("s3a://projet-spark-lab/diffusion/tweets/input") 

In [None]:
df.printSchema()

In [None]:
tweets_tab = df.withColumn('word', explode(split(col('text'), ' '))) \
    .filter(col('word').contains('#')) \
    .groupBy('word') \
    .count() \
    .sort('count', ascending=False)

In [None]:
tweets_tab.writeStream. \
    outputMode("complete"). \
    format("memory"). \
    queryName("tweetquery_group_hashtag"). \
    trigger(processingTime='10 seconds'). \
    start()

In [None]:
for stream in spark.streams.active:
    print("streaming", stream.name, "avec l'id", stream.id, "en cours")

In [None]:
for stream in spark.streams.active:
    print("streaming", stream.name, "avec l'id", stream.id, "en cours")

In [None]:
spark.sql("select * from tweetquery_group_hashtag order by count desc limit 10").show()

In [None]:
spark.sql("select * from tweetquery_group_hashtag order by count desc limit 10").show()

In [None]:
tweets_tab_24=df \
    .withColumn("timestamp",to_timestamp('created_at', 'EEE MMM d HH:mm:ss Z yyyy')) \
    .withColumn("word",explode(split("text",' '))) \
    .filter(col("word").contains('#')) \
    .withWatermark("timestamp", "1 minute") \
    .groupBy(
        window("timestamp", "3 hours","5 minutes"),
        "word") \
    .count()

In [None]:
tweets_tab_24.writeStream.outputMode("append").trigger(processingTime='1 minute').format("memory").queryName("data").start() 

In [None]:
spark.sql('select * from data').show(10,False)

In [None]:
for i in range(6):
    clear_output(wait=True)
    print("A", datetime.now(), "le top 20 des hastags sur les tweets mentionnait l'insee dans les 3 dernières heures est :")
    display(spark.sql("select * from data where window.start > current_timestamp()-INTERVAL 200 minutes order by word desc" ).show())
    time.sleep(30)

In [None]:
spark.stop()