# PySpark e Streaming de Dados


## Spark Streaming
A proposta do Spark Stream é analisar dados em tempo real, e não esperar horas para fazer a análise e processamento. "A vida não acontece em batches".
Streaming de dados não é apenas para projetos altamente especializados. Computação baseada em Streaming está se tornando a regra para empresas orientadas a dados.
Uma das principais fontes de dados contínuos são os sensores, da internet das coisas. Existem quatro areas principais que o Spark Streaming vem sendo utilizado:

* Streaming ETL;
* Detecção de anomalias;
* Enriquecimento de dados;
* Sessões complexas e aprendizado contínuo.

Uma importante vantagem de usar o Spark para Big Data Analytics é a possibilidade de combinar processamento em batch e processamento de streaming em um único sistema.

* **Batch**: Você inicia o processamento de um arquivo ou dataset finito, o spark processa as tarefas configuradas e conclui o trabalho.
* **Streaming**: Você processa um stream de dados contínuos; a execução não pára até que haja algum erro ou você termine a aplicação manualmente.

Refs: https://www.projectpro.io/article/spark-streaming-example/540

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html


In [1]:
import re
#import pyspark.sql.functions as F
from pyspark.sql import Row #Converte RDDs em objetos do tipo Row
from pyspark.sql.functions import col, isnan, when, count # Encontra a contagem para valores None, Null, Nan, etc.
from pyspark.sql.types import IntegerType, FloatType

from nltk.corpus import stopwords


# Módulos usados
from pyspark.streaming import StreamingContext
from pyspark import SparkContext
from requests_oauthlib import OAuth1Session
from operator import add
import requests_oauthlib
from time import gmtime, strftime
import requests
import time
import string
import ast
import json
#import re

In [2]:
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# Create a local StreamingContext with two working thread and batch interval of 1 second
ssc = StreamingContext(sc, 5)

# Create a DStream that will connect to hostname:port, like localhost:9999
lines = ssc.socketTextStream("127.0.0.1", 5554)

In [3]:
resultados = []
#words_trans = lines.map(lambda x: limparTexto(x)).map(lambda x: removerStopwords(x))

# Split each line into words
words = lines.flatMap(lambda line: line.split(" "))

# Count each word in each batch
pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)

# Print the first ten elements of each RDD generated in this DStream to the console
wordCounts.pprint()

In [4]:
ssc.start()             # Start the computation
ssc.awaitTerminationOrTimeout(120)  # Wait for the computation to terminate
ssc.stop()

-------------------------------------------
Time: 2022-10-11 09:34:40
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:34:45
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:34:50
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:34:55
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:35:00
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:35:05
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:35:10
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:35:15
-------------------------------------------

-------------------------------------------
Time: 2022-10-11 09:35:20
----------

Links: 

https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#programming-model

https://github.com/syalanuj/youtube/blob/main/spark_streaming_with_python_in_12_minutes/spark_st_run.ipynb

https://github.com/Krupique/cursos-datascience-conteudo/blob/main/DSA_DS-02-BigData%20Analytics%20com%20Python%20e%20Spark/05%20-%20Introducao-SparkStreaming.ipynb


## Project

In [1]:
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.sql import SQLContext
from pyspark.sql.functions import desc
from collections import namedtuple

# Can only run this once. restart your kernel for any errors.

ssc = StreamingContext(sc, 10 )
sqlContext = SQLContext(sc)
socket_stream = ssc.socketTextStream("127.0.0.1", 5554)

lines = socket_stream.window( 100 )

fields = ("text")

# Use Parenthesis for multiple lines or use \.
Tweet = namedtuple( 'Tweet', fields )
( lines.flatMap( lambda text: text.split( " " ) ) 
     .filter( lambda word: word.lower().startswith("#"))  
     .map( lambda word: ( word.lower(), 1 ) ) 
     .reduceByKey( lambda a, b: a + b ) 
     .map( lambda rec: Tweet( rec[0], rec[1] ) ) 
     .foreachRDD( lambda rdd: rdd.toDF().sort( desc("count") ) 
     .limit(100).registerTempTable("tweets") ) ) # Registers to a table.

## Now run TweetListener.py

## Spark

In [2]:
ssc.start()    

In [None]:
import time
from IPython import display
import matplotlib.pyplot as plt
import seaborn as sns
# Only works for Jupyter Notebooks!
%matplotlib inline 

In [None]:
count = 0
while count < 10:
    
    time.sleep( 3 )
    top_10_tweets = sqlContext.sql( 'Select tag, count from tweets' )
    top_10_df = top_10_tweets.toPandas()
    display.clear_output(wait=True)
    plt.figure( figsize = ( 10, 8 ) )
    sns.barplot( x="count", y="tag", data=top_10_df)
    plt.show()
    count = count + 1

In [None]:
tweets = sqlContext.sql( 'Select * from tweets' )
df = tweets.toPandas()

df.head(15)

In [None]:
ssc.stop()  