Real-Time Analytics com Apache Spark Streaming

### Objetivo
O objetivo deste Lab é trazer um exemplo de análise de dados em tempo real com o Spark Structured Streaming, demonstrando a arquitetura de funcionamento desse tipo de análise. O Lab também é uma introdução para os Mini-Projetos 6 e 7 do curso, quando, além de usar o Spark Streaming, trabalharemos com o Apache Kafka.

### Instruções

- Abra o Terminal e digite o seguinte comando: `nc -lk 9999`

Desta forma, você poderá digitar no terminal os comandos posteriores para simular a entrada de dados em tempo real.

- Agora, deixe essa janela do terminal aberta e abra outra janela do terminal.
- Nesta nova janela, conecte-se ao pyspark para buscar esses dados em tempo real.
> À medida que você digitar palavras no terminal que simula entradas de dados em tempo real, o processo de análise irá capturar e processar os dados, entregando o resultado em tempo real.

<br>

-  Neste exemplo vamos **analisar o número de ocorrências de palavras**. Queremos saber quantas vezes cada palavra aparece nesse streaming. Essa foi a lógica escolhida para este processo de análise.

> Este trecho de código foi extraído da própria documentação da biblioteca.

### Como Usar

- Rodar o script abaixo e digitar palavras ou frases no terminal e aguardar pela analise abaixo.

In [None]:
# Lab 6 - Análise de Dados em Tempo Real com Apache Spark Structured Streaming
# https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html

# Funções
from pyspark.sql import SparkSession
from pyspark.sql.functions import explode, split

# Sessão
spark = SparkSession.builder.appName("StructuredNetworkWordCount").getOrCreate()

# Criamos um DataFrame para o Stream que vai extrair os dados em tempo real do gerador de dados em localhost:9999
lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()

# Divide cada linha de dados em palavras
words = lines.select(explode(split(lines.value, " ")).alias("word"))

# Contador de palavras
wordCounts = words.groupBy("word").count()

# Executa a query em tempo real e imprime a contagem de palavras em tempo real
query = wordCounts.writeStream.outputMode("complete").format("console").start()

# Aguarda término da conexão
query.awaitTermination()

24/08/19 18:29:48 WARN Utils: Your hostname, eduardo-Inspiron-15-3520 resolves to a loopback address: 127.0.1.1; using 192.168.0.13 instead (on interface wlp0s20f3)
24/08/19 18:29:48 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/08/19 18:29:49 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
24/08/19 18:29:50 WARN TextSocketSourceProvider: The socket source should not be used for production applications! It does not support recovery.
24/08/19 18:29:50 WARN ResolveWriteToStream: Temporary checkpoint location created which is deleted normally when the query didn't fail: /tmp/temporary-664600f6-f15a-4524-9284-6757f930f647. If it's required to delete it under any circumstances, please set spark.sql.streaming.forceDeleteTempCheckpointLocation to true. Important 

-------------------------------------------
Batch: 0
-------------------------------------------
+----+-----+
|word|count|
+----+-----+
+----+-----+



                                                                                

-------------------------------------------
Batch: 1
-------------------------------------------
+----+-----+
|word|count|
+----+-----+
| Ola|    1|
+----+-----+



                                                                                

-------------------------------------------
Batch: 2
-------------------------------------------
+-----+-----+
| word|count|
+-----+-----+
|  com|    1|
|  Ola|    1|
|  bem|    1|
|vocês|    1|
| Tudo|    1|
|    ?|    1|
+-----+-----+



                                                                                

-------------------------------------------
Batch: 3
-------------------------------------------
+---------+-----+
|     word|count|
+---------+-----+
|      com|    1|
|      Ola|    2|
|      bem|    1|
|    vocês|    1|
|     Tudo|    1|
|        ?|    1|
|NOvamente|    1|
+---------+-----+



                                                                                

-------------------------------------------
Batch: 4
-------------------------------------------
+---------+-----+
|     word|count|
+---------+-----+
|   voltou|    1|
| Flamengo|    1|
|      com|    2|
|      ali|    1|
|      Ola|    3|
|      bem|    1|
|      foi|    1|
|        e|    1|
|    vocês|    1|
|     Tudo|    1|
|    certo|    1|
|      ola|    1|
|        ,|    1|
|        ?|    1|
|       um|    1|
|NOvamente|    1|
+---------+-----+



### Executando o Código no Jupyter Notebook

- Abra o Jupyter Notebook: Inicie o Jupyter Notebook e abra um novo notebook.

- Cole o código acima: Em uma célula de código do notebook, cole o código fornecido.

- Execute a célula: Clique em "Run" (ou pressione Shift + Enter) para executar a célula.

- Simular dados de streaming: Em um terminal separado, execute o comando nc -lk 9999 para iniciar o gerador de dados. Você pode então começar a digitar palavras para ver a contagem de palavras sendo atualizada em tempo real no notebook.