<span style="color: green; font-size: 40px; font-weight: bold;">Projeto 1 (Análise de Dados em Tempo Real) </span>

<br> <br>

# Análise de Dados de Sensores de Movimento de Clientes em Tempo Real com Apache Spark Streaming e Apache Kafka

<br><br>

### Contexto

Uma grande rede de lojas de varejo está interessada em entender melhor o comportamento de seus clientes dentro das lojas físicas. Cada loja está equipada com sensores de movimento instalados em diferentes áreas, como entradas, corredores e caixas. Esses sensores detectam a presença e o movimento dos clientes em tempo real.

A empresa deseja ter uma **solução de análise de dados em tempo real que rastreie o fluxo de clientes dentro das lojas, calcule métricas como o tempo de permanência em cada área e a contagem de tráfego em cada seção da loja**. Esses insights ajudarão a otimizar a disposição dos produtos, melhorar o atendimento ao cliente e aumentar as vendas.

Além de construir a solução com Spark e Kafka, vamos desenvolver um simulador para gerar dados de sensores de movimento em uma loja física.

<br>

### Objetivo

O objetivo deste projeto é **demonstrar como configurar e executar uma pipeline de dados em tempo real que coleta, processa e analisa dados de sensores de movimento utilizando Apache Kafka e Apache Spark Structured Streaming**. A análise se concentra em calcular métricas como o tempo de permanência dos clientes e o tráfego em diferentes áreas da loja, permitindo otimizar a experiência de compra e o layout da loja.

<br>

### Pergunta de Negócio Principal

> A principal pergunta de negócio que este projeto visa responder é: "**Quais áreas da loja recebem mais tráfego de clientes em tempo real, e como podemos otimizar a disposição dos produtos para melhorar a experiência de compra?**"

<br>

### Entregável

O entregável deste projeto é uma aplicação de streaming em tempo real que:

- Coleta dados de sensores de movimento em tempo real usando Apache Kafka.
- Processa e analisa esses dados em tempo real usando Apache Spark Structured Streaming.
- Calcula e exibe métricas como o tempo de permanência por cliente e a contagem de tráfego por área.
- Permite a consulta em tempo real das áreas da loja com maior tráfego de clientes.

<br>

### Sobre a Fonte de Dados

Os dados utilizados no projeto são gerados por sensores de movimento instalados em várias áreas de uma loja física. Cada entrada de dados inclui:

- **timestamp**: Data e hora exatas em que o sensor de movimento detectou um evento.
- **id_sensor**: Identificador único do sensor de movimento.
- **location**: Localização ou descrição da área onde o sensor está instalado dentro da loja (por exemplo, "Entrada", "Corredor A", "Caixa").
- **customer_id**: Identificador único e anônimo do cliente que foi detectado pelo sensor.
- **movement_detected**: Valor booleano indicando se o sensor detectou movimento (sempre True neste caso).
- **duration**: Tempo, em segundos, que o cliente permaneceu na área monitorada pelo sensor antes de sair ou se mover para outra área.
- **traffic_count**: Número de clientes que passaram pela área monitorada pelo sensor dentro de um período de tempo.

#### Exemplo de Entrada de Dados (json):

<br>

```
{
  "timestamp": "2024-08-23T15:22:16.968007Z",
  "id_sensor": "SM-123AB",
  "location": "Corredor A",
  "customer_id": "Cliente_5678",
  "movement_detected": true,
  "duration": 152.34,
  "traffic_count": 4
}
```

Cada leitura de movimento é capturada em um formato JSON e enviada para o tópico Kafka, que é então consumido pelo Spark Structured Streaming para análise em tempo real.

#### Como simular isso?

Precisamos encontrar uma forma de simular a geração de dados em tempo real a partir de sensores de movimento. Para isso será necessário a construção de um simulador usando a linguagem python para gerar dados de sensores de movimento.

No dia a dia, bastaria solicitar os dados ao responsável pelas lojas os arquivos gerados pelos sensores de movimento.

<br><br>

### Considerações Finais

Este mini-projeto demonstra como é possível utilizar ferramentas modernas de big data para implementar soluções de análise em tempo real. A combinação de Apache Kafka e Apache Spark Structured Streaming oferece uma solução robusta e escalável para lidar com fluxos de dados contínuos, como os gerados por sensores de movimento em lojas físicas. Através desta pipeline, é possível monitorar, analisar e reagir aos dados à medida que são gerados, fornecendo insights imediatos e acionáveis para o negócio.

<br><br><br>

# Instruções para executar o projeto.

<br>

### Etapa 1 - Simulador

1. Abra o terminal ou prompt de comando e acesse a pasta do projeto e vá para a pasta `simulador` que contém o script `simulador.py`. Esta pasta é onde o simulador IoT está localizado, e esse script foi desenvolvido para gerar leituras simuladas de sensores IoT.

> **O que o script faz:** O script `simulador.py` gera dados simulados de sensores de movimento em formato JSON. Ele atribui valores de movimentação a sensores fictícios e os salva em um arquivo de saída. Esses dados são então usados no restante do projeto para simular um fluxo de dados de sensores de movimento em tempo real.

2. Execute o comando abaixo para gerar um arquivo com 10.000 leituras de sensores de movimento (você pode ajustar o número de registros conforme desejar).

   `python simulador.py 10000 > ../dados/dados_movimento.txt`

### Etapa 2 - Apache Kafka

**O que é o Apache Kafka:** 

O Apache Kafka é uma plataforma de streaming distribuída que permite publicar, subscrever, armazenar e processar fluxos de registros em tempo real. Neste projeto, o Kafka atua como uma ponte entre a fonte de dados (sensores IoT) e o Spark Streaming, permitindo que os dados de sensores sejam capturados e transmitidos para processamento em tempo real.

<br><br>

- 1. Acesse a página do Kafka e faça o download da versão usada no curso conforme mostrado na aula em vídeo.

<br>

- 2. Descompacte o arquivo do Kafka dentro da pasta do Mini-Projeto 6.

> **Nota:** As instruções abaixo são para MacOS e Linux. Para Windows as instruções estão no manual em pdf no Capítulo 15 do curso.
   
<br>

- 3. Abra o **terminal 1**, navegue até a pasta do Kafka (`kafka_2.13-3.3.1`) e execute o comando abaixo para inicializar o Zookeepper (gerenciador de cluster do Kafka):

   `bin/zookeeper-server-start.sh config/zookeeper.properties`

<br>

- 4. Abra o **terminal 2**, navegue até a pasta do Kafka (`kafka_2.13-3.3.1`) e execute o comando abaixo para inicializar o Kafka:

   `bin/kafka-server-start.sh config/server.properties`

<br>

- 5. Abra o **terminal 3**, navegue até a pasta do Kafka (`kafka_2.13-3.3.1`) e execute o comando abaixo para criar um tópico no Kafka:

   `bin/kafka-topics.sh --create --topic dsamp6 --bootstrap-server localhost:9092`

<br>

- 6. No mesmo **terminal 3**, execute o comando abaixo para descrever o tópico:

   `bin/kafka-topics.sh --describe --topic dsamp6 --bootstrap-server localhost:9092`

<br>

- 7. No mesmo **terminal 3**, execute o comando abaixo para produzir o streaming de dados no Kafka (como um produtor de streaming):

   `bin/kafka-console-producer.sh --bootstrap-server localhost:9092 --topic dsamp6 < ../dados/dados_movimento.txt`

<br>

- 8. No mesmo **terminal 3**, execute o comando abaixo para listar o conteúdo do tópico (como um consumidor de streaming):

   `bin/kafka-console-consumer.sh --topic dsamp6 --from-beginning --bootstrap-server localhost:9092`

<br>

- 9. Pressione `Ctrl+C` a qualquer momento para interromper qualquer uma das janelas. Mantenha todas elas abertas enquanto executa a Etapa 3 do projeto.

<br>

### Etapa 3 - Apache Spark

1. Execute o Jupyter Notebook do projeto e execute célula a célula.

<br><br><br><br>

# Importando Pacotes e Configurando Ambiente

<br>

#### Importanto Pacotes

In [None]:
# Importa o findspark e inicializa
import findspark
findspark.init()

# Import required modules
import pyspark
from pyspark.streaming import StreamingContext
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, DoubleType
from pyspark.sql.functions import col, from_json

####  Conector de integração do Spark Streaming com o Apache Kafka
https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html

In [None]:
# Conector
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.3.0 pyspark-shell'

<br>

#### Criando a Sessão Spark

In [None]:
# Cria a sessão Spark
spark = SparkSession.builder.appName("Mini-Projeto6").getOrCreate()

<br><br><br>


# Leitura do Stream

#### Configurando a leitura de dados em tempo real a partir de um tópico Kafka utilizando Apache Spark.

In [None]:
# Vamos criar uma subscrição no tópico que tem o streaming de dados que desejamos "puxar" os dados.
df = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "localhost:9092") \
  .option("subscribe", "dsamp6") \
  .load()

<br><br><br>

# Definição do Schema:

<br>

#### Definindo o Schema