<span style="color: green; font-size: 40px; font-weight: bold;">Projeto 1 (Análise de Dados em Tempo Real) </span>

<br> <br>

# Análise de Dados de Sensores IoT (Internet das Coisas) em Tempo Real com Apache Spark Streaming e Apache Kafka

<br>

### Contexto

Uma determinada indústria de materiais esportivos tem diversos equipamentos no parque industrial da empresa usados para produção e que funcionam 24/7.

Cada equipamento tem um sensor que mede a temperatura em intervalos regulares. Os equipamentos que excedem uma determinada temperatura média por muito tempo, podem ter a vida útil reduzida, gerando custos adicionais de manutenção ou troca do equipamento.

O departamento de operações gostaria de ter uma **solução de análise de dados em tempo real que calculasse a média de temperatura de cada equipamento a partir da leitura dos dados emitidos pelos sensores IoT em intervalos regulares**. Isso ajudaria no monitoramento da operação e ainda permitiria criar um histórico de uso dos equipamentos.

Além de construir a solução com Spark e Kafka, vamos desenvolver um simulador para gerar dados de sensores IoT.

<br>

### Objetivo

O objetivo deste projeto é **demonstrar como configurar e executar uma pipeline de dados em tempo real que coleta, processa e analisa dados de sensores IoT utilizando Apache Kafka e Apache Spark Structured Streaming**. A análise se concentra em calcular a média das temperaturas reportadas por diferentes sensores em tempo real, permitindo monitorar e responder a condições específicas conforme os dados são gerados.

<br>

### Pergunta de Negócio Principal

> A principal pergunta de negócio que este projeto visa responder é: "**Qual é a temperatura média registrada por cada sensor IoT em tempo real, e como podemos monitorar e responder a temperaturas que excedem um determinado limiar?**"

<br>

### Entregável

O entregável deste projeto é uma aplicação de streaming em tempo real que:

- Coleta dados de sensores IoT em tempo real usando Apache Kafka.
- Processa e analisa esses dados em tempo real usando Apache Spark Structured Streaming.
- Calcula e exibe a média de temperatura por sensor.
- Permite a consulta em tempo real dos sensores que reportam temperaturas acima de um certo limite (por exemplo, acima de 65 graus Celsius).

<br>

### Sobre a Fonte de Dados

Os dados utilizados no projeto são gerados por sensores IoT que monitoram a temperatura (pequenos sensores em maquinas industrias que medem a temperatura das máquinas em tempos regulares). Cada entrada de dados inclui:

- **id_sensor**: Identificador único do sensor.
- **id_equipamento**: Identificador único do equipamento ao qual o sensor está conectado.
- **sensor**: Nome ou tipo do sensor.
- **data_evento**: Timestamp do evento de leitura.
- **padrao**: Objeto que encapsula as leituras do sensor, neste caso, a temperatura.

#### Exemplo de Entrada de Dados (json):

<br>

```
{
  "id_sensor": "S-DSA-MP6-CAP15-02468-374DM",
  "id_equipamento": "E-DSA-MP6-CAP15-13579-374DM",
  "sensor": "sensor25",
  "data_evento": "2022-11-05T15:22:16.968007Z",
  "padrao": {
    "formato": "iot:leitura:sensor:temp",
    "leitura": {
      "temperatura": 42.0
    }
  }
}

```

Cada leitura de temperatura é capturada em um formato JSON e enviada para o tópico Kafka, que é então consumido pelo Spark Structured Streaming para análise em tempo real.

#### Como simular isso?

Precisamos encontrar uma forma de simular a geração de dados em tempo real a partires de sensores IoT. Para isso será necessário a **construção de um simulador usando a linguagem python para gerar dados de sensores IoT**.

No dia a dia, bastaria solicitar os dados ao responsável pelas máquinas os arquivos gerados pelos sensores IoT.



<br><br>

## Código Implementado

O código implementa as seguintes etapas:

#### 1. Configuração do Ambiente:

- Importação das bibliotecas necessárias, incluindo integração Spark-Kafka.
- Criação da sessão Spark.

#### 2. Leitura do Stream:

- Usando
- O código configura a leitura do stream a partir de um tópico Kafka chamado `dsamp6`, usando `spark.readStream.format("kafka")` e outras opções como `kafka.bootstrap.servers` e `subscribe`.

#### 3. Definição do Schema:

- Dois esquemas são definidos:
  - Um esquema para a leitura da temperatura (`esquema_dados_temp`), que modela a estrutura JSON esperada para a temperatura.
  - Um esquema global (`esquema_dados`), que define a estrutura completa do JSON, incluindo identificadores de sensor, equipamento, e a leitura da temperatura.

#### 4. Parse e Preparo dos Dados:

- Conversão de cada linha de dado do stream para JSON e transformação em um DataFrame estruturado.
  - O stream é convertido de `value` para string usando `CAST(value AS STRING)`.
  - A string JSON é transformada em um DataFrame usando `from_json(col("value"), esquema_dados)`, o que permite a extração dos campos individuais.
  - O DataFrame resultante é preparado selecionando apenas os campos necessários (`temperatura` e `sensor`).

#### 5. Análise de Dados em Tempo Real:

- Cálculo da média de temperatura por sensor.
- Exibição do resultado em tempo real no console.
- Execução de consultas SQL em tempo real para monitorar sensores que excedem um determinado limiar de temperatura.

- A análise calcula a média da temperatura por sensor usando `groupby("sensor").mean("temperatura")`.
- As colunas são renomeadas para simplificar a análise (`sensor`, `media_temp`).
- A query de streaming é executada em modo `complete` e imprime o resultado no console em tempo real.

#### 6. Persistência e Visualização dos Resultados:

- Outra query de streaming é configurada para manter os resultados em memória (`format("memory")`).
- SQL é usado para consultar os dados em tempo real, filtrando sensores com temperaturas acima de 65 graus.

<br>

### Considerações Finais

Este mini-projeto demonstra como é possível utilizar ferramentas modernas de big data para implementar soluções de análise em tempo real. A combinação de Apache Kafka e Apache Spark Structured Streaming oferece uma solução robusta e escalável para lidar com fluxos de dados contínuos, como os gerados por dispositivos IoT. Através desta pipeline, é possível monitorar, analisar e reagir aos dados à medida que são gerados, fornecendo insights imediatos e acionáveis para o negócio.

<br><br><br>


# Instruções para executar o projeto.

<br>

### Etapa 1 - Simulador IoT

1. Abra o terminal ou prompt de comando e acesse a pasta do projeto e vá para a pasta `simulador_iot` que contém o script `simulador.py`. Esta pasta é onde o simulador IoT está localizado, e esse script foi desenvolvido para gerar leituras simuladas de sensores IoT.

> **O que o script faz:** O script `simulador.py` gera dados simulados de sensores de temperatura em formato JSON. Ele atribui valores de temperatura a sensores fictícios e os salva em um arquivo de saída. Esses dados são então usados no restante do projeto para simular um fluxo de dados IoT em tempo real.

2. Execute o comando abaixo para gerar um arquivo com 10.000 leituras de sensores IoT (você pode ajustar o número de registros conforme desejar).

   `python simulador.py 10000 > ../dados/dados_sensores.txt`

### Etapa 2 - Apache Kafka

**O que é o Apache Kafka:** 

O Apache Kafka é uma plataforma de streaming distribuída que permite publicar, subscrever, armazenar e processar fluxos de registros em tempo real. Neste projeto, o Kafka atua como uma ponte entre a fonte de dados (sensores IoT) e o Spark Streaming, permitindo que os dados de sensores sejam capturados e transmitidos para processamento em tempo real.

<br>

1. Acesse a página do Kafka e faça o download da versão usada no curso conforme mostrado na aula em vídeo.

2. Descompacte o arquivo do Kafka dentro da pasta do Mini-Projeto 6.

   **Nota:** As instruções abaixo são para MacOS e Linux. Para Windows as instruções estão no manual em pdf no Capítulo 15 do curso.

3. Abra o terminal, navegue até a pasta do Kafka e execute o comando abaixo para inicializar o Zookeepper (gerenciador de cluster do Kafka).

   `bin/zookeeper-server-start.sh config/zookeeper.properties`

4. Abra outro terminal, navegue até a pasta do Kafka e execute o comando abaixo para inicializar o Kafka.

   `bin/kafka-server-start.sh config/server.properties`

5. Abra outro terminal, navegue até a pasta do Kafka e execute o comando abaixo para criar um tópico no Kafka.

   `bin/kafka-topics.sh --create --topic dsamp6 --bootstrap-server localhost:9092`

6. No mesmo terminal anterior, execute o comando abaixo para descrever o tópico.

   `bin/kafka-topics.sh --describe --topic dsamp6 --bootstrap-server localhost:9092`

7. No mesmo terminal anterior, execute o comando abaixo para produzir o streaming de dados no Kafka (como um produtor de streaming).

   `bin/kafka-console-producer.sh --bootstrap-server localhost:9092 --topic dsamp6 < ../dados/dados_sensores.txt`

8. No mesmo terminal anterior, execute o comando abaixo para listar o conteúdo do tópico (como um consumidor de streaming).

   `bin/kafka-console-consumer.sh --topic dsamp6 --from-beginning --bootstrap-server localhost:9092`

9. Pressione `Ctrl+C` a qualquer momento para interromper qualquer uma das janelas. Mantenha todas elas abertas enquanto executa a Etapa 3 do projeto.

### Etapa 3 - Apache Spark

1. Execute o Jupyter Notebook do projeto e execute célula a célula.