<a href="https://colab.research.google.com/github/Rogerio-mack/data-engineering/blob/main/Aula_kafka.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/mack_logo.png?raw=true" height="70" align="right"/></a>






<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/Kafka1.png?raw=true" height="250" align="left"/></a>

# Entendendo o Streaming de Transações com Apache Kafka

## Definindo um fluxo de dados

Um fluxo de dados é caracterizado por três características principais:

* **Infinito**. Não há um início ou fim claramente definido para o conjunto de dados.

* **Chegada esporádica**. Os dados podem chegar em grandes volumes em milissegundos ou em quantidades muito pequenas ao longo de horas ou dias.

* **Tamanhos variados**. Os registros podem variar de kilobytes a gigabytes.
Os fluxos de dados são diferentes dos dados em lote tradicionais, pois não são agrupados ou processados em unidades específicas.



## Captura de Dados de Mudança (CDC)

Os dados transacionais são frequentemente gerados a partir de mudanças em bancos de dados, utilizando processos de **Captura de Dados de Mudança (CDC)**. O CDC permite a captura de alterações em tempo real, o que é essencial para a replicação e processamento rápidos. Isso é especialmente importante em cenários que exigem análises em tempo real, como transações online ou dados de redes sociais.



## Oportunidades com streaming de dados transacionais

O streaming de dados transacionais oferece várias oportunidades, como:

* **Processamento em tempo real**. Permite a análise contínua e a resposta a eventos à medida que ocorrem.

* **Redução do impacto em cargas de trabalho de produção**. Métodos de CDC não intrusivos minimizam a interferência nas operações do banco de dados.

* **Entrega automatizada e de baixa latência**. O uso do Kafka facilita a entrega rápida e persistente de transações para múltiplos destinos.

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/Kafka2.png?raw=true" height="350" align="left"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/kafka3.png?raw=true" height="450" align="left"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/kafka4.png?raw=true" height="306" align="left"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/kafka5.png?raw=true" height="170" align="left"/></a>

# Arquitetura do Kafka

A arquitetura do Apache Kafka tem como principais componentes:

* **Producers**. Aplicações que publicam dados em tópicos do Kafka.

* **Tópicos**. Estruturas que armazenam fluxos de dados, semelhantes a logs de transações em bancos de dados. Os dados são organizados em partições, permitindo que múltiplos consumidores leiam dados simultaneamente.

>> Um tópico é uma categoria ou um nome de canal onde os registros (ou mensagens) são publicados. **É a unidade organizacional básica no Kafka**, onde os dados são armazenados e consumidos. **Cada tópico é um log imutável e ordenado de registros, que é append-only**, ou seja, novos registros são adicionados ao final do log. Os registros dentro de um tópico são identificados por um offset, que é um número sequencial que indica a posição do registro no log. Nomeação: Os tópicos são geralmente nomeados de acordo com o tipo de dados que contêm, como `user-activity`, `orders`, ou `sensor-data`.

>> Cada tópico pode ser dividido em várias **partições**. Uma **partição** é uma subdivisão do tópico que permite que os dados sejam distribuídos e processados em paralelo. As partições são criadas quando um tópico é definido. O número de partições pode ser especificado no momento da criação do tópico e pode ser ajustado posteriormente, mas isso pode ter implicações na ordem dos dados. As partições são distribuídas entre os brokers do cluster Kafka o que permite que múltiplos brokers armazenem partes do mesmo tópico, aumentando a escalabilidade e a resiliência do sistema. **Cada partição é lida e escrita de forma independente, permitindo que múltiplos consumidores leiam de diferentes partições ao mesmo tempo, o que melhora a taxa de transferência e reduz a latência, mas os registros dentro de uma partição são garantidos para serem lidos na ordem em que foram escritos. No entanto, não há garantia de ordem entre diferentes partições de um mesmo tópico.**

* **Consumers**. Aplicações que leem dados dos tópicos. Eles podem processar dados em tempo real ou em lotes, dependendo das necessidades do negócio.

* **Clusters**: Conjuntos de servidores que trabalham juntos para garantir a alta disponibilidade e a escalabilidade do Kafka.




<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/kafka7.png?raw=true" height="300" align="left"/></a>

* **Brokers**. Os brokers são os servidores que compõem um cluster Kafka. Cada broker é **responsável por armazenar dados e atender às solicitações de leitura e gravação de produtores e consumidores. Eles gerenciam a persistência dos dados em tópicos e partições.** Eles garantem que os dados sejam replicados entre diferentes brokers para alta disponibilidade e tolerância a falhas. Quando um produtor envia dados, ele se conecta a um broker, que então armazena os dados no tópico apropriado.



<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/kafka6.png?raw=true" height="350" align="left"/></a>

* **Zookeeper**. O Zookeeper é um serviço de coordenação que ajuda a gerenciar e manter a configuração do cluster Kafka. É responsável por várias tarefas que incluem:

> * Gerenciamento de metadados: O Zookeeper mantém informações sobre os brokers disponíveis, tópicos, partições e suas réplicas.

> * Coordenação de líderes: O Zookeeper ajuda a eleger um broker líder para cada partição, que é o único responsável por gerenciar as operações de leitura e gravação para essa partição.

> * Monitoramento de estado: O Zookeeper monitora a saúde dos brokers e pode detectar falhas, permitindo que o Kafka reconfigure automaticamente o cluster.

* **Serialização**. No Apache Kafka, a serialização dos dados refere-se ao processo de converter objetos em um formato de byte que pode ser transmitido e armazenado. O formato da serialização pode variar dependendo das necessidades da aplicação e dos tipos de dados.

> 1. String Serialization:
Comum para dados simples, como mensagens de texto.

> 2. JSON Serialization: Útil para dados estruturados, pois o JSON é legível e amplamente utilizado em APIs e serviços web.

> 3. Avro Serialization: O Avro é um sistema de serialização de dados que fornece um formato compacto e um esquema para descrever a estrutura dos dados. Para aplicações que requerem evolução de esquema, pois permite que os dados sejam lidos mesmo que o esquema tenha mudado.

> 4. Protocol Buffers (Protobuf): esenvolvido pelo Google, é usado em sistemas que requerem comunicação rápida entre serviços, especialmente em ambientes de microserviços.

> 5. Outros

* **Conectores**. O Kafka Connect utiliza conectores, que são componentes que ajudam a transferir dados de fontes externas (como bancos de dados) para tópicos do Kafka e vice-versa. Esses conectores podem ser configurados para realizar operações de leitura e gravação de dados de forma incremental, em tempo quase real ou em lotes.

# Ingestão de dados

A ingestão de dados com o Kafka pode ser feita por meio de aplicações que utilizam o Kafka Connect ou através de técnicas de CDC.

**Kafka Connect**, é uma ferramenta que facilita a integração de dados entre o Apache Kafka e outros sistemas. A API Kafka Connect permite que você mova dados para dentro e para fora do Kafka de forma escalável e reutilizável.

# Usando Change Data Capture (CDC) para Integrar Dados

**CDC: O Change Data Capture (CDC)** é uma técnica que permite rastrear e capturar mudanças em conjuntos de dados de origem. Ele é utilizado para replicar alterações em bancos de dados ou outras fontes de dados com pouco ou nenhum impacto nas fontes originais.

Métodos comuns de CDC, captura de dados:

* **Triggers**. Utilizam gatilhos em bancos de dados para registrar alterações em uma tabela separada, que é então replicada.

* **Query-based**. Um mecanismo de CDC consulta o banco de dados em busca de novas alterações, usando timestamps ou números de versão.

* **Log-based**. O CDC analisa logs de transações para identificar e replicar mudanças.

Os dados transacionais capturados via CDC são armazenados em tópicos do Kafka, permitindo que sejam consumidos por diferentes aplicações e serviços. **Os registros armazenados no Kafka podem ser mantidos por longos períodos, permitindo que sejam reproduzidos ou consumidos em velocidades variadas** e podem podem ser utilizados para diversas finalidades, como análises em tempo real, integração com microserviços e processamento de eventos.

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/kafka9.png?raw=true" height="450" align="left"/></a>

<img src="https://github.com/Rogerio-mack/data-engineering/blob/main/figs/kafka10.png?raw=true" height="350" align="left"/></a>

# Exemplos Práticos de Uso do Kafka para Ingestão de Dados

Embora um uso comum seja o CDC (Change Data Capture), existem outros cenários em que o Kafka Connect é bastante útil.

## **Integração com Sistemas IoT Usando Kafka Connect**

Imagine um sistema de **gerenciamento de dispositivos IoT**, como sensores de temperatura, umidade, etc. Esses sensores podem enviar dados em tempo real para uma plataforma de gerenciamento de dados. Um conector específico do Kafka Connect pode ser utilizado para integrar esses dados com sistemas externos, como uma solução de armazenamento em nuvem (ex.: Amazon S3).

**Fluxo:**
1. **Dispositivos IoT** enviam dados de sensores para um broker MQTT (protocolo popular para IoT).
2. O **Kafka Connect MQTT Source Connector** é configurado para consumir dados do broker MQTT e enviar esses dados para um tópico Kafka.
3. O **Kafka Connect S3 Sink Connector** é configurado para mover os dados do Kafka para o Amazon S3, onde os dados podem ser analisados posteriormente.

```bash
# Configuração de um MQTT Source Connector
{
  "name": "mqtt-source-connector",
  "config": {
    "connector.class": "io.confluent.connect.mqtt.MqttSourceConnector",
    "mqtt.server.uri": "tcp://broker:1883",
    "mqtt.topics": "sensor/temperature",
    "kafka.topic": "iot-sensors",
    "tasks.max": "1"
  }
}

# Configuração de um S3 Sink Connector
{
  "name": "s3-sink-connector",
  "config": {
    "connector.class": "io.confluent.connect.s3.S3SinkConnector",
    "s3.bucket.name": "iot-data",
    "topics": "iot-sensors",
    "format.class": "io.confluent.connect.s3.format.json.JsonFormat",
    "partitioner.class": "io.confluent.connect.storage.partitioner.DefaultPartitioner",
    "tasks.max": "1"
  }
}
```

A Kafka Connect integra o fluxo de dados IoT em tempo real com o armazenamento em nuvem, facilitando o processamento e a análise de grandes volumes de dados de sensores.

## **Detecção de Fraudes em Transações Bancárias**

O **Kafka Connect** pode ser configurado para se conectar a um banco de dados SQL ou NoSQL (MySQL, PostgreSQL, MongoDB) usando conectores predefinidos ou pode-se usar conectores CDC. O Kafka publica os dados de transações em tempo real para tópicos, onde os consumidores, como Algoritmos de aprendizado de máquina, identificam transações que têm maior risco de fraude. O uso do Kafka permite um fluxo contínuo e escalável de ingestão de dados, processando em tempo real e fornecendo detecção de fraudes mais rápida.

## **Sincronização de Dados entre Aplicações Web e Móveis**

Aplicativos móveis e web muitas vezes precisam garantir que as informações dos usuários (como perfis ou status de transações) estejam sempre atualizadas em tempo real. A técnica de **CDC** pode ser usada para capturar alterações em bancos de dados backend e enviá-las ao Kafka, que distribui essas atualizações para os consumidores. A sincronização de dados é feita entre várias plataformas sem a necessidade de consultas constantes ao banco de dados, economizando recursos e tempo de resposta.





# Kafka $\times$ RabbitMQ

Essa é uma questão comum, mas o **RabbitMQ** e o **Kafka**, embora muitas vezes possam ser intercambiáveis, eles **têm propósitos diferentes!**

## **RabbitMQ**

O **RabbitMQ** é um broker de mensagens **orientado a filas** (message-oriented middleware). Ele é projetado para transmitir e rotear mensagens entre produtores e consumidores em tempo real. A ideia central é que mensagens podem ser enfileiradas e consumidas por diferentes aplicações, com garantias de entrega como **at-least-once** e **exactly-once**. O RabbitMQ trabalha com **filas** (e não com tópicos) onde as mensagens são entregues a consumidores únicos (ponto a ponto).

>> **Uma mensagem publicada em uma fila será consumida por um único consumidor**.

O RabbitMQ é ideal para situações onde você precisa rotear mensagens entre serviços, controlar fluxos de trabalho assíncronos ou garantir que cada mensagem seja processada apenas uma vez.

## **Kafka**

Já o **Kafka** é um sistema de **streaming distribuído**, projetado para publicar, armazenar e processar fluxos contínuos de dados. Sua arquitetura não é baseada em filas, mas sim em **tópicos particionados**, onde

>> **mensagens são armazenadas de forma imutável e podem ser consumidas por múltiplos consumidores de forma paralela**.

O Kafka é otimizado para a transmissão contínua e processamento em **tempo real de grandes volumes de dados**. Ele também oferece **persistência e replay de mensagens**, algo que não é comumente encontrado em sistemas de mensageria pura.
O Kafka é usado em cenários onde o volume de dados é muito grande ou onde há necessidade de processamento em tempo real, como análise de logs, monitoramento de eventos, ou streaming de dados de sensores.


| Característica               | RabbitMQ                       | Kafka                        |
|------------------------------|---------------------------------|------------------------------|
| **Modelo de Mensagem**        | Fila (point-to-point)           | Tópico (pub/sub)              |
| **Entrega de Mensagens**      | At-least-once, Exactly-once     | At-least-once, Exactly-once   |
| **Persistência de Mensagens** | Opcional                       | Sempre (até retenção definida)|
| **Processamento em Tempo Real** | Limitado                      | Otimizado para streaming      |
| **Escalabilidade**            | Difícil com alta concorrência   | Altamente escalável           |
| **Garantia de Ordem**         | Ordem em fila, não global       | Ordem por partição            |

Como limitações, o RabbitMQ, tem escalabilidade limitada com grandes volumes de dados e para persistência de longo prazo, enquanto o Kafka tem muito maior complexidade na instalação e operação e latência maior para pequenas mensagens se comparado ao RabbitMQ.



# Concorrentes do Kafka e Distribuições Comerciais

## Concorrentes

- **Amazon Kinesis**
- **Azure Event Hubs**
- **Google Pub/Sub** (mas é mais um "Serviço de mensageria da Google Cloud")
  
## Distribuições Comerciais

- **Confluent Kafka**, fundada pelos criadores do Kafka, oferece uma distribuição comercial do Kafka com recursos adicionais como monitoramento, controle de acesso e interfaces de gestão mais amigáveis.

- **Cloudera Kafka**

- **AWS Managed Streaming for Apache Kafka (MSK)**



