
# Apache Kafka

##  O que é Apache Kafka?
Apache Kafka é uma plataforma de streaming distribuído, usada principalmente para construir pipelines de dados e sistemas de mensagens em tempo real. Foi desenvolvido pela LinkedIn e depois doado para a Apache Foundation. Kafka tem várias funcionalidades importantes:

- Pub/Sub: Segue o modelo publisher/subscriber (produtor/consumidor).
- Escalabilidade: Alta escalabilidade horizontal.
- Persistência: Armazena mensagens de forma distribuída e resiliente.
- Baixa latência: Excelente para processar fluxos de dados em tempo real.
##  Conceitos Principais do Kafka
- Produtor: Uma aplicação que envia mensagens para o Kafka.
- Consumidor: Uma aplicação que lê mensagens do Kafka.
- Tópicos: Um tópico é um canal para onde as mensagens são enviadas. É uma forma de categorizar as mensagens.
- Partições: Cada tópico pode ser dividido em várias partições para permitir escalabilidade.
- Brokers: Servidores Kafka que armazenam as mensagens.
- Zookeeper: Usado para coordenar os brokers no Kafka (em versões mais recentes, o Kafka pode funcionar sem Zookeeper).




### **Brokers no Apache Kafka**

Os **brokers** são os servidores responsáveis por armazenar e gerenciar os dados no cluster Kafka. Eles desempenham funções cruciais no processamento de mensagens e na manutenção de partições dos tópicos, garantindo a **distribuição de carga**, **tolerância a falhas** e **alta disponibilidade**.

#### **Principais Funções dos Brokers**:
1. **Armazenamento de Partições**:
   - Cada broker armazena **partições** de diferentes tópicos. Um tópico é dividido em várias partições, que são distribuídas entre os brokers do cluster.
   
2. **Gerenciamento de Réplicas**:
   - Um broker pode manter a **réplica líder** de uma partição ou ser responsável por uma **réplica seguidora**. O líder gerencia as operações de leitura e escrita, enquanto as réplicas seguidoras mantêm cópias dos dados para garantir resiliência.

3. **Distribuição de Carga**:
   - O Kafka distribui as partições entre os brokers, permitindo processamento paralelo e escalabilidade. Isso impede que um broker fique sobrecarregado.

4. **Tolerância a Falhas**:
   - Se um broker falhar, um broker que contenha uma réplica da partição falhada assume automaticamente o papel de líder, garantindo que o Kafka continue funcionando sem interrupções.

5. **Coordenação do Cluster**:
   - Um broker no cluster é designado como o **controller**, que coordena mudanças como a atribuição de partições e a eleição de novos líderes em caso de falhas.

#### **Exemplo de Distribuição de Partições em um Cluster de Brokers**:
Se você tiver um cluster com 3 brokers (B1, B2, B3) e um tópico com 4 partições, o Kafka distribuirá essas partições entre os brokers. Um exemplo seria:
- **Partição 0**: Líder em B1, réplicas em B2 e B3.
- **Partição 1**: Líder em B2, réplicas em B1 e B3.
- **Partição 2**: Líder em B3, réplicas em B1 e B2.
- **Partição 3**: Líder em B1, réplicas em B2 e B3.

Isso garante que, mesmo se um broker falhar, outro broker com a réplica da partição pode assumir o controle.

---

### **Fator de Replicação no Apache Kafka**

O **fator de replicação** é o número de cópias de cada partição de um tópico que são mantidas em diferentes brokers no cluster Kafka. Ele é essencial para garantir **alta disponibilidade** e **tolerância a falhas**.

#### **Como Funciona o Fator de Replicação**:
- **Replicação de Partições**: Para cada partição de um tópico, o Kafka cria um número de réplicas determinado pelo fator de replicação. Por exemplo, com um fator de replicação de 3, o Kafka manterá 3 cópias de cada partição em diferentes brokers.
- **Partição Líder**: Cada partição tem uma **réplica líder**, que é responsável por gravar e ler dados. As réplicas seguidoras apenas mantêm cópias idênticas da partição e assumem o papel de líder em caso de falha.

#### **Exemplos de Fator de Replicação**:
- **Fator de Replicação = 1**: A partição tem apenas uma réplica (ela mesma). Se o broker que mantém essa partição falhar, os dados são perdidos, pois não há outras cópias.
  
- **Fator de Replicação = 2**: Cada partição tem uma cópia adicional. Se o broker com a partição líder falhar, uma réplica assume automaticamente.

- **Fator de Replicação = 3**: Cada partição tem duas réplicas adicionais, garantindo maior tolerância a falhas. Mesmo que dois brokers falhem, ainda haverá uma cópia da partição disponível.

#### **Impactos do Fator de Replicação**:
- **Alta Disponibilidade**: Com mais réplicas, o Kafka pode continuar funcionando mesmo em caso de falhas de brokers, garantindo que as mensagens permaneçam acessíveis.
- **Custo e Armazenamento**: Um fator de replicação maior aumenta a redundância dos dados, mas também consome mais espaço em disco e recursos de rede, pois mais brokers precisam armazenar e manter as réplicas.




## Instalação do Apache Kafka

1. Faça o download do Kafka no site oficial: [Apache Kafka](https://kafka.apache.org/downloads).
   ```bash
   sudo wget https://downloads.apache.org/kafka/3.5.2/kafka_2.12-3.5.2.tgz
   ```
2. Extraia os arquivos e navegue até a pasta do Kafka.
   ```bash
   tar -xvf kafka_2.12-3.5.2.tgz
   ```
   ```bash
   cd ./kafka_2.12-3.5.2/
   ```
3. Inicie o Zookeeper:
   ```bash
   bin/zookeeper-server-start.sh config/zookeeper.properties
   ```
4. Inicie o Kafka:
   ```bash
   bin/kafka-server-start.sh config/server.properties
   ```

## Instalação da Biblioteca kafka-python

Para utilizar Kafka com Python, instale a biblioteca `kafka-python`:

```bash
pip install kafka-python
```

---

## Criando Tópicos no Kafka

Para criar tópicos no Kafka, você pode utilizar a linha de comando após iniciar o Kafka e o Zookeeper.


```bash
bin/kafka-topics.sh --create --topic meu-topico --bootstrap-server localhost:9092 --partitions 3 --replication-factor 1
```

- **`--topic meu-topico`**: Nome do tópico.
- **`--bootstrap-server localhost:9092`**: Endereço do servidor Kafka.
- **`--partitions 3`**: Define 3 partições.
- **`--replication-factor 1`**: Define o fator de replicação.

## Verificando a Criação do Tópico:

```bash
bin/kafka-topics.sh --describe --topic meu-topico --bootstrap-server localhost:9092
```

---

## Criando um Produtor Kafka em Python


```python
from kafka import KafkaProducer
import json
import time

# Função de serialização para converter em bytes
def serializer(message):
    return json.dumps(message).encode('utf-8')

# Criando o produtor
producer = KafkaProducer(
    bootstrap_servers=['localhost:9092'],  # Endereço do Kafka
    value_serializer=serializer  # Serializando mensagens
)

# Enviando mensagens
for i in range(10):
    message = {'numero': i, 'mensagem': f"Mensagem {i}"}
    producer.send('meu-topico', value=message)
    print(f"Mensagem enviada: {message}")
    time.sleep(1)

# Fecha o produtor
producer.close()
```

Neste exemplo:
- **`bootstrap_servers`** define o endereço do servidor Kafka (local).
- **`value_serializer`** converte as mensagens Python em JSON.

---

## 5. Criando um Consumidor Kafka em Python


```python
from kafka import KafkaConsumer
import json

# Função de desserialização para converter bytes em dicionário Python
def deserializer(message):
    return json.loads(message.decode('utf-8'))

# Criando o consumidor
consumer = KafkaConsumer(
    'meu-topico',  # Nome do tópico
    bootstrap_servers=['localhost:9092'],  # Endereço do Kafka
    auto_offset_reset='earliest',  # Lê a partir do início do tópico
    group_id='meu-grupo',  # Define um grupo de consumidores
    value_deserializer=deserializer  # Desserializa as mensagens
)

# Lendo mensagens
for message in consumer:
    print(f"Mensagem recebida: {message.value}")

# Fecha o consumidor quando terminar
consumer.close()
```

Neste exemplo:
- **`group_id`** define o grupo de consumidores. Consumidores no mesmo grupo compartilham a carga de mensagens.

---

## 6. Criando Grupos de Consumidores

Grupos de consumidores são formados automaticamente ao definir um `group_id` no consumidor. Se dois ou mais consumidores fizerem parte do mesmo grupo, as mensagens serão divididas entre eles.

### Exemplo de Consumidor 1 no Grupo "grupo-de-consumo-1":

```python
from kafka import KafkaConsumer
import json

# Função de desserialização
def deserializer(message):
    return json.loads(message.decode('utf-8'))

# Criando o consumidor no grupo "grupo-de-consumo-1"
consumer = KafkaConsumer(
    'meu-topico',
    bootstrap_servers=['localhost:9092'],
    auto_offset_reset='earliest',
    group_id='grupo-de-consumo-1',  # Definindo o grupo de consumidores
    value_deserializer=deserializer
)

# Lendo mensagens
for message in consumer:
    print(f"Consumidor 1 - Mensagem recebida: {message.value}")

consumer.close()
```

### Exemplo de Consumidor 2 no Mesmo Grupo:

```python
from kafka import KafkaConsumer
import json

# Função de desserialização
def deserializer(message):
    return json.loads(message.decode('utf-8'))

# Criando outro consumidor no mesmo grupo "grupo-de-consumo-1"
consumer = KafkaConsumer(
    'meu-topico',
    bootstrap_servers=['localhost:9092'],
    auto_offset_reset='earliest',
    group_id='grupo-de-consumo-1',  # Mesmo grupo
    value_deserializer=deserializer
)

# Lendo mensagens
for message in consumer:
    print(f"Consumidor 2 - Mensagem recebida: {message.value}")

consumer.close()
```

- Os dois consumidores estão no grupo `grupo-de-consumo-1` e compartilharão as mensagens do tópico `meu-topico`. Cada consumidor processará uma parte das mensagens com base nas partições do tópico.

