# Kafka

O Apache Kafka é uma plataforma de streaming distribuída de software livre que pode ser usada para compilar pipelines e aplicativos de dados de streaming em tempo real. O Kafka também fornece funcionalidade de agente de mensagem semelhante a uma fila de mensagens, onde você pode publicar e assinar os fluxos de dados nomeados.

A API de produtor do Kafka permite que os aplicativos enviam fluxos de dados para o cluster Kafka. A API de consumidor do Kafka permite que os aplicativos leiam fluxos de dados do cluster.

Neste tutorial, você irá aprender como criar produtores e consumidores para clusters Kafka utilizando Python. Iremos instalar a biblioteca `confluent-kafka` que irá nos permitir utilizar a API do Kafka em Python.

In [None]:
!pip install confluent-kafka

# Produtor

O produtor se comunica com os hosts de agente de Kafka (nós de trabalho) e envia dados a um tópico Kafka.

No código abaixo importamos a classe `Producer` para enviar mensagens para o Kafka.

In [None]:
from confluent_kafka import Producer

Iremos produzir mensagens *fake* para o tópico do Kafka. Por isso, iremos utilizar a biblioteca faker do Python que gera nomes, endereços, cidades, etc... fakes para podermos construir uma mensagem *fake*.

In [None]:
!pip install faker

Abaixo as bibliotecas são importadas para serem utilizadas no Produtor.

In [None]:
import json
import random
from faker import Faker

Iniciamos o objeto Faker que será utilizado para criar dados *fake*.

In [None]:
fake=Faker()

Para criar um produtor de mensagens, devemos informar onde está o cluster do Kafka. Para isto definimos em `bootstrap.servers` o IP e porta do cluster do Kafka. Neste tutorial, o IP é *kafka* e a porta *9092*.

In [None]:
producer=Producer({'bootstrap.servers':'kafka:9092'})
print('Kafka Producer foi inicializado...')

### Criação de mensagens

Neste tutorial iremos enviar 10 mensagens para o tópico `usuarios_plataforma` do Kafka. Iremos enviar uma mensagem com os seguintes campos:

- id_usuario
- nome_usuario
- endereco_usuario
- platforma
- data_cadastro

In [None]:
import time
for i in range(10):
    # constroi o JSON que será enviado como mensagem
    data={
       'id_usuario': fake.random_int(min=20000, max=100000),
       'nome_usuario':fake.name(),
       'endereco_usuario':fake.street_address() + ' | ' + fake.city() + ' | ' + fake.country_code(),
       'platforma': random.choice(['Celular', 'Notebook', 'Tablet']),
       'data_cadastro': str(fake.date_time_this_month())    
       }
    # converte o JSON para string para ser enviado no Kafka
    m=json.dumps(data)
    # publica a mensagem no tópico 'usuarios' com codificação UTF-8
    producer.produce('usuarios_plataforma', m.encode('utf-8'))
    
    print(f"Enviado mensagem: {data}")
    
    time.sleep(3)
    # faz um flush da mensagem
    producer.flush()