# Kafka

O Apache Kafka é uma plataforma de streaming distribuída de software livre que pode ser usada para compilar pipelines e aplicativos de dados de streaming em tempo real. O Kafka também fornece funcionalidade de agente de mensagem semelhante a uma fila de mensagens, onde você pode publicar e assinar os fluxos de dados nomeados.

A API de produtor do Kafka permite que os aplicativos enviam fluxos de dados para o cluster Kafka. A API de consumidor do Kafka permite que os aplicativos leiam fluxos de dados do cluster.

Neste tutorial, você irá aprender como criar produtores e consumidores para clusters Kafka utilizando Python. Iremos instalar a biblioteca `confluent-kafka` que irá nos permitir utilizar a API do Kafka em Python.

In [None]:
!pip install confluent-kafka

# Consumidor

O consumidor se comunica com os hosts de broker Kafka (nós de trabalho) e consome as mensagens de um tópico. O primeiro passo é carregar a classe `Consumer` que será utilizada para consumir mensagens da API do Kafka.

In [None]:
from confluent_kafka import Consumer

O próximo passo é consumir mensagens do Kafka. Para isto, passamos três parâmetros para o `Consumer`:

- `bootstrap.servers`: ip e porta do Kafka. Aqui o IP é *kafka* e a porta *9092*.
- `group.id`: identificador do grupo de consumidores do Kafka. Os consumidores dentro do grupo revesam no consumo de mensagens do tópico. Aqui definimos *cconsumidor-usuarios-plataforma* como identificador do grupo.
- `auto.offset.reset`: define o offset de consumo de mensagens, ou seja, a partir de quando iremos ler mensagens do Kafka. Aqui definimos `earliest`, ou seja, iremos consumir todas as mensagens do tópico. Se colocarmos, por exemplo, `latest` iríamos consumir apenas as mensagens que chegarem daqui pra frente.

In [None]:
consumer=Consumer({'bootstrap.servers':'kafka:9092','group.id':'consumidor-usuarios-plataforma','auto.offset.reset':'earliest'})
print('Kafka Consumer foi inicializado...')

Para ler mensagens de um tópico, o consumidor deve se inscrever no tópico. No código abaixo o consumidor faz a inscrição no tópico `usuarios`.

In [None]:
print('Tópicos disponíveis: ', consumer.list_topics().topics)
consumer.subscribe(['usuarios_plataforma'])

Depois de inscrito no tópico chegou o momento de ler mensagens do tópico. O código abaixo itera no tópico `usuarios_plataforma` lendo todas as mensagens. Quando não houver mais mensagens para serem lidas, o loop finaliza.

In [None]:
while True:
    # consome uma mensagem do tópico (espera 1 segundo)
    msg=consumer.poll(1.0) #timeout
    # Se a mensagem for nula é porque não existem mais mensagens.
    # Neste caso, continua no loop esperando mais mensagens
    if msg is None:
        continue
    
    # Se tiver erro na mensagem lida, imprime a mensagem e continua o loop.
    if msg.error():
        print('Erro: {}'.format(msg.error()))
        continue
    
    # lê o valor da mensagem
    data=msg.value().decode('utf-8')
    #imprime cada mensagem do tópico
    print(data)

Depois de lida todas as mensagens do tópico, o consumidor fecha a conexão com o Kafka no código abaixo.

In [None]:
consumer.close()