# Carga de dados
Há diferentes formas de se fazer carga de dados e aqui discutiremos duas estratégias diferentes, muito importantes e difundidas.

## Batch
Cargas feitas em formato de batch, ou lotes, implicam em acumulo de dados durante um período de tempo determinado para então processá-los.

Dentro deste formato encontram-se muitos ambientes de BI tradicionais, onde sistemas OLTP produzem e coletam dados durante o dia, para em janelas noturas acontecerem as extrações, transformações e cargas (ETL). Um fluxo como este de exemplo, tem como produto um Data Warehouse D-1, ou seja, com atraso de um dia das informações ali disponíveis para análises.

## Streaming
Streaming por sua vez parte do pressuposto que datasets podem ser infinitos, e diferente dos batchs que aguardam janelas de execução e acumulam dados enquanto isso, neste modelo os dados são processados assim que disponibilizados, em tempo real ou o mais próximo disso possível.

O Kafka é o ferramenta que permite que isto seja possível, como visualizado a seguir.

# Kafka
Apache Kafka é uma plataforma de streaming de eventos distribuída de código aberto desenvolvida em Scala e Java e usada para pipelines de dados de alto desempenho, análise de streaming e integração de dados.

Tem como objetivo fornecer uma  plataforma unificada, de alta capacidade e baixa latência para tratamento de dados em tempo real. Sua camada de armazenamento é, essencialmente, uma "fila de mensagens de publishers/subscribers maciçamente escalável projetada como um log de transações distribuído" tornando-o altamente valioso para infra-estruturas corporativas que processam transmissão de dados.

A fim de tornar a solução ainda mais poderosa e complexa, é possível utilizá-la em conjunto com outras ferramentas de ingestão como o Apache Flume e o Spark Streaming.

## Características
- Plataforma de streaming distribuída.
- Permite publish e subscribe de streams semelhante a uma fila de mensagens.
- Tolerante a falhas.
- Real Time.
- Trabalha em cluster com um ou mais nós.
- Suporta milhões de mensagens por segundo.
- Entrega de mensagens de baixa latência.
- Suporta múltiplos clientes como Java, .NET, PHP, Ruby, python.
- Escrita e leitura em memória .
- Persiste todos os dados no disco.
- Integração nativa com Storm, Spark Streaming e Flume.
- Escalável.

## Arquitetura
O Kafka é usado com mais frequência para transmitir dados em real time para outros sistemas. Kafka é uma camada intermediária para desacoplar seus pipelines de dados em real time.

O core Kafka não é bom para cálculos diretos, como agregações de dados. O streaming Kafka, que faz parte do ecossistema Kafka, fornece a capacidade de fazer análises em tempo real.

![Arquitetura](https://s3-sa-east-1.amazonaws.com/lcpi/78ec5e5c-ee59-4466-b1dd-1a9beffc4720.png)

## Kafka API
![API](https://s3-sa-east-1.amazonaws.com/lcpi/3cfe3dbc-9384-4a5e-8e99-0718907dbfc3.png)

## Tópico
O tópico é um canal lógico no qual os producer publicam mensagens e dos quais os consumer recebem mensagens.

- Onde os dados são armazenados.
- São armazenados em logs.
- São multi-assinantes, podendo ter zero, um ou muitos - consumidores.
- São divididos em partições.
- Os registros publicados no tópico são retidos por um período configurável de tempo.

## Partição
Em um cluster Kafka, os Tópicos são divididos em Partições e também replicados entre os intermediários.

- Cada partição é uma sequência ordenada e imutável de registros que é anexado continuamente a um log de confirmação estruturado.
- Os registros nas partições recebem cada um um número de identificação sequencial chamado offset que identifica de forma exclusiva cada registro dentro da partição.
- São distribuídas pelos servidores no cluster Kafka. 
- É replicada em um número configurável de servidores para tolerância a falha.

## Kafka Broker
- Kafka Cluster possui vários Broker (Instância de Kafka) e se houver mais de um temos um Cluster Kafka.
- Cada Broker pode ter zero ou mais partições por tópico.
Mantém o equilíbrio da carga.
- São stateless, usam o ZooKeeper para manter seu estado no cluster.
- Um Broker pode lidar com centenas de milhares de leituras e gravações por segundo e TB de mensagens sem perder desempenho.

### Producer
Permite que um aplicativo publique registros nos tópicos.

- Envia os dados para os Brokers.
- Escolhe em qual tópico o dados vai ser escrito.
- Quando um novo Broker é iniciado, todos os producers enviam - uma mensagem para ele.
- Producer não aguarda OK do Broker, envia as mensagens rapidamente para o Broker.

### Consumer
Permite que um aplicativo se inscreva em um ou mais tópicos e processe os registro.

- Lêem os dados do Broker.
- Assinam um ou mais tópicos e consomem as mensagens publicadas.
- Tem o controle das mensagens que foram consumidas usando o offset da partição.
- Emite uma solicitação de offset assíncrona ao Broker para ter um buffer de bytes pronto para consumir.

## ZooKeeper
O Kafka broker usa o ZooKeeper visando gerenciamento e coordenação. Além disso, o utiliza para notificar o producer e o consumer sobre a presença de qualquer novo evento no sistema do Kafka ou falha no sistema. Assim que o tratador envia a notificação ou falha sobre producer e consumer, toma a decisão e começa a coordenar sua tarefa com outro broker.

### Características
- Parte importante de um Cluster Kafka.
- Coordenação entre os Brokers e os Consumers.
- Cluster Kafka compartilha informações através de um cluster Zookeeper.
- Kafka armazena metadados básicos no Zookeeper.
- Utilizado para fazer eleição de liderança dos Brokers e partições.
- Fornece uma visão sincronizada da configuração do Kafka Cluster.

## Fator de replicação
Ao projetar um sistema Kafka, é sempre uma decisão sábia levar em consideração a replicação de tópicos. Como resultado, as réplicas de seus tópicos de outro brokers podem resolver a crise se um broker cair. Por exemplo, temos 3 corretores e 3 tópicos. O Broker 1 possui o Tópico 1 e a Partição 0, sua réplica está no Broker 2, e assim por diante. Possui um fator de replicação 2; significa que ele terá uma cópia adicional diferente da primária. Abaixo está a imagem do fator de replicação de tópicos:

![Replicacao](https://s3-sa-east-1.amazonaws.com/lcpi/53e59182-dd01-40ad-8c03-14c1098c4f55.jpeg)

### Características
- Armazena os dados em disco.
- Por padrão são armazenados 7 dias.
- Aṕos expiração as mensagens são excluídas automaticamente .
- Configuração por tópico.
- Cleanup também por espaço.




In [None]:
INtervalo. VOltamos 17:09!

# Prática
Para a demonstração a seguir, o [Kafka 2.12-2.80](https://www.apache.org/dyn/closer.cgi?path=/kafka/2.8.0/kafka_2.12-2.8.0.tgz) foi baixado e descompactado na `pasta D:`, em sistema operacional Microsoft Windows. É recomendado que todos comandos executados em prompts de comando sejam feitos tendo-os inciados em modo administrador.

Primeiramente, crie dentro da pasta do kafka um diretório `data`, e dentro dele as pastas `kafka` e `zookeeper`.

O segundo passo é apontar estes diretórios criados nas configurações do Kafka. Navegue até a pasta `config` e edite os arquivos `server` e `zookeper` da seguinte forma:

    kafka -> log.dirs=D:/kafka_2.12-2.8.0/data/kafka
    zookeeper -> dataDir=D:/kafka_2.12-2.8.0/data/zookeeper


## Iniciando Zookeper
No terminal:

    D:\kafka_2.12-2.8.0\bin\windows\zookeeper-server-start D:\kafka_2.12-2.8.0\config\zookeeper.properties
    

- Error: missing 'server' JVM at 'D:\Program Files (x86)\Java\jre1.8.0_301\bin\server\jvm.dll'.
- [Solution](https://myfusion.blogspot.com/2016/11/missing-server-jvm-at-cprogram-files.html)


## Iniciando Kafka
Em outro terminal:

    D:\kafka_2.12-2.8.0\bin\windows\kafka-server-start D:\kafka_2.12-2.8.0\config\server.properties


## Criando tópicos
    
    D:\kafka_2.12-2.8.0\bin\windows\kafka-topics --bootstrap-server localhost:9092 --create --topic aula_785
    

## Listando tópicos

     D:\kafka_2.12-2.8.0\bin\windows\kafka-topics --bootstrap-server localhost:9092 --list
     


## Producer
Abra um novo terminal para abrirmos o console do producer, aquele que produz as mensagens.

    D:\kafka_2.12-2.8.0\bin\windows\kafka-console-producer --broker-list localhost:9092 --topic aula_785
    

## Consumer
Em um novo terminal iniciaremos o consumer, que recebe as mesagens.

    D:\kafka_2.12-2.8.0\bin\windows\kafka-console-consumer --bootstrap-server localhost:9092 --topic aula_785
    

## Simulando o funcionamento do streaming
Insira mensagens no producer e veja como são imediatamente disponibilizadas no consumer.


## Acessar mensagens anteriores

Para ler todas mensagens já inseridas, execute:

    D:\kafka_2.12-2.8.0\bin\windows\kafka-console-consumer --bootstrap-server localhost:9092 --topic aula_785 --from-beginning


## Partições
Descrever partição do tópico

    D:\kafka_2.12-2.8.0\bin\windows\kafka-topics --bootstrap-server localhost:9092 --topic aula_785 --describe

Alterar partição do tópico

    D:\kafka_2.12-2.8.0\bin\windows\kafka-topics --bootstrap-server localhost:9092 --topic aula_785 --alter --partitions 5