# Kafka

## Основные понятия

**Topic** - все сообщения в Kafka приходят в определенный топик, по сути это простой способ организовать и сгруппировать поток сообытий. Каждый топик имеет уникальное имя. 

**Producers (производитель)**  - компонент системы, клиентское приложение, которое генерирует сообщения и посылает их в определенный топик. 

**Consumers (потребитель)** - компонент системы, клиентское приложение, которое получает новые сообщения из определенного топика или набора топиков. 

**Partition** - топик, как логическое понятие, неразделим. Но физически он может состоять из нескольких партиций, которые физически хранятся на нескольких узлах кластера. Когда сообщение приходит в топик, оно физически записывается в только одну партицию.  

**Consumer group** - это набор потребителей, которые кооперируются для получения данных из определенного топика. Все партиции топика разделяются между членами группы. По мере входа новых членов группы и ухода старых, партиции перераспределяются так, чтобы каждый член получал пропорциональную долю партиций для чтения. Этот процесс называется ребалансировкой группы.

**At-least-once** - гарантируется, что сообщения никогда не теряются, но могут быть доставлены повторно. Если  приложение потоковой обработки падает, то некоторые сообщения могут быть посланы повторно и, следовательно, повторно обработаны. Семантика «хотя бы один раз» включена по умолчанию.

**Exactly-once** - сообщения обрабатываются строго один раз. Подобная семантика включается опционально. 

Запуск в `Docker`:

```bash
docker compose -f docker/docker-compose-kafka.yml up
```       

In [2]:
import threading
from confluent_kafka import Producer, Consumer, TopicPartition

In [6]:
TOPIC_NAME = "some_topic"

producer = Producer({
        "bootstrap.servers": "localhost:9092"
    })

for idx in range(0, 25):
    producer.produce(TOPIC_NAME, key=bytes(idx), value=b"Msg %d" % idx)
    producer.flush()

In [7]:
consumer = Consumer({
    "bootstrap.servers": "localhost:9092",
    "group.id": "group1",
    "auto.offset.reset": "earliest"
})

consumer.subscribe([TOPIC_NAME])

# tp = TopicPartition(topic=TOPIC_NAME, partition=0, offset=0)
# consumer.assign([tp])
# consumer.seek(tp)

for _ in range(25):
    msg = consumer.consume(num_messages=1, timeout=1.0)
    if len(msg) > 0:
        print(msg[0].value()) 

consumer.close()

b'Msg 0'
b'Msg 1'
b'Msg 2'
b'Msg 3'
b'Msg 4'
b'Msg 5'
b'Msg 6'
b'Msg 7'
b'Msg 8'
b'Msg 9'
b'Msg 10'
b'Msg 11'
b'Msg 12'
b'Msg 13'
b'Msg 14'
b'Msg 15'
b'Msg 16'
b'Msg 17'
b'Msg 18'
b'Msg 19'
b'Msg 20'
b'Msg 21'
b'Msg 22'
b'Msg 23'
b'Msg 24'


In [4]:
consumer = Consumer({
    "bootstrap.servers": "localhost:9092",
    "group.id": "group3",
    "auto.offset.reset": "earliest"
})

consumer.subscribe(["some_topic"])

for _ in range(25):
    msg = consumer.consume(num_messages=1, timeout=1.0)
    if len(msg) > 0:
        print(msg[0].value()) 

consumer.close()

b'Msg 0'
b'Msg 1'
b'Msg 2'
b'Msg 3'
b'Msg 4'
b'Msg 5'
b'Msg 6'
b'Msg 7'
b'Msg 8'
b'Msg 9'
b'Msg 10'
b'Msg 11'
b'Msg 12'
b'Msg 13'
b'Msg 14'
b'Msg 15'
b'Msg 16'
b'Msg 17'
b'Msg 18'
b'Msg 19'
b'Msg 20'
b'Msg 21'
b'Msg 22'
b'Msg 23'
b'Msg 24'
