## kafka的基本概念与架构
Kafka 是一个分布式的流处理平台，它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。kafka目前主要在三个领域发挥作用：

1. 消息系统领域： Kafka 和传统的消息系统（也称作消息中间件）都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时，Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能
2. 存储系统领域： Kafka 把消息持久化到磁盘，相比于其他基于内存存储的系统而言，有效地降低了数据丢失的风险。也正是得益于 Kafka 的消息持久化功能和多副本机制，可以把 Kafka 作为长期的数据存储系统来使用，只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可
3. 流式处理领域： Kafka 不仅为每个流行的流式处理框架提供了可靠的数据来源，还提供了一个完整的流式处理库，比如窗口、连接、变换和聚合等各类操作

### kafka的基本架构
一个典型的 Kafka 体系架构包括若干 Producer、若干 Broker、若干 Consumer，以及一个 ZooKeeper 集群，如下图所示。其中 ZooKeeper 是 Kafka 用来负责集群元数据的管理、控制器的选举等操作的。Producer 将消息发送到 Broker，Broker 负责将收到的消息存储到磁盘中，而 Consumer 负责从 Broker 订阅并消费消息

![image.png](attachment:9c21eb4e-76c2-4a35-902a-853a3b83448e.png)

整个 Kafka 体系结构有以下三个关键组成部分：

1. Producer： 生产者，也就是发送消息的一方。生产者负责创建消息，然后将其投递到 Kafka 服务端中
2. Consumer： 消费者，也就是接收消息的一方。消费者连接到 Kafka 服务端上，接收特定主题分区的消息，进而进行相应的业务逻辑处理
3. Broker： 服务端节点。对于 Kafka 而言，Broker 可以简单地看作一个独立的 Kafka 服务实例。一个或多个 Broker 组成了一个 Kafka 服务集群，对外提供服务
是分区有序而不是主题有序

### 主题与分区
在 Kafka 中还有两个特别重要的概念—主题（Topic）与分区（Partition）。Kafka 中的消息以主题为单位进行归类，生产者负责将消息发送到特定的主题（发送到 Kafka 集群中的每一条消息都要指定一个主题），而消费者负责订阅主题并进行消费

每个主题细分为多个分区，一个分区只属于单个主题，很多时候也会把分区称为主题分区（Topic-Partition）。**同一主题下的不同分区包含的消息是不同的**，分区在实现层面可以看作一个可追加的日志（Log）文件，消息在被追加到分区日志文件的时候都会分配一个特定的偏移量（offset），主题是一个逻辑上的概念，消费者订阅某个主题，实际上是访问该主题下的一个或多个分区日志文件

offset 是消息在分区中的唯一标识，Kafka 通过它来保证消息在分区内的顺序性，不过 offset 并不跨越分区，**Kafka 保证的是分区有序而不是主题有序**

如果一个主题只对应一个文件，那么这个文件所在的机器I/O将会成为这个主题的性能瓶颈，而分区解决了这个问题。在创建主题的时候可以设置分区的个数，通过增加分区的数量，支持更多的消费者并行读取主题的消息，实现主题I/O能力的水平扩展。

![image.png](attachment:bf20868b-6502-42a4-b94b-40e28bbd244f.png)

每一条消息被发送到 broker 之前，会根据分区规则选择存储到哪个具体的分区。如果分区规则设定得合理，所有的消息都可以均匀地分配到不同的分区中

### kafka的容灾能力

方案1： Kafka 为分区引入了多副本（Replica）机制，通过增加副本数量提升服务的容灾能力

![image.png](attachment:eaca2c4b-76f8-4cd6-9feb-cba800a45b51.png)

同一分区的不同副本中保存的是相同的消息（在同一时刻，副本之间并非完全一样），副本之间是“一主多从”的关系，其中 leader 副本负责处理读写请求，follower 副本只负责与 leader 副本的消息同步。副本处于不同的 broker 中，当 leader 副本出现故障时，从 follower 副本中重新选举新的 leader 副本对外提供服务。Kafka 通过多副本机制实现了故障的自动转移，当 Kafka 集群中某个 broker 失效时仍然能保证服务可用

方案2：Kafka 消费端也具备一定的容灾能力。Consumer 使用拉（Pull）模式从服务端拉取消息，并且保存消费的具体位置，当消费者宕机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费，这样不会造成消息丢失



## 代码案例

使用kafka-python对kafka客户端进行读写操作,示例中发送一条内容为“Hello, Kafka!”的消息到主题 topic-demo,消费端读取到相关的消息并打印出来


In [None]:
server = "kafka1:9092"
topic = "topic-demo"
group_id = "test"

In [None]:
from kafka import KafkaProducer
from kafka.errors import KafkaError
from kafka import KafkaConsumer

In [None]:
# 创建消息生产者
producer = KafkaProducer(bootstrap_servers=server)

In [None]:
# 发送消息
future = producer.send(topic, value= b"hello word")  
try:
    record_metadata = future.get(timeout=10)
except KafkaError:
    # Decide what to do if produce request failed...
    log.exception()

print (record_metadata.topic)
print (record_metadata.partition)
print (record_metadata.offset)

In [None]:
# 创建消息消费者
consumer = KafkaConsumer(topic, bootstrap_servers=server, group_id=group_id, value_deserializer=lambda value: value.decode('utf-8'))

In [None]:
for message in consumer:
    print(f"{ message.topic }:{message.partition}:{message.offset} value={message.value}")