In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("kafka") \
    .config(
        "spark.jars.packages", "org.apache.spark:spark-sql-kafka-0-10_2.12:3.4.1"
    ) \
    .config("spark.driver.memory", "2g") \
    .config("spark.executor.memory", "2g") \
    .getOrCreate()

## 实例：资源利用率实时计算

首先需要搜集集群中每台机器的资源（CPU、内存）利用率，并将其写入 Kafka。然后，我们使用 Spark 的 Structured Streaming 来消费 Kafka 数据流，并对资源利用率数据做初步的分析与聚合。最后，再通过 Structured Streaming，将聚合结果打印到 Console、并写回到 Kafka

![image.png](attachment:e18ed225-77f7-41a4-8fd5-a52fe228d8c1.png)

### 准备工作： kafka 启动与主题创建

Kafka 启动之后，创建两个 Topic：cpu-monitor 和 mem-monitor，它们分别用来存储 CPU 利用率消息与内存利用率消息

![image.png](attachment:791dbb6b-6b37-4dde-ae1d-2390429ab8b6.png)

In [None]:
# 1. 消息生产
from kafka import KafkaProducer
import psutil
import socket

# 获取IP作为消息的key
hostname = socket.gethostname()
ip_address = socket.gethostbyname(hostname)
print("IP Address:", ip_address)

# 获取CPU信息
cpu_percent = psutil.cpu_percent(interval=1)
cpu_count = psutil.cpu_count(logical=False)

# 获取内存信息
mem = psutil.virtual_memory()
mem_percent = mem.percent

# 创建消息生产者
cpuTopic = "cpu-monitor"
memTopic = "mem-monitor"
kafka_server_list = ["kafka1:9092"]

producer = KafkaProducer(bootstrap_servers=kafka_server_list, value_serializer=lambda v: v.encode(), key_serializer=lambda v: v.encode())

# 发送消息
def on_send_success(record_metadata):
    print(record_metadata.topic)
    print(record_metadata.partition)
    print(record_metadata.offset)

def on_send_error(excp):
    log.error('send errback', exc_info=excp)

producer.send(cpuTopic, f"{cpu_percent}%", ip_address).add_callback(on_send_success).add_errback(on_send_error)
producer.send(memTopic, f"{mem_percent}%", ip_address).add_callback(on_send_success).add_errback(on_send_error)

对于这些每两秒钟就产生的资源利用率数据，Key 对应的是发送资源利用率数据的服务器节点ip, Value为对应统计值。假设我们仅关心它们在一定时间内（比如 10 秒钟）的平均值，那么，我们就可以结合 Trigger 与聚合计算来做到这一点

In [2]:
#2. 消费消息（kafka 默认group_id:spark-kafka-source）
from pyspark.sql.functions import avg

dfCPU = spark \
  .readStream \
  .format("kafka") \
  .option("kafka.bootstrap.servers", "kafka1:9092,kafka2:9092") \
  .option("subscribe", "cpu-monitor") \
  .load()

dfResult = dfCPU.withColumn("clientName", dfCPU["key"].cast("string")) \
                .withColumn("cpuUsage", dfCPU["value"].cast("string")) \
                .groupBy("clientName") \
                .agg(avg("cpuUsage").alias("avgCPUUsage"))

# 3. 设置Trigger，输出打印到控制台
query = dfResult.writeStream.outputMode("Complete") \
                          .format("console") \
                          .trigger(processingTime="10 seconds") \
                          .start()

query.awaitTermination()

DataFrame[key: string, value: string]

输出结果也可以写回Kafka。使用Structured Streaming 每隔 10 秒钟，就从 Kafka 拉取原始的利用率信息（Topic：cpu-monitor），然后按照服务器做分组聚合，最终再把聚合结果写回到 Kafka（Topic：cpu-monitor-agg-result）

注意！！！写回 Kafka 的数据，在 Schema 上必须用“key”和“value”这两个固定的字段

In [None]:
# 4. 写回kafka
df = dfCPU.withColumn("key", dfCPU["clientName"].cast("string")) \
     .withColumn("value", dfCPU["cpuUsage"].cast("string")) \
     .groupBy("key").agg(avg("value").cast("string").alias("value"))

query = df.writeStream.outputMode("complete") \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "host1:port1,host2:port2") \
    .option("topic", "cpu-monitor-agg-result") \
    .trigger(processingTime="10 seconds") \
    .start() \

query.awaitTermination()

Structured Streaming 每隔 10 秒钟，就从 Kafka 拉取原始的利用率信息（Topic：cpu-monitor），然后按照服务器做分组聚合，最终再把聚合结果写回到 Kafka（Topic：cpu-monitor-agg-result）

注意！！！写回 Kafka 的数据，在 Schema 上必须用“key”和“value”这两个固定的字段

In [None]:
query = dfResult.writeStream.outputMode("Complete") \
                          .format("console") \
                          .trigger(processingTime="10 seconds") \
                          .start()

query.awaitTermination()