In [None]:
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

# Cấu hình Kafka
KAFKA_TOPIC = "my_topic"
KAFKA_BOOTSTRAP_SERVERS = "localhost:9092"
KAFKA_GROUP_ID = "my_group"

# Cấu hình Spark
sc = SparkContext(appName="KafkaStreaming")
ssc = StreamingContext(sc, batchDuration=10)  # Thời lượng batch (10 giây)

# Cấu hình Kafka parameters
kafka_params = {
    "bootstrap.servers": KAFKA_BOOTSTRAP_SERVERS,
    "group.id": KAFKA_GROUP_ID,
    "auto.offset.reset": "earliest",  # 'earliest' hoặc 'latest'
    "key.deserializer": "org.apache.kafka.common.serialization.StringDeserializer",
    "value.deserializer": "org.apache.kafka.common.serialization.StringDeserializer",
}

# Tạo DStream từ Kafka
kafka_stream = KafkaUtils.createDirectStream(
    ssc, [KAFKA_TOPIC], kafkaParams=kafka_params
)

# Xử lý dữ liệu (ví dụ: in ra)
def process_stream(rdd):
    if not rdd.isEmpty():
        for record in rdd.collect():
            print(f"Key: {record[0]}, Value: {record[1]}")

kafka_stream.foreachRDD(process_stream)

# Bắt đầu streaming
ssc.start()
ssc.awaitTermination()