In [None]:
from kafka import KafkaConsumer
from pymongo import MongoClient
import json

# Kafka configuration
KAFKA_TOPIC = "vnexpress_rss"
KAFKA_BOOTSTRAP_SERVERS = "localhost:9092"

# MongoDB configuration
MONGO_URI = "mongodb://localhost:27017/"
MONGO_DB = "vnexpress"
MONGO_COLLECTION = "article"

def save_to_mongodb(article):
    # Lưu bài viết vào MongoDB, tránh trùng lặp dựa trên tiêu đề.
    try:
        # Kết nối MongoDB
        client = MongoClient(MONGO_URI)
        db = client[MONGO_DB]
        collection = db[MONGO_COLLECTION]
        
        # Kiểm tra trùng lặp bài viết dựa trên tiêu đề
        if collection.find_one({"title": article["title"]}):
            print(f"Bài báo '{article['title']}' đã tồn tại.")
        else:
            # Thêm bài viết vào MongoDB
            collection.insert_one(article)
            print(f"Bài báo '{article['title']}' đã được thêm.")
    except Exception as e:
        print(f"Error saving to MongoDB: {e}")
    finally:
        client.close()

if __name__ == "__main__":
    # Kết nối Kafka
    consumer = KafkaConsumer(
        KAFKA_TOPIC,
        bootstrap_servers=KAFKA_BOOTSTRAP_SERVERS,
        auto_offset_reset="earliest",
        enable_auto_commit=True,
        group_id="vnexpress_group",
        value_deserializer=lambda v: json.loads(v.decode("utf-8"))
    )
    
    print("Consumer started. Waiting for messages...")
    for message in consumer:
        article = message.value
        
        # Lưu bài viết vào MongoDB
        save_to_mongodb(article)

Consumer started. Waiting for messages...
Bài báo 'Nhân tài được vay ưu đãi mua nhà trả góp' đã được thêm.
Bài báo ''Mở cửa' cho tích tụ đất đai trong nông nghiệp' đã được thêm.
Bài báo 'Biển người ở trung tâm Hà Nội, TP HCM đón năm mới' đã được thêm.
Bài báo 'Tổng rà soát chất lượng cán bộ, công chức, viên chức' đã được thêm.
Bài báo 'Đề xuất chính sách đặc thù cho dự án điện hạt nhân Ninh Thuận' đã được thêm.
Bài báo 'Cấm xe 20 đường trung tâm TP HCM để bắn pháo hoa' đã được thêm.
Bài báo 'Metro chạy xuyên đêm chở khách đón Tết Dương lịch' đã được thêm.
Bài báo 'Ôtô tông vào rạp đám tang dựng dưới lòng đường' đã được thêm.
Bài báo '68 cán bộ diện Trung ương quản lý bị kỷ luật trong năm 2024' đã được thêm.
Bài báo 'Học viện Chính trị quốc gia Hồ Chí Minh giảm 23 đầu mối' đã được thêm.
Bài báo 'Bạc Liêu đầu tư 1.450 tỷ đồng làm đường vành đai' đã được thêm.
Bài báo 'Tàu chở 4 thuyền viên mất tích trên biển' đã được thêm.
Bài báo 'Phát hiện dấu tích thành cổ Hoa Lư khi đào móng nhà' đã 