In [None]:
pip install openai pandas matplotlib seaborn spark-nlp

In [None]:
from sparknlp.pretrained import PretrainedPipeline
import pandas as pd
import json
import openai
import sparknlp
from pyspark.sql import SparkSession
spark = sparknlp.start()
# ⚙️ Load Spark NLP pipeline
pipeline = PretrainedPipeline("explain_document_dl", lang="vi")

# 📥 Đọc dữ liệu
with open("/opt/workspace/gen_1604_formated.jsonl", "r", encoding="utf-8") as f:
    data = [json.loads(line) for line in f]

# 📌 Trích câu hỏi người dùng
questions = [
    m["content"].strip()
    for item in data
    for m in item.get("messages", [])
    if m["role"] == "user"
]

# 🧠 Gom nhóm theo từ khóa chủ đề
semantic_groups = {}
for q in questions:
    try:
        result = pipeline.annotate(q)
        keywords = result.get("entities", []) + result.get("keywords", []) + result.get("noun_chunks", [])
        keywords = [kw.lower() for kw in keywords if kw.strip()]
        key = "|".join(sorted(set(keywords)))
        if key:
            semantic_groups.setdefault(key, []).append(q)
    except Exception as e:
        print(f"⚠️ Lỗi xử lý câu: {q}\n{e}")

# 📊 Gom nhóm & chọn đại diện
grouped_data = []
for key, qs in semantic_groups.items():
    if len(qs) < 2:
        continue  # bỏ qua nhóm chỉ có 1 câu
    representative = sorted(qs, key=len)[0]  # lấy câu ngắn nhất làm đại diện
    grouped_data.append((len(qs), key, representative))

# 🧹 Sắp xếp theo tần suất giảm dần
grouped_data.sort(reverse=True)

# 🔑 GPT dùng để đặt tên chủ đề cho nhóm
openai.api_key = "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"  # Điền API key

# 🧾 Tạo prompt để đặt tên nhóm
topic_prompt = "Hãy đặt tiêu đề chủ đề ngắn gọn cho mỗi nhóm từ khóa sau.\n" \
               "Trả về dạng: `Từ khóa | Chủ đề`\nKhông giải thích.\n\n" + \
               "\n".join(f"- {key}" for _, key, _ in grouped_data[:20])

# 🔗 Gọi GPT
response = openai.ChatCompletion.create(
    model="gpt-4o-mini",
    temperature=0.1,
    messages=[
        {"role": "system", "content": "Bạn là chuyên gia phân tích và đặt tên chủ đề ngắn gọn từ từ khóa."},
        {"role": "user", "content": topic_prompt}
    ]
)

# 📥 Lấy tên chủ đề từ phản hồi
lines = response.choices[0].message.content.strip().splitlines()
topic_map = {}
for line in lines:
    if "|" in line:
        parts = line.split("|", maxsplit=1)
        topic_map[parts[0].strip().lower()] = parts[1].strip()

# 📋 In bảng kết quả
print("📋 TẦN SUẤT CÁC NHÓM CÂU HỎI (Spark NLP + GPT):\n")
print("Số lượng | Chủ đề             | Câu hỏi đại diện")
print("---------|--------------------|-------------------------------")
for count, key, rep in grouped_data[:20]:
    topic = topic_map.get(key.lower(), "Chưa đặt tên")
    print(f"{count:<9} | {topic:<20} | {rep}")
