In [None]:
pip install --upgrade pyspark spark-nlp pandas matplotlib scipy google-generativeai pandas openpyxl

In [None]:
import json
import pandas as pd
import math
import re
import time
from collections import defaultdict

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, explode, udf
from pyspark.ml import Pipeline
from pyspark.ml.linalg import Vectors, VectorUDT

import sparknlp
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import Tokenizer, DeBertaEmbeddings, SentenceEmbeddings
from scipy.spatial.distance import cosine

import google.generativeai as genai  # ✅ Gemini API

import matplotlib.pyplot as plt
import seaborn as sns

# --- Bắt đầu tính thời gian ---
total_start = time.time()

# --- 1. Khởi tạo Spark NLP ---
t1 = time.time()
spark = sparknlp.start()
print(f"✅ Khởi tạo Spark NLP: {time.time() - t1:.2f} giây")

# --- 2. Đọc dữ liệu JSONL ---
t2 = time.time()
input_file_path = "/opt/workspace/gen_1604_formated.jsonl"
df = spark.read.option("multiLine", False).json(input_file_path)
user_questions = df.select(explode("messages").alias("msg")) \
    .filter(col("msg.role") == "user") \
    .select(col("msg.content").alias("text")) \
    .filter(col("text").isNotNull())
print(f"✅ Đọc dữ liệu: {time.time() - t2:.2f} giây")

# --- 3. Pipeline NLP ---
t3 = time.time()
document_assembler = DocumentAssembler().setInputCol("text").setOutputCol("document")
tokenizer = Tokenizer().setInputCols(["document"]).setOutputCol("token")
embeddings = DeBertaEmbeddings.pretrained("deberta_embeddings_spm_vie", "vie") \
    .setInputCols(["document", "token"]).setOutputCol("word_embeddings")
sentence_embeddings = SentenceEmbeddings() \
    .setInputCols(["document", "word_embeddings"]).setOutputCol("sentence_embeddings") \
    .setPoolingStrategy("AVERAGE")
pipeline = Pipeline(stages=[document_assembler, tokenizer, embeddings, sentence_embeddings])
model = pipeline.fit(user_questions)
embedded_data = model.transform(user_questions)
print(f"✅ NLP Embedding: {time.time() - t3:.2f} giây")

# --- 4. Trích xuất vector ---
t4 = time.time()
def extract_vector(annot):
    if annot and isinstance(annot, list) and 'embeddings' in annot[0]:
        return Vectors.dense(annot[0]['embeddings'])
    return Vectors.dense([0.0] * 768)

extract_vector_udf = udf(extract_vector, VectorUDT())
vectorized_data = embedded_data.withColumn("features", extract_vector_udf(col("sentence_embeddings")))
print(f"✅ Trích xuất vector: {time.time() - t4:.2f} giây")

# --- 5. Chuyển về Pandas ---
t5 = time.time()
pd_data = vectorized_data.select("text", "features").toPandas()
pd_data["features"] = pd_data["features"].apply(lambda v: v.toArray())
print(f"✅ Chuyển sang Pandas: {time.time() - t5:.2f} giây")

# --- 6. Nhóm ngữ nghĩa ---
t6 = time.time()
semantic_groups = []
visited = set()
threshold = 0.15
for idx, (text_i, vec_i) in enumerate(zip(pd_data["text"], pd_data["features"])):
    if idx in visited:
        continue
    group = [text_i]
    visited.add(idx)
    for jdx in range(idx + 1, len(pd_data)):
        if jdx in visited:
            continue
        dist = cosine(vec_i, pd_data["features"][jdx])
        if dist < threshold:
            group.append(pd_data["text"][jdx])
            visited.add(jdx)
    semantic_groups.append(group)
semantic_groups = sorted(semantic_groups, key=len, reverse=True)
print(f"✅ Nhóm ngữ nghĩa: {time.time() - t6:.2f} giây")

# --- 7. Cấu hình Gemini ---
GEMINI_API_KEY = "AIzaSyBRRCysUg0kCd1rLPA8dt0LwP-BS1hC9SQ"  # 🛠️ Thay bằng key hợp lệ
genai.configure(api_key=GEMINI_API_KEY)
gemini_model = genai.GenerativeModel("gemini-2.5-pro-preview-03-25")

# --- 8. Tách nhóm theo batch ---
def split_groups_into_batches(groups, batch_size=10):
    for i in range(0, len(groups), batch_size):
        yield groups[i:i+batch_size]

# --- 9. Gọi Gemini API ---
def classify_multiple_groups_with_gemini(groups_batch):
    prompt = (
        "Bạn hãy phân loại từng nhóm các câu hỏi dưới đây về 5 loại:\n"
        "1. Báo hỏng thiết bị, sự cố, trạng thái báo hỏng thiết bị.\n"
        "2. Bảo dưỡng thiết bị, trạng thái bảo dưỡng, lịch bảo dưỡng.\n"
        "3. Điều chuyển thiết bị, thiết bị được điều chuyển đi đâu.\n"
        "4. Vấn đề nhân sự, khu vực, thông tin cá nhân, chức vụ, khu vực quản lý, người quản lý, tên riêng.\n"
        "5. Tài sản, thiết bị, loại tài sản, khu vực chứa tài sản.\n\n"
        "Danh sách các nhóm câu hỏi:\n"
    )
    for group_idx, group_texts in enumerate(groups_batch, 1):
        prompt += f"Nhóm {group_idx}:\n"
        for idx, text in enumerate(group_texts, 1):
            prompt += f"  {idx}. {text}\n"
        prompt += "\n"
    prompt += "Hãy trả về danh sách các số nguyên từ 1 đến 5, mỗi số là phân loại cho nhóm tương ứng theo thứ tự nhóm đã cho, ví dụ: [1, 2, 1, 5, 3,...]"

    try:
        response = gemini_model.generate_content(prompt)
        answer = response.text.strip()
        labels = list(map(int, re.findall(r"[1-5]", answer)))
        return labels
    except Exception as e:
        print(f"Lỗi gọi Gemini: {e}")
        return None

# --- 10. Chạy phân loại theo batch ---
t7 = time.time()
batch_size = 10
all_group_labels = []
for batch_idx, batch_groups in enumerate(split_groups_into_batches(semantic_groups, batch_size=batch_size)):
    labels = classify_multiple_groups_with_gemini(batch_groups)
    if labels:
        all_group_labels.extend(labels)
    else:
        all_group_labels.extend([None] * len(batch_groups))
    print(f"Đã xử lý batch {batch_idx + 1} / {math.ceil(len(semantic_groups) / batch_size)}")
print(f"✅ Gọi Gemini & phân loại: {time.time() - t7:.2f} giây")

# --- 11. Kết quả chi tiết ---
for i, (group, label) in enumerate(zip(semantic_groups, all_group_labels)):
    print(f"\nNhóm {i+1} (Loại {label}, số lượng: {len(group)}):")
    for q in group:
        print(f"- {q}")

# --- 12. Thống kê số lượng câu hỏi theo loại dưới dạng bảng ---
category_labels = {
    1: "Báo hỏng thiết bị",
    2: "Bảo dưỡng thiết bị",
    3: "Điều chuyển thiết bị",
    4: "Vấn đề nhân sự",
    5: "Tài sản / thiết bị"
}
category_stats = defaultdict(int)
for group, label in zip(semantic_groups, all_group_labels):
    if label is not None:
        category_stats[label] += len(group)

stats_df = pd.DataFrame([
    {"Loại": i, "Tên phân loại": category_labels[i], "Số lượng câu hỏi": category_stats[i]}
    for i in range(1, 6)
])
print("\n--- Thống kê số lượng câu hỏi theo phân loại ---")
print(stats_df.to_string(index=False))

# --- 13. Vẽ biểu đồ cột ---
sns.set(style="whitegrid")
plt.figure(figsize=(10, 6))
barplot = sns.barplot(
    x="Tên phân loại", 
    y="Số lượng câu hỏi", 
    data=stats_df, 
    palette="Set2"
)
for p in barplot.patches:
    barplot.annotate(
        format(p.get_height(), ".0f"), 
        (p.get_x() + p.get_width() / 2., p.get_height()), 
        ha='center', va='center',
        fontsize=11, color='black', 
        xytext=(0, 10), 
        textcoords='offset points'
    )
plt.title("Biểu đồ phân loại các nhóm câu hỏi", fontsize=16)
plt.xlabel("Phân loại", fontsize=12)
plt.ylabel("Số lượng câu hỏi", fontsize=12)
plt.xticks(rotation=15)
plt.tight_layout()
plt.show()

# --- Tổng kết thời gian ---
total_end = time.time()
print(f"\n⏱️ Tổng thời gian thực thi toàn bộ script: {total_end - total_start:.2f} giây")
