In [None]:
pip install pyspark spark-nlp pandas matplotlib

In [None]:
import json
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, explode, udf, lower, trim, regexp_replace, count, split
from pyspark.ml import Pipeline
from pyspark.ml.clustering import KMeans
from pyspark.ml.feature import StandardScaler, CountVectorizer
from pyspark.ml.linalg import Vectors, VectorUDT
from pyspark.sql.functions import collect_list
import numpy as np
from sklearn.metrics.pairwise import cosine_distances
import sparknlp
from sparknlp.base import DocumentAssembler
from sparknlp.annotator import Tokenizer, DeBertaEmbeddings

# Khởi tạo Spark NLP
spark = sparknlp.start()

# Đọc dữ liệu từ file JSONL
input_file_path = "/opt/workspace/gen_1604_formated.jsonl"
df = spark.read.option("multiLine", False).json(input_file_path)

# Trích xuất câu hỏi từ role là "user"
user_questions = df.select(explode("messages").alias("msg")) \
    .filter(col("msg.role") == "user") \
    .select(col("msg.content").alias("text")) \
    .filter(col("text").isNotNull())

# Tạo pipeline NLP
document_assembler = DocumentAssembler() \
    .setInputCol("text") \
    .setOutputCol("document")

tokenizer = Tokenizer() \
    .setInputCols(["document"]) \
    .setOutputCol("token")

embeddings = DeBertaEmbeddings.pretrained("deberta_embeddings_spm_vie", "vie") \
    .setInputCols(["document", "token"]) \
    .setOutputCol("embeddings") \
    .setCaseSensitive(True)

pipeline = Pipeline(stages=[document_assembler, tokenizer, embeddings])

# Chạy pipeline
model = pipeline.fit(user_questions)
embedded_data = model.transform(user_questions)

# UDF để tính vector trung bình từ embedding
def avg_embeddings(embeddings):
    if embeddings:
        avg = np.mean([e['embeddings'] for e in embeddings], axis=0)
        return Vectors.dense(avg.tolist())
    return Vectors.dense([])

avg_embeddings_udf = udf(avg_embeddings, VectorUDT())

# Chuyển thành vector đặc trưng
vectorized_data = embedded_data.withColumn("features", avg_embeddings_udf(col("embeddings")))

# Chuẩn hóa vector
scaler = StandardScaler(inputCol="features", outputCol="scaled_features")
scaler_model = scaler.fit(vectorized_data)
scaled_data = scaler_model.transform(vectorized_data)

# KMeans clustering
kmeans = KMeans(featuresCol="scaled_features", predictionCol="cluster", k=3)
kmeans_model = kmeans.fit(scaled_data)
clustered_data = kmeans_model.transform(scaled_data)

# Chuẩn hóa text: chỉ loại dấu câu, giữ nguyên tiếng Việt
normalized_data = clustered_data.withColumn(
    "normalized_text",
    trim(lower(regexp_replace(col("text"), "[\\p{Punct}]", "")))
)

# Đếm tần suất các câu hỏi sau khi normalize
grouped = normalized_data.groupBy("normalized_text", "cluster") \
    .agg(count("*").alias("frequency")) \
    .orderBy(col("frequency").desc())

# Lấy 10 câu hỏi có tần suất xuất hiện nhiều nhất
top_10 = grouped.limit(10)
print("Top 10 câu hỏi xuất hiện nhiều nhất:")
top_10.show(truncate=False)

# Vẽ biểu đồ tần suất theo cụm
cluster_counts = grouped.groupBy("cluster").sum("frequency") \
    .withColumnRenamed("sum(frequency)", "count") \
    .orderBy("cluster") \
    .toPandas()

plt.figure(figsize=(8, 5))
plt.bar(cluster_counts["cluster"], cluster_counts["count"], color="teal")
plt.xlabel("Cluster ID")
plt.ylabel("Number of Questions")
plt.title("Semantic Question Clustering Frequency")
plt.xticks(cluster_counts["cluster"])
plt.tight_layout()
plt.show()

# ================================
# 🔍 Trích xuất từ khóa của từng cluster
# ================================
print("\nTỪ KHÓA ĐẠI DIỆN CHO MỖI CLUSTER:\n")

from pyspark.ml.feature import CountVectorizer

# Chuẩn bị dữ liệu token hóa cho tất cả
tokenized_data = normalized_data.withColumn(
    "tokens", split(col("normalized_text"), " ")
)

# Rút từ khóa cho từng cluster
for i in range(kmeans.getK()):
    print(f"=== Cluster {i} ===")
    cluster_df = tokenized_data.filter(col("cluster") == i)

    # Tính TF cho cụm
    cv = CountVectorizer(inputCol="tokens", outputCol="keyword_features", vocabSize=10)
    cv_model = cv.fit(cluster_df)
    top_keywords = cv_model.vocabulary
    print("Top keywords:", top_keywords)
    print()
# Gom câu hỏi và embeddings theo cluster
clusters = clustered_data.select("cluster", "text", "features") \
    .groupBy("cluster") \
    .agg(
        collect_list("text").alias("questions"),
        collect_list("features").alias("features_list")
    ).collect()

# Hàm chọn câu đại diện (medoid) cho mỗi cluster
def get_medoid_question(questions, features):
    vecs = np.array([v.toArray() for v in features])
    dists = cosine_distances(vecs)
    total_dists = dists.sum(axis=1)
    medoid_idx = np.argmin(total_dists)
    return questions[medoid_idx]

# Tạo bảng chủ đề đại diện
topic_table = []
for row in clusters:
    cluster_id = row["cluster"]
    questions = row["questions"]
    features = row["features_list"]
    topic = get_medoid_question(questions, features)
    frequency = len(questions)
    topic_table.append((cluster_id, topic, frequency))

# Chuyển sang pandas để in ra bảng
import pandas as pd
topic_df = pd.DataFrame(topic_table, columns=["Cluster", "Topic", "Frequency"])
topic_df = topic_df.sort_values("Cluster")
print("\n📌 Chủ đề đại diện cho từng cụm:")
print(topic_df.to_string(index=False))