In [1]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import re

def read_and_process(filename):
    """
    Đọc file txt, xử lý dữ liệu và trả về kết quả.
    Returns:
        list: Danh sách các văn bản đã được xử lý.
    """
    with open(filename, "r", encoding="utf-8") as f:
        data = f.readlines()
    
    processed_data = []
    for line in data:
        # Tiền xử lý văn bản: loại bỏ ký tự đặc biệt và chuyển về chữ thường
        line = re.sub(r"[^\w\s]", "", line)
        line = line.lower().strip()
        processed_data.append(line)
    
    return processed_data

filename_train = "3.topic_detection_train.v1.0.txt"
filename_test = "3.topic_detection_test.v1.0.txt"

# Đọc và xử lý dữ liệu từ tập train
processed_data_train = read_and_process(filename_train)
processed_data_test = read_and_process(filename_test)

# Biểu diễn văn bản bằng Bag of Words từ tập train
vectorizer = CountVectorizer(stop_words='english')
X_train = vectorizer.fit_transform(processed_data_train)

# Áp dụng mô hình LDA để tìm các chủ đề trên tập train
num_topics = 5  # Số lượng chủ đề cần tìm
lda = LatentDirichletAllocation(n_components=num_topics, random_state=42)
lda.fit(X_train)

# Biểu diễn văn bản từ tập test bằng Bag of Words
X_test = vectorizer.transform(processed_data_test)

# Dự đoán các chủ đề cho các văn bản trong tập test
topic_predictions = lda.transform(X_test)

# In ra các chủ đề dự đoán cho một số văn bản trong tập test
for i in range(10):  # In ra 10 dự đoán đầu tiên
    top_topics = topic_predictions[i].argsort()[:-3 - 1:-1]  # Lấy 3 chủ đề có xác suất cao nhất
    print(f"Văn bản #{i + 1}:")
    print(f"Top chủ đề: {top_topics}")
    print()




Văn bản #1:
Top chủ đề: [0 3 1]

Văn bản #2:
Top chủ đề: [4 1 0]

Văn bản #3:
Top chủ đề: [0 1 4]

Văn bản #4:
Top chủ đề: [1 2 4]

Văn bản #5:
Top chủ đề: [0 2 4]

Văn bản #6:
Top chủ đề: [2 3 1]

Văn bản #7:
Top chủ đề: [1 2 4]

Văn bản #8:
Top chủ đề: [0 4 2]

Văn bản #9:
Top chủ đề: [2 4 1]

Văn bản #10:
Top chủ đề: [1 0 4]



In [6]:
# In ra các từ khóa của từng chủ đề
feature_names = vectorizer.get_feature_names_out()
for topic_idx, topic in enumerate(lda.components_):
    print(f"Chủ đề #{topic_idx + 1}:")
    print(" ".join([feature_names[i] for i in topic.argsort()[:-10 - 1:-1]]))
    print()

Chủ đề #1:
cho có phòng nhà và giá nước bạn để vào

Chủ đề #2:
là của và có bạn những một không người được

Chủ đề #3:
học và các có của là trong được không cho

Chủ đề #4:
số ăn bánh bà đi em hai hoàn kiếm mình

Chủ đề #5:
công hàng doanh các và có thuế của toán số



In [2]:
import re

def remove_http_phrases(text):
    # Biểu thức chính quy để tìm các cụm từ bắt đầu bằng "http"
    http_pattern = re.compile(r'http\S*')
    # Thay thế các cụm từ bằng chuỗi rỗng
    return http_pattern.sub(r'', text)

# Ví dụ sử dụng hàm với một chuỗi văn bản
sample_text = "Đây là một ví dụ về URL: http://example.com và https://example.com nhe ban"
cleaned_text = remove_http_phrases(sample_text)
print(cleaned_text)


Đây là một ví dụ về URL:  và  nhe ban
