In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [2]:
# Đoạn văn bản mẫu
documents = [
    "Máy tính là một công cụ hữu ích trong cuộc sống hiện đại.",
    "Ngôn ngữ tự nhiên là một lĩnh vực quan trọng trong khoa học dữ liệu.",
    "Xử lý tóm tắt văn bản tiếng Việt là một nhiệm vụ thú vị của NLP."
]

In [3]:
# Làm sạch và chuẩn hóa dữ liệu
import re
documents = [re.sub(r'[.!?,:;]', '', doc.lower()) for doc in documents]

In [4]:
# pip install pyvi
from pyvi import ViTokenizer

In [5]:
# Sử dụng ViTokenizer để tách từ tiếng Việt
documents = [''.join(ViTokenizer.tokenize(doc)) for doc in documents]    

In [6]:
documents

['máy_tính là một công_cụ hữu_ích trong cuộc_sống hiện_đại',
 'ngôn_ngữ tự_nhiên là một lĩnh_vực quan_trọng trong khoa_học dữ_liệu',
 'xử_lý tóm_tắt văn_bản tiếng việt là một nhiệm_vụ thú_vị của nlp']

In [7]:
# Loại bỏ stopwords
# Đọc danh sách stopwords từ tập tin
with open("vietnamese-stopwords.txt", "r", encoding="utf-8") as file:
    vietnamese_stopwords = file.read().splitlines()

In [8]:
# Khởi tạo vectorizer với tf-idf
tfidf_vectorizer = TfidfVectorizer(stop_words=vietnamese_stopwords)

# Tính toán ma trận tf-idf cho đoạn văn bản
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# Lấy danh sách các từ vựng
words = tfidf_vectorizer.get_feature_names_out()

In [9]:
words

array(['cuộc_sống', 'công_cụ', 'dữ_liệu', 'hiện_đại', 'hữu_ích',
       'khoa_học', 'lĩnh_vực', 'máy_tính', 'ngôn_ngữ', 'nhiệm_vụ', 'nlp',
       'quan_trọng', 'thú_vị', 'tiếng', 'tóm_tắt', 'tự_nhiên', 'việt',
       'văn_bản', 'xử_lý'], dtype=object)

In [10]:
tfidf_matrix.toarray()

array([[0.4472136 , 0.4472136 , 0.        , 0.4472136 , 0.4472136 ,
        0.        , 0.        , 0.4472136 , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.40824829, 0.        , 0.        ,
        0.40824829, 0.40824829, 0.        , 0.40824829, 0.        ,
        0.        , 0.40824829, 0.        , 0.        , 0.        ,
        0.40824829, 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.35355339,
        0.35355339, 0.        , 0.35355339, 0.35355339, 0.35355339,
        0.        , 0.35355339, 0.35355339, 0.35355339]])

In [12]:
# Tính toán tóm tắt cho mỗi tài liệu
# Chọn số lượng từ tối đa cho tóm tắt (ví dụ, 10 từ)
num_words_in_summary = 5  
for i, document in enumerate(documents):
    # Lấy vector tf-idf cho tài liệu i
    tfidf_values = tfidf_matrix[i, :].toarray()[0]
    # Sắp xếp các chỉ số theo giá trị tf-idf giảm dần
    top_indices = np.argsort(tfidf_values)[::-1]
    # Lấy các từ quan trọng nhất trong tài liệu
    top_words = [words[idx] for idx in top_indices[:num_words_in_summary]]    
    # In ra tóm tắt
    print(f"Tóm tắt cho tài liệu {i + 1}: {' '.join(top_words)}")

Tóm tắt cho tài liệu 1: cuộc_sống công_cụ hiện_đại hữu_ích máy_tính
Tóm tắt cho tài liệu 2: tự_nhiên dữ_liệu quan_trọng khoa_học lĩnh_vực
Tóm tắt cho tài liệu 3: xử_lý tiếng văn_bản nlp thú_vị
