In [1]:
import pickle
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Bước 1: Tải dữ liệu từ tệp neg.pkl
def load_data(file_path):
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    return data

# Bước 2: Mã hóa câu thành vector bằng TF-IDF
def encode_sentences(sentences):
    vectorizer = TfidfVectorizer()
    sentence_vectors = vectorizer.fit_transform(sentences)
    return sentence_vectors

# Bước 3: Phân cụm
def cluster_sentences(sentence_vectors, num_clusters):
    kmeans = KMeans(n_clusters=num_clusters, random_state=0)
    kmeans.fit(sentence_vectors)
    return kmeans

# Bước 4: Xây dựng bản tóm tắt
def summarize_text(sentences, kmeans):
    clusters = kmeans.labels_
    summary = []
    for cluster in set(clusters):
        indices = [i for i, label in enumerate(clusters) if label == cluster]
        representative_idx = indices[0]
        summary.append(sentences[representative_idx])
    return ' '.join(summary)

# Ví dụ sử dụng
if __name__ == "__main__":
    # Đường dẫn đến tệp neg.pkl
    file_path = 'neg.pkl'

    # Tải dữ liệu
    sentences = load_data(file_path)

    # Các bước thực hiện
    sentence_vectors = encode_sentences(sentences)
    num_clusters = 3  # Số lượng cụm (tùy chỉnh theo yêu cầu)
    kmeans = cluster_sentences(sentence_vectors, num_clusters)
    summary = summarize_text(sentences, kmeans)

    print("Bản tóm tắt:", summary)


Bản tóm tắt:  Nguyễn Văn Sơn, 2 năm hơn 10 sáng kiến Nguyễn Văn Sơn và máy cuốn bông được cải tiến từ máy rẽ gót Ở Công ty May Trường Lợi, KCN Bình Chiểu - TPHCM các đồng nghiệp thường gọi Nguyễn Văn Sơn là “cây sáng kiến”. Trong thời gian làm việc trên 2 năm, anh đã có hơn 10 sáng kiến cải tiến kỹ thuật giúp tăng năng suất lao động và cải thiện môi trường làm việc của công nhân (CN).  Ông Trần Đăng Thanh, Chủ tịch Công đoàn Công ty Trường Lợi, nói: “Chúng tôi tự hào và tin tưởng vào sự trưởng thành của đội ngũ CN trẻ, họ đã phấn đấu và nỗ lực hết mình trong công việc. Nguyễn Văn Sơn, đội trưởng đội bảo trì máy, là một trong số những CN đó”.   10 năm theo nghề thợ máy   Chúng tôi gặp Sơn lúc anh vừa sửa chữa xong một máy may bị hỏng, Sơn trông già dặn hơn so với cái tuổi 29 của anh, khuôn mặt đen sạm, chân tay dính đầy dầu mỡ.   Năm 1995, sau khi thực hiện xong nghĩa vụ quân sự, Sơn rời vùng quê Hải Hậu, Nam Định để vào miền Nam tìm việc làm. Sau 6 tháng học nghề may ở Trung tâm Dạy ng

In [None]:
import pickle
import nltk
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Tải punkt tokenizer nếu chưa có
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

# Bước 1: Tải dữ liệu từ tệp
def load_data(file_path):
    with open(file_path, 'rb') as file:
        data = pickle.load(file)
    return data

# Bước 2: Tách câu bằng nltk
def tokenize_sentences(contents_parsed, index=3):
    # Lấy nội dung tại vị trí index
    return nltk.sent_tokenize(contents_parsed[index])

# Bước 3: Mã hóa câu thành vector bằng TF-IDF
def encode_sentences(sentences):
    vectorizer = TfidfVectorizer()
    sentence_vectors = vectorizer.fit_transform(sentences)
    return sentence_vectors

# Bước 4: Phân cụm
def cluster_sentences(sentence_vectors, num_clusters):
    kmeans = KMeans(n_clusters=num_clusters, random_state=0)
    kmeans.fit(sentence_vectors)
    return kmeans

# Bước 5: Xây dựng bản tóm tắt
def summarize_text(sentences, kmeans):
    clusters = kmeans.labels_
    summary = []
    for cluster in set(clusters):
        indices = [i for i, label in enumerate(clusters) if label == cluster]
        representative_idx = indices[0]
        summary.append(sentences[representative_idx])
    return ' '.join(summary)

# Ví dụ sử dụng
if __name__ == "__main__":
    # Đường dẫn đến tệp neg.pkl
    file_path = './data/data.pkl'

    # Tải dữ liệu
    contents_parsed = load_data(file_path)

    # Tách câu từ nội dung tại vị trí thứ 3
    sentences = tokenize_sentences(contents_parsed, index=3)
    print("Các câu đã tách:", sentences)

    # Mã hóa câu và thực hiện phân cụm
    sentence_vectors = encode_sentences(sentences)
    num_clusters = 3  # Số lượng cụm (tùy chỉnh theo yêu cầu)
    kmeans = cluster_sentences(sentence_vectors, num_clusters)

    # Tạo bản tóm tắt
    summary = summarize_text(sentences, kmeans)
    print("Bản tóm tắt:", summary)


Các câu đã tách: ['Nạn nhân được tìm thấy là máy trưởng tàu SEA BEE   Trưa 7/5, TS Lương Công Nhớ, Hiệu phó ĐH Hàng hải Việt Nam thông báo với VnExpress, người được tìm thấy sau vụ mất liên lạc của tàu SEA BEE tại vùng biển Trung Quốc là máy trưởng Đàm Cao Vân, sinh năm 1960, quê Hải Phòng.', 'Ngoài máy trưởng Vân, từ ngày 3/5 đến nay tàu cứu nạn DONGHAIJIU 169 của Trung tâm Cứu nạn Biển Đông Thượng Hải (Trung Quốc) vẫn chưa tìm thêm được nạn nhân nào, cũng chưa xác định tọa độ tàu gặp nạn.', 'Ông Nhớ cho biết, chưa xác định được nguyên nhân tàu mất liên lạc.', 'Theo thông báo của phía bạn, thời tiết lúc tàu phát tín hiệu cấp cứu rất bình thường, gió cấp 3-4.', 'Trong 23 thuyền viên gặp nạn, có 14 người quê Hải Phòng, còn lại quê Bắc Ninh, Nghệ An, Thanh Hoá, Hưng Yên, Hà Nội và 2 người chưa xác định quê quán.', 'Cao tuổi nhất là thuyền viên Nguyễn Văn Bình, sinh năm 1955, quê Hải Phòng.', 'Nhỏ tuổi nhất là Nguyễn Đình Dương, sinh năm 1985, quê Từ Liêm, Hà Nội.', 'Ông Nhớ cho hay, đến 