Data was published at https://github.com/duyvuleo/VNTC

# Introduction

In this tutorial, we will implement some algorithms to apply in text summarization problem.

## What is Text Summarization?

Text summarization is the problem of creating a short, accurate, and fluent summary of a longer text document.

Automatic text summarization methods are greatly needed to address the ever-growing amount of text data available online to both better help discover relevant information and to consume relevant information faster.

## What will we do in this tutorial?

In this tutorial, we will solve Text Summarization for Vietnamese newspapers, using some algorithms belows:
1. Extractive Text Summarization
    - Doc2Vec
    - Text Rank
2. Abstractive Text Summarization
    - Google textsum


We just implement "**Single document summarization**" problem in this tutorial, another problem called "**Multi-document summarization**" will be dicussed in another time.

# Extractive Text Summarization

## Doc2Vec

example: https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

### Basic idea
The idea of using Doc2Vec algorithm for text summarization problem is described as follows:
1. In all documents, we will extract sentences separately.
2. Each sentence will be represented by a vector, via doc2vec model
3. Use KMean algorithm to find out most featured sentences.

In [1]:
from sklearn import preprocessing
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
from pyvi import ViTokenizer, ViPosTagger
from tqdm import tqdm
import numpy as np
import gensim
import numpy as np

In [3]:
import os 
dir_path = os.path.dirname(os.path.realpath(os.getcwd()))
dir_path = os.path.join(dir_path, 'Data')

sentences = []

In [4]:
import pickle

def get_data(folder):
    sentences = []
    for path in os.listdir(folder):
        file_path = os.path.join(folder, path)
        with open(file_path, 'r', encoding="utf-16") as f:

            lines = f.readlines()

            for line in lines:
                sens = line.split('.')
                for sen in sens:
                    if len(sen) > 10:
                        sen = gensim.utils.simple_preprocess(sen)
                        sen = ' '.join(sen)
                        sen = ViTokenizer.tokenize(sen)
                        sentences.append(sen)

    return sentences

You can use multiprocessing here, but we will not use it for easy in understanding code.

In [5]:
# from multiprocessing import Pool
# sentences = []
# train_paths = [os.path.join(dir_path, 'VNTC-master/Data/10Topics/Ver1.1/Train_Full'), 
#                os.path.join(dir_path, 'VNTC-master/Data/10Topics/Ver1.1/Test_Full'),
#                os.path.join(dir_path, 'VNTC-master/Data/27Topics/Ver1.1/new train'),
#                os.path.join(dir_path, 'VNTC-master/Data/27Topics/Ver1.1/new test')]

# dirs = []
# for path in train_paths:
#     for p in os.listdir(path):
#         dirs.append(os.path.join(path, p))

# for d in tqdm(dirs):
#     sens = get_data(d)
#     sentences = sentences + sens

# # with Pool(8) as pool:
# #     pool.map(get_data, tqdm(dirs))



In [6]:
# pickle.dump(sentences, open('./sentences.pkl', 'wb'))
sentences = pickle.load(open('./sentences.pkl', 'rb'))

In [7]:
def get_corpus(sentences):
    corpus = []
    
    for i in tqdm(range(len(sentences))):
        sen = sentences[i]
        
        words = sen.split(' ')
        tagged_document = gensim.models.doc2vec.TaggedDocument(words, [i])
        
        corpus.append(tagged_document)
        
    return corpus

In [8]:
train_corpus = get_corpus(sentences)

100%|██████████| 2385532/2385532 [00:46<00:00, 50865.69it/s]


In [16]:
from sklearn.utils import shuffle

train_corpus = shuffle(train_corpus)

#### Build Doc2Vec model

In [17]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=300, min_count=2, epochs=40)
model.build_vocab(train_corpus[:10000])

In [18]:
%time model.train(train_corpus[:10000], total_examples=model.corpus_count, epochs=model.epochs)

CPU times: user 42.9 s, sys: 8.34 s, total: 51.2 s
Wall time: 30.6 s


In [21]:
model.infer_vector(train_corpus[100000].words)

array([ 0.04341994,  0.15068059, -0.17990573,  0.13434036,  0.15063864,
       -0.28319448,  0.01176064,  0.13072975, -0.16741212,  0.05707793,
        0.17512715,  0.11362587, -0.14895017,  0.12809876,  0.2387469 ,
        0.17342958, -0.0634373 ,  0.02054051,  0.19843611,  0.00898704,
        0.22812013, -0.03727509,  0.23731954,  0.16173142, -0.16983813,
       -0.00564219,  0.12142332, -0.20086913, -0.20483473,  0.09911519,
       -0.27930656,  0.00869519,  0.13946147, -0.1438239 , -0.18420076,
        0.3448807 ,  0.02739131, -0.12618671,  0.39163232,  0.3807378 ,
        0.05839496,  0.13358061,  0.01925733, -0.0135405 , -0.16153328,
        0.02138443,  0.01873437, -0.20007984, -0.11788367, -0.05585638,
       -0.25569782, -0.20820048, -0.00627773,  0.21006308,  0.18283018,
        0.09105326, -0.06296346,  0.0032261 , -0.22849984,  0.13495123,
        0.1795704 , -0.14362498, -0.06998537,  0.16478956, -0.06558435,
       -0.09611794,  0.03294007, -0.10089063,  0.09843311, -0.13

#### Test with new document

In [41]:
def get_list_sentence_vectors_from_document(doc, model):
    vectors = []
    sens = doc.split('.')
    for sen in sens:
        if len(sen) > 10:
            sen = gensim.utils.simple_preprocess(sen)
            sen = ' '.join(sen)
            sen = ViTokenizer.tokenize(sen)
            sen = sen.split(' ')
            vec = model.infer_vector(sen)
            
            vectors.append(vec)
    
    return np.array(vectors), sens

In [42]:
doc = "Chiều 24/10, Công an quận 2, TP.HCM cho biết đã tìm thấy ô tô biển xanh 80B-3758 bật còi ưu tiên, chạy trên nhiều tuyến đường ở quận 2 sau đó đến trước một công ty bất động sản trên địa bàn. Theo công an, người điều khiển phương tiện là ông Đ.M.T. đang làm ở quận 2. “Chúng tôi đang tạm giữ phương tiện, lấy lời khai tài xế để làm rõ vụ việc”, Công an quận 2 thông tin. Theo công an, tại thời điểm bị tạm giữ, ông T không xuất trình được giấy tờ chứng minh nguồn gốc ô tô BKS: 80B - 3758. Ông T thừa nhận mượn xe này từ một người bạn rồi sang quận 2 đi chơi. Lộ diện tài xế lái ô tô biển xanh 80B giả bật còi ưu tiên, phóng trên đường. Ô tô biển xanh 80B giả liên tục bật còi ưu tiên phóng với tốc độ nhanh trên đường Trước đó, khoảng gần 19h ngày 20/10, chiếc ô tô mang biển số xanh 80B-3758 do người đàn ông điều khiển lưu thông từ giao lộ An Phú – đường cao tốc TPHCM – Long Thành – Dầu Giây về đường Nguyễn Thị Định rồi qua cầu Giồng Ông Tố 1 rẽ trái hướng về đường Nguyễn Duy Trinh, Lê Văn Thịnh… thuộc địa bàn quận 2. Lộ diện tài xế lái ô tô biển xanh 80B giả bật còi ưu tiên, phóng trên đường. Khi tới một công ty bất động sản, những người trên ô tô xuống xe đi vào bên trong khoảng 15 phút Trên đường đi, chiếc xe nói trên liên tục bật dàn đèn ưu tiên phía trước kính chắn gió, hú còi inh ỏi, lấn trái để chạy với tốc độ rất nhanh. Nhiều người vội vã nhường đường vì ai cũng cho rằng chiếc xe biển xanh đang sử dụng quyền ưu tiên để đi công vụ khẩn cấp. Thậm chí, khi nhìn thấy trên xe có 1 phụ nữ và 2 trẻ em ngồi trong xe, không ít người dù bất ngờ nhưng cũng bày tỏ sự thông cảm vì nghĩ rằng, có khả năng xe đang chở người đến bệnh viện quận 2 cấp cứu. Tuy nhiên, khi đến đường số 28 (phường Cát Lái, quận 2) ô tô dừng lại trước một công ty bất động sản, những người trên xe sau đó bấm chuông và đi vào bên trong căn nhà."

sen_vectors = get_list_sentence_vectors_from_document(doc, model=model)

In [43]:
sen_vectors.shape

(14, 300)

In [44]:
X = sen_vectors

In [45]:
from sklearn.cluster import KMeans

n_clusters = 5
kmeans = KMeans(n_clusters=n_clusters)
kmeans = kmeans.fit(X)

In [46]:
from sklearn.metrics import pairwise_distances_argmin_min

avg = []
for j in range(n_clusters):
    idx = np.where(kmeans.labels_ == j)[0]
    avg.append(np.mean(idx))
closest, _ = pairwise_distances_argmin_min(kmeans.cluster_centers_, X)
ordering = sorted(range(n_clusters), key=lambda k: avg[k])
summary = ' '.join([sentences[closest[idx]] for idx in ordering])

In [47]:
summary

'thất_thoát_tỷ đồng trong vụ tiêu_cực vietsovpetro tất_nhiên đây sẽ phải là đội_hình mạnh nhất bởi một kết_quả thua argentina cũng đồng_nghĩa với niềm kiêu_hãnh của xứ_sở sương_mù bị tổn_thương nghiêm_trọng sản_phẩm được trang_bị màn_hình qvga lcd inch hỗ_trợ cây hồi chữa bệnh gì cô có những phương_cách tiếp_cận phù_hợp với từng lứa tuổi và dễ_dàng vượt qua những rào_cản về khác_biệt văn_hóa_đây là nhận_xét của hiệp_hội những chuyên_gia kể chuyện châu'

## Text Rank