Data was published at https://github.com/duyvuleo/VNTC

# Introduction

In this tutorial, we will implement some algorithms to apply in text summarization problem.

## What is Text Summarization?

Text summarization is the problem of creating a short, accurate, and fluent summary of a longer text document.

Automatic text summarization methods are greatly needed to address the ever-growing amount of text data available online to both better help discover relevant information and to consume relevant information faster.

## What will we do in this tutorial?

In this tutorial, we will solve Text Summarization for Vietnamese newspapers, using some algorithms belows:
1. Extractive Text Summarization
    - Doc2Vec
    - Text Rank
2. Abstractive Text Summarization
    - Google textsum


We just implement "**Single document summarization**" problem in this tutorial, another problem called "**Multi-document summarization**" will be dicussed in another time.

# Extractive Text Summarization

## Doc2Vec

example: https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

### Basic idea
The idea of using Doc2Vec algorithm for text summarization problem is described as follows:
1. In all documents, we will extract sentences separately.
2. Each sentence will be represented by a vector, via doc2vec model
3. Use KMean algorithm to find out most featured sentences.

In [1]:
from sklearn import preprocessing
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
from pyvi import ViTokenizer, ViPosTagger
from tqdm import tqdm
import numpy as np
import gensim
import numpy as np

In [3]:
import os 
dir_path = os.path.dirname(os.path.realpath(os.getcwd()))
dir_path = os.path.join(dir_path, 'Data')

sentences = []

In [4]:
import pickle

def get_data(folder):
    sentences = []
    for path in os.listdir(folder):
        file_path = os.path.join(folder, path)
        with open(file_path, 'r', encoding="utf-16") as f:

            lines = f.readlines()

            for line in lines:
                sens = line.split('.')
                for sen in sens:
                    if len(sen) > 10:
                        sen = gensim.utils.simple_preprocess(sen)
                        sen = ' '.join(sen)
                        sen = ViTokenizer.tokenize(sen)
                        sentences.append(sen)

    return sentences

In [12]:
test_doc = 'Tottenham mời Roberto Mancini làm HLV. Athole Still - đại diện của chiến lược gia người Italy - mới tiết lộ rằng Mancini đang nằm trong tầm ngắm của CLB phía bắc thành London. Tuy nhiên, Still cũng khẳng định Tottenham phải đợi đến hết mùa hè năm 2004 nếu còn muốn có chữ ký của thân chủ mình. Những tin đồn về việc Chủ tịch Daniel Levy tìm người lèo lái con thuyền Tottenham đang gặp hiểm nguy càng trở nên có cơ sở, khi HLV tạm quyền David Pleat không thể cải thiện chuỗi thành tích nghèo nàn của đội bóng bóng tại giải vô địch quốc gia. Hiện đứng vị trí thứ 17 với 18 điểm sau 19 vòng đấu, Tottenham đang lâm vào tình trạng vô cùng khó khăn. Tottenham đã liên hệ với những HLV hàng đầu châu Âu như Martin ONeill, Alan Curbishley và Guus Hiddink. Tuy nhiên, Roberto Mancini là cái tên nhận được sự tin tưởng nhất.Trong khi đó, ông Athole Still - đại diện của HLV Roberto Mancini -cho biết: "Qua các phương tiện thông tin đại chúng, tôi biết rằng Tottenham đang quan tâm đến Roberto. Nhưng chúng tôi chưa nhận được một lời mời chính thức nào. Phải nói thêm rằng Mancini rất yêu quý nước Anh và cậu ấy nói tiếng Anh rất khá. Mancini cũng tích luỹ được khá nhiều kinh nghiệm và cũng như triết lý của bóng đá Anh khi còn chơi bóng cho Leicester, dưới thời HLV Peter Taylor, năm 2001". Bản thân Giám đốc thể thao của Lazio Oreste Cinquini cũng xác định Mancini sẽ rời đội bóng thành Rome khi mùa bóng này kết thúc.'

In [6]:
# sens = test_doc.split('.')
# for sen in sens:
#     if len(sen) > 10:
#         sen = gensim.utils.simple_preprocess(sen)
#         sen = ' '.join(sen)
#         sen = ViTokenizer.tokenize(sen)
#         sentences.append(sen)

In [7]:
# sentences

You can use multiprocessing here, but we will not use it for easy in understanding code.

In [8]:
# from multiprocessing import Pool
# sentences = []
# train_paths = [os.path.join(dir_path, 'VNTC-master/Data/10Topics/Ver1.1/Train_Full'), 
#                os.path.join(dir_path, 'VNTC-master/Data/10Topics/Ver1.1/Test_Full'),
#                os.path.join(dir_path, 'VNTC-master/Data/27Topics/Ver1.1/new train'),
#                os.path.join(dir_path, 'VNTC-master/Data/27Topics/Ver1.1/new test')]

# dirs = []
# for path in train_paths:
#     for p in os.listdir(path):
#         dirs.append(os.path.join(path, p))

# for d in tqdm(dirs):
#     sens = get_data(d)
#     sentences = sentences + sens

# # with Pool(8) as pool:
# #     pool.map(get_data, tqdm(dirs))



In [9]:
# pickle.dump(sentences, open('./sentences.pkl', 'wb'))
sentences = pickle.load(open('./sentences.pkl', 'rb'))

In [10]:
def get_corpus(sentences):
    corpus = []
    
    for i in tqdm(range(len(sentences))):
        sen = sentences[i]
        
        words = sen.split(' ')
        tagged_document = gensim.models.doc2vec.TaggedDocument(words, [i])
        
        corpus.append(tagged_document)
        
    return corpus

In [11]:
train_corpus = get_corpus(sentences)

100%|██████████| 2385532/2385532 [00:26<00:00, 88400.54it/s]


In [13]:
from sklearn.utils import shuffle

train_corpus = shuffle(train_corpus)

#### Build Doc2Vec model

In [None]:
model = gensim.models.doc2vec.Doc2Vec(vector_size=300, min_count=2, epochs=40)
model.build_vocab(train_corpus[:50000])

In [None]:
max_epochs = 40

for epoch in tqdm(range(max_epochs)):
#     print('iteration {0}'.format(epoch))
    model.train(train_corpus[:50000],
                total_examples=model.corpus_count,
                epochs=model.iter)
    
#     # decrease the learning rate
#     model.alpha -= 0.0002
#     # fix the learning rate, no decay
#     model.min_alpha = model.alpha

# %time model.train(train_corpus[:50000], total_examples=model.corpus_count, epochs=model.epochs)

In [21]:
model.infer_vector(train_corpus[100000].words)

array([-0.04828287,  0.25527653,  1.1613333 , -0.43151897, -0.9858117 ,
        0.10932952,  0.20315444, -0.48530903,  0.24952224, -0.11833256,
       -0.0337567 , -0.3887124 , -0.39426357,  0.4454976 ,  0.64964545,
       -0.5074249 ,  0.2037328 ,  0.32153234, -0.62261915,  0.8188216 ,
        0.5820815 , -0.09879603, -0.44826344,  0.1201525 ,  0.236654  ,
        0.13032307, -0.46023956,  0.19788027, -0.34569028, -0.21599784,
        0.42319658, -0.106575  , -0.24495657, -0.00839793, -0.11475623,
       -0.5559897 , -0.12046688,  0.18673038, -0.16149993, -0.02872676,
        0.42999822,  0.46070522,  0.50624824, -0.15866163, -0.11092521,
        0.30938515,  0.23203233,  0.11736044, -0.7434822 , -0.78674805,
        0.27668393,  0.25058967, -0.15513541,  0.05721006, -0.62895125,
       -0.3618494 ,  0.48457113, -0.16074707,  0.32852057, -0.63208133,
       -0.45503548, -0.373764  ,  0.6417061 , -0.15453526,  0.828889  ,
        0.4040729 , -0.13313939,  0.20088702, -0.36382645,  0.31

#### Test with new document

In [None]:
def get_list_sentence_vectors_from_document(doc, model):
    vectors = []
    sens = doc.split('.')
    for sen in sens:
        if len(sen) > 10:
            sen = gensim.utils.simple_preprocess(sen)
            sen = ' '.join(sen)
            sen = ViTokenizer.tokenize(sen)
            sen = sen.split(' ')
            vec = model.infer_vector(sen)
            
            vectors.append(vec)
    
    return np.array(vectors), sens

In [None]:
sen_vectors, sens = get_list_sentence_vectors_from_document(test_doc, model=model)

In [None]:
sen_vectors.shape

In [None]:
X = sen_vectors

In [None]:
from sklearn.cluster import KMeans

n_clusters = 3
kmeans = KMeans(n_clusters=n_clusters)
kmeans = kmeans.fit(X)

In [None]:
from sklearn.metrics import pairwise_distances_argmin_min

avg = []
for j in range(n_clusters):
    idx = np.where(kmeans.labels_ == j)[0]
    avg.append(np.mean(idx))
closest, _ = pairwise_distances_argmin_min(kmeans.cluster_centers_, X)
ordering = sorted(range(n_clusters), key=lambda k: avg[k])
summary = [sens[closest[idx]] for idx in ordering]

for sen in summary:
    print(sen)

## Text Rank