# Import all necessary libraries

In [1]:
from nltk.corpus import stopwords
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx
import pandas as pd
from nltk.tokenize import word_tokenize
import re

from text_processing import ProcessText

# Load data

In [2]:
df = pd.read_csv("../data/allnews.csv", delimiter=',')
df.head()

Unnamed: 0.1,Unnamed: 0,tags,text,datetime
0,0,Новини Росії;Водний транспорт;Аварії та ДТП;На...,Затонув плавучий док ПД-50 Читайте також: За ...,2018-10-30 10:15
1,1,авіація;Жертви;Надзвичайні ситуації;Катастрофа...,"178 дорослих, троє дітей, шестеро членів екіпа...",2018-10-30 10:15
2,2,Новини України;Землетрус;Новини Одеси;Румунія;...,"Як Читайте також: За попередніми даними, пос...",2018-10-28 09:58
3,3,Новини України;авіація;Новини Одеси;Надзвичайн...,"Раніше 24 канал повідомляв, що увечері 27 жовт...",2018-10-27 22:47
4,4,Новини України;авіація;Новини Одеси;Надзвичайн...,"Як Читайте також: ""Всіх пасажирів евакуйовано...",2018-10-27 19:53


In [3]:
def clean_data(text):
    """
    Remove '\xa0' and 'Читайте також:' from the text
    """
    data = text.replace(u'\xa0', u' ')
    cleaned_data = data.replace('Читайте також:', '.')
    return cleaned_data

# Choose one article as an example

In [4]:
article_example = clean_data(df['text'][5])
article_example

'Тіла жертв знайшли в Туапсинському й Апшеронському районах краю, про це повідомив міністр надзвичайних ситуацій цього російського регіону Сергій Капустін. .  У Туапсинському й Апшеронському районах, а також у місті Сочі, введено надзвичайно стан. Підтопленими залишаються 1800 будинків. Відтак майже шість тисяч осіб перебувають в зоні ризику.  Внаслідок повені у Сочі обвалився міст через річку Макопсе. Відтак на цій ділянці перерване автомобільне сполучення. Через повінь відімкнули електро- та водопостачання. Підприємці ж вирішили нажитись на горі. Ціни на питну воду та продукти різко злетіли, а на автозаправках виник ажіотаж. Рятувальники наразі займаються евакуацією потерпілих з небезпечних зон. Сильні зливи спричинили повені у Краснодарському краї Росії, щонайменше шестеро осіб загинули.'

# Generate clean sentences

1. Split sentences
3. Remove all non-numeric values
4. Tokenize sentences
5. Lemmitize sentences

In [5]:
t = ProcessText(article_example)

In [6]:
t.split_sentences()

['Тіла жертв знайшли в Туапсинському й Апшеронському районах краю, про це повідомив міністр надзвичайних ситуацій цього російського регіону Сергій Капустін',
 ' У Туапсинському й Апшеронському районах, а також у місті Сочі, введено надзвичайно стан',
 'Підтопленими залишаються 1800 будинків',
 'Відтак майже шість тисяч осіб перебувають в зоні ризику',
 ' Внаслідок повені у Сочі обвалився міст через річку Макопсе',
 'Відтак на цій ділянці перерване автомобільне сполучення',
 'Через повінь відімкнули електро- та водопостачання',
 'Підприємці ж вирішили нажитись на горі',
 'Ціни на питну воду та продукти різко злетіли, а на автозаправках виник ажіотаж',
 'Рятувальники наразі займаються евакуацією потерпілих з небезпечних зон',
 'Сильні зливи спричинили повені у Краснодарському краї Росії, щонайменше шестеро осіб загинули.']

In [7]:
t.tokenize()

[['тіла',
  'жертв',
  'знайшли',
  'в',
  'туапсинському',
  'й',
  'апшеронському',
  'районах',
  'краю',
  'про',
  'це',
  'повідомив',
  'міністр',
  'надзвичайних',
  'ситуацій',
  'цього',
  'російського',
  'регіону',
  'сергій',
  'капустін'],
 ['у',
  'туапсинському',
  'й',
  'апшеронському',
  'районах',
  'а',
  'також',
  'у',
  'місті',
  'сочі',
  'введено',
  'надзвичайно',
  'стан'],
 ['підтопленими', 'залишаються', '1800', 'будинків'],
 ['відтак',
  'майже',
  'шість',
  'тисяч',
  'осіб',
  'перебувають',
  'в',
  'зоні',
  'ризику'],
 ['внаслідок',
  'повені',
  'у',
  'сочі',
  'обвалився',
  'міст',
  'через',
  'річку',
  'макопсе'],
 ['відтак', 'на', 'цій', 'ділянці', 'перерване', 'автомобільне', 'сполучення'],
 ['через', 'повінь', 'відімкнули', 'електро', 'та', 'водопостачання'],
 ['підприємці', 'ж', 'вирішили', 'нажитись', 'на', 'горі'],
 ['ціни',
  'на',
  'питну',
  'воду',
  'та',
  'продукти',
  'різко',
  'злетіли',
  'а',
  'на',
  'автозаправках',
  '

In [8]:
t.lemmatize_sentences()

[['тать',
  'тіло',
  'жертва',
  'знайти',
  'в',
  'туапсинський',
  'й',
  'апшеронський',
  'район',
  'край',
  'про',
  'це',
  'повідомити',
  'міністр',
  'надзвичайний',
  'ситуація',
  'цей',
  'російський',
  'регіон',
  'серга'],
 ['у',
  'туапсинський',
  'й',
  'апшеронський',
  'район',
  'а',
  'також',
  'у',
  'міс',
  'січ',
  'ввести',
  'надзвичайно',
  'стан'],
 ['підтоплений', 'залишатися', '1800', 'будинок'],
 ['відтак', 'майже', 'шість', 'особа', 'перебувати', 'в', 'зона', 'ризик'],
 ['внаслідок', 'повінь', 'у', 'січ', 'обвалитися', 'міст', 'через', 'річка'],
 ['відтак',
  'на',
  'цей',
  'цівати',
  'ділянка',
  'перерва',
  'автомобіль',
  'сполучення'],
 ['через', 'повінь', 'відімкнути', 'та', 'водопостачання'],
 ['підприємець', 'ж', 'вирішити', 'нажитися', 'на', 'горі'],
 ['ціна',
  'на',
  'питний',
  'вода',
  'та',
  'продукт',
  'різко',
  'злетіти',
  'а',
  'на',
  'автозаправка',
  'ажіотаж'],
 ['рятувальник',
  'наразі',
  'займатися',
  'евакуація

In [9]:
def process_article(article):
    """
    string -> list of strings
    """
    t = ProcessText(article)
    splitted = t.split_sentences()
    lem = t.lemmatize_sentences()
    return splitted, lem

In [10]:
print(process_article(article_example))

(['Тіла жертв знайшли в Туапсинському й Апшеронському районах краю, про це повідомив міністр надзвичайних ситуацій цього російського регіону Сергій Капустін', ' У Туапсинському й Апшеронському районах, а також у місті Сочі, введено надзвичайно стан', 'Підтопленими залишаються 1800 будинків', 'Відтак майже шість тисяч осіб перебувають в зоні ризику', ' Внаслідок повені у Сочі обвалився міст через річку Макопсе', 'Відтак на цій ділянці перерване автомобільне сполучення', 'Через повінь відімкнули електро- та водопостачання', 'Підприємці ж вирішили нажитись на горі', 'Ціни на питну воду та продукти різко злетіли, а на автозаправках виник ажіотаж', 'Рятувальники наразі займаються евакуацією потерпілих з небезпечних зон', 'Сильні зливи спричинили повені у Краснодарському краї Росії, щонайменше шестеро осіб загинули.'], [['тать', 'тіло', 'жертва', 'знайти', 'в', 'туапсинський', 'й', 'апшеронський', 'район', 'край', 'про', 'це', 'повідомити', 'міністр', 'надзвичайний', 'ситуація', 'цей', 'росі

# Find similarity matrix between sentences

In [11]:
def sentence_similarity(sent1, sent2, stopwords=None):
    if stopwords is None:
        stopwords = []
 
    sent1 = [w.lower() for w in sent1]
    sent2 = [w.lower() for w in sent2]
 
    all_words = list(set(sent1 + sent2))
 
    vector1 = [0] * len(all_words)
    vector2 = [0] * len(all_words)
 
    # build the vector for the first sentence
    for w in sent1:
        if w in stopwords:
            continue
        vector1[all_words.index(w)] += 1
 
    # build the vector for the second sentence
    for w in sent2:
        if w in stopwords:
            continue
        vector2[all_words.index(w)] += 1
 
    return 1 - cosine_distance(vector1, vector2)

In [12]:
def build_similarity_matrix(sentences, stop_words):
    # Create an empty similarity matrix
    similarity_matrix = np.zeros((len(sentences), len(sentences)))
 
    for idx1 in range(len(sentences)):
        for idx2 in range(len(sentences)):
            if idx1 == idx2: #ignore if both are same sentences
                continue 
            similarity_matrix[idx1][idx2] = sentence_similarity(sentences[idx1], sentences[idx2], stop_words)
    return similarity_matrix

# Load stopwords set for Ukrainian language

In [13]:
from spacy.lang.uk.stop_words import STOP_WORDS
#Ukrainian stopwords - https://github.com/explosion/spaCy/blob/master/spacy/lang/uk/stop_words.py

In [14]:
STOP_WORDS

{'а',
 'або',
 'адже',
 'аж',
 'але',
 'алло',
 'б',
 'багато',
 'без',
 'безперервно',
 'би',
 'близько',
 'бо',
 'був',
 'буває',
 'буде',
 'будемо',
 'будете',
 'будеш',
 'буду',
 'будуть',
 'будь',
 'була',
 'були',
 'було',
 'бути',
 'більш',
 'більше',
 'біля',
 'в',
 'вам',
 'вами',
 'вас',
 'ваш',
 'ваша',
 'ваше',
 'вашим',
 'вашими',
 'ваших',
 'вашого',
 'вашому',
 'вашою',
 'вашої',
 'вашу',
 'ваші',
 'вашій',
 'вгору',
 'вгорі',
 'вдалині',
 'весь',
 'вже',
 'ви',
 'вниз',
 'внизу',
 'вона',
 'вони',
 'воно',
 'восьмий',
 'все',
 'всею',
 'всього',
 'всьому',
 'всю',
 'вся',
 'всі',
 'всім',
 'всіх',
 'втім',
 'від',
 'відсотків',
 'він',
 'вісім',
 'вісімнадцятий',
 'вісімнадцять',
 'г',
 'геть',
 'говорив',
 'говорить',
 'давно',
 'далеко',
 'далі',
 'дарма',
 'два',
 'двадцятий',
 'двадцять',
 'дванадцятий',
 'дванадцять',
 'двох',
 'дві',
 'де',
 "дев'ятий",
 "дев'ятнадцятий",
 "дев'ятнадцять",
 "дев'ять",
 'декілька',
 'день',
 'десятий',
 'десять',
 'для',
 'дня',
 '

# Generate summary

In [15]:
def generate_summary(filename, top_n=5):
    stop_words = STOP_WORDS
    # Ukrainian stopwords - https://github.com/explosion/spaCy/blob/master/spacy/lang/uk/stop_words.py
    summarize_text = []
    # Step 1 - Read text, tokenize + lemmatize
    splitted_sentences, lem_sentences =  process_article(filename)
    # Step 2 - Generate Similary Martix across sentences
    sentence_similarity_martix = build_similarity_matrix(lem_sentences, stop_words)
    # Step 3 - Rank sentences in similarity martix
    sentence_similarity_graph = nx.from_numpy_array(sentence_similarity_martix)
    scores = nx.pagerank(sentence_similarity_graph)
    # Step 4 - Sort the rank and pick top sentences
    ranked_sentence = sorted(((scores[i],s) for i,s in enumerate(splitted_sentences)), reverse=True)    
    print("Indexes of top ranked_sentence order are ", ranked_sentence)
    for i in range(top_n):
        summarize_text.append(ranked_sentence[i][1])
    # Step 5 - Output the summarize text
    print("\nSummarized Text: \n", "\n".join(summarize_text))

In [16]:
generate_summary(article_example, 2)

Indexes of top ranked_sentence order are  [(0.1774809746124713, 'Сильні зливи спричинили повені у Краснодарському краї Росії, щонайменше шестеро осіб загинули.'), (0.156784948611979, ' Внаслідок повені у Сочі обвалився міст через річку Макопсе'), (0.13229320031941763, ' У Туапсинському й Апшеронському районах, а також у місті Сочі, введено надзвичайно стан'), (0.13210397813931476, 'Через повінь відімкнули електро- та водопостачання'), (0.12687413032612369, 'Відтак майже шість тисяч осіб перебувають в зоні ризику'), (0.11641067722519849, 'Тіла жертв знайшли в Туапсинському й Апшеронському районах краю, про це повідомив міністр надзвичайних ситуацій цього російського регіону Сергій Капустін'), (0.079104722344442, 'Відтак на цій ділянці перерване автомобільне сполучення'), (0.019736842105263278, 'Ціни на питну воду та продукти різко злетіли, а на автозаправках виник ажіотаж'), (0.019736842105263278, 'Рятувальники наразі займаються евакуацією потерпілих з небезпечних зон'), (0.019736842105