# Import all necessary libraries

In [2]:
from nltk.corpus import stopwords
from nltk.cluster.util import cosine_distance
import numpy as np
import networkx as nx
import pandas as pd
from nltk.tokenize import word_tokenize
import re

from text_processing import ProcessText

# Load data

In [3]:
df = pd.read_csv("../data/texty_news.csv", sep='\t')
df.head()

Unnamed: 0,title,article
0,60 хвилин на реакцію. Як ефективно протидіяти ...,Одрі Танг любить висловлюватися точно. Під час...
1,Фільм про нас. Cеріал «Чорнобиль» показує вади...,"«Влада погано комунікує з суспільством», – чує..."
2,Київські візерунки. Зіграйте у гру й перевірте...,"Що бачить художник, коли дивиться на карту Киє..."
3,Протистояння медіа та соцмереж під час виборів...,Модераторка дискусії Діана Дуцик з Могилянсько...
4,Філарет проти канонічності. Як українські прав...,"Попри це, патріархові Філарету потрібно віддат..."


# Choose one article as an example

In [7]:
article_example = df['article'][1]
article_example

'«Влада погано комунікує з суспільством», – чуємо ми сьогодні. У цього явища багато причин, і одна з них криється у Чорнобильській трагедії. Аварію, причини й наслідки якої попервах погано розуміли навіть у Кремлі, усіляко приховували, применшували. Власне, для СРСР це було «доброю традицією». ЧАЕС не була першою техногенною катастрофою (варто задати хоча б Киштимську аварію на Уралі 1957-го).  Однак масштаб та інформаційний ефект Чорнобиля – нечуваний. Відтоді серед українців залишилася помітна травма: коли трапляється щось надзвичайне, влада вочевидь брехатиме і викривлятиме інформацію. Тому в нашому соціумі є дуже велике поле для чуток і маніпуляцій.  Вже в добу соцмереж нерідко з’являються фейкові повідомлення в стилі «чоловік моєї подруги працює пожежником у Чорнобильські зоні, і він сказав»… – а далі йдуть різні варіації жахалок. Це «заходить» і через 30 років після вибуху на АЕС, бо надто вже цинічною була брехня тоді.  «Брехатимуть і далі», – впевнені мільйони наших громадян і 

# Generate clean sentences

1. Split sentences
3. Remove all non-numeric values
4. Tokenize sentences
5. Lemmitize sentences

In [8]:
t = ProcessText(article_example)

In [9]:
t.split_sentences()

['«Влада погано комунікує з суспільством», – чуємо ми сьогодні',
 'У цього явища багато причин, і одна з них криється у Чорнобильській трагедії',
 'Аварію, причини й наслідки якої попервах погано розуміли навіть у Кремлі, усіляко приховували, применшували',
 'Власне, для СРСР це було «доброю традицією»',
 'ЧАЕС не була першою техногенною катастрофою (варто задати хоча б Киштимську аварію на Уралі 1957-го)',
 ' Однак масштаб та інформаційний ефект Чорнобиля – нечуваний',
 'Відтоді серед українців залишилася помітна травма: коли трапляється щось надзвичайне, влада вочевидь брехатиме і викривлятиме інформацію',
 'Тому в нашому соціумі є дуже велике поле для чуток і маніпуляцій',
 ' Вже в добу соцмереж нерідко з’являються фейкові повідомлення в стилі «чоловік моєї подруги працює пожежником у Чорнобильські зоні, і він сказав»… – а далі йдуть різні варіації жахалок',
 'Це «заходить» і через 30 років після вибуху на АЕС, бо надто вже цинічною була брехня тоді',
 ' «Брехатимуть і далі», – впев

In [10]:
t.tokenize()

[['влада',
  'погано',
  'комунікує',
  'з',
  'суспільством',
  'чуємо',
  'ми',
  'сьогодні'],
 ['у',
  'цього',
  'явища',
  'багато',
  'причин',
  'і',
  'одна',
  'з',
  'них',
  'криється',
  'у',
  'чорнобильській',
  'трагедії'],
 ['аварію',
  'причини',
  'й',
  'наслідки',
  'якої',
  'попервах',
  'погано',
  'розуміли',
  'навіть',
  'у',
  'кремлі',
  'усіляко',
  'приховували',
  'применшували'],
 ['власне', 'для', 'срср', 'це', 'було', 'доброю', 'традицією'],
 ['чаес',
  'не',
  'була',
  'першою',
  'техногенною',
  'катастрофою',
  'варто',
  'задати',
  'хоча',
  'б',
  'киштимську',
  'аварію',
  'на',
  'уралі',
  '1957',
  'го'],
 ['однак',
  'масштаб',
  'та',
  'інформаційний',
  'ефект',
  'чорнобиля',
  'нечуваний'],
 ['відтоді',
  'серед',
  'українців',
  'залишилася',
  'помітна',
  'травма',
  'коли',
  'трапляється',
  'щось',
  'надзвичайне',
  'влада',
  'вочевидь',
  'брехатиме',
  'і',
  'викривлятиме',
  'інформацію'],
 ['тому',
  'в',
  'нашому',
  

In [11]:
t.lemmatize_sentences()

[['влада',
  'погано',
  'комунікувати',
  'з',
  'суспільство',
  'чу',
  'ми',
  'сьогодні'],
 ['у',
  'цей',
  'явище',
  'багато',
  'і',
  'один',
  'з',
  'вони',
  'критися',
  'у',
  'чорнобильський',
  'трагедія'],
 ['аварія',
  'причина',
  'й',
  'наслідок',
  'як',
  'попервах',
  'погано',
  'розуміти',
  'навіть',
  'у',
  'кремль',
  'усіляко',
  'приховувати'],
 ['власне', 'для', 'СРСР', 'це', 'бути', 'добро', 'традиція'],
 ['ЧАЕС',
  'не',
  'бути',
  'перш',
  'техногенний',
  'катастрофа',
  'варто',
  'задати',
  'хоча',
  'б',
  'аварія',
  'на',
  '1957',
  'го'],
 ['однак',
  'масштаб',
  'та',
  'інформаційний',
  'ефект',
  'чорнобиль',
  'нечуваний'],
 ['відтоді',
  'серед',
  'українець',
  'залишитися',
  'помітний',
  'травма',
  'коли',
  'траплятися',
  'щось',
  'надзвичайний',
  'влада',
  'вочевидь',
  'брехати',
  'і',
  'викривляти',
  'інформація'],
 ['тому',
  'в',
  'наш',
  'соціум',
  'є',
  'дуже',
  'велик',
  'поле',
  'для',
  'чутка',
  'і'

In [12]:
def process_article(article):
    """
    string -> list of strings
    """
    t = ProcessText(article)
    splitted = t.split_sentences()
    lem = t.lemmatize_sentences()
    return splitted, lem

In [13]:
print(process_article(article_example))

(['«Влада погано комунікує з суспільством», – чуємо ми сьогодні', 'У цього явища багато причин, і одна з них криється у Чорнобильській трагедії', 'Аварію, причини й наслідки якої попервах погано розуміли навіть у Кремлі, усіляко приховували, применшували', 'Власне, для СРСР це було «доброю традицією»', 'ЧАЕС не була першою техногенною катастрофою (варто задати хоча б Киштимську аварію на Уралі 1957-го)', ' Однак масштаб та інформаційний ефект Чорнобиля – нечуваний', 'Відтоді серед українців залишилася помітна травма: коли трапляється щось надзвичайне, влада вочевидь брехатиме і викривлятиме інформацію', 'Тому в нашому соціумі є дуже велике поле для чуток і маніпуляцій', ' Вже в добу соцмереж нерідко з’являються фейкові повідомлення в стилі «чоловік моєї подруги працює пожежником у Чорнобильські зоні, і він сказав»… – а далі йдуть різні варіації жахалок', 'Це «заходить» і через 30 років після вибуху на АЕС, бо надто вже цинічною була брехня тоді', ' «Брехатимуть і далі», – впевнені міль

# Find similarity matrix between sentences

In [14]:
def sentence_similarity(sent1, sent2, stopwords=None):
    if stopwords is None:
        stopwords = []
 
    sent1 = [w.lower() for w in sent1]
    sent2 = [w.lower() for w in sent2]
 
    all_words = list(set(sent1 + sent2))
 
    vector1 = [0] * len(all_words)
    vector2 = [0] * len(all_words)
 
    # build the vector for the first sentence
    for w in sent1:
        if w in stopwords:
            continue
        vector1[all_words.index(w)] += 1
 
    # build the vector for the second sentence
    for w in sent2:
        if w in stopwords:
            continue
        vector2[all_words.index(w)] += 1
 
    return 1 - cosine_distance(vector1, vector2)

In [15]:
def build_similarity_matrix(sentences, stop_words):
    # Create an empty similarity matrix
    similarity_matrix = np.zeros((len(sentences), len(sentences)))
 
    for idx1 in range(len(sentences)):
        for idx2 in range(len(sentences)):
            if idx1 == idx2: #ignore if both are same sentences
                continue 
            similarity_matrix[idx1][idx2] = sentence_similarity(sentences[idx1], sentences[idx2], stop_words)
    return similarity_matrix

# Load stopwords set for Ukrainian language

In [16]:
from spacy.lang.uk.stop_words import STOP_WORDS
#Ukrainian stopwords - https://github.com/explosion/spaCy/blob/master/spacy/lang/uk/stop_words.py

In [17]:
STOP_WORDS

{'а',
 'або',
 'адже',
 'аж',
 'але',
 'алло',
 'б',
 'багато',
 'без',
 'безперервно',
 'би',
 'близько',
 'бо',
 'був',
 'буває',
 'буде',
 'будемо',
 'будете',
 'будеш',
 'буду',
 'будуть',
 'будь',
 'була',
 'були',
 'було',
 'бути',
 'більш',
 'більше',
 'біля',
 'в',
 'вам',
 'вами',
 'вас',
 'ваш',
 'ваша',
 'ваше',
 'вашим',
 'вашими',
 'ваших',
 'вашого',
 'вашому',
 'вашою',
 'вашої',
 'вашу',
 'ваші',
 'вашій',
 'вгору',
 'вгорі',
 'вдалині',
 'весь',
 'вже',
 'ви',
 'вниз',
 'внизу',
 'вона',
 'вони',
 'воно',
 'восьмий',
 'все',
 'всею',
 'всього',
 'всьому',
 'всю',
 'вся',
 'всі',
 'всім',
 'всіх',
 'втім',
 'від',
 'відсотків',
 'він',
 'вісім',
 'вісімнадцятий',
 'вісімнадцять',
 'г',
 'геть',
 'говорив',
 'говорить',
 'давно',
 'далеко',
 'далі',
 'дарма',
 'два',
 'двадцятий',
 'двадцять',
 'дванадцятий',
 'дванадцять',
 'двох',
 'дві',
 'де',
 "дев'ятий",
 "дев'ятнадцятий",
 "дев'ятнадцять",
 "дев'ять",
 'декілька',
 'день',
 'десятий',
 'десять',
 'для',
 'дня',
 '

# Generate summary

In [18]:
def generate_summary(filename, top_n=5):
    stop_words = STOP_WORDS
    summarize_text = []
    # Step 1 - Read text, tokenize + lemmatize
    splitted_sentences, lem_sentences =  process_article(filename)
    # Step 2 - Generate Similary Martix across sentences
    sentence_similarity_martix = build_similarity_matrix(lem_sentences, stop_words)
    # Step 3 - Rank sentences in similarity martix
    sentence_similarity_graph = nx.from_numpy_array(sentence_similarity_martix)
    scores = nx.pagerank(sentence_similarity_graph)
    # Step 4 - Sort the rank and pick top sentences
    ranked_sentence = sorted(((scores[i],s) for i,s in enumerate(splitted_sentences)), reverse=True)    
    print("Indexes of top ranked_sentence order are ", ranked_sentence)
    for i in range(top_n):
        summarize_text.append(ranked_sentence[i][1])
    # Step 5 - Output the summarize text
    print("\nSummarized Text: \n", "\n".join(summarize_text))

In [19]:
generate_summary(article_example, 2)

Indexes of top ranked_sentence order are  [(0.039707185975549834, 'Чимало нинішніх керівників  підприємств – індустріальних монстрів часів СРСР – у своїй поведінці нагадують героя серіалу «Чорнобиль» Анатолія Дятлова, інженера ЧАЕС'), (0.028998325087902354, 'Один із сильних моментів фільму: діалог солдата й бабці, що не збирається залишати свою оселю та згадує усі трагедії, які пережила Україна в ХХ столітті'), (0.026293193237124608, 'у фільмі присутня суб’єктність колонії Україна Фільмові інколи закидають: Україна в ньому, мовляв, як справжня колонія, позбавлена суб’єктності'), (0.02625736093643891, ' Чорнобиль породив не лише недовіру до чиновників, а й до техніки'), (0.025985612812387638, 'Війна – єдиний порівнюваний з Чорнобилем шок, який Україна пережила у новітній історії'), (0.0258523248008806, 'Записи директора Кучми всі чули; Ющенко, попри інтелігентний вигляд, дозволяв собі на людях звертатися до незнайомих чиновників на «ти», кричати на них; про  Януковича кажуть, що міг і в