In [8]:
import os
import pandas as pd

from cube.api import Cube
from utils.data_transformation import prepare_dialogs, transform_raw_data

# 0) Install (or update) NLP-Cube with:
    # pip3 install -U nlpcube

path_to_articles = '../static/ukr_articles'
data = pd.read_csv(path_to_articles, sep = ';', header = None)

# write your number of rows to analyse. max == 695,
# but to clean and analyse 30 rows is spending 6 minutes
df_idf = pd.DataFrame(data[:20])

df_idf.columns = ["id", "title", "en_title", "body", "date", "source_url",
                  "article_url"]

print("Schema:\n\n",df_idf.dtypes)
print("Number of questions,columns=",df_idf.shape)
df_idf

Schema:

 id              int64
title          object
en_title       object
body           object
date           object
source_url     object
article_url    object
dtype: object
Number of questions,columns= (20, 7)


Unnamed: 0,id,title,en_title,body,date,source_url,article_url
0,1,Авіакомпанії відкрили бронювання квитків на ре...,Airlines opened the booking of flights from Uk...,Авіакомпанії в Україні відкрили бронювання кви...,"Травень, 10 в 17:49",https://fakty.com.ua/ua,https://fakty.com.ua/ua/ukraine/20200510-aviak...
1,2,Коли можна буде зняти маски – пояснення МОЗ,When the mask can be removed - an explanation ...,Якщо кількість випадків коронавірусу зменшуват...,"Травень, 10 в 17:27",https://fakty.com.ua/ua,https://fakty.com.ua/ua/ukraine/20200510-koly-...
2,3,Українці потрапили в ДТП у Росії: є загиблий і...,Ukrainians got in an accident in Russia: there...,Один із українців загинув і ще троє наших гром...,"Травень, 10 в 17:16",https://fakty.com.ua/ua,https://fakty.com.ua/ua/proisshestvija/2020051...
3,4,У Запорізькій області Lanos виїхав на зустрічн...,In the Zaporozhye region Lanos went into the o...,У Бердянську Запорізької області водій автомоб...,"Травень, 10 в 17:09",https://fakty.com.ua/ua,https://fakty.com.ua/ua/proisshestvija/2020051...
4,5,З початку тижня 12 загиблих у пожежах: рятувал...,"Since week 12, died in the fire, rescuers call...",З початку 2020 року в Україні під час пожеж за...,"Травень, 10 в 16:38",https://fakty.com.ua/ua,https://fakty.com.ua/ua/proisshestvija/2020051...
5,6,У День матері Зеленський нагородив 678 україно...,On Mother's Day 678 Ukrainians Zelensky awarde...,У День матері 10 травня 678 українки отримали ...,"Травень, 10 в 16:18",https://fakty.com.ua/ua,https://fakty.com.ua/ua/ukraine/20200510-u-den...
6,7,Авіган під час коронавірусу – чи допомагає пре...,Avihan during coronavirus - Does the drug,Ефективність препарату Авіган (Фавіпіравір) у ...,"Травень, 10 в 16:09",https://fakty.com.ua/ua,https://fakty.com.ua/ua/lifestyle/zdorove/2020...
7,8,День матері: як зірки вітають своїх мам,"Mother's Day, as the stars greet their mothers",День матері відзначається щорічно у другу неді...,"Травень, 10 в 15:39",https://fakty.com.ua/ua,https://fakty.com.ua/ua/showbiz/20200510-den-m...
8,9,На Вінниччині троє військових загинули в ДТП,At Vinnytsia three military killed in road acc...,Троє військових загинули в ДТП на автодорозі м...,"Травень, 10 в 15:16",https://fakty.com.ua/ua,https://fakty.com.ua/ua/proisshestvija/2020051...
9,10,МЗС спростувало інформацію щодо дозволів для в...,Foreign Ministry refuted the information on pe...,У Міністерстві закордонних справ України заявл...,"Травень, 10 в 14:44",https://fakty.com.ua/ua,https://fakty.com.ua/ua/ukraine/20200510-mzs-s...


In [9]:
# change to language of articles
lang = "ua"
if lang == "ua":
    cube = Cube(verbose=True)
    cube.load("uk")

df_idf.dropna(subset = ["title"], inplace=True)
df_idf.dropna(subset = ["body"], inplace=True)

df_idf['text'] = df_idf['title'] + df_idf['body']
df_idf['text'] = df_idf['text'].apply(lambda x: transform_raw_data(x, lang, "words_frequency", cube))

#show the first 'text'
df_idf['text'][2]

Loading latest local model: uk-1.1
	Loading embeddings ... 
	Loading tokenization model ...
	Loading lemmatization model ...
	Loading tagger model ...
	Loading parser model ...
Model loading complete.



'українець потрапити дтп росія загиблий постраждаліодина українець загинути троє наш громадянин отримати травма дтпа вязьма смоленський область субота повідомити директор департамент консульський служба міністерство закордонний справа україни сергія погорельцево постраждалий важкий травма госпіталізувати реанімаційний відділення місцевий лікарня двоє українець отримати травма легкий середній тяжкість їхній життя загрожувати'

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
import re

def get_stop_words():
    """load stop words """

    try:
        with open(os.path.join(os.getcwd(), "..", "static", "ukrainian_stopwords.txt"), "r", encoding="utf-8") as file:
            stop_words = str(file).strip().split()

    except FileNotFoundError:
        with open(os.path.join(os.getcwd(), "static", "ukrainian_stopwords.txt"), "r",
                  encoding="utf-8") as file:
            stop_words = str(file).strip().split()

    return stop_words

#load a set of stop words
stopwords=get_stop_words()

#get the text column
docs=df_idf['text'].tolist()

#create a vocabulary of words,
#ignore words that appear in 85% of documents,
#eliminate stop words
cv=CountVectorizer(max_df=0.85,stop_words=stopwords)
word_count_vector=cv.fit_transform(docs)

  'stop_words.' % sorted(inconsistent))


In [19]:
cv=CountVectorizer(max_df=0.85,stop_words=stopwords,max_features=10000, ngram_range=(2, 2))
word_count_vector=cv.fit_transform(docs)
word_count_vector.shape

(20, 903)

In [20]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer=TfidfTransformer(smooth_idf=True,use_idf=True)
tfidf_transformer.fit(word_count_vector)

# get test docs into a list
docs_test=df_idf['text'].tolist()
docs_title=df_idf['title'].tolist()
docs_body=df_idf['body'].tolist()

In [21]:
def sort_coo(coo_matrix):
    tuples = zip(coo_matrix.col, coo_matrix.data)
    return sorted(tuples, key=lambda x: (x[1], x[0]), reverse=True)

def extract_topn_from_vector(feature_names, sorted_items, topn=10):
    """get the feature names and tf-idf score of top n items"""

    #use only topn items from vector
    sorted_items = sorted_items[:topn]

    score_vals = []
    feature_vals = []

    for idx, score in sorted_items:
        fname = feature_names[idx]

        #keep track of feature name and its corresponding score
        score_vals.append(round(score, 3))
        feature_vals.append(feature_names[idx])

    #create a tuples of feature,score
    results= {}
    for idx in range(len(feature_vals)):
        results[feature_vals[idx]]=score_vals[idx]

    return results

# you only needs to do this once
feature_names=cv.get_feature_names()

# get the document that we want to extract keywords from
doc=docs_test[0]

#generate tf-idf for the given document
tf_idf_vector=tfidf_transformer.transform(cv.transform([doc]))

#sort the tf-idf vectors by descending order of scores
sorted_items=sort_coo(tf_idf_vector.tocoo())

#extract only the top n; n here is 10
keywords=extract_topn_from_vector(feature_names,sorted_items,10)

# now print the results
print("\n=====Title=====")
print(docs_title[0])
print("\n=====Body=====")
print(docs_body[0])
print("\n===Keywords===")
for k in keywords:
    print(k,keywords[k])


=====Title=====
Авіакомпанії відкрили бронювання квитків на рейси з України

=====Body=====
Авіакомпанії в Україні відкрили бронювання квитків на регулярні рейси з кінця травня.
На сайті Міжнародних авіаліній України вже доступні квитки на рейси 23 травня. Наприклад, можна забронювати політ до Тбілісі в Грузії. МАУ запланувала як міжнародні, так і внутрішні рейси.

Зі свого боку компанія Wizz Аir також дозволила бронювання квитків на 23 травня. Наприклад, на цю дату заплановано виліт із Києва до Відня.

===Keywords===
бронювання квиток 0.405
травень наприклад 0.27
відкрити бронювання 0.27
україниавіакомпанія україна 0.135
україни доступний 0.135
україна відкрити 0.135
травень сайт 0.135
тбілісй грузія 0.135
сайт міжнародний 0.135
рейса україниавіакомпанія 0.135


In [22]:
# put the common code into several methods
def get_keywords(idx):

    #generate tf-idf for the given document
    tf_idf_vector=tfidf_transformer.transform(cv.transform([docs_test[idx]]))

    #sort the tf-idf vectors by descending order of scores
    sorted_items=sort_coo(tf_idf_vector.tocoo())

    #extract only the top n; n here is 10
    keywords=extract_topn_from_vector(feature_names,sorted_items,10)

    return keywords

def print_results(idx,keywords):
    # now print the results
    print("\n=====Title=====")
    print(docs_title[idx])
    print("\n=====Body=====")
    print(docs_body[idx])
    print("\n===Keywords===")
    for k in keywords:
        print(k,keywords[k])

In [23]:
#generate tf-idf for all documents in your list. docs_test has 500 documents
tf_idf_vector=tfidf_transformer.transform(cv.transform(docs_test))

results=[]
for i in range(tf_idf_vector.shape[0]):

    # get vector for a single document
    curr_vector=tf_idf_vector[i]

    #sort the tf-idf vector by descending order of scores
    sorted_items=sort_coo(curr_vector.tocoo())

    #extract only the top n; n here is 10
    keywords=extract_topn_from_vector(feature_names,sorted_items,10)


    results.append(keywords)

df=pd.DataFrame(zip(docs,results),columns=['doc','keywords'])
for result in results:
    result2 = {k: v for k, v in sorted(result.items(), key=lambda item: item[1], reverse=True)}
    print(result2)

{'бронювання квиток': 0.405, 'травень наприклад': 0.27, 'відкрити бронювання': 0.27, 'україниавіакомпанія україна': 0.135, 'україни доступний': 0.135, 'україна відкрити': 0.135, 'травень сайт': 0.135, 'тбілісй грузія': 0.135, 'сайт міжнародний': 0.135, 'рейса україниавіакомпанія': 0.135}
{'інфекція складніше': 0.136, 'якщо число': 0.136, 'якщо бачити': 0.136, 'швидко вийти': 0.136, 'читать коронавірус': 0.136, 'число випадок': 0.136, 'ходити маска': 0.136, 'складніше балансувати': 0.136, 'сказати читать': 0.136, 'сезонність впливати': 0.136}
{'отримати травма': 0.294, 'їхній життя': 0.147, 'україни сергія': 0.147, 'українець потрапити': 0.147, 'українець отримати': 0.147, 'українець загинути': 0.147, 'тяжкість їхній': 0.147, 'троє наш': 0.147, 'травма легкий': 0.147, 'травма дтпа': 0.147}
{'запорізький область': 0.293, 'lanos виїхати': 0.293, 'читати вінничина': 0.147, 'ушкодження доставити': 0.147, 'тілесний ушкодження': 0.147, 'троє людина': 0.147, 'троє військовий': 0.147, 'травмува