In [1]:
from pathlib import Path
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
path_corpus = Path(r'..\..\data\corpora\clean_tutby_126784.csv')

data = pd.read_csv(path_corpus)
data = data[data['document'].notna()]
corpus = data['document']

data.head(3)

Unnamed: 0,url,label,header,date,document,tags
0,https://news.tut.by/550306.html,Футбол,"Тренер ""Шахтера"": Оправдываться не хочу. Все в...",2017-07-06T21:35:00+03:00,главный тренер солигорский шахтер олег кубарев...,['футбол']
1,https://news.tut.by/550307.html,Общество,"""Зацветет"" ли каменная роза на ул. Комсомольск...",2017-07-07T09:25:00+03:00,план восстановление рисунок пока художник илья...,"['архитектура', 'живопись', 'ЖКХ']"
2,https://news.tut.by/550308.html,Общество,Фотофакт. Скамейка в виде пожарной машины появ...,2017-07-07T09:27:00+03:00,областной управление мчс день пожарный служба ...,['министерства']


In [5]:
%%time

vectorizer_idf = TfidfVectorizer(norm='l1', use_idf=True, min_df=100, max_df=0.97)
vectorizer_idf.fit_transform(data['document'])
idf = vectorizer_idf.idf_
names_idf = vectorizer_idf.get_feature_names()
word2idf = dict(zip(names_idf, idf))

top_k = 5

for document in data['document'].iloc[:20]:
    
    vectorizer_tf = TfidfVectorizer(norm='l1', use_idf=False)
    tf = vectorizer_tf.fit_transform([document])
    tf = tf.toarray()[0]
    
    names_tf = vectorizer_tf.get_feature_names()
    
    idf = np.array([word2idf[name] if name in word2idf else 0.0 for name in names_tf])
    
    tf_idf = tf * idf

    index = tf_idf.argsort()[-top_k:][::-1]
    names = np.array(names_tf)[index]
    print(names)

['тайм' 'шахтер' 'забивать' 'сзади' 'играть']
['роза' 'рисунок' 'илья' 'восстанавливать' 'художник']
['скамейка' 'мчс' 'пожарный' 'вечерний' 'спасатель']
['бате' 'сигневич' 'борисоваривать' 'володько' 'драгун']
['янукович' 'переворот' 'генпрокуратура' 'виктор' 'луценко']
['пенальти' 'июль' 'лига' 'славия' 'орша']
['бурый' 'теннисист' 'азаренко' 'разряд' 'белоруска']
['гамбург' 'демонстрант' 'беспорядок' 'полиция' 'водомет']
['детство' 'письмо' 'конкурс' 'гродно' 'читатель']
['ковер' 'курить' 'ветеран' 'это' 'спортсмен']
['раунд' 'македония' 'лига' 'матч' 'квалификация']
['дзюдо' 'спорт' 'израиль' 'константин' 'партия']
['скидка' 'магазин' 'продавец' 'покупатель' 'рубль']
['гуляние' 'июль' 'купала' 'празднование' 'древний']
['сценарий' 'экономика' 'концепция' 'ввп' 'прирост']
['стаж' 'субсидия' 'техника' 'минск' 'новость']
['игнатович' 'чечня' 'сепаратист' 'дмитрий' 'похищение']
['кипр' 'анкара' 'остров' 'турецкий' 'контингент']
['высылка' 'москва' 'разведчик' 'обама' 'cnn']
['нидерланд

In [17]:
import gensim

gensim.summarization.keywords(data['document'].iloc[7], words=5, split=True)

['полиция', 'демонстрант', 'фото', 'полицеискии', 'сообщать']