In [1]:
import pickle
import numpy as np
import pandas as pd
from sklearn.decomposition import LatentDirichletAllocation, TruncatedSVD, NMF
from sklearn.feature_extraction.text import TfidfVectorizer

%matplotlib inline
import matplotlib.pyplot as plt

# Тематическое моделирование
Википедия:

**Тематическое моделирование** — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов.

**Тематическая модель** (англ. topic model) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую тему.

In [2]:
# show topic descriptors
def get_descriptor( terms, H, topic_index, top ):
    top_indices = np.argsort( H[topic_index,:] )[::-1]
    top_terms = []
    for term_index in top_indices[0:top]:
        top_terms.append( terms[term_index] )
    return top_terms

def get_all_descriptors(k, H, terms, top):
    for topic_index in range(k):
        descriptor = get_descriptor( terms, H, topic_index, top )
        str_descriptor = ", ".join( descriptor )
        print("Topic %02d: %s" % ( topic_index+1, str_descriptor ) )

## Читаем данные.

In [5]:
with open('preprocessed.pkl', 'rb') as f:
    article_table = pickle.load(f)
data = pd.DataFrame(article_table, columns=['link', 'tag', 'text'])
data.head()

Unnamed: 0,link,tag,text
0,https://lenta.ru/news/2019/01/04/whelan/,world_politic,американец пол уилан задержать россия подозрен...
1,https://lenta.ru/articles/2019/01/04/expectati...,world_politic,миллион человек весь мир наступление новый год...
2,https://lenta.ru/news/2019/01/04/britanets/,world_politic,американец пол уилан который арестовать москва...
3,https://lenta.ru/news/2019/01/04/trick/,world_politic,вывод американский войско располагаться север ...
4,https://lenta.ru/news/2019/01/04/normalno_obsc...,world_politic,отношение германия россия ухудшиться 2019 год ...


In [14]:
vect = TfidfVectorizer()
X = vect.fit_transform(data['text'])
terms = vect.get_feature_names()

In [35]:
k = 10

## NMF
Non-negative matrix factorization

In [36]:
model = NMF( init="nndsvd", n_components=10, random_state=42 ) 
W = model.fit_transform( X ) # тематическое представление текстов
H = model.components_  # темы с вероятностями слов быть по ним

Посмотрим дескрипторы.

In [37]:
get_all_descriptors(10, H, terms, 10)

Topic 01: учёный, который, исследователь, человек, клетка, исследование, год, университет, это, мочь
Topic 02: дело, задержать, уголовный, сотрудник, полиция, следственный, мужчина, суд, возбудить, подозревать
Topic 03: рубль, доллар, курс, нефть, валюта, баррель, цена, евро, биржа, банк
Topic 04: iphone, смартфон, apple, устройство, компания, samsung, новый, экран, galaxy, дисплей
Topic 05: сша, россия, президент, трамп, страна, российский, украина, заявить, это, санкция
Topic 06: ракета, космический, носитель, спутник, корабль, пуск, союз, роскосмос, запуск, мкс
Topic 07: животное, мужчина, город, это, человек, видео, который, ребёнок, женщина, инцидент
Topic 08: коллекция, бренд, одежда, год, модель, матч, обувь, дизайнер, команда, модный
Topic 09: процент, год, россиянин, рост, доход, миллиард, вырасти, компания, составить, миллион
Topic 10: самолёт, истребитель, су, 57, поколение, пассажир, авиакомпания, аэропорт, 35, пятый


## Задание 1. 
1. Попробуйте другое количество тем.
2. Посмотрите LDA (Latent Dirichlet Allocation) и LSA - вызываются практически так же.

## *Задание 2.

Сделайте рекомендательную систему, обучив на корпусе тематическую модель, а на тематических представлениях текстов - KNN. Для инпута рекомендуйте 5 ближайших статей.