## Домашнее задание (см. после слов "ДЗ")

Основаная задача - **построить хорошую тематическую модель с интерпретируемыми топиками с помощью LDA в gensim и NMF в sklearn**.


1) сделайте нормализацию (если pymorphy2 работает долго используйте mystem или попробуйте установить быструю версию - `pip install pymorphy2[fast]`, можно использовать какой-то другой токенизатор); 

2) добавьте нграммы (в тетрадке есть закомменченая ячейка с Phrases,  можно также попробовать другие способы построить нграммы); 

3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова); 

4) постройте несколько LDA моделей (переберите количество тем, можете поменять eta, alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем; 

5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы;

6) между словарем и обучением модели добавьте tfidf (`gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]`);

7) повторите пункт 4 на преобразованном корпусе;

8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

10) в отдельной ячейки напечатайте таблицу с темами лучшей NMF модели, сравните их с теми, что получились в LDA.

Сохраните тетрадку с экспериментами и положите её на гитхаб, ссылку на неё укажите в форме.

**Оцениваться будут главным образом пункты 5, 8 и 10. (2, 3, 2 баллов соответственно). Чтобы заработать остальные 3 балла, нужно хотя бы немного изменить мой код на промежуточных этапах (добавить что-то, указать другие параметры и т.д). **

In [1]:
import gensim
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
import pyLDAvis.gensim
import string
from collections import Counter
import warnings
warnings.filterwarnings("ignore")

morph = MorphAnalyzer()

## Данные

In [2]:
stops = set(stopwords.words('russian')) | {'gt',}
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

def normalize(words):
    norm_words = [morph.parse(word)[0].normal_form for word in words if len(set(word)) > 1]
    return norm_words

def opt_normalize(texts, top=None):
    uniq = Counter()
    for text in texts:
        uniq.update(text)
    
    norm_uniq = {word:morph.parse(word)[0].normal_form for word, _ in uniq.most_common(top)}
    
    norm_texts = []
    for text in texts:
        
        norm_words = [norm_uniq.get(word) for word in text]
        norm_words = [word for word in norm_words if word and word not in stops]
        norm_texts.append(norm_words)
        
    return norm_texts

def tokenize(text):
    words = [word.strip(string.punctuation) for word in text.split()]
    words = [word for word in words if word]
    
    return words

Возьмем 4 тыс статьи с Хабра. Это мало для хорошей тематической модели, но иначе у нас просто ничего не обучится за семинар.

In [3]:
texts = open('habr_texts.txt').read().splitlines()

In [4]:
f = open('habr_texts.vw', 'w')

for i, text in enumerate(texts):
    c = Counter(text)
    doc = 'doc_'+ str(i) + ' '
    vw_text = ' '.join([x+':'+str(c[x]) for x in c])
    
    f.write(doc + vw_text  + '\n')
f.close()

В текстах есть тэги. Потрем их. Ещё токенизируем самым простым способом и нормализуем Pymorphy.

In [306]:
texts = open('habr_texts.txt').read().splitlines()
texts = [tokenize(remove_tags(text.lower())) for text in texts]

In [307]:
texts = open('habr_texts.txt').read().splitlines()
texts = [normalize(tokenize(text.lower())) for text in texts]

In [308]:
texts = open('habr_texts.txt').read().splitlines()
texts = opt_normalize([tokenize(remove_tags(text.lower())) for text in texts], 30000)

In [309]:
texts[0][:10]

['это',
 'open',
 'source',
 'библиотека',
 'разработать',
 'язык',
 'c',
 'net',
 'платформа',
 'работа']

In [310]:
# для нграммов
# ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
# p = gensim.models.phrases.Phraser(ph)
# ngrammed_texts = p[texts]

### Тематическое моделирование в gensim

Для моделей нужно сделать словарь.

In [311]:
dictinary = gensim.corpora.Dictionary(texts)

In [312]:
dictinary.filter_extremes(no_above=0.3)
dictinary.compactify()

In [313]:
print(dictinary)

Dictionary(12255 unique tokens: ['2-х', '3.0', 'address', 'api', 'architecture']...)


Преобразуем наши тексты в мешки слов. 

In [314]:
corpus = [dictinary.doc2bow(text) for text in texts]
# если текстов много, то тут может быть генератор

In [315]:
lda = gensim.models.LdaMulticore(corpus, id2word=dictinary, passes=5, eta='auto', iterations=10) # если поддерживается многопоточность

Посмотрим на топики.

In [15]:
lda.print_topics()

[(27,
  '0.008*"компонент" + 0.008*"элемент" + 0.006*"состояние" + 0.006*"чд" + 0.004*"хокинг" + 0.004*"return" + 0.004*"объект" + 0.004*"метод" + 0.003*"класс" + 0.003*"const"'),
 (34,
  '0.006*"игра" + 0.003*"плата" + 0.003*"камера" + 0.002*"корпус" + 0.002*"процессор" + 0.002*"какой-то" + 0.002*"сеть" + 0.002*"модуль" + 0.002*"модель" + 0.002*"конец"'),
 (70,
  '0.007*"датчик" + 0.005*"ток" + 0.004*"напряжение" + 0.003*"значение" + 0.003*"температура" + 0.003*"схема" + 0.003*"устройство" + 0.003*"параметр" + 0.002*"питание" + 0.002*"google"'),
 (21,
  '0.090*"up" + 0.027*"days" + 0.020*"6" + 0.010*"down" + 0.008*"scrum" + 0.006*"устройство" + 0.005*"продукт" + 0.004*"active" + 0.003*"connection" + 0.003*"closed"'),
 (76,
  '0.017*"user" + 0.016*"do" + 0.015*"conn" + 0.014*"end" + 0.012*"post" + 0.010*"тест" + 0.010*"test" + 0.009*"файл" + 0.008*"0.0" + 0.007*"assert"'),
 (6,
  '0.010*"файл" + 0.010*"модуль" + 0.006*"метод" + 0.005*"windows" + 0.005*"компонент" + 0.005*"linux" + 0.00

Ещё есть штука для визуализации.

In [16]:
pyLDAvis.enable_notebook()

In [17]:
pyLDAvis.gensim.prepare(lda, corpus, dictinary)

Можно посмотреть метрики.

In [18]:
import numpy as np

In [20]:
lda.log_perplexity(corpus[:2000], total_docs=100)

-27.785399207546

In [21]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [22]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [23]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [24]:
coherence_model_lda.get_coherence()

0.4778247703816194

### Разложение матриц в sklearn

In [25]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

Sklearn принимает на вход строки, поэтому склеим наши списки.

In [26]:
stexts = [' '.join(text) for text in texts]

Сделаем матрицу слова-документы с помощью TfidfVectorizer

In [27]:
vectorizer = TfidfVectorizer(max_features=25000, min_df=5, max_df=0.3, lowercase=False)
X = vectorizer.fit_transform(stexts)

Разложим её.

In [28]:
model = NMF(n_components=30)

In [29]:
model.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=30, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [30]:
def get_nmf_topics(model, n_top_words):
    
    #id слов.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(30):
        
        #топ n слов для темы.
        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

In [31]:
get_nmf_topics(model, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,объект,public,игра,космический,устройство,продукт,lt,товар,the,ия,...,сайт,файл,if,бот,windows,камера,звук,android,атака,робот
1,значение,void,игрок,спутник,смартфон,сотрудник,gt,скидка,to,обучение,...,страница,папка,return,сообщение,microsoft,видео,сигнал,google,безопасность,автомобиль
2,язык,new,игровой,орбита,телефон,программист,div,цена,of,нейросеть,...,реклама,скрипт,else,telegram,linux,движение,наушник,мобильный,уязвимость,ребёнок
3,элемент,string,играть,ракета,аккумулятор,клиент,return,магазин,and,сеть,...,браузер,строка,end,чат,studio,изображение,частота,ios,злоумышленник,машина
4,метод,private,персонаж,марс,сеть,опыт,const,покупатель,in,интеллект,...,контент,пакет,amp,канал,azure,смартфон,усилитель,app,пароль,робототехника
5,класс,return,steam,аппарат,датчик,бизнес,компонент,покупка,is,машинный,...,рекламный,модуль,var,телеграм,visual,кадр,звуковой,play,защита,беспилотный
6,переменный,class,vr,земля,мобильный,идея,input,распродажа,on,искусственный,...,клиент,директория,int,мессенджер,net,регистратор,искажение,apple,вредоносный,lego
7,строка,static,unity,станция,батарея,заказчик,int,продажа,for,нейронный,...,домен,sudo,function,api,server,фотография,музыка,swift,доступ,датчик
8,блок,класс,геймплей,наса,беспроводный,деньга,std,пятница,you,алгоритм,...,трафик,сборка,true,сервис,виртуальный,blackvue,диапазон,firebase,ключ,движение
9,алгоритм,var,жанр,луна,умный,понимать,class,продавец,from,изображение,...,посетитель,настройка,false,bot,обновление,разрешение,волна,api,шифрование,скорость


## ДЗ

**Немного изменим предобработку текстов (воспользуемся `mystem` и удалим "мусор")**

In [316]:
from string import punctuation
from pymystem3 import Mystem

In [317]:
russian_stopwords = set(stopwords.words('russian')) | {'gt',} | {'lt',} # lt встречается очень часто

In [318]:
punct = punctuation + '«»—…“”*№–'
mystem = Mystem()

In [319]:
def preprocessing(text):
    text = re.sub('\s{2,}', '', text)
    regex = re.compile('[^a-zA-ZА-Яа-я]') # );\t}\t -- достаточно много подобных сочетаний различных символов
    text = regex.sub(' ', text)
    tokens = mystem.lemmatize(text)
    tokens = [token for token in tokens if token not in russian_stopwords \
              and token != ' '  \
              and token.strip() not in punct \
              and len(token) > 1]
    
    return tokens

In [320]:
texts = open('habr_texts.txt').read().splitlines()

In [321]:
texts = [preprocessing(remove_tags(text.lower())) for text in texts]

In [322]:
dictinary = gensim.corpora.Dictionary(texts)

In [323]:
dictinary.filter_extremes(no_above=0.3)
dictinary.compactify()

In [324]:
corpus = [dictinary.doc2bow(text) for text in texts]

In [325]:
lda = gensim.models.LdaMulticore(corpus, id2word=dictinary, passes=5, eta='auto', iterations=10) # если поддерживается многопоточность

In [326]:
lda.log_perplexity(corpus, total_docs=100)

-30.963653596602548

In [327]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [328]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [329]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [114]:
coherence_model_lda.get_coherence()

0.5062408651662066

**н-граммы**

In [152]:
# для нграммов
ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
p = gensim.models.phrases.Phraser(ph)
ngrammed_texts = p[texts]

In [153]:
dictinary = gensim.corpora.Dictionary(ngrammed_texts)

In [154]:
dictinary.filter_extremes(no_above=0.3)
dictinary.compactify()

In [155]:
corpus = [dictinary.doc2bow(text) for text in ngrammed_texts]

In [156]:
%%time
lda = gensim.models.LdaMulticore(corpus, id2word=dictinary, passes=5, eta='auto', iterations=10) # если поддерживается многопоточность

CPU times: user 52.7 s, sys: 11.1 s, total: 1min 3s
Wall time: 1min 1s


In [157]:
lda.log_perplexity(corpus, total_docs=100)

-34.51317598446855

In [162]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=ngrammed_texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [163]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [164]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=ngrammed_texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [165]:
coherence_model_lda.get_coherence()

0.4681731407388889

**Частотность**

In [172]:
cnt = Counter()
for text in texts:
    for word in text:
        cnt[word] += 1

In [226]:
dictinary = gensim.corpora.Dictionary(texts)

In [227]:
# dictinary.filter_extremes(no_below=1000)
dictinary.filter_extremes(no_above=50)
dictinary.compactify()

In [228]:
corpus = [dictinary.doc2bow(text) for text in texts]

In [229]:
lda = gensim.models.LdaMulticore(corpus, id2word=dictinary, passes=5, eta='auto', iterations=10) # если поддерживается многопоточность

In [230]:
lda.log_perplexity(corpus, total_docs=100)

-26.475876277814436

In [231]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [232]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [233]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [234]:
coherence_model_lda.get_coherence()

0.42451423017374496

**Перебор параметров**

In [276]:
dictinary = gensim.corpora.Dictionary(texts)

In [277]:
dictinary.filter_extremes(no_above=0.3)
dictinary.compactify()

In [278]:
corpus = [dictinary.doc2bow(text) for text in texts]

In [241]:
eta = ['auto', 1e-5, 1e-3, 0.1]
num_topics = [10, 20, 50, 100]

In [242]:
import itertools

In [243]:
for e, n in itertools.product(eta, num_topics):
    print('eta=%s, num_topics=%s' % (e, n))
    lda = gensim.models.LdaMulticore(corpus, num_topics=n, id2word=dictinary, passes=5, eta=e, iterations=10) # если поддерживается многопоточность
    print(lda.log_perplexity(corpus, total_docs=100))
    coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')
    topics = []
    for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
        topic = [word for word, _ in topic]
        topics.append(topic)
    
    coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')
    print(coherence_model_lda.get_coherence())

eta=auto, num_topics=10
-12.553720225974242
0.43688409630416747
eta=auto, num_topics=20
-15.362930364072795
0.4960976025872064
eta=auto, num_topics=50
-22.11097445612409
0.4984942440153801
eta=auto, num_topics=100
-31.12896426336915
0.5149285387355866
eta=1e-05, num_topics=10
-47.339321305659226
0.475963099571759
eta=1e-05, num_topics=20
-80.87722703558339
0.47895972382780727
eta=1e-05, num_topics=50
-169.4228051362763
0.5066722052078596
eta=1e-05, num_topics=100
-294.70694691932414
0.4902435286605958
eta=0.001, num_topics=10
-30.00552207429334
0.46330908031823964
eta=0.001, num_topics=20
-46.8772398981959
0.47323304078773915
eta=0.001, num_topics=50
-84.05071751201875
0.4885753629828955
eta=0.001, num_topics=100
-126.2460590450104
0.4781637499739648
eta=0.1, num_topics=10
-14.912700778535902
0.4381459992535353
eta=0.1, num_topics=20
-18.420948246272122
0.5038251937902497
eta=0.1, num_topics=50
-24.03577070888016
0.48028361502816
eta=0.1, num_topics=100
-28.63561284726989
0.50134070658

`eta=auto, num_topics=100` + увеличим значение `passes`

In [279]:
lda = gensim.models.LdaMulticore(corpus, num_topics=100, id2word=dictinary, passes=25, eta='auto', iterations=10) # если поддерживается многопоточность
print(lda.log_perplexity(corpus, total_docs=100))

coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                               texts=texts, 
                                               dictionary=dictinary, coherence='c_v')
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                               texts=texts, 
                                               dictionary=dictinary, coherence='c_v')
print(coherence_model_lda.get_coherence())

-18.401202613582292
0.5629665843644511


In [285]:
o, tw, th = topics[84], topics[48], topics[34]

In [286]:
topics_df = pd.DataFrame([o, tw, th], index=['тема1', 'тема2', 'тема3'])

In [287]:
topics_df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
тема1,письмо,почта,рассылка,email,электронный,mail,почтовый,адрес,отправитель,сообщение
тема2,доклад,конференция,тема,выступление,ru,видео,мероприятие,презентация,спикер,слайд
тема3,космический,спутник,орбита,ракета,аппарат,марс,земля,корабль,двигатель,луна


**TF-IDF на лучших параметрах**

In [245]:
tfidf = gensim.models.TfidfModel(corpus, id2word=dictinary)
corpus = tfidf[corpus]

In [246]:
lda = gensim.models.LdaMulticore(corpus, num_topics=100, id2word=dictinary, passes=25, eta='auto', iterations=10) # если поддерживается многопоточность

In [247]:
lda.log_perplexity(corpus, total_docs=100)

-97.24543934252829

In [248]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [249]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [250]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [251]:
coherence_model_lda.get_coherence()

0.4537598623763124

In [267]:
one, two, three = topics[88], topics[64], topics[39]

In [274]:
topics_df_idf = pd.DataFrame([one, two, three], index=['тема1', 'тема2', 'тема3'])

In [275]:
topics_df_idf

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
тема1,заболевание,пациент,врач,лечение,вич,протез,лекарство,иммунный,препарат,кровь
тема2,вселенная,анимация,галактика,квантовый,батарея,теория,рассылка,энергия,звонок,ценность
тема3,клиент,сеть,устройство,сервис,продукт,бизнес,google,мобильный,сайт,рынок


С tf-idf лучше значение перплексии, но хуже -- когерентности. В целом, предобработка текста и обучение на лучших параметрах (`eta='auto', num_topics=100, passes=25`) дают больше хороших распределенний (в топ-10 слов входят более близкие к той или иной теме слова), чем tf-idf. 

### Разложение матриц в sklearn

In [288]:
stexts = [' '.join(text) for text in texts]

In [289]:
vectorizer = TfidfVectorizer(max_features=25000, min_df=5, max_df=0.3)
X = vectorizer.fit_transform(stexts)

In [290]:
model = NMF(n_components=30)

In [291]:
model.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=30, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [292]:
def get_nmf_topics(model, n_top_words):
    
    #id слов.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(30):
        
        #топ n слов для темы.
        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

In [293]:
get_nmf_topics(model, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,бизнес,public,игра,объект,сеть,css,android,this,космический,атака,...,печать,центр,бот,сайт,камера,звук,язык,ия,товар,устройство
1,продукт,string,игрок,значение,трафик,js,google,react,спутник,безопасность,...,принтер,дата,telegram,реклама,видео,сигнал,программирование,обучение,скидка,смартфон
2,сотрудник,if,игровой,элемент,интернет,javascript,ios,div,орбита,уязвимость,...,станок,облачный,сообщение,страница,vr,усилитель,программист,нейросеть,магазин,аккумулятор
3,клиент,void,играть,блок,связь,react,мобильный,props,ракета,злоумышленник,...,мм,инфраструктура,bot,клиент,движение,частота,лекция,робот,цена,процессор
4,деньги,int,vr,алгоритм,оператор,angular,app,компонент,марс,пароль,...,материал,услуга,чат,контент,регистратор,наушник,java,интеллект,распродажа,ноутбук
5,рынок,return,персонаж,метод,ip,веб,устройство,function,аппарат,защита,...,печатать,облако,api,google,реальность,музыка,программа,искусственный,покупатель,usb
6,заказчик,new,unity,точка,dpi,vue,layout,const,планета,вредоносный,...,производство,цод,message,браузер,blackvue,звуковой,перевод,машинный,покупка,дисплей
7,crm,,steam,строка,доступ,html,swift,return,земля,устройство,...,деталь,оборудование,мессенджер,рекламный,кадр,искажение,python,нейронный,пятница,телефон
8,менеджер,class,движок,изображение,абонент,браузер,play,dom,луна,ключ,...,изделие,сервис,телегр,домен,ivideon,акустика,курс,сеть,amazon,плата
9,продажа,amp,жанр,текстура,канал,es,view,class,станция,доступ,...,модель,провайдер,канал,письмо,виртуальный,наушники,ребенок,deepmind,акция,intel


In [294]:
# Frobenius norm of the matrix difference, or beta-divergence, 
# between the training data X and the reconstructed data WH from the fitted model.
model.reconstruction_err_

60.468078326398626

**Возьмем другие параметры для TfidfVectorizer**

In [295]:
nvectorizer = TfidfVectorizer(max_features=10000, min_df=5, max_df=0.5)
nX = nvectorizer.fit_transform(stexts)

In [296]:
nmodel = NMF(n_components=30)

In [297]:
nmodel.fit(nX)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=30, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [299]:
# Frobenius norm of the matrix difference, or beta-divergence, 
# between the training data X and the reconstructed data WH from the fitted model.
nmodel.reconstruction_err_

59.63358836171295

In [301]:
nvectorizer = TfidfVectorizer(max_features=20000, min_df=5, max_df=0.5)
nX = nvectorizer.fit_transform(stexts)
nmodel = NMF(n_components=30)
nmodel.fit(nX)
nmodel.reconstruction_err_

60.07823547059315

In [302]:
nvectorizer = TfidfVectorizer(max_features=30000, min_df=5, max_df=0.3)
nX = nvectorizer.fit_transform(stexts)
nmodel = NMF(n_components=30)
nmodel.fit(nX)
nmodel.reconstruction_err_

60.46904845083347

In [303]:
get_nmf_topics(nmodel, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,продукт,this,игра,объект,php,файл,товар,css,космический,атака,...,печать,public,бот,android,сайт,сигнал,камера,if,центр,российский
1,клиент,react,игрок,значение,http,папка,скидка,js,спутник,безопасность,...,принтер,void,telegram,google,реклама,звук,устройство,int,дата,страна
2,сотрудник,div,игровой,элемент,docker,скрипт,магазин,javascript,орбита,уязвимость,...,станок,string,сообщение,ios,страница,частота,смартфон,amp,инфраструктура,россия
3,бизнес,props,играть,текстура,id,строка,цена,react,ракета,устройство,...,мм,new,bot,мобильный,контент,усилитель,телефон,return,услуга,налог
4,менеджер,компонент,vr,алгоритм,user,пакет,распродажа,angular,марс,злоумышленник,...,материал,class,чат,устройство,браузер,искажение,аккумулятор,std,облачный,рубль
5,заказчик,function,персонаж,блок,сервер,git,покупатель,веб,аппарат,защита,...,печатать,класс,api,app,домен,наушник,дисплей,count,облако,закон
6,crm,const,unity,метод,name,file,пятница,vue,планета,пароль,...,производство,private,message,layout,клиент,звуковой,видео,const,оборудование,рынок
7,программист,return,steam,изображение,nginx,настройка,покупка,html,земля,вредоносный,...,деталь,return,мессенджер,swift,рекламный,сеть,экран,,сервер,доход
8,опыт,dom,движок,точка,запрос,модуль,заказ,браузер,луна,сеть,...,изделие,метод,канал,play,google,устройство,датчик,char,сервис,налоговый
9,тестирование,class,жанр,модель,etc,программа,продажа,es,станция,доступ,...,металл,var,телегр,view,трафик,музыка,xiaomi,else,цод,ооо


**Таким образом**, мы получили хорошие результаты как с `LDA`, так и с `NMF`. Но кажется, что результаты `NMF` позволяют нам в большем числе случаев (посравнению с `LDA`) однозачно определить тему.