# Домашнее задание  № 5. Матричные разложения/Тематическое моделирование

### Задание № 1 (4 балла)

Попробуйте матричные разложения с 4 классификаторами - SGDClassifier, KNeighborsClassifier,  RandomForest, ExtraTreesClassifier (про него подробнее почитайте в документации, он похож на RF). Используйте и NMF, и SVD. Сравните результаты на кросс-валидации и выберите лучшее сочетание.

В итоге у вас должно получиться, как минимум 8 моделей (два разложения на каждый классификатор). Используйте 1 и те же параметры кросс-валидации. Параметры векторизации, параметры K в матричных разложениях, параметры классификаторов могут быть разными между экспериментами.

Можете взять поменьше данных, если все будет обучаться слишком долго (не ставьте параметр K слишком большим в NMF, иначе точно будет слишком долго)

In [None]:
!pip install gensim pymorphy2 seaborn pyLDAvis

In [None]:
import gensim
import pandas as pd
import numpy as np
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()
import pyLDAvis.gensim_models
from collections import Counter
from string import punctuation
from razdel import tokenize as razdel_tokenize
from sklearn.decomposition import TruncatedSVD, NMF, PCA, LatentDirichletAllocation
from sklearn.manifold import TSNE
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, TfidfTransformer
from sklearn.metrics.pairwise import cosine_distances
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold, StratifiedKFold
from matplotlib import pyplot as plt
import seaborn as sns

In [None]:
avito_df = pd.read_csv('avito_category_classification.csv')
avito_df.head(5)

In [None]:
%%time
def lemmatization(tokens):
    lemmas = []
    for token in tokens:
        token_parsed = morph.parse(token)
        lemmas.append(token_parsed[0].normal_form)
    return(lemmas)

def strip_punct(lemmas):
    clean_lemmas = [lem.strip(punctuation) for lem in lemmas]
    result = ' '.join(clean_lemmas)
    return result

avito_df['description_norm'] = avito_df['description'].apply(lambda x: x.lower().split())

avito_df['description_norm'] = avito_df['description_norm'].apply(lemmatization)

avito_df['description_norm'] = avito_df['description_norm'].apply(strip_punct)

avito_df.head(5)

In [None]:
def eval_table(X, y, pipeline, N=6):
    # зафиксируем порядок классов
    labels = list(set(y))
    
    # метрики отдельных фолдов будет хранить в табличке
    fold_metrics = pd.DataFrame(index=labels)
    # дополнительно также соберем таблицу ошибок
    errors = np.zeros((len(labels), len(labels)))
    
    # создаем стратегию кросс-валидации
    # shuffle=True (перемешивание) - часто критично важно указать
    # т.к. данные могут быть упорядочены и модель на этом обучится
    kfold = StratifiedKFold(n_splits=N, shuffle=True, )
        
    for i, (train_index, test_index) in enumerate(kfold.split(X, y)):
        # fit-predict как и раньше, но сразу пайплайном
        pipeline.fit(X[train_index], y[train_index])
        preds = pipeline.predict(X[test_index])
        
        # записываем метрику и индекс фолда
        fold_metrics[f'precision_{i}'] = precision_score(y[test_index], preds, labels=labels, average=None)
        fold_metrics[f'recall_{i}'] = recall_score(y[test_index], preds, labels=labels, average=None)
        fold_metrics[f'f1_{i}'] = f1_score(y[test_index], preds, labels=labels, average=None)
        
        # пришлось убрать normalize='true'
        # TypeError: sklearn.metrics. confusion_matrix() got an unexpected keyword argument 'normalize'
        errors += confusion_matrix(y[test_index], preds, labels=labels)
    
    # таблица для усредненных значений
    # тут мы берем колонки со значениями и усредняем их
    # часто также все метрики сразу суммируют и в конце просто делят на количество фолдов
    # но мы тут помимо среднего также хотим посмотреть на стандартное отклонение
    # чтобы понять как сильно варьируются оценки моделей
    result = pd.DataFrame(index=labels)
    result['precision'] = fold_metrics[[f'precision_{i}' for i in range(N)]].mean(axis=1).round(2)
    result['precision_std'] = fold_metrics[[f'precision_{i}' for i in range(N)]].std(axis=1).round(2)
    
    result['recall'] = fold_metrics[[f'recall_{i}' for i in range(N)]].mean(axis=1).round(2)
    result['recall_std'] = fold_metrics[[f'recall_{i}' for i in range(N)]].std(axis=1).round(2)
    
    result['f1'] = fold_metrics[[f'f1_{i}' for i in range(N)]].mean(axis=1).round(2)
    result['f1_std'] = fold_metrics[[f'f1_{i}' for i in range(N)]].std(axis=1).round(2)
    
    # добавим одну колонку со средним по всем классам
    result.loc['mean'] = result.mean().round(2)
    # проценты ошибок просто усредняем
    errors /= N
    
    return result, errors

### 1.1. SGDClassifier - NMF

In [None]:
SDG_NMF = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('clf', SGDClassifier(max_iter=1000, tol=1e-3))
])

In [None]:
%%time
metrics_SDG_NMF, errors_SDG_NMF = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   SDG_NMF)

In [None]:
metrics_SDG_NMF

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_SDG_NMF, xticklabels=metrics_SDG_NMF.index.tolist()[:-1], 
            yticklabels=metrics_SDG_NMF.index.tolist()[:-1])
plt.title('SGDClassifier - NMF')
plt.show()

### 1.2. SGDClassifier - SVD

In [None]:
SDG_SVD = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('svd', TruncatedSVD(500)),
    ('clf', SGDClassifier(max_iter=1000, tol=1e-3))
])

In [None]:
%%time
metrics_SDG_SVD, errors_SDG_SVD = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   SDG_SVD)

In [None]:
metrics_SDG_SVD

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_SDG_SVD, xticklabels=metrics_SDG_SVD.index.tolist()[:-1], 
            yticklabels=metrics_SDG_SVD.index.tolist()[:-1])
plt.title('SGDClassifier - SVD')
plt.show()

### 2.1. KNeighborsClassifier - NMF

In [None]:
KN_NMF = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('clf', KNeighborsClassifier(n_neighbors=3))
])

In [None]:
%%time
metrics_KN_NMF, errors_KN_NMF = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   KN_NMF)

In [None]:
metrics_KN_NMF

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_KN_NMF, xticklabels=metrics_KN_NMF.index.tolist()[:-1], 
            yticklabels=metrics_KN_NMF.index.tolist()[:-1])
plt.title('KNeighborsClassifier - NMF')
plt.show()

### 2.2. KNeighborsClassifier - SVD 

In [None]:
KN_SVD = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('svd', TruncatedSVD(500)),
    ('clf', KNeighborsClassifier(n_neighbors=3))
])

In [None]:
%%time
metrics_KN_SVD, errors_KN_SVD = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   KN_SVD)

In [None]:
metrics_KN_SVD

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_KN_SVD, xticklabels=metrics_KN_SVD.index.tolist()[:-1], 
            yticklabels=metrics_KN_SVD.index.tolist()[:-1])
plt.title('KNeighborsClassifier - SVD')
plt.show()

### 3.1. RandomForest - NMF

In [None]:
RF_NMF = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('clf', RandomForestClassifier(max_depth=2, random_state=0))
])

In [None]:
%%time
metrics_RF_NMF, errors_RF_NMF = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   RF_NMF)

In [None]:
metrics_RF_NMF

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_RF_NMF, xticklabels=metrics_RF_NMF.index.tolist()[:-1], 
            yticklabels=metrics_RF_NMF.index.tolist()[:-1])
plt.title('RandomForest - NMF')
plt.show()

### 3.2. RandomForest - SVD

In [None]:
RF_SVD = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('svd', TruncatedSVD(500)),
    ('clf', RandomForestClassifier(max_depth=2, random_state=0))
])

In [None]:
%%time
metrics_RF_SVD, errors_RF_SVD = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   RF_SVD)

In [None]:
metrics_RF_SVD

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_RF_SVD, xticklabels=metrics_RF_SVD.index.tolist()[:-1], 
            yticklabels=metrics_RF_SVD.index.tolist()[:-1])
plt.title('RandomForest - SVD')
plt.show()

### 4.1. ExtraTreesClassifier - NMF

In [None]:
ET_NMF = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('tfidf', TfidfTransformer()),
    ('decomposition', NMF(100)),
    ('clf', ExtraTreesClassifier(n_estimators=100, random_state=0))
])

In [None]:
%%time
metrics_ET_NMF, errors_ET_NMF = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   ET_NMF)

In [None]:
metrics_ET_NMF

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_ET_NMF, xticklabels=metrics_ET_NMF.index.tolist()[:-1], 
            yticklabels=metrics_ET_NMF.index.tolist()[:-1])
plt.title('ExtraTreesClassifier - NMF')
plt.show()

### 4.2. ExtraTreesClassifier - SVD

In [None]:
ET_SVD = Pipeline([
    ('bow', CountVectorizer(tokenizer=lambda x: x.split(), ngram_range=(1,2), min_df=6, max_df=0.5)),
    ('svd', TruncatedSVD(500)),
    ('clf', ExtraTreesClassifier(n_estimators=100, random_state=0))
])

In [None]:
%%time
metrics_ET_SVD, errors_ET_SVD = eval_table(avito_df['description_norm'], avito_df['category_name'],
                                                   ET_SVD)

In [None]:
metrics_ET_SVD

In [None]:
plt.figure(figsize=(6, 6))
sns.heatmap(errors_ET_SVD, xticklabels=metrics_ET_SVD.index.tolist()[:-1], 
            yticklabels=metrics_ET_SVD.index.tolist()[:-1])
plt.title('ExtraTreesClassifier - SVD')
plt.show()

Выводы:

Лучше всех показали себя SGDClassifier + SVD (средняя точность 0.72, среднее f1 - 0.7) и ExtraTreesClassifier + NMF (средняя точность 0.71, среднее f1 - 0.66);

Хуже всех оказался RandomForestClassifier + SVD (средняя точность 0.16, среднее f1 - 0.11);

Быстрее всех работал RandomForestClassifier + SVD (37.3 s; поспешишь - людей насмешишь);

Дольше всех работал KNeighbours + NMF (4min 31s).

### Задание № 2 (6 баллов)

В Gensim тоже можно добавить нграммы и tfidf. Постройте 1 модель без них (как в семинаре) и еще 3 модели (1 с нграммами, 1 с tfidf и 1 с нграммами и с tfidf). Сравните качество с помощью метрик (перплексия, когерентность) и на глаз. Определите лучшую модель. Для каждой модели выберите 1 самую красивую на ваш взгляд тему.

Используйте данные википедии из семинара. Можете взять поменьше данных, если все обучается долго.

Важное требование - получившиеся модели не должны быть совсем плохими. Если хороших тем не получается, попробуйте настроить гиперпараметры, отфильтровать словарь по-другому. 

Нграммы добавляются вот так (перед созданием словаря)

In [None]:
texts = [text.split() for text in texts]
ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.5) # threshold можно подбирать
p = gensim.models.phrases.Phraser(ph)
ngrammed_texts = p[texts] 

# ! не забудьте, что далее вам нужно будет использовать ngrammed_texts

!! В модели с нграммами вначале посмотрите, что получается после преобразования
Если вы выведите несколько первых текстов в ngrammed_texts, то там должно быть что-то такое:

In [None]:
[text for text in ngrammed_texts[:3]]
>> [['новостройка',
  'нижегородский_область', # нграм
  'новостро́йка',
  '—',
  'сельский',
  'посёлок',
  'в',
  'дивеевский_район', # нграм
  'нижегородский_область', #нграмм
  'входить',
  'в',
  'состав_сатисский', #нграмм
  'сельсовет',
  'посёлок',
  'расположить',
  'в',
  '12,5',
  'километр',
....

Если вы не видите нграммов, то попробуйте изменить параметр threshold

Tfidf добавляется вот так (после векторизации и перед обучением lda)

In [None]:
tfidf = gensim.models.TfidfModel(corpus, id2word=dictionary, )
corpus = tfidf[corpus]

### Данные

In [130]:
wiki_texts = open('data/wiki_data.txt', encoding='utf-8').read().splitlines()

In [125]:
import re

In [132]:
clean_texts = []
for wtext in wiki_texts[:7000]:
    clean_texts.append(re.sub('#+', ' ',wtext))

In [150]:
texts = [strip_punct(lemmatization(text.split())) for text in clean_texts]

### 1. Gensim LDA

In [193]:
dictionary = gensim.corpora.Dictionary((text.split() for text in texts))

In [194]:
dictionary.filter_extremes(no_above=0.2, no_below=10)
dictionary.compactify()

In [195]:
corpus = [dictionary.doc2bow(text.split()) for text in texts]

In [196]:
lda = gensim.models.LdaModel(corpus, 100, id2word=dictionary, passes=5)

In [197]:
lda.print_topics()

[(7,
  '0.048*"рак" + 0.042*"open" + 0.033*"философия" + 0.029*"елена" + 0.029*"павел" + 0.027*"de" + 0.026*"михаил" + 0.023*"уэльс" + 0.021*"la" + 0.019*"ольга"'),
 (90,
  '0.014*"государственный" + 0.012*"организация" + 0.010*"право" + 0.010*"президент" + 0.010*"председатель" + 0.009*"закон" + 0.008*"дело" + 0.008*"министр" + 0.008*"комитет" + 0.008*"политический"'),
 (17,
  '0.020*"состав" + 0.013*"указ" + 0.012*"станица" + 0.011*"реформа" + 0.011*"российский" + 0.010*"постановление" + 0.010*"век" + 0.009*"город" + 0.008*"территория" + 0.008*"согласно"'),
 (29,
  '0.047*"фамилия" + 0.036*"хан" + 0.029*"лука" + 0.028*"известный" + 0.027*"корпус" + 0.025*"надпись" + 0.022*"клетка" + 0.019*"сторона" + 0.018*"1941" + 0.018*"феликс"'),
 (14,
  '0.278*"доктор" + 0.144*"эпизод" + 0.059*"патрик" + 0.044*"fox" + 0.043*"франсуа" + 0.036*"джонс" + 0.035*"одиннадцать" + 0.027*"«доктор" + 0.023*"серия" + 0.020*"телесериал"'),
 (43,
  '0.026*"польский" + 0.019*"польша" + 0.019*"оркестр" + 0.014*"

In [198]:
pyLDAvis.enable_notebook()

In [199]:
# На графике должно быть как можно меньше пересекающихся кружков (т.е. темы состоят из разных слов),
# а сами кружки не должны быть огромными (скорее всего такую тему можно разбить на несколько поменьше).

pyLDAvis.gensim_models.prepare(lda, corpus, dictionary)

In [200]:
# Перплексия показывает насколько хороше моделируется корпус. 
# Чем ближе к нулю, тем лучше. 
# Можно использовать, чтобы настраивать количество
# проходов по корпусу (когда перестало улучшаться, то можно останавливаться).

np.exp2(-lda.log_perplexity(corpus))

339.43026554999835

In [201]:
# Ещё есть когерентность.
# Она численно оценивает качество тем
# (проверяется, что темы состоят из разных слов и что в теме есть топ тематических слов).
# Чем выше, тем лучше.

topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [202]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=[text.split() for text in texts], 
                                                   dictionary=dictionary, coherence='c_v')

In [203]:
coherence_model_lda.get_coherence()

0.5377789535926254

### 2. Gensim LDA + n-gramms

In [204]:
corpus2 = [text.split() for text in texts]
ph = gensim.models.Phrases(corpus2, scoring='npmi', threshold=0.5) # threshold можно подбирать
p = gensim.models.phrases.Phraser(ph)
texts_ngramms = p[corpus2]

In [205]:
dictionary_ngramms = gensim.corpora.Dictionary((text for text in texts_ngramms))

In [206]:
dictionary_ngramms.filter_extremes(no_above=0.2, no_below=10)
dictionary_ngramms.compactify()

In [207]:
corpus_ngramms = [dictionary_ngramms.doc2bow(text) for text in texts_ngramms]

In [208]:
lda_ngramms = gensim.models.LdaModel(corpus_ngramms, 100, id2word=dictionary_ngramms, passes=5)

In [209]:
lda_ngramms.print_topics()

[(92,
  '0.046*"сезон" + 0.029*"команда" + 0.026*"гонка" + 0.018*"этап" + 0.014*"чемпионат_мир" + 0.013*"lotus" + 0.012*"гран-при" + 0.012*"три" + 0.012*"нидерландов" + 0.012*"место"'),
 (33,
  '0.115*"шведский" + 0.079*"латвия" + 0.060*"ян" + 0.058*"литовский" + 0.037*"чешский" + 0.027*"рига" + 0.024*"туркестанский" + 0.023*"рижский" + 0.020*"великое_княжество" + 0.018*"король"'),
 (44,
  '0.022*"программа" + 0.021*"сеть" + 0.020*"система" + 0.016*"канал" + 0.013*"использовать" + 0.011*"проект" + 0.010*"оператор" + 0.010*"помощь" + 0.010*"протокол" + 0.008*"позволять"'),
 (45,
  '0.026*"высота" + 0.023*"м" + 0.014*"или" + 0.012*"°c" + 0.012*"длина" + 0.012*"часть" + 0.011*"вод" + 0.011*"температура" + 0.009*"достигать" + 0.008*"около"'),
 (74,
  '0.085*"собака" + 0.052*"порода" + 0.036*"употребление" + 0.032*"собак" + 0.026*"хвост" + 0.023*"луи" + 0.020*"мексика" + 0.018*"животных" + 0.016*"пищевой" + 0.015*"лесна"'),
 (71,
  '0.097*"звезда" + 0.081*"украине_находиться" + 0.069*"челов

In [210]:
pyLDAvis.gensim_models.prepare(lda_ngramms, corpus_ngramms, dictionary_ngramms)

In [211]:
np.exp2(-lda_ngramms.log_perplexity(corpus_ngramms))

411.8113940886415

In [212]:
topics_ngramms = []
for topic_id, topic in lda_ngramms.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics_ngramms.append(topic)

In [217]:
coherence_model_lda_ngramms = gensim.models.CoherenceModel(topics=topics_ngramms, 
                                                   texts=[text for text in texts_ngramms], 
                                                   dictionary=dictionary_ngramms, coherence='c_v')

In [245]:
coherence_model_lda_ngramms.get_coherence()

0.5471739854759489

### 3. Gensim LDA + TF-IDF

In [219]:
dictionary_tf_idf = gensim.corpora.Dictionary((text.split() for text in texts))

In [220]:
dictionary_tf_idf.filter_extremes(no_above=0.2, no_below=10)
dictionary_tf_idf.compactify()

In [221]:
corpus_tf_idf = [dictionary_tf_idf.doc2bow(text.split()) for text in texts]

In [222]:
tfidf = gensim.models.TfidfModel(corpus, id2word=dictionary_tf_idf,)
corpus_tf_idf = tfidf[corpus_tf_idf]

In [223]:
lda_tf_idf = gensim.models.LdaModel(corpus_tf_idf, 100, id2word=dictionary_tf_idf, passes=5)

In [224]:
lda_tf_idf.print_topics()

[(94,
  '0.051*"черниговский" + 0.026*"события" + 0.003*"гонщик" + 0.000*"500" + 0.000*"выиграть" + 0.000*"поэт" + 0.000*"гонка" + 0.000*"стих" + 0.000*"стихи" + 0.000*"сезон"'),
 (18,
  '0.009*"клиент" + 0.005*"волокно" + 0.005*"пакет" + 0.000*"стороне" + 0.000*"услуга" + 0.000*"функция" + 0.000*"удерживать" + 0.000*"нервный" + 0.000*"палец" + 0.000*"плечо"'),
 (33,
  '0.036*"ленина" + 0.020*"«герой" + 0.014*"явление" + 0.012*"обл" + 0.009*"приватизация" + 0.007*"волынский" + 0.007*"380" + 0.006*"чарли" + 0.003*"кабинет" + 0.003*"утвердить"'),
 (76,
  '0.057*"перу" + 0.032*"смит" + 0.029*"ассоциация" + 0.011*"латиноамериканский" + 0.009*"специфический" + 0.006*"миллер" + 0.006*"176" + 0.006*"глобальный" + 0.005*"регулировать" + 0.003*"лихорадка"'),
 (26,
  '0.025*"to" + 0.023*"and" + 0.020*"джордж" + 0.017*"джейн" + 0.015*"rock" + 0.014*"дэйв" + 0.011*"for" + 0.011*"коста-рика" + 0.010*"in" + 0.009*"мая"'),
 (81,
  '0.062*"населить" + 0.062*"пункт" + 0.051*"аэропорт" + 0.015*"порт" + 

In [225]:
pyLDAvis.gensim_models.prepare(lda_tf_idf, corpus_tf_idf, dictionary_tf_idf)

In [226]:
np.exp2(-lda_tf_idf.log_perplexity(corpus_tf_idf))

26671278919.764896

In [227]:
topics_tf_idf = []
for topic_id, topic in lda_tf_idf.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics_tf_idf.append(topic)

In [228]:
coherence_model_lda_tf_idf = gensim.models.CoherenceModel(topics=topics_tf_idf, 
                                                   texts=[text.split() for text in texts], 
                                                   dictionary=dictionary_tf_idf, coherence='c_v')

In [229]:
coherence_model_lda_tf_idf.get_coherence()

0.44583359752485097

### 4. Gensim LDA + n-gramms + TF-IDF

In [230]:
dictionary_ngramms_tf_idf = gensim.corpora.Dictionary((text for text in texts_ngramms))

In [231]:
dictionary_ngramms_tf_idf.filter_extremes(no_above=0.2, no_below=10)
dictionary_ngramms_tf_idf.compactify()

In [232]:
corpus_ngramms_tf_idf = [dictionary_ngramms_tf_idf.doc2bow(text) for text in texts_ngramms]

In [233]:
tfidf = gensim.models.TfidfModel(corpus_ngramms_tf_idf, id2word=dictionary_ngramms_tf_idf,)
corpus_ngramms_tf_idf = tfidf[corpus_ngramms_tf_idf]

In [234]:
lda_ngramms_tf_idf = gensim.models.LdaModel(corpus_ngramms_tf_idf, 100, id2word=dictionary_ngramms_tf_idf, passes=5)

In [235]:
lda_ngramms_tf_idf.print_topics()

[(25,
  '0.046*"флаг" + 0.034*"символ" + 0.031*"вид_спорта" + 0.024*"зелёный" + 0.020*"австралийский" + 0.019*"австралия" + 0.012*"австралии" + 0.006*"яхта" + 0.000*"суд" + 0.000*"доктор"'),
 (70,
  '0.042*"уезд" + 0.040*"волость" + 0.027*"район" + 0.026*"состав" + 0.017*"сельсовет" + 0.014*"центр" + 0.013*"епархия" + 0.013*"образовать" + 0.013*"административно-территориальный_единица" + 0.012*"территория"'),
 (21,
  '0.099*"фамилия" + 0.021*"анатолий" + 0.019*"месторождение" + 0.018*"литва" + 0.017*"российский_федерация" + 0.016*"партийный" + 0.014*"рсфср" + 0.014*"федерация" + 0.014*"лауреат" + 0.014*"оао"'),
 (33,
  '0.006*"пучок" + 0.004*"электроника" + 0.000*"электронный" + 0.000*"мощность" + 0.000*"физика" + 0.000*"мощный" + 0.000*"соединение" + 0.000*"дивизия" + 0.000*"генерал-лейтенант" + 0.000*"генерал-майор"'),
 (94,
  '0.035*"консерватория" + 0.022*"клетка" + 0.019*"риме" + 0.018*"жидкость" + 0.016*"подача" + 0.012*"фортепианный" + 0.010*"1870" + 0.009*"мёртвый" + 0.008*"фор

In [237]:
pyLDAvis.gensim_models.prepare(lda_ngramms_tf_idf, corpus_ngramms_tf_idf, dictionary_ngramms_tf_idf)

In [240]:
np.exp2(-lda_ngramms_tf_idf.log_perplexity(corpus_ngramms_tf_idf))

120230087240.71335

In [242]:
topics_ngramms_tf_idf = []
for topic_id, topic in lda_ngramms_tf_idf.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics_ngramms_tf_idf.append(topic)

In [243]:
coherence_model_lda_ngramms_tf_idf = gensim.models.CoherenceModel(topics=topics_ngramms_tf_idf, 
                                                   texts=[text for text in texts_ngramms], 
                                                   dictionary=dictionary_ngramms_tf_idf, coherence='c_v')

In [244]:
coherence_model_lda_ngramms_tf_idf.get_coherence()

0.4255875221760534

Выводы:

По темам мне показались наиболее осмысленными результаты простой модели LDA и LDA c n-граммами.

По перплексии лучше всего показала себя простая модель LDA (339.43..); хуже всех - LDA c n-граммами и TF-IDF (120230087240.713..);

По когерентности лучше всего показала себя модель LDA c n-граммами и TF-IDF (0.425..); хуже всех - LDA c n-граммами (0.547..).