## Тематическое моделирование gensim

Основаная задача - **построить хорошую тематическую модель с интерпретируемыми топиками с помощью LDA в gensim и NMF в sklearn**.


1) сделайте нормализацию (если pymorphy2 работает долго используйте mystem или попробуйте установить быструю версию - `pip install pymorphy2[fast]`, можно использовать какой-то другой токенизатор); 

2) добавьте нграммы (в тетрадке есть закомменченая ячейка с Phrases,  можно также попробовать другие способы построить нграммы); 

3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова); 

4) постройте несколько LDA моделей (переберите количество тем, можете поменять eta, alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем; 

5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы;

6) между словарем и обучением модели добавьте tfidf (`gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]`);

7) повторите пункт 4 на преобразованном корпусе;

8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

10) в отдельной ячейки напечатайте таблицу с темами лучшей NMF модели, сравните их с теми, что получились в LDA.

Сохраните тетрадку с экспериментами и положите её на гитхаб, ссылку на неё укажите в форме.

**Оцениваться будут главным образом пункты 5, 8 и 10. (2, 3, 2 баллов соответственно). Чтобы заработать остальные 3 балла, нужно хотя бы немного изменить мой код на промежуточных этапах (добавить что-то, указать другие параметры и т.д). **

In [10]:
import gensim
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
import gensim
import string
from collections import Counter
import warnings
warnings.filterwarnings("ignore")

morph = MorphAnalyzer()

## Данные

In [11]:
stops = set(stopwords.words('russian')) | {'gt',}
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

def normalize(words):
    norm_words = [morph.parse(word)[0].normal_form for word in words if len(set(word)) > 1]
    return norm_words

def opt_normalize(texts, top=None):
    uniq = Counter()
    for text in texts:
        uniq.update(text)
    
    norm_uniq = {word:morph.parse(word)[0].normal_form for word, _ in uniq.most_common(top)}
    
    norm_texts = []
    for text in texts:
        
        norm_words = [norm_uniq.get(word) for word in text]
        norm_words = [word for word in norm_words if word and word not in stops]
        norm_texts.append(norm_words)
        
    return norm_texts

def tokenize(text):
    words = [word.strip(string.punctuation) for word in text.split()]
    words = [word for word in words if word]
    
    return words

Возьмем 4 тыс статьи с Хабра. Это мало для хорошей тематической модели, но иначе у нас просто ничего не обучится за семинар.

In [6]:
with open('habr_texts.txt', 'r', encoding='utf-8') as f:
    habr_texts = f.read()

In [13]:
fw = open('habr_texts.vw', 'w', encoding = 'utf-8')

for i, text in enumerate(habr_texts):
    c = Counter(text)
    doc = 'doc_'+ str(i) + ' '
    vw_text = ' '.join([x+':'+str(c[x]) for x in c])
    
    fw.write(doc + vw_text  + '\n')
fw.close()



В текстах есть тэги. Потрем их. Ещё токенизируем самым простым способом и нормализуем Pymorphy.

In [18]:
%%time
texts = open('habr_texts.txt', encoding='utf-8').read().splitlines()
texts = [tokenize(remove_tags(text.lower())) for text in texts]

Wall time: 11.9 s


In [19]:
%%time
texts = open('habr_texts.txt', encoding = 'utf-8').read().splitlines()
texts = [normalize(tokenize(text.lower())) for text in texts]

Wall time: 52min 16s


In [20]:
%%time
texts = open('habr_texts.txt', encoding = 'utf-8').read().splitlines()
texts = opt_normalize([tokenize(remove_tags(text.lower())) for text in texts], 30000)

Wall time: 50.8 s


In [None]:
# для нграммов
# ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
# p = gensim.models.phrases.Phraser(ph)
# ngrammed_texts = p[texts]

### Тематическое моделирование в gensim

Для моделей нужно сделать словарь.

In [21]:
dictinary = gensim.corpora.Dictionary(texts)

In [22]:
dictinary.filter_extremes(no_above=0.3)
dictinary.compactify()

In [23]:
print(dictinary)

Dictionary(12255 unique tokens: ['2-х', '3.0', 'address', 'api', 'architecture']...)


Преобразуем наши тексты в мешки слов. 

In [24]:
corpus = [dictinary.doc2bow(text) for text in texts]
# если текстов много, то тут может быть генератор

In [25]:
?gensim.models.LdaMulticore

In [26]:
%%time
lda = gensim.models.LdaMulticore(corpus, 100, id2word=dictinary, passes=5, eta='auto', iterations=10) # если поддерживается многопоточность
# lsi = gensim.models.LdaModel(200, id2word=dictinary, passes=5)

Wall time: 2min 35s


Посмотрим на топики.

In [27]:
lda.print_topics()

[(19,
  '0.012*"файл" + 0.006*"to" + 0.005*"0" + 0.005*"модуль" + 0.004*"пакет" + 0.004*"a" + 0.004*"if" + 0.004*"for" + 0.004*"in" + 0.004*"строка"'),
 (44,
  '0.007*"читать" + 0.006*"слушать" + 0.006*"тёмный" + 0.006*"вселенная" + 0.005*"теория" + 0.004*"игра" + 0.004*"материя" + 0.004*"объект" + 0.003*"dolby" + 0.003*"звук"'),
 (37,
  '0.015*"сайт" + 0.011*"сервис" + 0.009*"сервер" + 0.008*"запрос" + 0.007*"письмо" + 0.005*"страница" + 0.005*"клиент" + 0.005*"google" + 0.004*"трафик" + 0.004*"база"'),
 (9,
  '0.009*"устройство" + 0.008*"маршрут" + 0.008*"пакет" + 0.008*"маршрутизатор" + 0.008*"сеть" + 0.006*"mac-адрес" + 0.006*"адрес" + 0.006*"pe" + 0.005*"интерфейс" + 0.005*"трафик"'),
 (0,
  '0.019*"the" + 0.012*"on" + 0.011*"to" + 0.011*"as" + 0.011*"set" + 0.010*"and" + 0.010*"from" + 0.009*"is" + 0.008*"of" + 0.008*"in"'),
 (62,
  '0.012*"result" + 0.008*"текстура" + 0.006*"return" + 0.006*"регистр" + 0.005*"изображение" + 0.005*"let" + 0.005*"файл" + 0.004*"for" + 0.004*"0" + 

Ещё есть штука для визуализации.

In [None]:
gensim.pyLDAvis.enable_notebook()

In [None]:
pyLDAvis.gensim.prepare(lda, corpus, dictinary)

Можно посмотреть метрики.

In [None]:
import numpy as np

In [None]:
?lda.log_perplexity

In [None]:
lda.log_perplexity(corpus[:2000], total_docs=100)

In [None]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [None]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [None]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [None]:
coherence_model_lda.get_coherence()

### Разложение матриц в sklearn

In [None]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

Sklearn принимает на вход строки, поэтому склеим наши списки.

In [None]:
stexts = [' '.join(text) for text in texts]

Сделаем матрицу слова-документы с помощью TfidfVectorizer

In [None]:
vectorizer = TfidfVectorizer(max_features=25000, min_df=5, max_df=0.3, lowercase=False)
X = vectorizer.fit_transform(stexts)

Разложим её.

In [None]:
model = NMF(n_components=30)

In [None]:
model.fit(X)

In [None]:
def get_nmf_topics(model, n_top_words):
    
    #id слов.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(30):
        
        #топ n слов для темы.
        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

In [None]:
get_nmf_topics(model, 10)