## Домашнее задание

Основаная задача - **построить хорошую тематическую модель с интерпретируемыми топиками с помощью LDA в gensim и NMF в sklearn**.


1) сделайте нормализацию (если pymorphy2 работает долго используйте mystem или попробуйте установить быструю версию - `pip install pymorphy2[fast]`, можно использовать какой-то другой токенизатор); 

2) добавьте нграммы (в тетрадке есть закомменченая ячейка с Phrases,  можно также попробовать другие способы построить нграммы); 

3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова); 

4) постройте несколько LDA моделей (переберите количество тем, можете поменять eta, alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем; 

5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы;

6) между словарем и обучением модели добавьте tfidf (`gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]`);

7) повторите пункт 4 на преобразованном корпусе;

8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

10) в отдельной ячейки напечатайте таблицу с темами лучшей NMF модели, сравните их с теми, что получились в LDA.

Сохраните тетрадку с экспериментами и положите её на гитхаб, ссылку на неё укажите в форме.

**Оцениваться будут главным образом пункты 5, 8 и 10. (2, 3, 2 баллов соответственно). Чтобы заработать остальные 3 балла, нужно хотя бы немного изменить мой код на промежуточных этапах (добавить что-то, указать другие параметры и т.д). **

In [1]:
import gensim
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
import pyLDAvis.gensim
import string
from collections import Counter
import warnings
warnings.filterwarnings("ignore")

morph = MorphAnalyzer()



## Данные

Я добавила стоп-слова из английского и расширила их лексикой, которая встречается в коде, потому что такие слова не могут быть ключевыми.

In [37]:
rus = stopwords.words('russian') + ['который', 'это']
eng = stopwords.words('english') + ['end', 'char', 'return', 'int', 'else', 'null', 'var', 'string',\
                                   'static', 'class', 'function', 'bool', 'get', 'set', 'message']
stops = set(rus + eng)
# stops = set(stopwords.words('russian')) | {'gt',}

In [44]:
# stops = set(stopwords.words('russian').extend(stopwords.words('english'))) | {'gt',}
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

def normalize(words):
    norm_words = [morph.parse(word)[0].normal_form for word in words if len(set(word)) > 1]
    return norm_words

def opt_normalize(texts, top=None):
    uniq = Counter()
    for text in texts:
        uniq.update(text)
    
    norm_uniq = {word:morph.parse(word)[0].normal_form for word, _ in uniq.most_common(top)}
    
    norm_texts = []
    for text in texts:
        
        norm_words = [norm_uniq.get(word) for word in text]
        norm_words = [word for word in norm_words if word and word not in stops]
        norm_words = [word for word in norm_words if len(set(word)) > 1 and not word.isdigit()]  # удаляем числа
        norm_texts.append(norm_words)
        
    return norm_texts

def tokenize(text):
    words = [word.strip(string.punctuation) for word in text.split()]
    words = [word for word in words if word]
    
    return words

Возьмем 4 тыс статьи с Хабра. Это мало для хорошей тематической модели, но иначе у нас просто ничего не обучится за семинар.

In [8]:
habr_texts = opt_normalize([tokenize(remove_tags(text.lower())) for text in open('habr_texts.txt\\habr_texts.txt', encoding='utf-8')])

In [4]:
# I already have habr_texts.vw after implementing BigARTM
f = open('habr_texts.vw', 'w')
for i, text in enumerate(habr_texts):
    c = Counter(text)
    doc = 'doc_'+ str(i) + ' '
    vw_text = ' '.join([x+':'+str(c[x]) for x in c])
    f.write(doc + vw_text  + '\n')
f.close()

В текстах есть тэги. Потрем их. Ещё токенизируем самым простым способом и нормализуем Pymorphy.

In [44]:
%%time
texts = open('habr_texts.txt\\habr_texts.txt', encoding='utf-8').read().splitlines()
texts = [tokenize(remove_tags(text.lower())) for text in texts]

Wall time: 6.01 s


In [None]:
%%time
texts = open('habr_texts.txt\\habr_texts.txt', encoding='utf-8').read().splitlines()
texts = [normalize(tokenize(text.lower())) for text in texts]

In [48]:
%%time
texts = open('habr_texts.txt\\habr_texts.txt', encoding='utf-8').read().splitlines()
texts = opt_normalize([tokenize(remove_tags(text.lower())) for text in texts], 30000)

Wall time: 20.7 s


In [None]:
# для нграммов
# ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
# p = gensim.models.phrases.Phraser(ph)
# ngrammed_texts = p[texts]

### Тематическое моделирование в gensim

Для моделей нужно сделать словарь.

In [47]:
len(texts)

4121

In [46]:
texts[6]

['ошибка',
 'сложность',
 'столкнуться',
 'запускать',
 'собственный',
 'кластер',
 'база',
 'vmmanager',
 'cloud',
 'ceph',
 'предыстория',
 'приходить',
 'разный',
 'человек',
 'кто-то',
 'достаточно',
 'хостинг',
 'база',
 'cms',
 'кто-то',
 'виртуальный',
 'сервер',
 'человек',
 'просить',
 'производительный',
 'сервер',
 'повышенный',
 'сильно',
 'волновать',
 'стоимость',
 'услуга',
 'уверить',
 'наш',
 'обычный',
 'vds',
 'решить',
 'создать',
 'отдельный',
 'услуга',
 'высокий',
 'цена',
 'отказоустойчивость',
 'sla',
 'задача',
 'решаться',
 'создание',
 'кластер',
 'повышенный',
 'надёжность',
 'однако',
 'сомнение',
 'сетевой',
 'технология',
 'как-то',
 'собрать',
 'кластер',
 'сеть',
 'попробовать',
 'ничто',
 'выйти',
 'сеть',
 'кластер',
 'работать',
 'очень',
 'медленно',
 'использовать',
 'практический',
 'задача',
 'невозможно',
 'сложиться',
 'впечатление',
 'система',
 'уступать',
 'скорость',
 'классический',
 'решение',
 'знать',
 'технология',
 'infiniband',
 'го

In [8]:
# def remove_stopwords_en(texts):
#     return [[word for word in doc if word not in set(stopwords.words('english')) and not word.isdigit()] for doc in texts]

In [None]:
# texts = remove_stopwords_en(texts)

In [None]:
# def del_short(texts):
#     return [[word for word in words if len(set(word)) > 1 and not word.isdigit()] for doc in texts]

In [49]:
dictinary = gensim.corpora.Dictionary(texts)

Здесь я добавила параметр, чтобы как минимум в 5 документах встречалось слово из словаря и как максимум в 30% всех текстов.

In [50]:
dictinary.filter_extremes(no_below=5, no_above=0.3)  # min_tf=10, max_tf=2000, min_df_rate=0.01
dictinary.compactify()

In [51]:
print(dictinary)

Dictionary(11731 unique tokens: ['2-х', '3.0', 'address', 'api', 'architecture']...)


Преобразуем наши тексты в мешки слов. 

In [52]:
corpus = [dictinary.doc2bow(text) for text in texts]
# если текстов много, то тут может быть генератор

In [15]:
?gensim.models.LdaMulticore

In [53]:
%%time
lda = gensim.models.LdaMulticore(corpus, 100, id2word=dictinary, passes=5, eta='auto', iterations=10) # если поддерживается многопоточность
# lsi = gensim.models.LdaModel(200, id2word=dictinary, passes=5)

Wall time: 49.1 s


Посмотрим на топики.

In [54]:
lda.print_topics()

[(30,
  '0.012*"рубль" + 0.009*"скидка" + 0.008*"доход" + 0.007*"услуга" + 0.006*"налог" + 0.006*"сумма" + 0.006*"месяц" + 0.005*"бизнес" + 0.005*"деньга" + 0.005*"счёт"'),
 (73,
  '0.022*"research" + 0.013*"international" + 0.012*"ключ" + 0.011*"science" + 0.010*"publishing" + 0.009*"подпись" + 0.007*"scientific" + 0.007*"открытый" + 0.006*"журнал" + 0.005*"amp"'),
 (49,
  '0.008*"вселенная" + 0.007*"звезда" + 0.006*"галактика" + 0.006*"скорость" + 0.005*"объект" + 0.004*"земля" + 0.004*"её" + 0.004*"солнце" + 0.004*"энергия" + 0.004*"планета"'),
 (35,
  '0.012*"blackvue" + 0.009*"регистратор" + 0.007*"модель" + 0.006*"устройство" + 0.006*"программа" + 0.004*"видео" + 0.003*"память" + 0.003*"изображение" + 0.003*"computer" + 0.003*"модуль"'),
 (86,
  '0.011*"сигнал" + 0.008*"частота" + 0.006*"датчик" + 0.005*"мощность" + 0.005*"значение" + 0.004*"ток" + 0.004*"канал" + 0.004*"режим" + 0.003*"таймер" + 0.003*"параметр"'),
 (82,
  '0.012*"игра" + 0.006*"игрок" + 0.006*"технология" + 0.0

Ещё есть штука для визуализации.

In [55]:
pyLDAvis.enable_notebook()

In [56]:
pyLDAvis.gensim.prepare(lda, corpus, dictinary)

Можно посмотреть метрики.

In [20]:
import numpy as np

In [28]:
?lda.log_perplexity

In [57]:
lda.log_perplexity(corpus[:2000], total_docs=100)  # -31.65

-28.095375968398592

In [60]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [61]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [62]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [None]:
coherence_model_lda.get_coherence()  # 0.47

### Разложение матриц в sklearn

In [29]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

Sklearn принимает на вход строки, поэтому склеим наши списки.

In [31]:
len(habr_texts)

3990

In [32]:
stexts = [' '.join(text) for text in habr_texts]

Сделаем матрицу слова-документы с помощью TfidfVectorizer

Добавим удаление стоп слов

In [34]:
vectorizer = TfidfVectorizer(max_features=25000, min_df=5, max_df=0.3, lowercase=False, stop_words=set(stopwords.words('russian')))
X = vectorizer.fit_transform(stexts)

Разложим её.

In [35]:
model = NMF(n_components=30)  # , solver="mu"

In [36]:
model.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=30, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [37]:
def get_nmf_topics(model, n_top_words):
    
    #id слов.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(30):
        
        #топ n слов для темы.
        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

In [38]:
get_nmf_topics(model, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,продукт,gt,игра,космический,язык,сервер,камера,js,public,this,...,товар,процессор,дата,бот,сигнал,the,ия,php,российский,end
1,клиент,lt,игрок,спутник,объект,клиент,устройство,css,string,react,...,скидка,диск,центр,telegram,звук,of,обучение,symfony,страна,select
2,сотрудник,div,игровой,орбита,значение,ip,смартфон,javascript,int,props,...,магазин,память,инфраструктура,сообщение,наушник,to,робот,yii,рынок,from
3,бизнес,class,играть,ракета,элемент,адрес,телефон,react,if,компонент,...,цена,intel,облачный,чат,частота,and,нейросеть,laravel,рубль,as
4,программист,name,vr,марс,программирование,запрос,аккумулятор,angular,return,function,...,распродажа,ssd,услуга,bot,усилитель,in,интеллект,yii2,россия,запрос
5,менеджер,html,персонаж,аппарат,строка,домен,датчик,веб,void,div,...,покупатель,производительность,оборудование,телеграм,искажение,is,искусственный,gt,google,
6,опыт,std,steam,земля,алгоритм,сервис,видео,браузер,new,const,...,покупка,ядро,облако,api,звуковой,for,машинный,язык,налог,set
7,заказчик,type,unity,луна,текст,трафик,экран,vue,amp,dom,...,пятница,накопитель,цод,мессенджер,музыка,on,нейронный,psr,закон,then
8,crm,text,геймплей,наса,программа,dns,карта,html,private,return,...,продажа,гб,ит,канал,диапазон,my,алгоритм,api,доход,таблица
9,деньга,label,движок,полёт,переменный,провайдер,дисплей,страница,класс,state,...,чёрный,тест,провайдер,message,акустический,you,deepmind,форум,000,begin
