## Домашнее задание

Основаная задача - **построить хорошую тематическую модель с интерпретируемыми топиками с помощью LDA в gensim и NMF в sklearn**.


1) сделайте нормализацию (если pymorphy2 работает долго используйте mystem или попробуйте установить быструю версию - `pip install pymorphy2[fast]`, можно использовать какой-то другой токенизатор); 

2) добавьте нграммы (в тетрадке есть закомменченая ячейка с Phrases,  можно также попробовать другие способы построить нграммы); 

3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова); 

4) постройте несколько LDA моделей (переберите количество тем, можете поменять eta, alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем; 

5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы;

6) между словарем и обучением модели добавьте tfidf (`gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]`);

7) повторите пункт 4 на преобразованном корпусе;

8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

10) в отдельной ячейки напечатайте таблицу с темами лучшей NMF модели, сравните их с теми, что получились в LDA.

Сохраните тетрадку с экспериментами и положите её на гитхаб, ссылку на неё укажите в форме.

**Оцениваться будут главным образом пункты 5, 8 и 10. (2, 3, 2 баллов соответственно). Чтобы заработать остальные 3 балла, нужно хотя бы немного изменить мой код на промежуточных этапах (добавить что-то, указать другие параметры и т.д). **

In [1]:
import gensim
import json
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
import pyLDAvis.gensim
import string
from collections import Counter
import warnings
warnings.filterwarnings("ignore")

morph = MorphAnalyzer()

## Данные

In [107]:
stops = set(stopwords.words('russian')) | {'gt',}
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

def normalize(words):
    norm_words = [morph.parse(word)[0].normal_form for word in words if len(set(word)) > 1]
    return norm_words

def opt_normalize(texts, top=None):
    uniq = Counter()
    for text in texts:
        uniq.update(text)
    
    norm_uniq = {word:morph.parse(word)[0].normal_form for word, _ in uniq.most_common(top)}
    
    norm_texts = []
    for text in texts:
        
        norm_words = [norm_uniq.get(word) for word in text]
        norm_words = [word for word in norm_words if word and word not in stops]
        norm_texts.append(norm_words)
        
    return norm_texts

def tokenize(text):
    words = [word.strip(string.punctuation) for word in text.split()]
    words = [word for word in words if word]
    
    return words

Возьмем 4 тыс статьи с Хабра. Это мало для хорошей тематической модели, но иначе у нас просто ничего не обучится за семинар.

In [None]:
# f = open('habr_texts.vw', 'w')

# for i, text in enumerate(habr_texts):
#     c = Counter(text)
#     doc = 'doc_'+ str(i) + ' '
#     vw_text = ' '.join([x+':'+str(c[x]) for x in c])
    
#     f.write(doc + vw_text  + '\n')
# f.close()



В текстах есть тэги. Потрем их. Ещё токенизируем самым простым способом и нормализуем Pymorphy.

In [108]:
%%time
texts = open('habr_texts.txt').read().splitlines()
texts = [tokenize(remove_tags(text.lower())) for text in texts]

CPU times: user 1.98 s, sys: 263 ms, total: 2.24 s
Wall time: 2.24 s


In [109]:
%%time
texts = open('habr_texts.txt').read().splitlines()
texts = [normalize(tokenize(text.lower())) for text in texts]

CPU times: user 1min 30s, sys: 1.13 s, total: 1min 31s
Wall time: 1min 31s


In [110]:
%%time
texts = open('habr_texts.txt').read().splitlines()
texts = opt_normalize([tokenize(remove_tags(text.lower())) for text in texts], 30000)

CPU times: user 5.47 s, sys: 309 ms, total: 5.78 s
Wall time: 5.76 s


In [7]:
#для нграммов
ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
p = gensim.models.phrases.Phraser(ph)
ngrammed_texts = p[texts]

In [54]:
texts = ngrammed_texts

### Тематическое моделирование в gensim

Для моделей нужно сделать словарь.

In [46]:
dictinary = gensim.corpora.Dictionary(ngrammed_texts)

In [47]:
dictinary.filter_extremes(no_above=0.3)
dictinary.compactify()

In [48]:
print(dictinary)

Dictionary(16828 unique tokens: ['falcon_heavy', 'компьютерный_зрение', 'подписаться', 'транспортный_средство', 'считаться']...)


Преобразуем наши тексты в мешки слов. 

In [55]:
corpus = [dictinary.doc2bow(text) for text in texts]
# если текстов много, то тут может быть генератор

In [12]:
?gensim.models.LdaMulticore

In [56]:
%%time
lda = gensim.models.LdaMulticore(corpus, 100, id2word=dictinary, passes=5, eta='auto', iterations=10, workers=8) # если поддерживается многопоточность
#lsi = gensim.models.LdaModel(200, id2word=dictinary, passes=5, workers=8)

CPU times: user 35.2 s, sys: 17.4 s, total: 52.5 s
Wall time: 54.3 s


Посмотрим на топики.

Ещё есть штука для визуализации.

In [57]:
pyLDAvis.enable_notebook()

In [58]:
pyLDAvis.gensim.prepare(lda, corpus, dictinary)

Можно посмотреть метрики.

In [59]:
import numpy as np

In [60]:
?lda.log_perplexity

In [61]:
lda.log_perplexity(corpus[:2000], total_docs=100)

-30.60357282691637

In [62]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [63]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [64]:
import pandas as pd

In [65]:
pd.DataFrame(topics).head(10)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,qualcomm,apple,производитель,переключатель,чип,устройство,технология,таблица,0,ггц
1,react,компонент,jsx,компонента,метод,состояние,библиотека,виджет,браузер,render_return
2,сервер,устройство,сигнал,управление,доступ,настройка,сеть,камера,облако,ключ
3,список,сервис,файл,метод,корабль,d-bus,сообщение,запрос,значение,сервер
4,php,infiniband,сеть,свет,устройство,сообщение,быстрый,протокол,значение,производительность
5,инструмент,объект,ms,значение,ошибка,sonarqube,язык,pvs-studio,элемент,анализ
6,элемент,компонент,страница,файл,список,ссылка,состояние,браузер,уведомление,dom
7,процессор,память,сайт,скорость,игра,объём,видеокарта,производительность,набор,сервер
8,точка,ребро,класс,луч,алгоритм,значение,метод,scala,блок,добавить
9,камера,устройство,сайт,сервис,технология,производитель,заголовок,цвет,цвета,модель


In [66]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [67]:
coherence_model_lda.get_coherence()

0.44010534263880324

In [72]:
eta = ['auto', 0.01, 0.1, 0.5, 1]
ntopics = [10, 50, 100, 200, 500]

In [73]:
from itertools import product

In [74]:
for i in product(eta, ntopics):
    print ('e={}, n={}'.format(*i), end='\t')
    lda = gensim.models.LdaMulticore(corpus, i[1], id2word=dictinary, passes=5, eta=i[0], iterations=10, workers=8)
    
    print (lda.log_perplexity(corpus[:2000], total_docs=100), end='\t')
    
    topics = []
    for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
        topic = [word for word, _ in topic]
        topics.append(topic)
    
    coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')
    print (coherence_model_lda.get_coherence())

e=auto, n=10	-12.202549394835051	0.4003135917636268
e=auto, n=50	-21.948581613832868	0.4724256740454048
e=auto, n=100	-30.51693016052195	0.4603710804152907
e=auto, n=200	-45.24818967544526	0.4516010699157512
e=auto, n=500	-82.11359649744384	0.4060038283880914
e=0.01, n=10	-21.108770968216287	0.41867684652694426
e=0.01, n=50	-46.2274911605714	0.46537130496599177
e=0.01, n=100	-59.745446516634146	0.4612736049954438
e=0.01, n=200	-73.78387166869591	0.42386239651595076
e=0.01, n=500	-94.34472658578889	0.380623594292187
e=0.1, n=10	-14.695269301661837	0.40810602761488324
e=0.1, n=50	-23.800437590487277	0.4521520433681841
e=0.1, n=100	-28.44911703344875	0.46515371234013647
e=0.1, n=200	-31.469300043434725	0.4080372527503499
e=0.1, n=500	-36.281602375715615	0.39423487720265543
e=0.5, n=10	-12.901462860562237	0.4181932884790676
e=0.5, n=50	-19.253058207282493	0.41029883167729375
e=0.5, n=100	-20.855778679377426	0.42345093253341676
e=0.5, n=200	-19.650668711450564	0.4037703017058928
e=0.5, n=50

In [75]:
for i in [5, 10, 25, 50, 100]:
    print ('passes={}'.format(i), end='\t')
    lda = gensim.models.LdaMulticore(corpus, 50, id2word=dictinary, passes=5, eta=0.01, iterations=10, workers=8)
    
    print (lda.log_perplexity(corpus[:2000], total_docs=100), end='\t')
    
    topics = []
    for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
        topic = [word for word, _ in topic]
        topics.append(topic)
    
    coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')
    print (coherence_model_lda.get_coherence())

passes=5	-45.9866513767486	0.4518958419214364
passes=10	-45.819185861232896	0.45729912907708964
passes=25	-46.24849879985393	0.46894137432082145
passes=50	-46.07198293903265	0.45930129228423494
passes=100	-45.976000927547716	0.45261446956576246


In [77]:
lda = gensim.models.LdaMulticore(corpus, 50, id2word=dictinary, passes=25, eta=0.01, iterations=10, workers=8)    

topics = []
for topic_id, topic in lda.show_topics(num_topics=50, formatted=False):
        topic = [word for word, _ in topic]
        topics.append(topic)

In [87]:
pd.DataFrame([topics[8]]+[topics[9]]+[topics[12]])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,контейнер,участник,docker,набор,хранилище,пароль,windows,секрет,выбрать,собственный
1,ibm,пациент,врач,лечение,анализ,болезнь,watson,препарат,заболевание,когнитивный
2,microsoft,окно,список,windows,выбрать,меню,настройка,интерфейс,доступный,обновление


In [89]:
tfidf = gensim.models.TfidfModel(corpus, id2word=dictinary)
corpus = tfidf[corpus]

In [90]:
for i in product(eta, ntopics):
    print ('e={}, n={}'.format(*i), end='\t')
    lda = gensim.models.LdaMulticore(corpus, i[1], id2word=dictinary, passes=5, eta=i[0], iterations=10, workers=8)
    
    print (lda.log_perplexity(corpus[:2000], total_docs=100), end='\t')
    
    topics = []
    for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
        topic = [word for word, _ in topic]
        topics.append(topic)
    
    coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')
    print (coherence_model_lda.get_coherence())

e=auto, n=10	-24.193545917276907	0.34768143185540573
e=auto, n=50	-89.38251875953145	0.443440706856199
e=auto, n=100	-141.50099655547916	0.4636302928726802
e=auto, n=200	-237.54851235864282	0.42315745398661436
e=auto, n=500	-480.92088547176536	0.377286291473304
e=0.01, n=10	-170.4060243708794	0.4564101834560562
e=0.01, n=50	-216.55456832251681	0.4476426864954896
e=0.01, n=100	-225.29414932949553	0.44767801591372447
e=0.01, n=200	-243.68213634439115	0.4373240176956755
e=0.01, n=500	-265.68805033960786	0.4012492096106751
e=0.1, n=10	-52.617817841343324	0.39998435607850247
e=0.1, n=50	-55.9729069073376	0.4957527917469472
e=0.1, n=100	-50.72690839921991	0.4715168220648862
e=0.1, n=200	-51.87559387638396	0.4557163661803779
e=0.1, n=500	-53.55771896807704	0.3797497279559907
e=0.5, n=10	-23.32894935675583	0.32579126621513865
e=0.5, n=50	-21.87875567695318	0.36328926008283063
e=0.5, n=100	-21.84200797224974	0.36742415364584874
e=0.5, n=200	-19.797367095680205	0.34649040412272475
e=0.5, n=500	-

In [91]:
lda = gensim.models.LdaMulticore(corpus, 50, id2word=dictinary, passes=25, eta=0.1, iterations=10, workers=8)    

topics = []
for topic_id, topic in lda.show_topics(num_topics=50, formatted=False):
        topic = [word for word, _ in topic]
        topics.append(topic)

In [103]:
pd.DataFrame([topics[29]]+[topics[33]]+[topics[35]])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,контроллер,звук,символ,блокчейн,корпус,нейросеть,презентация,дисплей,наушник,текстура
1,игра,файл,устройство,сервер,сайт,клиент,объект,сервис,программа,продукт
2,галактика,вселенная,тёмный_энергия,инфляция,тёмный_материя,млечный_путь,расширение_вселенная,материя,вещество_излучение,энергия_вакуум


Изменились показатели перплексии, стали лучше (ниже). Coherence имеет более выраженные значения (что-то ниже, но пики выше). В целом, остались претензии по странным словам в топе. Они, как кажется, из кода в этих статьях. Не все темы легко интерпретировать из-за этого, поэтому выводы сделать трудно (кроме как по показателям)

### Разложение матриц в sklearn

Вернем униграммные тексты

In [104]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

Sklearn принимает на вход строки, поэтому склеим наши списки.

In [111]:
stexts = [' '.join(text) for text in texts]

Сделаем матрицу слова-документы с помощью TfidfVectorizer

In [113]:
vectorizer = TfidfVectorizer(max_features=25000, min_df=5, max_df=0.3, lowercase=False)
X = vectorizer.fit_transform(stexts)

Разложим её.

In [114]:
model = NMF(n_components=30)

In [115]:
model.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=30, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [116]:
def get_nmf_topics(model, n_top_words):
    
    #id слов.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(30):
        
        #топ n слов для темы.
        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

In [117]:
get_nmf_topics(model, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,продукт,public,игра,космический,сеть,рынок,lt,устройство,the,ия,...,сайт,if,объект,бот,файл,сервер,тест,центр,звук,робот
1,сотрудник,void,игрок,спутник,трафик,блокчейн,gt,камера,to,обучение,...,страница,return,значение,сообщение,папка,запрос,тестирование,дата,сигнал,автомобиль
2,программист,new,игровой,орбита,связь,российский,div,смартфон,of,нейросеть,...,реклама,else,элемент,telegram,скрипт,база,end,инфраструктура,наушник,машина
3,язык,string,играть,ракета,оператор,страна,return,android,and,интеллект,...,google,amp,метод,чат,строка,сервис,тестовый,облачный,усилитель,ребёнок
4,клиент,private,персонаж,марс,интернет,бизнес,const,телефон,in,машинный,...,браузер,end,класс,канал,пакет,домен,тестировать,услуга,частота,датчик
5,опыт,return,steam,аппарат,канал,россия,компонент,мобильный,is,искусственный,...,контент,var,блок,api,модуль,ip,библиотека,оборудование,звуковой,беспилотный
6,программирование,class,vr,земля,пакет,деньга,input,экран,on,нейронный,...,рекламный,int,алгоритм,телеграм,директория,клиент,ошибка,облако,музыка,робототехника
7,бизнес,static,unity,станция,станция,миллион,react,аккумулятор,for,изображение,...,домен,function,переменный,сервис,sudo,сертификат,тестировщик,цод,искажение,движение
8,идея,класс,движок,наса,сетевой,рубль,int,apple,you,алгоритм,...,клиент,true,язык,мессенджер,сборка,ключ,do,клиент,напряжение,lego
9,курс,var,геймплей,луна,протокол,финансовый,html,датчик,from,сеть,...,аудитория,false,строка,bot,настройка,адрес,test,сервис,ток,скорость


In [118]:
model.reconstruction_err_

59.56055287212584

In [120]:
min_df = [5, 10, 20]
max_df = [0.3, 0.5, 0.7]
ngram_range = [(1,1), (1,2), (1,3)]
max_features = [1000, 5000, 10000, 20000, 30000]

In [121]:
for i in product(min_df, max_df, ngram_range, max_features):
    vectorizer = TfidfVectorizer(max_features=i[3], min_df=i[0], max_df=i[1], ngram_range=i[2], lowercase=False)
    X = vectorizer.fit_transform(stexts)
    model = NMF(n_components=30)
    model.fit(X)
    print (i, model.reconstruction_err_)

(5, 0.3, (1, 1), 1000) 55.037983195903045
(5, 0.3, (1, 1), 5000) 58.74421224029299
(5, 0.3, (1, 1), 10000) 59.474488399583656
(5, 0.3, (1, 1), 20000) 59.55951689657057
(5, 0.3, (1, 1), 30000) 59.55351366439521
(5, 0.3, (1, 2), 1000) 54.96505093148022
(5, 0.3, (1, 2), 5000) 58.603516284453534
(5, 0.3, (1, 2), 10000) 59.45580792716226
(5, 0.3, (1, 2), 20000) 59.95199531880847
(5, 0.3, (1, 2), 30000) 60.17612783370688
(5, 0.3, (1, 3), 1000) 55.01303271465865
(5, 0.3, (1, 3), 5000) 58.60238587423807
(5, 0.3, (1, 3), 10000) 59.45098790479944
(5, 0.3, (1, 3), 20000) 59.94319856832916
(5, 0.3, (1, 3), 30000) 60.1838179502802
(5, 0.5, (1, 1), 1000) 54.1327013392443
(5, 0.5, (1, 1), 5000) 58.238111360714825
(5, 0.5, (1, 1), 10000) 59.08342216646864
(5, 0.5, (1, 1), 20000) 59.183977567286355
(5, 0.5, (1, 1), 30000) 59.16074516261151
(5, 0.5, (1, 2), 1000) 54.07341579690697
(5, 0.5, (1, 2), 5000) 58.15224510597516
(5, 0.5, (1, 2), 10000) 59.03152995171975
(5, 0.5, (1, 2), 20000) 59.60507372103507

Ошибка восстановления примерно та же, так что выберем какие-то средние значения

In [122]:
vectorizer = TfidfVectorizer(max_features=20000, min_df=10, max_df=0.5, lowercase=False)
X = vectorizer.fit_transform(stexts)
model = NMF(n_components=30)
model.fit(X)
get_nmf_topics(model, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,человек,lt,игра,учёный,камера,компания,приложение,public,язык,атака,...,сайт,печать,if,windows,проект,бот,книга,центр,сигнал,виртуальный
1,ваш,gt,игрок,мозг,устройство,рынок,android,void,код,безопасность,...,страница,принтер,else,microsoft,задача,сообщение,часы,дата,звук,машина
2,что,div,игровой,пациент,смартфон,сотрудник,мобильный,new,программирование,уязвимость,...,реклама,3d,return,linux,команда,telegram,профессиональный,услуга,частота,вм
3,какой,return,играть,клетка,телефон,бизнес,пользователь,string,программист,устройство,...,пользователь,станок,end,версия,продукт,пользователь,порекомендовать,оборудование,усилитель,резервный
4,дело,const,персонаж,человек,аккумулятор,российский,ios,private,php,злоумышленник,...,клиент,материал,amp,обновление,разработка,чат,предпочитать,инфраструктура,наушник,veeam
5,хотеть,компонент,разработчик,исследование,экран,миллион,google,return,программа,пароль,...,товар,пластик,int,10,разработчик,канал,слушать,облачный,искажение,копирование
6,вопрос,input,steam,заболевание,датчик,рубль,устройство,class,java,сеть,...,контент,производство,true,studio,тест,телеграм,путь,цод,звуковой,vmware
7,знать,int,unity,болезнь,видео,крупный,app,static,перевод,защита,...,браузер,мм,function,браузер,тестирование,мессенджер,музыка,клиент,канал,диск
8,жизнь,std,vr,ген,корпус,000,платформа,класс,python,доступ,...,рекламный,деталь,var,visual,решение,api,пользоваться,облако,напряжение,хост
9,проблема,html,уровень,организм,цена,россия,api,var,библиотека,ключ,...,скидка,изделие,false,azure,заказчик,сервис,бумажный,провайдер,устройство,vsphere


В целом то же самое. Хорошие темы 4,5, 10.
От LDA отличается тем, что более интерпретируемые слова, а там что-то специфическое в большинстве тем.