In [1]:
import gensim
import json
import re
from nltk.tokenize import word_tokenize
from pymorphy2 import MorphAnalyzer
import pyLDAvis.gensim 
import pickle

morph = MorphAnalyzer()



## Домашнее задание

Основаная задача - **построить хорошую тематическую модель с интерпретируемыми топиками**.

1) сделайте нормализацию (если pymorphy2 работает долго используйте mystem или попробуйте установить быструю версию - `pip install pymorphy2[fast]`, можно использовать какой-то другой токенизатор); 

2) добавьте нграммы (в тетрадке есть закомменченая ячейка с Phrases); 

3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова); 

4) постройте несколько LDA моделей (переберите количество тем, можете поменять eta, alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем; 

5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы;

6) между словарем и обучением модели добавьте tfidf (`gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]`);

7) заново обучите LDA c теми же параметрами (параметрами самой лучшей модели, заново перебирать не нужно);

8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

10) в отдельной ячейки напечатайте таблицу с темами лучшей NMF модели, сравните их с теми, что получились в LDA.

Сохраните тетрадку с экспериментами и положите её на гитхаб, ссылку на неё укажите в форме.

**Оцениваться будут главным образом пункты 5, 8 и 10. (2, 3, 2 баллов соответственно). Чтобы заработать остальные 3 балла, нужно хотя бы немного изменить мой код на промежуточных этапах (добавить что-то, указать другие параметры и т.д). **

Выполним нормализацию и сохраним тексты в формате vw:

In [3]:
texts = open('habr_texts.txt', encoding='utf-8').read().splitlines()

In [4]:
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

def clean(words):
    clean = [morph.parse(word)[0].normal_form for word in words if len(set(word)) > 1]
    return clean

In [8]:
from collections import Counter
f = open('habr_texts.vw', 'w', encoding='utf-8')

for i, text in enumerate(texts):
    c = Counter(text)
    doc = 'doc_'+ str(i) + ' '
    vw_text = ' '.join([x+':'+str(c[x]) for x in c])
    
    f.write(doc + vw_text  + '\n')
f.close()

In [5]:
texts = [clean(word_tokenize(text.lower())) for text in texts]

Сделаем также нграммы, будем работать с ними:

In [6]:
ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) 
p = gensim.models.phrases.Phraser(ph)
ngrammed_texts = p[texts]

Чтобы не лемматизировать тексты каждый раз заново, сохраним их и потом просто будем загружать:

In [5]:
"""
with open('lemmatized_texts.txt', 'wb') as f:
    pickle.dump(texts, f)"""
f=open('lemmatized_texts.txt', 'rb') 
lem_texts=f.read()
texts=pickle.loads(lem_texts)

In [6]:
"""with open('lemmatized_ngrams.txt', 'wb') as f1:
    pickle.dump(ngrammed_texts, f1)"""
f=open('lemmatized_ngrams.txt', 'rb') 
n_texts=f.read()
ngrammed_texts=pickle.loads(n_texts)

Создание словаря:

In [7]:
dictionary = gensim.corpora.Dictionary(ngrammed_texts)

In [8]:
dictionary.filter_extremes(no_above=0.25, no_below=40)
dictionary.compactify()

In [9]:
print(dictionary)

Dictionary(4894 unique tokens: ['.net', 'address', 'api', 'azure', 'class']...)


In [10]:
corpus = [dictionary.doc2bow(text) for text in texts]

In [11]:
tfidf=gensim.models.TfidfModel(corpus, id2word=dictionary)
corpus = tfidf[corpus]

In [12]:
lda = gensim.models.LdaMulticore(corpus, 20, id2word=dictionary, passes=2)

Данные топики приведены для модели с использованием tfidf:

In [13]:
lda.print_topics()

[(0,
  '0.006*"gt" + 0.005*"lt" + 0.003*"int" + 0.003*"const" + 0.003*"if" + 0.002*"var" + 0.002*"new" + 0.002*"return" + 0.002*"файл" + 0.002*"пакет"'),
 (1,
  '0.002*"gt" + 0.002*"lt" + 0.002*"файл" + 0.002*"if" + 0.002*"the" + 0.002*"виртуальный" + 0.002*"номер" + 0.001*"google" + 0.001*"автомобиль" + 0.001*"сервер"'),
 (2,
  '0.002*"игра" + 0.001*"производство" + 0.001*"сеть" + 0.001*"объект" + 0.001*"программист" + 0.001*"модель" + 0.001*"орбита" + 0.001*"космический" + 0.001*"аккумулятор" + 0.001*"аппарат"'),
 (3,
  '0.002*"else" + 0.002*"gt" + 0.002*"игра" + 0.001*"файл" + 0.001*"оборудование" + 0.001*"книга" + 0.001*"смартфон" + 0.001*"lt" + 0.001*"продукт" + 0.001*"дата-центр"'),
 (4,
  '0.003*"gt" + 0.003*"lt" + 0.002*"php" + 0.002*"язык" + 0.002*"курс" + 0.002*"int" + 0.002*"amp" + 0.002*"android" + 0.002*"return" + 0.002*"let"'),
 (5,
  '0.003*"уязвимость" + 0.003*"доклад" + 0.002*"атака" + 0.002*"безопасность" + 0.002*"вредоносный" + 0.002*"microsoft" + 0.002*"gt" + 0.002*

Было обучено несколько моделей, менялись следующие параметры: количество тем, количество проходов (passes), фильтры (границы) словаря. Настоящая модель имеет параметры, представленные выше в ноутбуке (20 тем, 2 прохода, верхняя граница - 0.25, нижняя - 40).

С использованием tfidf-преобразования можно получить модель, обладающую следующими характеристиками:  
perplexity: -96.94593454206394   
coherence: 0.38519058302644316    
Ниже представлены три лучшие темы такой модели.


In [19]:
print(lda.print_topics()[0])
print(lda.print_topics()[1])
print(lda.print_topics()[2])

(0, '0.006*"gt" + 0.005*"lt" + 0.003*"int" + 0.003*"const" + 0.003*"if" + 0.002*"var" + 0.002*"new" + 0.002*"return" + 0.002*"файл" + 0.002*"пакет"')
(1, '0.002*"gt" + 0.002*"lt" + 0.002*"файл" + 0.002*"if" + 0.002*"the" + 0.002*"виртуальный" + 0.002*"номер" + 0.001*"google" + 0.001*"автомобиль" + 0.001*"сервер"')
(2, '0.002*"игра" + 0.001*"производство" + 0.001*"сеть" + 0.001*"объект" + 0.001*"программист" + 0.001*"модель" + 0.001*"орбита" + 0.001*"космический" + 0.001*"аккумулятор" + 0.001*"аппарат"')


Без использования tfidf-преобразования у модели с теми же параметрами характеристики будут следующими:    
perplexity: -14.204252506032987   
coherence: 0.37094050332241657    
Ниже представлены три лучшие темы такой модели.

In [68]:
print(lda.print_topics()[0])
print(lda.print_topics()[1])
print(lda.print_topics()[2])

(0, '0.004*"потому" + 0.004*"боль" + 0.004*"робот" + 0.004*"диск" + 0.004*"письмо" + 0.003*"сигнал" + 0.003*"энергия" + 0.003*"виртуальный" + 0.003*"очередь" + 0.003*"документ"')
(1, '0.016*"android" + 0.004*"print" + 0.004*"true" + 0.004*"сборка" + 0.004*"in" + 0.003*"шаблон" + 0.003*"адрес" + 0.003*"сигнал" + 0.003*"протокол" + 0.003*"слушать"')
(2, '0.004*"2016" + 0.004*"windows" + 0.004*"скидка" + 0.004*"услуга" + 0.004*"товар" + 0.004*"linux" + 0.004*"российский" + 0.003*"потому" + 0.003*"продажа" + 0.003*"виртуальный"')


У работавшей ранее визуализации тем в пятницу, кажется, выходной, поэтому лучше ориентироваться на текстовый список тем выше :(

In [28]:
pyLDAvis.enable_notebook()

In [29]:
pyLDAvis.gensim.prepare(lda, corpus, dictionary)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=True'.


  return pd.concat([default_term_info] + list(topic_dfs))


Расчёт метрик подели с tfidf (представлены выше):

In [21]:
import numpy as np

In [22]:
lda.log_perplexity(corpus[:2000], total_docs=100)

-96.94593454206394

In [23]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictionary, coherence='c_v')

In [24]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [25]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictionary, coherence='c_v')

In [26]:
coherence_model_lda.get_coherence()

0.38519058302644316

NMF:

In [92]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

При создании этой модели менялись такие параметры, как максимальное количество признаков и число компонентов. В итоге было применено максимальное количество признаков, равное 30000, и количество компонент, равное 30:

In [109]:
vectorizer = TfidfVectorizer(max_features=30000, min_df=15, max_df=0.3, lowercase=False)
X = vectorizer.fit_transform(stexts)

In [93]:
stexts = [' '.join(text) for text in texts]

In [110]:
model = NMF(n_components=30)

In [111]:
model.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=30, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [112]:
def get_nmf_topics(model, n_top_words):
    
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(30):

        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

Можно видеть, что первые три темы, особенно вторая и третья, имеют некоторое сходство с тремя лучшими темами предыдущей модели. В предыдущем примере также имелась тема, связанная с играми (третья в обоих случаях), хотя с использованием NMF она более ярко выражена; кроме того, имелась тема (в обоих случаях вторая), связанная с иноязычной терминологией.

In [113]:
get_nmf_topics(model, 15)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,ты,gt,игра,мозг,диск,рынок,камера,js,сайт,public,...,язык,int,файл,сервер,бот,робот,запрос,studio,vr,сигнал
1,продукт,lt,игрок,учёный,процессор,российский,смартфон,react,страница,string,...,обучение,if,docker,центр,telegram,автомобиль,end,pvs,виртуальный,звук
2,сотрудник,div,игровой,пациент,память,товар,устройство,css,реклама,void,...,алгоритм,amp,php,дата,сообщение,ребёнок,select,анализатор,реальность,частота
3,бизнес,class,играть,клетка,intel,рубль,экран,javascript,клиент,new,...,программирование,lt,сервер,инфраструктура,чат,машина,from,visual,oculus,усилитель
4,программист,name,персонаж,заболевание,ssd,россия,телефон,angular,браузер,this,...,модель,void,http,услуга,телеграм,робототехника,as,net,шлем,устройство
5,клиент,this,steam,исследование,производительность,страна,аккумулятор,веб,контент,return,...,программа,std,sudo,облачный,bot,беспилотный,,ошибка,vive,наушник
6,надо,props,геймплей,болезнь,ядро,магазин,видео,vue,домен,класс,...,нейросеть,char,etc,клиент,api,lego,таблица,ide,машина,ток
7,да,html,unity,ген,накопитель,цена,дисплей,браузер,письмо,private,...,объект,return,nginx,облако,мессенджер,датчик,if,инструмент,htc,напряжение
8,опыт,return,жанр,врач,тест,скидка,регистратор,компонент,рекламный,var,...,изображение,for,скрипт,сервис,канал,дрон,varchar,плагин,unreal,искажение
9,менеджер,type,движок,организм,сервер,налог,карта,dom,сервис,class,...,сеть,const,usr,оборудование,message,движение,set,core,дополнить,диапазон
