In [1]:
import gensim
import json
import re
from nltk.tokenize import word_tokenize
from pymorphy2 import MorphAnalyzer
# import pyLDAvis.gensim 
morph = MorphAnalyzer()

In [2]:
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

def clean(words):
    clean = [morph.parse(word)[0].normal_form for word in words if len(set(word)) > 1]
    return clean

## Данные

Возьмем 4 тыс статьи с Хабра. Это мало для хорошей тематической модели, но иначе у нас просто ничего не обучится за семинар.

In [3]:
texts = open('habr_texts.txt').read().splitlines()

В текстах есть тэги. Потрем их. Ещё токенизируем самым простым способом и нормализуем Pymorphy.

In [4]:
texts = [clean(word_tokenize(text.lower())) for text in texts]

In [15]:
# для нграммов
# ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4)
# p = gensim.models.phrases.Phraser(ph)

### Тематическое моделирование в gensim

Для моделей нужно сделать словарь.

In [5]:
dictinary = gensim.corpora.Dictionary(texts)

In [6]:
dictinary.filter_extremes(no_above=0.3, no_below=10)
dictinary.compactify()

In [7]:
print(dictinary)

Dictionary(16147 unique tokens: ['позиция', 'below', 'масштабироваться', 'заседание', 'односторонний']...)


Преобразуем наши тексты в мешки слов. 

In [9]:
corpus = [dictinary.doc2bow(text) for text in texts]
# если текстов много, то тут может быть генератор

In [11]:
lda = gensim.models.LdaMulticore(corpus, 30, id2word=dictinary, passes=1) # если поддерживается многопоточность
# lsi = gensim.models.LdaModel(200, id2word=dictinary, passes=5)

Посмотрим на топики.

In [13]:
lda.print_topics()

[(18,
  '0.014*"gt" + 0.013*"lt" + 0.003*"return" + 0.003*"файл" + 0.002*"игра" + 0.002*"if" + 0.002*"база" + 0.002*"выбрать" + 0.002*"сервис" + 0.002*"метод"'),
 (0,
  '0.005*"lt" + 0.004*"gt" + 0.004*"устройство" + 0.003*"файл" + 0.002*"ошибка" + 0.002*"amp" + 0.002*"игра" + 0.002*"the" + 0.002*"значение" + 0.002*"for"'),
 (14,
  '0.011*"gt" + 0.008*"lt" + 0.003*"if" + 0.003*"public" + 0.003*"сервер" + 0.003*"int" + 0.003*"метод" + 0.003*"сеть" + 0.002*"программа" + 0.002*"return"'),
 (24,
  '0.008*"gt" + 0.006*"lt" + 0.002*"сервер" + 0.002*"сеть" + 0.002*"if" + 0.002*"язык" + 0.002*"клиент" + 0.002*"модель" + 0.002*"файл" + 0.002*"устройство"'),
 (16,
  '0.011*"gt" + 0.008*"lt" + 0.003*"сеть" + 0.003*"сайт" + 0.003*"устройство" + 0.003*"точка" + 0.003*"игра" + 0.002*"сервер" + 0.002*"технология" + 0.002*"файл"'),
 (23,
  '0.011*"gt" + 0.006*"lt" + 0.003*"файл" + 0.002*"устройство" + 0.002*"if" + 0.002*"значение" + 0.002*"метод" + 0.002*"сеть" + 0.002*"return" + 0.002*"продукт"'),
 (

Ещё есть штука для визуализации.

In [14]:
pyLDAvis.enable_notebook()

NameError: name 'pyLDAvis' is not defined

In [25]:
pyLDAvis.gensim.prepare(lda, corpus, dictinary)

Можно посмотреть метрики.

In [16]:
lda.log_perplexity(corpus[:100], total_docs=100)

-25.231083844142873

In [17]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [19]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=10, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [20]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [21]:
coherence_model_lda.get_coherence()

0.4194483241023404

### Разложение матриц в sklearn

In [22]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

Sklearn принимает на вход строки, поэтому склеим наши списки.

In [23]:
stexts = [' '.join(text) for text in texts]

Сделаем матрицу слова-документы с помощью TfidfVectorizer

In [26]:
vectorizer = TfidfVectorizer(max_features=25000, min_df=5, max_df=0.3, lowercase=False)
X = vectorizer.fit_transform(stexts)

Разложим её.

In [27]:
model = NMF(n_components=30)

In [28]:
model.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=30, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [35]:
def get_nmf_topics(model, n_top_words):
    
    #id слов.
    feat_names = vectorizer.get_feature_names()
    
    word_dict = {};
    for i in range(30):
        
        #топ n слов для темы.
        words_ids = model.components_[i].argsort()[:-n_top_words - 1:-1]
        words = [feat_names[key] for key in words_ids]
        word_dict['Topic # ' + '{:02d}'.format(i+1)] = words;
    
    return pd.DataFrame(word_dict);

In [36]:
get_nmf_topics(model, 10)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10,...,Topic # 21,Topic # 22,Topic # 23,Topic # 24,Topic # 25,Topic # 26,Topic # 27,Topic # 28,Topic # 29,Topic # 30
0,ты,gt,игра,космический,объект,товар,камера,js,android,php,...,обучение,книга,файл,центр,бот,звук,процессор,сайт,if,vr
1,продукт,lt,игрок,спутник,значение,скидка,устройство,react,google,язык,...,робот,часы,docker,дата,telegram,сигнал,intel,страница,int,виртуальный
2,сотрудник,div,игровой,орбита,элемент,магазин,смартфон,css,ios,symfony,...,нейросеть,каковать,sudo,услуга,сообщение,наушник,память,реклама,amp,реальность
3,бизнес,class,играть,ракета,строка,цена,телефон,javascript,мобильный,yii,...,сеть,порекомендовать,http,инфраструктура,телеграм,усилитель,диск,клиент,lt,oculus
4,программист,name,персонаж,марс,метод,рубль,аккумулятор,angular,app,laravel,...,интеллект,профессиональный,etc,облачный,чат,частота,ядро,контент,return,шлем
5,клиент,this,steam,аппарат,блок,рынок,датчик,веб,устройство,go,...,нейронный,каким,nginx,оборудование,bot,искажение,гб,браузер,,vive
6,деньга,props,геймплей,земля,файл,россия,видео,vue,swift,api,...,машинный,предпочитать,скрипт,клиент,api,звуковой,производительность,google,else,htc
7,опыт,return,unity,луна,класс,российский,экран,браузер,play,программирование,...,алгоритм,слушать,usr,сервис,мессенджер,музыка,ноутбук,письмо,char,unreal
8,менеджер,html,жанр,наса,язык,покупка,корпус,компонент,view,java,...,искусственный,бумажный,amp,облако,канал,акустический,ssd,рекламный,void,дополнить
9,да,value,инди,полёт,алгоритм,налог,карта,html,gradle,gt,...,язык,путь,bin,цод,message,диапазон,видеокарта,домен,std,дизайн
