# Тематическое моделирование

Задача тематического моделирования состоит в том, чтобы разложить слова, употребляющиеся в корпусе на темы и приписать эти темы каждому документу в корпусе.

Помимо анализа тематического наполнения корпуса, мематическое моделирование может использоваться для:

1) построения вектроных представлений текстов (числа показывают насколько тема выражена в тексте). Такие представления могут быть лучше обычных (TfidfVectorizer, CountVectorizer), т.к. позволяют находить близкие документы даже если в них нет одинаковых слов (но есть слова одной тематики). Тематические векторы могут использоваться для поиска, рекомендаций или как признаки в классификации. 

2) приписывания тэгов текстам. Так можно автоматически выделять в текстовых потоках тренды, горячие темы. Тэги можно использовать как фильтр в поисковых системах. Тэги нужно приписывать темам вручную, но это проще чем размечать обучающую выборку, так как слова в тематике сразу подказывают название. 

3) составления тематических словарей



Кроме обычных текстов тематическое моделирование применяется к многим другим данным: запросам пользователей, сайтам, на которые заходят пользователи, музыке, которую слушают пользователи, покупкам в одной корзине, банковским транзакциям и даже днк. 


Все подходы к тематическому моделированию так или иначе основнованы на:

1) модели мешка слов (т.е. порядок слов в документах не учитывается)  
2) независимости документов между собой  (т.е. употребление слова W в тексте D_1 никак не влияет на слова в документе D_2)  
3) дистрибутивной гипотезе (слова, употребляющиеся вместе, объединяются в темы)



В этой тетрадке для получения тематических моделей используются LDA из gensim и NMF из sklearn.

Про LDA (и в целом тематическое моделирование) можно почитать вот эту статью - https://sysblok.ru/knowhow/kak-ponjat-o-chem-tekst-ne-chitaja-ego/

In [1]:
import gensim
import json
import re
import pandas as pd
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
import pyLDAvis.gensim
import string
from collections import Counter
import warnings
warnings.filterwarnings("ignore")

morph = MorphAnalyzer()

## Данные

Возьмем 4 тыс статьи с Хабра. Это мало для хорошей тематической модели, но иначе у нас просто ничего не обучится за семинар.

В текстах есть тэги. Потрем их. Ещё токенизируем самым простым способом и нормализуем Pymorphy.

In [2]:
stops = set(stopwords.words('russian')) | {'gt',}
def remove_tags(text):
    return re.sub(r'<[^>]+>', '', text)

# чтобы быстрее нормализовать тексты, создадим словарь всех словоформ
# нормазуем каждую 1 раз и положим в словарь
# затем пройдем по текстам и сопоставим каждой словоформе её нормальную форму

def opt_normalize(texts, top=None):
    uniq = Counter()
    for text in texts:
        uniq.update(text)
    
    norm_uniq = {word:morph.parse(word)[0].normal_form for word, _ in uniq.most_common(top)}
    
    norm_texts = []
    for text in texts:
        
        norm_words = [norm_uniq.get(word) for word in text]
        norm_words = [word for word in norm_words if word and word not in stops]
        norm_texts.append(norm_words)
        
    return norm_texts

def tokenize(text):
    words = [word.strip(string.punctuation) for word in text.split()]
    words = [word for word in words if word]
    
    return words

In [4]:
texts = open('habr_texts.txt').read().splitlines()
texts = opt_normalize([tokenize(remove_tags(text.lower())) for text in texts], 30000)

In [6]:
#для нграммов
ph = gensim.models.Phrases(texts, scoring='npmi', threshold=0.4) # threshold можно подбирать
p = gensim.models.phrases.Phraser(ph)
ngrammed_texts = p[texts]

### Тематическое моделирование в gensim

Для моделей нужно сделать словарь.

In [7]:
dictinary = gensim.corpora.Dictionary(texts)

In [8]:
dictinary.filter_extremes(no_above=0.1, no_below=20)
dictinary.compactify()

In [9]:
print(dictinary)

Dictionary(6846 unique tokens: ['2-х', '3.0', 'address', 'architecture', 'assembly']...)


Преобразуем наши тексты в мешки слов. 

In [10]:
corpus = [dictinary.doc2bow(text) for text in texts]

Про параметры можно почитать в документации:

In [11]:
?gensim.models.LdaMulticore

Основные это num_topics, alpha, eta и passes. 

**num_topics** - это количество тем. Это основной параметр и настраивать его проще всего. Обычно 200 оптимальное значение. Можно поставить поменьше, если тексты не очень разнообразные или хочется уменьшить время обучения.

**alpha** и **eta** - параметры, которые влияют на разреженность распределения документы-темы и темы-слова. У alpha есть значения "asymmetric" и "auto", которые можно попробовать (по умолчанию стоит "symmetric", т.е. не разреженное). Eta можно задать каким-то числом или самому сделать изначальное распределение слов по темам. НО настраивать эти параметры сложно и непонятно и вообще лучше надеяться, что по умолчанию все заработает.

**passes** - задает количество проходов по данным. Чем больше, тем лучше сойдется модель, но обучаться будет дольше.

In [25]:
lda = gensim.models.LdaMulticore(corpus, 100, id2word=dictinary, eval_every=0, passes=10)

Посмотрим на топики.

In [22]:
lda.show_topics()

[(87,
  '0.009*"public" + 0.007*"null" + 0.005*"from" + 0.005*"as" + 0.004*"int" + 0.004*"intel" + 0.004*"set" + 0.004*"end" + 0.003*"раздел" + 0.003*"else"'),
 (44,
  '0.013*"камера" + 0.004*"плагин" + 0.004*"смартфон" + 0.003*"сигнал" + 0.003*"напряжение" + 0.003*"зона" + 0.003*"питание" + 0.002*"public" + 0.002*"шлюз" + 0.002*"частота"'),
 (107,
  '0.005*"игрок" + 0.004*"спутник" + 0.003*"php" + 0.003*"public" + 0.003*"lt" + 0.003*"боль" + 0.003*"доллар" + 0.002*"val" + 0.002*"протокол" + 0.002*"javascript"'),
 (196,
  '0.007*"null" + 0.006*"int" + 0.006*"lt" + 0.006*"n" + 0.005*"public" + 0.004*"b" + 0.004*"void" + 0.004*"end" + 0.003*"массив" + 0.003*"begin"'),
 (89,
  '0.005*"university" + 0.004*"on" + 0.003*"value" + 0.003*"int" + 0.003*"b" + 0.003*"cs" + 0.003*"вм" + 0.003*"linux" + 0.003*"•" + 0.002*"systems"'),
 (58,
  '0.005*"amp;&amp" + 0.004*"офис" + 0.003*"звук" + 0.003*"end" + 0.003*"наушник" + 0.003*"локализация" + 0.002*"менеджер" + 0.002*"буфер" + 0.002*"is" + 0.002*"

Ещё есть штука для визуализации.

In [26]:
pyLDAvis.enable_notebook()

In [27]:
pyLDAvis.gensim.prepare(lda, corpus, dictinary)

Всё ещё есть пересекающиеся темы, да и кружочки достаточно большие. Но мне уже нравятся получившиеся темы:  
1. Тема 10: Линукс  
2. Тема 29: JavaScript  
3. Тема 23: C и язык ассемблера  

На графике должно быть как можно меньше пересекающихся кружков (т.е. темы состоят из разных слов), а сами кружки не должны быть огромными (скорее всего такую тему можно разбить на несколько поменьше).

In [29]:
tfidf = gensim.models.TfidfModel(corpus, id2word=dictinary)
corpus = tfidf[corpus]

In [40]:
lda = gensim.models.LdaMulticore(corpus, 200, id2word=dictinary, eval_every=0, passes=3)
pyLDAvis.gensim.prepare(lda, corpus, dictinary)

Не знаю, что сказать даже. Получается хуже, что удивительно. Если делать больше `passes`, то он просто делает темы меньше и ближе друг к другу.
Хорошо получилась космическая тема (22) и тема про Java (21). Про JS тоже получилось, но хуже чем в прошлый раз (тема 14), туда вмешался C++.

Можно посмотреть метрики.

In [80]:
import numpy as np

Перплексия показывает насколько хороше моделируется корпус. Чем ближе к нулю, тем лучше. Можно использовать, чтобы настраивать количество проходов по корпусу (когда перестало улучшаться, то можно останавливаться).

In [81]:
lda.log_perplexity(corpus[:10000])

-9.866622134788862

Ещё есть когерентность. Она числе оценивает качество тем (проверяется, что темы состоят из разных слов и что в теме есть топ тематических слов). 

In [82]:
coherence_model_lda = gensim.models.CoherenceModel(model=lda, 
                                                  texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

Чем выше, тем лучше.

In [83]:
topics = []
for topic_id, topic in lda.show_topics(num_topics=100, formatted=False):
    topic = [word for word, _ in topic]
    topics.append(topic)

In [84]:
coherence_model_lda = gensim.models.CoherenceModel(topics=topics, 
                                                   texts=texts, 
                                                   dictionary=dictinary, coherence='c_v')

In [85]:
coherence_model_lda.get_coherence()

0.34019684624624974

Но все эти числа вспомогательны! Главные критерии качества модели: интерпретируемость и понятность тем (т.е. нужно глазами смотреть на каждую тему), а также польза для практической задачи, которую вы пытаетесь решить.

### Разложение матриц в sklearn

![NMF](nmf.png)

NMF - превращает одну матрицу NxV в произведение двух матриц NxK и KxV (произведение не точно равно изначальной матрице, но достаточно близко - чем больше K, тем точнее, но больше тратиться памяти и времени). В нашем случае N - это документы (размер корпуса), V - количество слов в словаре, а K - количество тем. 

Таким образом, взяв одну из получившихся матриц, мы получим или тематические представления документов (первая матрица - документы на темы), либо слова, разложенные по темам (вторая матрица - темы на слова).

Отличие от LDA в том, что числа в матрицах не будут вероятностями, а просто каким-то положительными числам. Чем больше, тем сильнее слово или документ связан с темой. 

(Почему и как это все работает, вы можете почитать отдельно. Для практических задач хватит умения запускать все в sklearn) 

In [41]:
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd

Sklearn принимает на вход строки, поэтому склеим наши списки.

In [42]:
stexts = [' '.join(text) for text in texts]

Сделаем матрицу слова-документы с помощью TfidfVectorizer

In [43]:
vectorizer = TfidfVectorizer(max_features=1000, min_df=10, max_df=0.3, ngram_range=(1,3))
X = vectorizer.fit_transform(stexts)

Разложим её.

In [52]:
# n_components - главный параметр в NMF, это количество тем. 
# Если данных много, то увеличения этого параметра сильно увеличивает время обучения
model = NMF(n_components=200)

In [53]:
model.fit(X)

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
    n_components=200, random_state=None, shuffle=False, solver='cd', tol=0.0001,
    verbose=0)

In [54]:
model.components_.shape # матрица темы на слова

(200, 1000)

In [55]:
model.transform(X).shape # матрица документы на темы

(4121, 200)

In [56]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

Вытащим словарь, по которому мы построили модель.

In [57]:
feat_names = vectorizer.get_feature_names()

Теперь посмотрим на матрицу темы-слова, отсортируем её по строкам и возьмем топ N слов, сопоставив индексы со словарём

In [58]:
top_words = model.components_.argsort()[:,:-5:-1]

for i in range(top_words.shape[0]):
    words = [feat_names[j] for j in top_words[i]]
    print(i, "  ".join(words))

0 какой то  что то  вообще  кто
1 case  val  let  return
2 игра  игровой  играть  консоль
3 настройка  раздел  конфигурация  настроить
4 устройство  производитель  передача  поддерживать
5 lt  lt lt  gt lt  for
6 дизайн  опыт  стиль  друг
7 the  to  of  and
8 public  void  private  static
9 платформа  поддержка  запуск  поддерживать
10 социальный  facebook  новость  аудитория
11 цена  стоимость  доллар  рубль
12 файл  формат  загрузка  путь
13 доклад  конференция  тема  рассказать
14 2016  2016 год  декабрь  2017
15 память  гб  объём  производительность
16 объект  менять  свойство  сравнение
17 исследование  исследователь  научный  группа
18 массив  компилятор  хранение  переменный
19 язык  программирование  java  перевод
20 слой  архитектура  признак  набор
21 дата центр  центр  дата  оборудование
22 int  for  char  void
23 if  else  return  false
24 сигнал  частота  диапазон  выход
25 вселенная  миллиард  расширение  её
26 звук  частота  читать  характеристика
27 бот  друг  facebook 

В целом, получилось неплохо. Субъективно темы выглядят более чёткими чем с `lda`. Наверно, сюда бы хорошо добавить удаление частотных слов, потому что некоторые темы явно определяются по этим словам, что довольно плохо. Ещё я бы регулркой убрал даты, потому что они есть во всех документах, но модель почему-то на основании дат придумала тему.

У разложения есть метрика, показывающая насколько хорошо восстанавливается изначальная матрица. Чем меньше, тем лучше.

In [59]:
model.reconstruction_err_

40.66008360028658

Но как и с LDA - главное это польза от модели и человеческая оценка, получаемых тем.

## Домашнее задание

Основаная задача - **построить хорошую тематическую модель с интерпретируемыми топиками с помощью LDA в gensim и NMF в sklearn**.


1) сделайте нормализацию (если pymorphy2 работает долго используйте mystem или попробуйте установить быструю версию - `pip install pymorphy2[fast]`, можно использовать какой-то другой токенизатор); 

2) добавьте нграммы (в тетрадке есть закомменченая ячейка с Phrases,  можно также попробовать другие способы построить нграммы); 

3) сделайте хороший словарь (отфильтруйте слишком частотные и редкие слова, попробуйте удалить стоп-слова); 

4) постройте несколько LDA моделей (переберите количество тем, можете поменять alpha, passes), если получаются плохие темы, поработайте дополнительно над предобработкой и словарем; 

5) для самой хорошей модели в отдельной ячейке напечатайте 3 хороших (на ваш вкус) темы;

6) между словарем и обучением модели добавьте tfidf (`gensim.models.TfidfModel(corpus, id2word=dictionary); corpus = tfidf[corpus]`);

7) повторите пункт 4 на преобразованном корпусе;

8) в отдельной ячейке опишите как изменилась модель (приведите несколько тем, которые стали лучше или хуже, или которых раньше вообще не было; можно привести значения перплексии и когерентности для обеих моделей)

9) проделайте такие же действия для NMF (образец в конце тетрадки), для построения словаря воспользуйтесь возможностями Count или Tfidf Vectorizer (попробуйте другие значение max_features, min_df, max_df, сделайте нграмы через ngram_range, если хватает памяти), попробуйте такие же количества тем

10) в отдельной ячейки напечатайте темы лучшей NMF модели, сравните их с теми, что получились в LDA.

Сохраните тетрадку с экспериментами и положите её на гитхаб, ссылку на неё укажите в форме.

**Оцениваться будут главным образом пункты 5, 8 и 10. (2, 3, 2 баллов соответственно). Чтобы заработать остальные 3 балла, нужно хотя бы немного изменить мой код на промежуточных этапах (добавить что-то, указать другие параметры и т.д). **