# Пример использования библиотеки gensim для тематического моделирования

Такая полезная теорема Байеса! :)

![comic1](http://imgs.xkcd.com/comics/seashell.png)

In [1]:
from gensim import corpora, models

In [2]:
# Импортируем данные в формте UCI Bag of Words
data = corpora.UciCorpus("docword.xkcd.txt", "vocab.xkcd.txt")
dictionary = data.create_dictionary()

In [5]:
# обучение модель
## alpha, eta - априорные параметры распределения Дирихле
%time ldamodel = models.ldamodel.LdaModel(data, id2word=dictionary, 
                                          num_topics=5, passes=20, alpha=1.25, eta=1.25)

CPU times: user 1min 55s, sys: 1.39 s, total: 1min 57s
Wall time: 2min


In [6]:
# Сохранение модели
ldamodel.save("ldamodel_xkcd")

In [7]:
# Загрузка модели
ldamodel = models.ldamodel.LdaModel.load("ldamodel_xkcd")

In [12]:
# выводим топы слов
for t, top_words in ldamodel.print_topics(num_topics=10, num_words=10):
    print("Topic", t, ":", top_words, end="\n\n")

Topic 0 : 0.004*"b'boy'" + 0.002*"b'map'" + 0.002*"b'labeled'" + 0.002*"b'island'" + 0.001*"b'wave'" + 0.001*"b'list'" + 0.001*"b'egg'" + 0.001*"b'text'" + 0.001*"b'axis'" + 0.001*"b'blogs'"

Topic 1 : 0.001*"b'elaine'" + 0.001*"b'roberts'" + 0.001*"b'han'" + 0.001*"b'beef'" + 0.001*"b'bag'" + 0.001*"b'mrs'" + 0.001*"b'leopard'" + 0.001*"b'solo'" + 0.001*"b'doctorow'" + 0.001*"b'modern'"

Topic 2 : 0.001*"b'goggles'" + 0.001*"b'found'" + 0.001*"b'jelly'" + 0.001*"b'bean'" + 0.001*"b'link'" + 0.001*"b'acne'" + 0.001*"b'005'" + 0.001*"b'spirit'" + 0.001*"b'shark'" + 0.001*"b'spider'"

Topic 3 : 0.004*"b'figure'" + 0.002*"b'exhibit'" + 0.002*"b'stick'" + 0.001*"b'paul'" + 0.001*"b'ron'" + 0.001*"b'anchor'" + 0.001*"b'line'" + 0.001*"b'label'" + 0.001*"b'narrator'" + 0.001*"b'title'"

Topic 4 : 0.023*"b'man'" + 0.012*"b'text'" + 0.012*"b'person'" + 0.010*"b'title'" + 0.009*"b'woman'" + 0.008*"b'guy'" + 0.007*"b'one'" + 0.006*"b'girl'" + 0.005*"b'just'" + 0.005*"b'two'"



In [14]:
# Вычисляем логарифм перплексии и немного преобразуем, чтобы привести к общепринятому виду
perplexity = ldamodel.log_perplexity(list(data))
print(2**(-perplexity))

350.94108789


In [15]:
perp = ldamodel.bound(data)
2**(-perp/float(87409))

350.94108788069701

In [17]:
# Добавление в модель новых документов, содержащихся в новом корупсе data2
ldamodel.update(data2, passes=10)

In [18]:
# Получение распределения тем для конкретного документа
doc = list(data)[0]
ldamodel.get_document_topics(doc)

[(0, 0.16405363323840449),
 (1, 0.056802449132545327),
 (2, 0.065432602188467678),
 (3, 0.06256039165958388),
 (4, 0.65115092378099859)]

Эти люди не знают про тематические модели:

![comic2](http://imgs.xkcd.com/comics/the_problem_with_wikipedia.png) | ![comic3](http://imgs.xkcd.com/comics/mystery_news.png)