**conda install --name py27 gensim**

# Пример использования библиотеки gensim для тематического моделирования

Такая полезная теорема Байеса! :)

![comic1](http://imgs.xkcd.com/comics/seashell.png)

In [1]:
# corpora - импорт данных
# models - построение моделей
from gensim import corpora, models



In [2]:
# Импортируем данные в формте UCI Bag of Words
data = corpora.UciCorpus("docword.xkcd.txt", "vocab.xkcd.txt")
dictionary = data.create_dictionary()

In [3]:
# обучение модель
# data - корпус
# id2word - отображение индексов слов в слова
# distributed=True - использовать параллеьное обучение
# num_topics - количество тем
# passes - количество проходов по коллекции (слишком большой - долго обучаться будет)
# alpha, eta - параметры априорного распределения Дерехле для модели
%time ldamodel = models.ldamodel.LdaModel(data, id2word=dictionary, num_topics=5, passes=20, alpha=1.25, eta=1.25)

CPU times: user 56.3 s, sys: 865 ms, total: 57.2 s
Wall time: 25.4 s


In [4]:
# Сохранение модели
ldamodel.save("ldamodel_xkcd")

In [5]:
# Загрузка модели
ldamodel = models.ldamodel.LdaModel.load("ldamodel_xkcd")

In [6]:
# выводим топы слов
# num_topics - сколько тем ходим посмотреть
# num_words - сколько слов вывести в каждой теме
for t, top_words in ldamodel.print_topics(num_topics=10, num_words=10):
    print "Topic", t, ":", top_words

Topic 0 : 0.024*"man" + 0.013*"text" + 0.012*"person" + 0.011*"title" + 0.009*"woman" + 0.006*"one" + 0.005*"just" + 0.005*"two" + 0.004*"hat" + 0.004*"people"
Topic 1 : 0.020*"guy" + 0.010*"girl" + 0.004*"boy" + 0.002*"one" + 0.001*"part" + 0.001*"within" + 0.001*"relation" + 0.001*"accurate" + 0.001*"han" + 0.001*"thinking"
Topic 2 : 0.002*"wait" + 0.002*"map" + 0.001*"paul" + 0.001*"island" + 0.001*"peter" + 0.001*"sagal" + 0.001*"ron" + 0.001*"nathan" + 0.001*"randall" + 0.001*"dont"
Topic 3 : 0.004*"figure" + 0.002*"stick" + 0.001*"reference" + 0.001*"elaine" + 0.001*"bag" + 0.001*"narrator" + 0.001*"mrs" + 0.001*"turtle" + 0.001*"roberts" + 0.001*"hat"
Topic 4 : 0.002*"exhibit" + 0.001*"wikipedia" + 0.001*"line" + 0.001*"labeled" + 0.001*"list" + 0.001*"text" + 0.001*"chart" + 0.001*"number" + 0.001*"title" + 0.001*"label"


In [7]:
# Вычисляем логарифм перплексии и немного преобразуем, чтобы привести к общепринятому виду
# чем меньше перплексия, тем лучше
perplexity = ldamodel.log_perplexity(list(data))
print 2**(-perplexity)

353.8295947014374


In [8]:
perp = ldamodel.bound(data)
2**(-perp/float(87409))

353.82959490281695

In [None]:
# Добавление в модель новых документов, содержащихся в новом корупсе data2
# passes - проходы для переобучения
ldamodel.update(data2, passes=10)

In [9]:
# Получение распределения тем для конкретного документа
doc = list(data)[0]
ldamodel.get_document_topics(doc)

[(0, 0.71416813),
 (1, 0.10824957),
 (2, 0.059008792),
 (3, 0.061709292),
 (4, 0.05686421)]

Эти люди не знают про тематические модели:

![comic2](http://imgs.xkcd.com/comics/the_problem_with_wikipedia.png) | ![comic3](http://imgs.xkcd.com/comics/mystery_news.png)