In [2]:
from gensim import corpora, models




In [3]:
#   Модуль corpora используется для импорта файла в формате UCI BOW
data = corpora.UciCorpus('docword.xkcd.txt', 'vocab.xkcd.txt')
dictionary = data.create_dictionary()

In [5]:
dictionary.id2token

{0: b'boy',
 1: b'sits',
 2: b'barrel',
 3: b'floating',
 4: b'ocean',
 5: b'wonder',
 6: b'ill',
 7: b'float',
 8: b'next',
 9: b'drift',
 10: b'distance',
 11: b'nothing',
 12: b'else',
 13: b'can',
 14: b'seen',
 15: b'alt',
 16: b'dont',
 17: b'two',
 18: b'tree',
 19: b'growing',
 20: b'opposite',
 21: b'side',
 22: b'sphere',
 23: b'alttitle',
 24: b'petit',
 25: b'reference',
 26: b'prince',
 27: b'thought',
 28: b'halfway',
 29: b'sketch',
 30: b'island',
 31: b'althello',
 32: b'landscape',
 33: b'sun',
 34: b'horizon',
 35: b'theres',
 36: b'river',
 37: b'flowing',
 38: b'black',
 39: b'number',
 40: b'see',
 41: b'red',
 42: b'package',
 43: b'hey',
 44: b'explodes',
 45: b'boom',
 46: b'cloud',
 47: b'smoke',
 48: b'green',
 49: b'blue',
 50: b'lying',
 51: b'near',
 52: b'scorched',
 53: b'mark',
 54: b'floor',
 55: b'text',
 56: b'blown',
 57: b'prime',
 58: b'factor',
 59: b'narrator',
 60: b'selfreference',
 61: b'irony',
 62: b'metahumor',
 63: b'far',
 64: b'cautiona

In [4]:
#   Обучение модели
#   id2word - отображение индексов в слова
#   num_topics - количество тем
#   passes - количество проходов по коллекции (чем больше - тем лучше модель)
#   distributed - параллельность обучения если True
#   alpha - распределение дирихле 1. Если константа - то симметричный вектор, можно передавать вектор
#   eta - распределение дирихле 2
ldamodel = models.ldamodel.LdaModel(data, id2word=dictionary, num_topics=5,
                                    passes=20, alpha=1.25, eta=1.25)

In [5]:
#   Можно сохранять и загружать модели, например
#   Сохранение
ldamodel.save('ldamodel_xkcd')

In [6]:
#   Можно загружать
ldamodel = models.ldamodel.LdaModel.load('ldamodel_xkcd')

In [7]:
#   Выведем топы слов
for theme, top_words in ldamodel.print_topics(num_topics=10, num_words=10):
    print(f'Topic {theme}:', top_words)

Topic 0: 0.002*"b'exhibit'" + 0.002*"b'paul'" + 0.001*"b'ron'" + 0.001*"b'wave'" + 0.001*"b'elaine'" + 0.001*"b'roberts'" + 0.001*"b'reporter'" + 0.001*"b'hurricane'" + 0.001*"b'label'" + 0.001*"b'cory'"
Topic 1: 0.003*"b'labeled'" + 0.002*"b'line'" + 0.001*"b'planet'" + 0.001*"b'reference'" + 0.001*"b'gliese'" + 0.001*"b'map'" + 0.001*"b'chart'" + 0.001*"b'unallocated'" + 0.001*"b'radio'" + 0.001*"b'nathan'"
Topic 2: 0.002*"b'within'" + 0.001*"b'relation'" + 0.001*"b'goggles'" + 0.001*"b'jelly'" + 0.001*"b'bean'" + 0.001*"b'accurate'" + 0.001*"b'link'" + 0.001*"b'acne'" + 0.001*"b'part'" + 0.001*"b'found'"
Topic 3: 0.022*"b'man'" + 0.012*"b'text'" + 0.011*"b'person'" + 0.010*"b'title'" + 0.009*"b'woman'" + 0.008*"b'guy'" + 0.006*"b'one'" + 0.005*"b'girl'" + 0.005*"b'just'" + 0.005*"b'two'"
Topic 4: 0.002*"b'island'" + 0.001*"b'map'" + 0.001*"b'beef'" + 0.001*"b'leopard'" + 0.001*"b'bag'" + 0.001*"b'blogs'" + 0.001*"b'spider'" + 0.001*"b'sea'" + 0.001*"b'north'" + 0.001*"b'text'"


In [8]:
#   Посчитаем величину перплексии (чем меньше - тем лучше). Показывает насколько хорошо распределение описывает исходные данные
#   Зависит от данных и количества тем
perplexity = ldamodel.log_perplexity(list(data))
print(2 ** (-perplexity))

348.40903951698687


In [None]:
#   Модель можно удобно обновлять с помощью метода
#ldamodel.update('*update_data*', passes=10)

In [19]:
#   Чтобы посмотреть на матрицу тетта (Распределение тем для конкретного документа)
doc = list(data)[0]
ldamodel.get_document_topics(doc)

[(0, 0.06114723),
 (1, 0.057293553),
 (2, 0.05493633),
 (3, 0.7639667),
 (4, 0.06265621)]

In [10]:
print(doc)

[(0, 2.0), (1, 1.0), (2, 2.0), (3, 1.0), (4, 1.0), (5, 1.0), (6, 1.0), (7, 1.0), (8, 1.0), (9, 1.0), (10, 1.0), (11, 1.0), (12, 1.0), (13, 1.0), (14, 1.0), (15, 1.0), (16, 1.0)]
