In [1]:
import os

In [2]:
import gensim



In [3]:
# data_folder = os.path.join('data', '00_dec')
data_folder = os.path.join('data', '17_dec')

In [4]:
lda_folder = 'lda_files'

In [5]:
# raw_log_file = os.path.join(data_folder, 'log_dratuti.txt')
clean_log_file = os.path.join(data_folder, 'clean_log_dratuti.txt')
raw_msgs_file = os.path.join(data_folder, 'raw_msgs.txt')
ltrs_only_msgs_file = os.path.join(data_folder, 'ltrs_only_msgs.txt')
no_stopwords_msgs_file = os.path.join(data_folder, 'no_stopwords_msgs.txt')
normalized_no_stopwords_msgs_file = os.path.join(data_folder, 'normalized_no_stopwords_msgs.txt')

In [6]:
def read_msgs(filename):
    with open(filename) as lf:
        msgs = [line.split() for line in lf.readlines()]
    return msgs

In [7]:
def get_topic_words(topic_id, model, dictionary):
    print('--- topic #{} ---'.format(topic_id))
    for word_id, prob in model.get_topic_terms(topic_id):
        print(round(prob, 3), '\t', dictionary.get(word_id))

In [8]:
def print_n_topics(n, model, dictionary):
    for topic_id in range(n):
        get_topic_words(topic_id, model, dictionary)
        print()

# Just messages

In [9]:
msgs = read_msgs(ltrs_only_msgs_file)
msgs[:10]

[['поздравляю'],
 ['последний', 'день'],
 ['отсюда'],
 ['куда'],
 ['уже', 'не', 'уходишь'],
 ['х', 'у', 'и', 'т', 'а'],
 ['чо', 'за', 'хуйня'],
 ['а', 'н', 'а', 'л', 'и', 'т', 'и', 'к', 'а'],
 ['voiceru', 'bot', 'глупый', 'глупый'],
 ['неправильный', 'запрос', 'попробуй', 'еще', 'раз']]

In [11]:
dict_ltrs_only = gensim.corpora.Dictionary(msgs)
dict_ltrs_only.save(os.path.join(lda_folder, 'dict_msgs_ltrs_only.dict'))

corpus_ltrs_only = [dict_ltrs_only.doc2bow(msg) for msg in msgs]
gensim.corpora.MmCorpus.serialize(os.path.join(lda_folder, 'corpus_ltrs_only.mm'), corpus_ltrs_only)

In [12]:
%time lda_model_ltrs_only = gensim.models.LdaModel(corpus_ltrs_only, id2word = dict_ltrs_only, num_topics = 100)

CPU times: user 4min 31s, sys: 13 s, total: 4min 44s
Wall time: 5min 20s


In [13]:
print_n_topics(5, lda_model_ltrs_only, dict_ltrs_only)

--- topic #0 ---
0.1 	 d
0.066 	 в
0.061 	 смотреть
0.051 	 вам
0.043 	 весь
0.029 	 не
0.028 	 понятно
0.021 	 нашел
0.02 	 я
0.016 	 умеет

--- topic #1 ---
0.038 	 нужен
0.037 	 key
0.025 	 других
0.017 	 китайцы
0.015 	 живешь
0.013 	 надеюсь
0.013 	 затем
0.013 	 никого
0.012 	 need
0.012 	 не

--- topic #2 ---
0.282 	 но
0.231 	 нет
0.038 	 не
0.037 	 сейчас
0.032 	 них
0.024 	 в
0.024 	 на
0.019 	 правильно
0.013 	 у
0.011 	 и

--- topic #3 ---
0.263 	 у
0.087 	 нас
0.029 	 в
0.027 	 давай
0.016 	 часто
0.014 	 на
0.013 	 делают
0.012 	 является
0.011 	 стали
0.011 	 случайно

--- topic #4 ---
0.067 	 при
0.054 	 в
0.05 	 и
0.032 	 домой
0.029 	 раньше
0.028 	 я
0.025 	 часть
0.021 	 офисе
0.02 	 на
0.018 	 взять



# No stopwords

In [14]:
msgs_nosw = read_msgs(no_stopwords_msgs_file)
msgs_nosw[:10]

[['поздравляю'],
 ['последний', 'день'],
 ['отсюда'],
 ['уходишь'],
 ['х', 'т'],
 ['чо', 'хуйня'],
 ['н', 'л', 'т'],
 ['voiceru', 'bot', 'глупый', 'глупый'],
 ['неправильный', 'запрос', 'попробуй'],
 ['работает', 'inline', 'режиме']]

In [16]:
dict_nosw = gensim.corpora.Dictionary(msgs_nosw)
dict_nosw.save(os.path.join(lda_folder, 'dict_nosw.dict'))

corpus_nosw = [dict_nosw.doc2bow(msg) for msg in msgs_nosw]
gensim.corpora.MmCorpus.serialize(os.path.join(lda_folder, 'corpus_nosw.mm'), corpus_nosw)

%time lda_model_nosw = gensim.models.LdaModel(corpus_nosw, id2word = dict_nosw, num_topics = 100)

CPU times: user 3min 59s, sys: 11 s, total: 4min 10s
Wall time: 4min 19s


In [17]:
print_n_topics(5, lda_model_nosw, dict_nosw)

--- topic #0 ---
0.029 	 свое
0.025 	 понравилось
0.022 	 вернуться
0.019 	 мыло
0.018 	 пробовал
0.017 	 сказать
0.016 	 вариант
0.015 	 глаза
0.014 	 вперед
0.012 	 браузере

--- topic #1 ---
0.041 	 человек
0.035 	 нормальный
0.025 	 умеет
0.023 	 наоборот
0.022 	 мозг
0.018 	 крутой
0.017 	 та
0.015 	 квартиру
0.013 	 обычные
0.01 	 явно

--- topic #2 ---
0.13 	 знаю
0.088 	 спасибо
0.084 	 код
0.049 	 чат
0.034 	 пусть
0.027 	 штука
0.017 	 пришел
0.015 	 голову
0.012 	 сидишь
0.009 	 делала

--- topic #3 ---
0.131 	 завтра
0.069 	 сколько
0.046 	 короче
0.033 	 курсе
0.017 	 фотки
0.017 	 китайцы
0.017 	 сайте
0.017 	 жду
0.016 	 вставать
0.015 	 моей

--- topic #4 ---
0.044 	 вечером
0.028 	 утром
0.025 	 хочет
0.022 	 разные
0.019 	 погода
0.019 	 месте
0.019 	 ня
0.015 	 оба
0.013 	 статья
0.013 	 можете



# Normalized, no stopwords

In [18]:
msgs_nosw_norm = read_msgs(normalized_no_stopwords_msgs_file)

msgs_nosw_norm[:10]

[['поздравлять'],
 ['последний', 'день'],
 ['отсюда'],
 ['уходить'],
 ['х', 'том'],
 ['чо', 'хуйня'],
 ['наш', 'литр', 'том'],
 ['voiceru', 'bot', 'глупый', 'глупый'],
 ['неправильный', 'запрос', 'попробовать'],
 ['работать', 'inline', 'режим']]

In [19]:
dict_nosw_norm = gensim.corpora.Dictionary(msgs_nosw_norm)
dict_nosw_norm.save(os.path.join(lda_folder, 'dict_nosw_norm.dict'))

In [20]:
corpus_nosw_norm = [dict_nosw_norm.doc2bow(msg) for msg in msgs_nosw_norm]
gensim.corpora.MmCorpus.serialize(os.path.join(lda_folder, 'corpus_nosw_norm.mm'), corpus_nosw_norm)

## 100 topics

In [21]:
%time lda_model_nosw_norm = gensim.models.LdaModel(corpus_nosw_norm, id2word = dict_nosw_norm, num_topics = 100)

CPU times: user 3min 5s, sys: 5.86 s, total: 3min 10s
Wall time: 3min 15s


In [22]:
print_n_topics(5, lda_model_nosw_norm, dict_nosw_norm)

--- topic #0 ---
0.074 	 кот
0.063 	 вид
0.061 	 хм
0.057 	 часть
0.043 	 кидать
0.033 	 вместо
0.027 	 вызывать
0.022 	 проверить
0.021 	 получиться
0.021 	 fuck

--- topic #1 ---
0.052 	 прийти
0.048 	 хром
0.044 	 х
0.041 	 придумать
0.04 	 группа
0.017 	 ситуация
0.017 	 эт
0.016 	 ход
0.016 	 ра
0.016 	 точный

--- topic #2 ---
0.123 	 понять
0.053 	 спс
0.049 	 бар
0.048 	 ммм
0.04 	 заходить
0.035 	 ездить
0.032 	 куча
0.022 	 ошибка
0.022 	 универ
0.018 	 начальник

--- topic #3 ---
0.139 	 дом
0.081 	 стоить
0.074 	 жить
0.058 	 часы
0.049 	 запретить
0.042 	 анус
0.039 	 поход
0.034 	 ставить
0.025 	 полный
0.021 	 нода

--- topic #4 ---
0.094 	 брать
0.081 	 отпуск
0.078 	 иметь
0.057 	 жаль
0.035 	 обед
0.016 	 допустить
0.014 	 ввиду
0.014 	 робот
0.013 	 хобби
0.013 	 рисовать



## 20 topics

In [23]:
%time lda_model_20_nosw_norm = gensim.models.LdaModel(corpus_nosw_norm, id2word = dict_nosw_norm, num_topics = 20)

CPU times: user 1min 15s, sys: 2.43 s, total: 1min 17s
Wall time: 1min 19s


In [25]:
# print_n_topics(20, lda_model_20_nosw_norm, dict_nosw_norm)

In [26]:
print_n_topics(5, lda_model_20_nosw_norm, dict_nosw_norm)

--- topic #0 ---
0.035 	 идти
0.033 	 почему
0.029 	 сделать
0.027 	 посмотреть
0.025 	 че
0.025 	 блин
0.02 	 тим
0.018 	 what
0.015 	 чот
0.015 	 большой

--- topic #1 ---
0.067 	 такой
0.051 	 просто
0.04 	 весь
0.021 	 хотя
0.02 	 говно
0.02 	 дело
0.018 	 ладный
0.016 	 прям
0.012 	 штука
0.011 	 всякий

--- topic #2 ---
0.065 	 вообще
0.047 	 чо
0.028 	 нормальный
0.025 	 игра
0.012 	 способ
0.011 	 например
0.011 	 общий
0.011 	 уметь
0.009 	 кроме
0.009 	 слабак

--- topic #3 ---
0.032 	 пока
0.024 	 понять
0.023 	 нужный
0.021 	 обслуживать
0.018 	 читать
0.018 	 место
0.017 	 сайт
0.016 	 метро
0.015 	 пара
0.015 	 вобщий

--- topic #4 ---
0.05 	 норма
0.039 	 работать
0.037 	 пойти
0.034 	 думать
0.033 	 писать
0.026 	 завтра
0.021 	 этот
0.021 	 бот
0.02 	 сказать
0.02 	 другой

