In [1]:
import numpy as np
import sys
import os

In [2]:
module_path = os.path.abspath(os.path.join('..')) # Path to root folder
if module_path not in sys.path:
    sys.path.append(module_path + "/scripts") # define scripts path

from ipynb_func import *

In [3]:
NUM = 1 # Number of data parquets to use

assert NUM >= 1 and NUM <= 10, "NUM value must be in range [1, 10]"
paths = [module_path + f"/data/pikabu/tag_processed/{i}_tag_processed.parquet" for i in range(NUM)] # Making list of roots to merge 

data = merge_dataset(paths)

In [4]:
data.head(5)

Unnamed: 0,text_markdown,tags
8,"[сломаться, китайский, телевизор, сломаться, к...",[Юмор]
10,"[вспоминать, успешный, операция, британский, м...",[История]
11,"[жаловаться, трудиться, помощник, руководитель...","[Еда, Текст]"
15,"[добрый, сутки, господин, дама, подсказывать, ...","[Игры, Текст]"
23,"[негр, ходить, больница, читать, зад, больной,...",[Текст]


In [5]:
from gensim.models.ldamodel import LdaModel, CoherenceModel
from gensim.corpora.dictionary import Dictionary

In [6]:
data_text = [t.tolist() for t in data.text_markdown]
dict = Dictionary(data_text)
corpus = [dict.doc2bow(text) for text in data_text]

#[[(dict[i], freq) for i, freq in line] for line in corpus[:1]]

In [7]:
tags_list = getwordlist(data.tags)
tags_list = getworddict(tags_list)
num_topics = len(tags_list)
print('Number of topics to predict:', num_topics)

Number of topics to predict: 48


In [8]:
np.random.seed(4228)

lda_cfg = {'num_topics': num_topics,
           'epochs': 10,
           'chunksize': 100,
           'update_every': 10}

In [9]:
LDA = LdaModel(corpus=corpus,
               id2word=dict,
               num_topics=lda_cfg['num_topics'],
               passes=lda_cfg['epochs'],
               chunksize=lda_cfg['chunksize'],
               update_every=lda_cfg['update_every'],
               alpha='auto',
               eta='auto')

In [10]:
print('Perplexity of a model:', LDA.log_perplexity(corpus))

Perplexity of a model: -8.217921785430276


In [11]:
coher = CoherenceModel(model=LDA, texts=data_text, dictionary=dict, coherence='c_v')
coher_lda = coher.get_coherence()
print('Coherence of a model:', coher_lda)

Coherence of a model: 0.4546552583663923


In [25]:
LDA.show_topics(num_topics=10, formatted=True)

[(7,
  '0.043*"салон" + 0.026*"авария" + 0.023*"водитель" + 0.022*"оружие" + 0.021*"команда" + 0.019*"автомобиль" + 0.018*"останавливать" + 0.018*"тренер" + 0.017*"попадать" + 0.016*"пистолет"'),
 (44,
  '0.081*"германия" + 0.040*"польша" + 0.033*"немец" + 0.028*"франция" + 0.027*"гитлер" + 0.026*"европа" + 0.025*"парк" + 0.024*"немецкий" + 0.024*"польский" + 0.020*"ссср"'),
 (22,
  '0.070*"станция" + 0.032*"строительство" + 0.029*"перевод" + 0.028*"площадь" + 0.020*"напряжение" + 0.020*"мороженое" + 0.018*"ток" + 0.017*"ленин" + 0.013*"ответ" + 0.012*"минск"'),
 (37,
  '0.077*"пакет" + 0.054*"гараж" + 0.033*"пластиковый" + 0.032*"код" + 0.028*"долг" + 0.023*"горячий" + 0.022*"марс" + 0.019*"копейка" + 0.017*"резать" + 0.017*"отправка"'),
 (46,
  '0.093*"сергей" + 0.040*"инспектор" + 0.032*"телевизор" + 0.024*"конкурс" + 0.022*"иванов" + 0.022*"зуб" + 0.018*"лук" + 0.016*"чистить" + 0.015*"мед" + 0.015*"яблоко"'),
 (28,
  '0.007*"система" + 0.007*"сша" + 0.006*"доллар" + 0.005*"миллион

In [13]:
top = LDA.top_topics(corpus=corpus)
coh = []
for topic in top:
    for word in topic[0]:
        coh.append(word[0])
coh = np.mean(coh)

print('Mean coherence of a words: ', coh)

Mean coherence of a words:  0.011597135


In [14]:
THRESHOLD = 0.15

corpus_topics = []
for sentence in corpus:
    topics = LDA.get_document_topics(sentence)
    topics = sorted(topics, key=lambda x: x[1], reverse=True)
    topics_for_sentence = []
    for i in range(len(topics)):
        if topics[i][1] > THRESHOLD:
            topics_for_sentence.append(topics[i][0])
    corpus_topics.append(topics_for_sentence)

data['corpus_topics'] = corpus_topics

In [15]:
data.head(10)

Unnamed: 0,text_markdown,tags,corpus_topics
8,"[сломаться, китайский, телевизор, сломаться, к...",[Юмор],"[15, 10]"
10,"[вспоминать, успешный, операция, британский, м...",[История],"[21, 31]"
11,"[жаловаться, трудиться, помощник, руководитель...","[Еда, Текст]",[3]
15,"[добрый, сутки, господин, дама, подсказывать, ...","[Игры, Текст]",[29]
23,"[негр, ходить, больница, читать, зад, больной,...",[Текст],"[34, 7, 39]"
28,"[мужик, российский, али, смена, совесть, пород...",[Текст],"[3, 39]"
29,"[дополнение, пост, уровень, российский, наука,...",[СССР],"[19, 37, 28]"
33,"[центр, киев, взрыв, предварительный, данный, ...","[Новости, Украина]",[9]
37,"[ехать, девчонка, школа, оставаться, свободный...","[Юмор, Текст]","[10, 15]"
41,"[яблоко, проклятие, вспоминать, прошлый, век, ...",[Мат],"[46, 3]"


In [16]:
import pyLDAvis.gensim

pyLDAvis.enable_notebook()
pyLDAvis.gensim.prepare(LDA, corpus, dict)

In [22]:
a = input('Are you sure, that you want to save the model? (Y/n)')
if a == 'Y':
    model_path = module_path + '/models/'
    LDA.save(model_path + 'lda_model_for_48_topics.model')