## Topic Modeling

In [1]:
import pandas as pd
from tqdm import tqdm
import re

from stop_words import get_stop_words
stopwords = get_stop_words('russian')

from gensim import corpora, models
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

In [2]:
articles_df = pd.read_csv('articles_lemm_meta.tsv', sep = '\t', encoding = 'utf-8')

In [3]:
articles_good_rubrics = articles_df[articles_df.final_rubrics != 'Мусор']
articles_good_rubrics = articles_good_rubrics.reset_index(drop = True)
articles_good_rubrics.shape

(24611, 13)

In [5]:
corpus = []
#stops = ['например', 'такой', 'какой', 'который', 'один', 'наш', 'х', 'й']

for text in articles_good_rubrics.text:
    #words = [word for word in text.split() if word not in stops]
    words = re.findall(r'[а-яё]+', text)
    corpus.extend(words)
    
dictionary = corpora.Dictionary([corpus])

articles_bow = [dictionary.doc2bow(text.split()) for text in articles_good_rubrics.text]

lda_18 = models.ldamodel.LdaModel(corpus = articles_bow, id2word = dictionary, num_topics = 18, passes=1)

In [6]:
lda_18.print_topics(num_topics=18, num_words=15)

[(0,
  '0.006*"вопрос" + 0.005*"какой" + 0.005*"один" + 0.005*"человек" + 0.004*"говорить" + 0.004*"россия" + 0.004*"который" + 0.004*"наука" + 0.003*"должный" + 0.003*"дело" + 0.003*"проблема" + 0.003*"страна" + 0.003*"хотеть" + 0.003*"знать" + 0.003*"стать"'),
 (1,
  '0.010*"вид" + 0.008*"найти" + 0.007*"учёный" + 0.006*"обнаружить" + 0.006*"остров" + 0.005*"находка" + 0.005*"птица" + 0.004*"костя" + 0.004*"один" + 0.004*"животное" + 0.004*"археолог" + 0.003*"музей" + 0.003*"останки" + 0.003*"исследование" + 0.003*"место"'),
 (2,
  '0.014*"пациент" + 0.010*"болезнь" + 0.009*"врач" + 0.008*"кровь" + 0.008*"препарат" + 0.008*"лечение" + 0.007*"исследование" + 0.007*"заболевание" + 0.006*"медицинский" + 0.006*"больной" + 0.006*"орган" + 0.005*"лекарство" + 0.005*"случай" + 0.005*"сердце" + 0.004*"испытание"'),
 (3,
  '0.012*"человек" + 0.011*"ребёнок" + 0.010*"исследование" + 0.008*"мозг" + 0.006*"поведение" + 0.006*"группа" + 0.005*"женщина" + 0.005*"социальный" + 0.005*"учёный" + 0.00

In [33]:
topic_ids, words_strs = zip(*lda_18.print_topics(num_topics=18, num_words=15))
topic_words = [','.join(re.findall(r'"(.*?)"', w_str)) for w_str in words_strs]

In [35]:
lda_18_words = pd.DataFrame({'topic_id':topic_ids, 'topic_words':topic_words})
lda_18_words

Unnamed: 0,topic_id,topic_words
0,0,"вопрос,какой,один,человек,говорить,россия,кото..."
1,1,"вид,найти,учёный,обнаружить,остров,находка,пти..."
2,2,"пациент,болезнь,врач,кровь,препарат,лечение,ис..."
3,3,"человек,ребёнок,исследование,мозг,поведение,гр..."
4,4,"аппарат,полёт,корабль,космический,проект,испыт..."
5,5,"язык,слово,страна,русский,война,один,новый,сис..."
6,6,"звезда,земля,телескоп,планета,космический,атмо..."
7,7,"учёный,структура,материал,молекула,метод,испол..."
8,8,"земля,планета,поверхность,учёный,солнце,тело,с..."
9,9,"клетка,ген,днк,вирус,организм,геном,человек,ба..."


In [48]:
lda_18_words.to_csv('lda_18_topics_words.tsv', sep = '\t', encoding='utf-8', index=False)

In [40]:
lda_18.save('lda_18_topics')

In [42]:
lda_test = models.ldamodel.LdaModel.load('lda_18_topics')

In [7]:
corpus = []
stops = ['например', 'такой', 'какой', 'который', 'один', 'наш', 'х', 'й', 'що', 'як', 'дать', 'работа']

for text in articles_good_rubrics.text:
    words = [word for word in re.findall(r'[а-яё]+', text) if word not in stops]
    #words = re.findall(r'[а-яё]+', text)
    corpus.extend(words)
    
dictionary = corpora.Dictionary([corpus])

articles_bow = [dictionary.doc2bow(text.split()) for text in articles_good_rubrics.text]

lda_18_clean = models.ldamodel.LdaModel(corpus = articles_bow, id2word = dictionary, num_topics = 18, passes=1)

In [8]:
lda_18_clean.print_topics(num_topics=18, num_words=15)

[(0,
  '0.007*"пространство" + 0.005*"точка" + 0.005*"мочь" + 0.005*"видеть" + 0.004*"объект" + 0.004*"вопрос" + 0.003*"друг" + 0.003*"знать" + 0.003*"самый" + 0.003*"сторона" + 0.003*"большой" + 0.003*"теория" + 0.003*"дать" + 0.003*"разный" + 0.003*"свет"'),
 (1,
  '0.034*"язык" + 0.014*"слово" + 0.006*"текст" + 0.006*"игра" + 0.005*"дать" + 0.005*"человек" + 0.004*"разный" + 0.004*"система" + 0.004*"русский" + 0.004*"речь" + 0.003*"использовать" + 0.003*"работа" + 0.003*"перевод" + 0.003*"автор" + 0.003*"языковой"'),
 (2,
  '0.007*"дать" + 0.006*"система" + 0.005*"человек" + 0.005*"проблема" + 0.005*"вопрос" + 0.004*"решение" + 0.004*"случай" + 0.004*"закон" + 0.004*"ситуация" + 0.004*"должный" + 0.004*"страна" + 0.004*"результат" + 0.003*"являться" + 0.003*"компания" + 0.003*"исследование"'),
 (3,
  '0.013*"мозг" + 0.012*"клетка" + 0.010*"человек" + 0.009*"исследование" + 0.008*"пациент" + 0.007*"болезнь" + 0.006*"учёный" + 0.005*"заболевание" + 0.005*"лечение" + 0.005*"нейрон" + 0

In [36]:
topic_ids, words_strs = zip(*lda_18_clean.print_topics(num_topics=18, num_words=15))
topic_words = [','.join(re.findall(r'"(.*?)"', w_str)) for w_str in words_strs]

In [37]:
lda_18_clean_words = pd.DataFrame({'topic_id':topic_ids, 'topic_words':topic_words})
lda_18_clean_words

Unnamed: 0,topic_id,topic_words
0,0,"пространство,точка,мочь,видеть,объект,вопрос,д..."
1,1,"язык,слово,текст,игра,дать,человек,разный,сист..."
2,2,"дать,система,человек,проблема,вопрос,решение,с..."
3,3,"мозг,клетка,человек,исследование,пациент,болез..."
4,4,"вопрос,страна,россия,наука,говорить,стать,исто..."
5,5,"компания,робот,система,проект,самолёт,устройст..."
6,6,"сон,вкус,память,человек,як,алкоголь,город,восп..."
7,7,"звезда,планета,земля,галактика,масса,солнце,уч..."
8,8,"квантовый,система,теория,атом,состояние,частиц..."
9,9,"найти,учёный,вид,век,город,обнаружить,остров,н..."


In [44]:
lda_18_clean.save('lda_18_clean_topics')

In [47]:
lda_18_clean_words.to_csv('lda_18_clean_topics_words.tsv', sep = '\t', encoding='utf-8', index=False)

In [15]:
lda_10 = models.ldamodel.LdaModel(corpus = articles_bow, id2word = dictionary, num_topics = 10, passes=1)

2018-06-03 00:01:02,111 : INFO : using symmetric alpha at 0.1
2018-06-03 00:01:02,113 : INFO : using symmetric eta at 0.1
2018-06-03 00:01:02,147 : INFO : using serial LDA version on this node
2018-06-03 00:01:02,511 : INFO : running online (single-pass) LDA training, 10 topics, 1 passes over the supplied corpus of 24611 documents, updating model once every 2000 documents, evaluating perplexity every 20000 documents, iterating 50x with a convergence threshold of 0.001000
2018-06-03 00:01:02,514 : INFO : PROGRESS: pass 0, at document #2000/24611
2018-06-03 00:01:06,531 : INFO : merging changes from 2000 documents into a model of 24611 documents
2018-06-03 00:01:06,914 : INFO : topic #9 (0.100): 0.010*"учёный" + 0.005*"исследование" + 0.005*"клетка" + 0.004*"человек" + 0.003*"результат" + 0.003*"новый" + 0.003*"дать" + 0.003*"работа" + 0.003*"исследователь" + 0.003*"использовать"
2018-06-03 00:01:06,918 : INFO : topic #0 (0.100): 0.008*"учёный" + 0.006*"исследование" + 0.005*"система" + 

2018-06-03 00:01:29,085 : INFO : topic #8 (0.100): 0.011*"звезда" + 0.008*"учёный" + 0.008*"планета" + 0.007*"объект" + 0.007*"система" + 0.006*"телескоп" + 0.005*"изображение" + 0.005*"земля" + 0.005*"дать" + 0.005*"аппарат"
2018-06-03 00:01:29,089 : INFO : topic #4 (0.100): 0.008*"материал" + 0.005*"учёный" + 0.004*"поверхность" + 0.004*"использовать" + 0.004*"работа" + 0.004*"автор" + 0.004*"слой" + 0.003*"новый" + 0.003*"метод" + 0.003*"помощь"
2018-06-03 00:01:29,093 : INFO : topic diff=0.474247, rho=0.408248
2018-06-03 00:01:29,095 : INFO : PROGRESS: pass 0, at document #14000/24611
2018-06-03 00:01:32,446 : INFO : merging changes from 2000 documents into a model of 24611 documents
2018-06-03 00:01:32,833 : INFO : topic #3 (0.100): 0.008*"частица" + 0.007*"учёный" + 0.006*"земля" + 0.006*"энергия" + 0.005*"вода" + 0.005*"атмосфера" + 0.004*"масса" + 0.004*"поверхность" + 0.004*"звезда" + 0.004*"галактика"
2018-06-03 00:01:32,837 : INFO : topic #2 (0.100): 0.009*"робот" + 0.006*"а

2018-06-03 00:02:07,534 : INFO : topic #8 (0.100): 0.017*"звезда" + 0.008*"планета" + 0.008*"галактика" + 0.007*"объект" + 0.007*"телескоп" + 0.007*"земля" + 0.006*"система" + 0.006*"учёный" + 0.006*"солнце" + 0.006*"чёрный"
2018-06-03 00:02:07,537 : INFO : topic #3 (0.100): 0.008*"частица" + 0.008*"земля" + 0.007*"энергия" + 0.005*"учёный" + 0.005*"вселенная" + 0.005*"вода" + 0.005*"большой" + 0.005*"масса" + 0.004*"температура" + 0.004*"атмосфера"
2018-06-03 00:02:07,541 : INFO : topic #0 (0.100): 0.013*"компания" + 0.010*"система" + 0.008*"проект" + 0.006*"использовать" + 0.006*"новый" + 0.006*"устройство" + 0.005*"самолёт" + 0.005*"разработка" + 0.005*"технология" + 0.005*"полёт"
2018-06-03 00:02:07,544 : INFO : topic diff=0.581352, rho=0.288675
2018-06-03 00:02:11,542 : INFO : -9.188 per-word bound, 583.2 perplexity estimate based on a held-out corpus of 611 documents with 369230 words
2018-06-03 00:02:11,543 : INFO : PROGRESS: pass 0, at document #24611/24611
2018-06-03 00:02:12,

In [7]:
logging.disable(level = logging.INFO)

In [21]:
lda_10.print_topics(10)

[(0,
  '0.013*"компания" + 0.009*"система" + 0.008*"проект" + 0.006*"полёт" + 0.006*"испытание" + 0.006*"использовать" + 0.005*"новый" + 0.005*"аппарат" + 0.005*"технология" + 0.005*"самолёт"'),
 (1,
  '0.013*"клетка" + 0.007*"учёный" + 0.006*"исследование" + 0.006*"вид" + 0.006*"ген" + 0.006*"человек" + 0.005*"болезнь" + 0.005*"организм" + 0.004*"вирус" + 0.004*"днк"'),
 (2,
  '0.005*"город" + 0.004*"страна" + 0.003*"война" + 0.003*"власть" + 0.003*"стать" + 0.003*"корабль" + 0.003*"год" + 0.003*"место" + 0.003*"должный" + 0.003*"проект"'),
 (3,
  '0.008*"земля" + 0.007*"частица" + 0.007*"энергия" + 0.006*"учёный" + 0.005*"температура" + 0.005*"вода" + 0.005*"атмосфера" + 0.004*"марс" + 0.004*"большой" + 0.004*"масса"'),
 (4,
  '0.009*"материал" + 0.007*"учёный" + 0.006*"структура" + 0.005*"использовать" + 0.004*"молекула" + 0.004*"получить" + 0.004*"работа" + 0.004*"метод" + 0.004*"поверхность" + 0.004*"свойство"'),
 (5,
  '0.008*"язык" + 0.005*"вопрос" + 0.004*"человек" + 0.004*"сло

In [39]:
topic_ids, words_strs = zip(*lda_10.print_topics(num_topics=18, num_words=15))
topic_words = [','.join(re.findall(r'"(.*?)"', w_str)) for w_str in words_strs]

lda_10_words = pd.DataFrame({'topic_id':topic_ids, 'topic_words':topic_words})
lda_10_words

Unnamed: 0,topic_id,topic_words
0,0,"компания,система,проект,полёт,испытание,исполь..."
1,1,"клетка,учёный,исследование,вид,ген,человек,бол..."
2,2,"город,страна,война,власть,стать,корабль,год,ме..."
3,3,"земля,частица,энергия,учёный,температура,вода,..."
4,4,"материал,учёный,структура,использовать,молекул..."
5,5,"язык,вопрос,человек,слово,говорить,наука,дело,..."
6,6,"система,теория,квантовый,волна,состояние,прост..."
7,7,"век,найти,человек,учёный,обнаружить,современны..."
8,8,"звезда,планета,земля,галактика,телескоп,учёный..."
9,9,"мозг,человек,дать,исследование,работа,исследов..."


In [46]:
lda_10_words.to_csv('lda_10_topics_words.tsv', sep = '\t', encoding='utf-8', index=False)

In [45]:
lda_10.save('lda_10_topics')

In [27]:
text_bow = dictionary.doc2bow(articles_good_rubrics.iloc[19].text.split())

In [28]:
print(lda[text_bow])

[(4, 0.018402226), (7, 0.03657606), (8, 0.10375506), (13, 0.67025685), (15, 0.14280741)]


In [22]:
lda_18_clean.bound(articles_bow)

-100577159.93570904

In [23]:
lda_18_clean.log_perplexity(articles_bow)

-8.733284501937774

In [24]:
cm = models.CoherenceModel(model=lda_18_clean, corpus=articles_bow, coherence='u_mass')  # tm is the trained topic model
cm.get_coherence()

-1.6493776737416423

In [26]:
cm = models.CoherenceModel(model=lda_10, corpus=articles_bow, coherence='u_mass')  # tm is the trained topic model
cm.get_coherence()

-1.2520069786308308

In [13]:
corpus = []
stops = ['например', 'такой', 'какой', 'который', 'один', 'наш', 'х', 'й', 'що', 'як', 'дать', 'работа']

for text in articles_good_rubrics.text:
    words = [word for word in re.findall(r'[а-яё]+', text) if word not in stops]
    #words = re.findall(r'[а-яё]+', text)
    corpus.extend(words)
    
dictionary = corpora.Dictionary([corpus])


In [4]:
corpus = []
stops = ['например', 'такой', 'какой', 'который', 'один', 'наш', 'х', 'й', 'що', 'як', 'дать', 'работа']

for text in articles_good_rubrics.text:
    words = [word for word in re.findall(r'[а-яё]+', text) if word not in stops]
    #words = re.findall(r'[а-яё]+', text)
    corpus.extend(words)
    
dictionary = corpora.Dictionary([corpus])

articles_bow = [dictionary.doc2bow(text.split()) for text in articles_good_rubrics.text]

lda_18_new = models.ldamodel.LdaModel(corpus = articles_bow, id2word = dictionary, num_topics = 18, passes=1)

2018-06-23 17:12:35,534 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2018-06-23 17:12:43,307 : INFO : built Dictionary(176491 unique tokens: ['а', 'аа', 'ааа', 'аааа', 'аааааа']...) from 1 documents (total 11461234 corpus positions)
2018-06-23 17:12:58,967 : INFO : using symmetric alpha at 0.05555555555555555
2018-06-23 17:12:58,968 : INFO : using symmetric eta at 0.05555555555555555
2018-06-23 17:12:59,002 : INFO : using serial LDA version on this node
2018-06-23 17:12:59,672 : INFO : running online (single-pass) LDA training, 18 topics, 1 passes over the supplied corpus of 24611 documents, updating model once every 2000 documents, evaluating perplexity every 20000 documents, iterating 50x with a convergence threshold of 0.001000
2018-06-23 17:12:59,675 : INFO : PROGRESS: pass 0, at document #2000/24611
2018-06-23 17:13:04,872 : INFO : merging changes from 2000 documents into a model of 24611 documents
2018-06-23 17:13:05,662 : INFO : topic #7 (0.056): 0.010*"учёный"

2018-06-23 17:13:36,816 : INFO : topic #9 (0.056): 0.009*"учёный" + 0.004*"магнитный" + 0.004*"днк" + 0.004*"ядерный" + 0.004*"получить" + 0.004*"реактор" + 0.003*"реакция" + 0.003*"использовать" + 0.003*"эксперимент" + 0.003*"система"
2018-06-23 17:13:36,822 : INFO : topic #16 (0.056): 0.004*"город" + 0.003*"ребёнок" + 0.003*"автомобиль" + 0.002*"книга" + 0.002*"работать" + 0.002*"вид" + 0.002*"свой" + 0.002*"стать" + 0.002*"дело" + 0.002*"слово"
2018-06-23 17:13:36,826 : INFO : topic #3 (0.056): 0.009*"учёный" + 0.009*"материал" + 0.008*"автор" + 0.006*"использовать" + 0.005*"метод" + 0.005*"устройство" + 0.005*"помощь" + 0.005*"исследователь" + 0.004*"атом" + 0.004*"университет"
2018-06-23 17:13:36,830 : INFO : topic #5 (0.056): 0.012*"учёный" + 0.008*"обнаружить" + 0.007*"найти" + 0.006*"земля" + 0.006*"планета" + 0.005*"вода" + 0.005*"лёд" + 0.004*"поверхность" + 0.004*"исследователь" + 0.004*"исследование"
2018-06-23 17:13:36,836 : INFO : topic diff=0.633803, rho=0.408248
2018-06

2018-06-23 17:14:37,345 : INFO : topic #1 (0.056): 0.007*"век" + 0.005*"город" + 0.005*"война" + 0.004*"робот" + 0.003*"слово" + 0.003*"храм" + 0.003*"военный" + 0.003*"текст" + 0.003*"год" + 0.003*"империя"
2018-06-23 17:14:37,350 : INFO : topic #11 (0.056): 0.030*"язык" + 0.010*"человек" + 0.008*"слово" + 0.004*"разный" + 0.004*"говорить" + 0.003*"образ" + 0.003*"группа" + 0.003*"мозг" + 0.003*"мочь" + 0.003*"русский"
2018-06-23 17:14:37,354 : INFO : topic #12 (0.056): 0.010*"человек" + 0.007*"система" + 0.006*"ребёнок" + 0.006*"социальный" + 0.006*"задача" + 0.005*"информация" + 0.005*"игра" + 0.005*"слово" + 0.004*"разный" + 0.004*"исследование"
2018-06-23 17:14:37,357 : INFO : topic #2 (0.056): 0.014*"вид" + 0.012*"птица" + 0.008*"учёный" + 0.007*"животное" + 0.007*"самка" + 0.007*"самец" + 0.005*"насекомое" + 0.005*"исследование" + 0.004*"человек" + 0.004*"исследователь"
2018-06-23 17:14:37,362 : INFO : topic #9 (0.056): 0.015*"растение" + 0.006*"реакция" + 0.005*"учёный" + 0.005

In [5]:
lda_18_new.print_topics(num_topics=18, num_words=15)

2018-06-23 17:15:46,857 : INFO : topic #0 (0.056): 0.016*"частица" + 0.013*"теория" + 0.009*"квантовый" + 0.009*"физика" + 0.008*"энергия" + 0.007*"нейтрино" + 0.006*"взаимодействие" + 0.006*"эксперимент" + 0.006*"модель" + 0.005*"электрон" + 0.005*"состояние" + 0.005*"физик" + 0.004*"масса" + 0.004*"атом" + 0.004*"материя"
2018-06-23 17:15:46,862 : INFO : topic #1 (0.056): 0.008*"век" + 0.005*"город" + 0.005*"война" + 0.004*"король" + 0.003*"надпись" + 0.003*"храм" + 0.003*"музей" + 0.003*"стать" + 0.003*"год" + 0.003*"робот" + 0.003*"текст" + 0.003*"слово" + 0.002*"римский" + 0.002*"войско" + 0.002*"монета"
2018-06-23 17:15:46,866 : INFO : topic #2 (0.056): 0.014*"вид" + 0.009*"птица" + 0.008*"учёный" + 0.007*"животное" + 0.006*"самка" + 0.006*"самец" + 0.005*"насекомое" + 0.005*"тело" + 0.005*"исследование" + 0.004*"университет" + 0.004*"человек" + 0.004*"исследователь" + 0.004*"яйцо" + 0.004*"женщина" + 0.004*"случай"
2018-06-23 17:15:46,871 : INFO : topic #3 (0.056): 0.009*"учёный

[(0,
  '0.016*"частица" + 0.013*"теория" + 0.009*"квантовый" + 0.009*"физика" + 0.008*"энергия" + 0.007*"нейтрино" + 0.006*"взаимодействие" + 0.006*"эксперимент" + 0.006*"модель" + 0.005*"электрон" + 0.005*"состояние" + 0.005*"физик" + 0.004*"масса" + 0.004*"атом" + 0.004*"материя"'),
 (1,
  '0.008*"век" + 0.005*"город" + 0.005*"война" + 0.004*"король" + 0.003*"надпись" + 0.003*"храм" + 0.003*"музей" + 0.003*"стать" + 0.003*"год" + 0.003*"робот" + 0.003*"текст" + 0.003*"слово" + 0.002*"римский" + 0.002*"войско" + 0.002*"монета"'),
 (2,
  '0.014*"вид" + 0.009*"птица" + 0.008*"учёный" + 0.007*"животное" + 0.006*"самка" + 0.006*"самец" + 0.005*"насекомое" + 0.005*"тело" + 0.005*"исследование" + 0.004*"университет" + 0.004*"человек" + 0.004*"исследователь" + 0.004*"яйцо" + 0.004*"женщина" + 0.004*"случай"'),
 (3,
  '0.009*"учёный" + 0.008*"материал" + 0.008*"структура" + 0.007*"метод" + 0.006*"молекула" + 0.006*"использовать" + 0.006*"атом" + 0.006*"свет" + 0.006*"свойство" + 0.005*"темпер

In [6]:
lda_18_new.save('lda_18_new')

2018-06-23 17:22:52,772 : INFO : saving LdaState object under lda_18_new.state, separately None
2018-06-23 17:22:52,870 : INFO : saved lda_18_new.state
2018-06-23 17:22:53,060 : INFO : saving LdaModel object under lda_18_new, separately ['expElogbeta', 'sstats']
2018-06-23 17:22:53,061 : INFO : storing np array 'expElogbeta' to lda_18_new.expElogbeta.npy
2018-06-23 17:22:53,072 : INFO : not storing attribute state
2018-06-23 17:22:53,073 : INFO : not storing attribute id2word
2018-06-23 17:22:53,074 : INFO : not storing attribute dispatcher
2018-06-23 17:22:53,078 : INFO : saved lda_18_new


In [12]:
lda_test = models.ldamodel.LdaModel.load('lda_18_new')

In [24]:
articles_good_rubrics.iloc[20000]

path                 polit.ru_proscience/proscience_news/news-2013-...
source                              http://polit.ru/rubric/proscience/
url                                  polit.ru//news/2013/10/22/ps_tec/
date                                                   22 октября 2013
title                         Япония представляет обновленную мини-ТЭЦ
subtitle                                                           NaN
author                                                             NaN
tags                 _инновации_новые технологии, инновации_энергет...
genre                                                          Новости
mapped_rubrics                       Мусор|Мусор|Технологии|Технологии
final_rubrics                                               Технологии
number_of_rubrics                                                  One
text                 интеллектуальный партнёр проект компания pa as...
Name: 20000, dtype: object

In [38]:
text_bow = dictionary.doc2bow(articles_good_rubrics.iloc[19].text.split())
topic_index = sorted(lda_test[text_bow], key = lambda x: x[1], reverse = True)[0][0]

"""
topic, prob = zip(*lda_test[text_bow])
#print(topic)
#print(prob)
p_max = max(prob)
topic_index = [i for i, p in enumerate(prob) if p == p_max][0]"""
print(topic_index)

17


In [10]:
topic_ids, words_strs = zip(*lda_18_new.print_topics(num_topics=18, num_words=15))
topic_words = [','.join(re.findall(r'"(.*?)"', w_str)) for w_str in words_strs]

lda_18_new_words = pd.DataFrame({'topic_id':topic_ids, 'topic_words':topic_words})
lda_18_new_words.head()

Unnamed: 0,topic_id,topic_words
0,0,"частица,теория,квантовый,физика,энергия,нейтри..."
1,1,"век,город,война,король,надпись,храм,музей,стат..."
2,2,"вид,птица,учёный,животное,самка,самец,насекомо..."
3,3,"учёный,материал,структура,метод,молекула,испол..."
4,4,"компания,устройство,технология,система,доллар,..."


In [11]:
lda_18_new_words.to_csv('lda_18_new_words.tsv', sep = '\t', encoding='utf-8', index=False)

In [44]:
def topic_inference(text_corpus, dictionary, lda_model):
    topic_list = []
    prob_list = []
    for text in tqdm(text_corpus):
        text_bow = dictionary.doc2bow(text.split())
        topic = sorted(lda_model[text_bow], key = lambda x: x[1], reverse = True)[0]
        topic_list.append(topic[0])
        prob_list.append(topic[1])
    return topic_list, prob_list

In [47]:
topics,probs = topic_inference(articles_good_rubrics.text, dictionary, lda_test)

100%|██████████| 24611/24611 [01:22<00:00, 297.35it/s]


In [40]:
topics_inferred 

In [49]:
print(topics[:10])
print(probs[:10])

[5, 5, 15, 0, 7, 15, 12, 15, 5, 2]
[0.5473528, 0.58608824, 0.8562803, 0.8221557, 0.67211235, 0.46244016, 0.71337926, 0.6474322, 0.2725673, 0.29155666]


In [50]:
articles_good_rubrics['lda_topic'] = topics
articles_good_rubrics['lda_probability'] = probs

In [51]:
articles_good_rubrics.head()

Unnamed: 0,path,source,url,date,title,subtitle,author,tags,genre,mapped_rubrics,final_rubrics,number_of_rubrics,text,lda_topic,lda_probability
0,chrdk.ru/articles/sci_10_salt_lakes.txt,https://chrdk.ru/,https://chrdk.ru/sci/10_salt_lakes,16.08.2017,Десять самых известных соленых озер,,Егор Задереев,География_Экология,Статьи,Науки о земле|Науки о земле,Науки о земле,One,возможно знать объём вода пресный солёный озер...,5,0.547353
1,chrdk.ru/articles/sci_33_fractures.txt,https://chrdk.ru/,https://chrdk.ru/sci/33_fractures,08.08.2017,33 перелома,Скелет мужчины с 33 переломами нашли археологи...,Екатерина Боровикова,Российская наука_Антропология,Статьи,История|Мусор,История,One,останки мужчина зажить перелом найти раскопка ...,5,0.586088
2,chrdk.ru/articles/sci_46_chromosomes.txt,https://chrdk.ru/,https://chrdk.ru/sci/46_chromosomes,04.08.2017,46 — норма?,Считаем хромосомы: сколько человеку для счасть...,Полина Лосева,Генетика_Медицина,Статьи,Физиология человека|Физиология человека,Физиология человека,One,отличие зуб хромосома человек положить строго ...,15,0.85628
3,chrdk.ru/articles/sci_750gev.txt,https://chrdk.ru/,https://chrdk.ru/sci/750gev,23.08.2016,Несбывшиеся надежды на новую физику,Какие «страшные сценарии» физики хотели забыть...,Екатерина Боровикова,Физика_Интервью_Закрытия,Статьи,Мусор|Мусор|Физика,Физика,One,начало август cern официально объявить частица...,0,0.822156
4,chrdk.ru/articles/sci_alien_anatomy.txt,https://chrdk.ru/,https://chrdk.ru/sci/alien_anatomy,22.05.2017,Анатомия каменных пришельцев,Спецпроект «Чердака» и «Красивой науки»,,Геология_Космос,Статьи,Космос|Науки о земле,Космос,Multi,выглядеть отличаться друг друг гость различный...,7,0.672112


In [52]:
articles_good_rubrics.to_csv('articles_lda_topics.tsv', sep='\t', encoding='utf-8', index=False)

In [61]:
rubrics = articles_good_rubrics.final_rubrics

for i in range(18):
    print(i)
    print(rubrics.groupby(articles_good_rubrics.lda_topic).value_counts()[i])
    print('\n')

0
final_rubrics
Физика                 630
Космос                  69
Технологии              15
Химия                   13
Математика              10
Физиология человека     10
Футурология              8
История                  5
Computer Science         4
Биология                 2
Культура                 1
Науки о земле            1
Социология               1
Экономика                1
Name: final_rubrics, dtype: int64


1
final_rubrics
История                598
Культура               118
Технологии             113
Язык                    40
Науки о земле           10
Физиология человека      9
Биология                 8
Computer Science         7
Физика                   7
Химия                    7
Социология               6
Космос                   4
Футурология              3
Философия                1
Name: final_rubrics, dtype: int64


2
final_rubrics
Биология               1047
Технологии              115
Физиология человека      70
Науки о земле            31
Культура    

In [62]:
#articles_good_rubrics.groupby(['lda_topic', 'final_rubrics']).size()#.sort_values(acsending = False)