In [1]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
import re
from collections import Counter

import gensim as gsm
import pymorphy2 as pmr

from guidialogs import ffp, fdp
from textproc import rwtools
from tempscripts import codeutils as cdu
from tempscripts import corpproc as crp
from tempscripts import iopickler as iop
from tempscripts import reader_for_csv as rfc

2019-12-06 11:16:32,664 : INFO : Loading dictionaries from C:\Users\EA-ShevchenkoIS\AppData\Local\Continuum\anaconda3\lib\site-packages\pymorphy2_dicts\data
2019-12-06 11:16:32,993 : INFO : format: 2.4, revision: 393442, updated: 2015-01-17T16:03:56.586168
2019-12-06 11:16:33,168 : INFO : Loading dictionaries from C:\Users\EA-ShevchenkoIS\AppData\Local\Continuum\anaconda3\lib\site-packages\pymorphy2_dicts\data
2019-12-06 11:16:33,236 : INFO : format: 2.4, revision: 393442, updated: 2015-01-17T16:03:56.586168


In [46]:
def pretty_printer(list_of_info):
    for ind, item in enumerate(list_of_info, start=1):
        _, data = item
        print(ind, ', '.join(re.findall(r'(?<=")[а-я0-9].*?(?=")', data)), sep='    ')

In [61]:
def model_iterator(model, tfidf_corpus, dictionary, num_of_topics, **params):
    if not isinstance(num_of_topics, list):
       raise TypeError('incorrect data in "num_of_topics" argument')
    for num in num_of_topics:
        print('='*96)
        print('Num of topics', num)
        print('='*96)
        trained_model = model(tfidf_corpus, id2word=dictionary, num_topics=num, **params)
        topics = trained_model.print_topics(num_words=20)
        pretty_printer(topics)

# 1. Обрабатываем новый корпус "_TestSuit EC 43241 date 01092016-01092019"

In [2]:
corp_it = rfc.CommonReader(fdp())
corp_it.create_readers()
len(corp_it)

42625

In [4]:
ec_all_date = crp.main((d['Текст документа'] for  d in corp_it), fdp(), '43241_date')

Corpus length unavailable
Docs: 10000
Totlal words: 81688
Docs: 20000
Totlal words: 106125
Docs: 30000
Totlal words: 139991
Docs: 40000
Totlal words: 171885
Processed words: 10000
Processed words: 20000
Processed words: 30000
Processed words: 40000
Processed words: 50000
Processed words: 60000
Processed words: 70000
Processed words: 80000
Processed words: 90000
Processed words: 100000
Processed words: 110000
Processed words: 120000
Processed words: 130000
Processed words: 140000
Processed words: 150000
Processed words: 160000
Processed words: 170000
Dictionaries were created:   2 min, 58.856 sec
Dictionaries were saved:   0 min,  0.762 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000
Docs:  40000
Corpus was lemmatized:   1 min, 36.607 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000
Docs:  40000
Bg_tk was created:   3 min, 10.063 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000
Docs:  40000
Bg_lm was created:   1 min, 37.505 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000


In [10]:
' '.join(ec_all_date['tk'][0])

'саратовский областной суд апелляционное определение от августа г по делу судья кожахин а н судебная коллегия по гражданским делам саратовского областного суда в составе председательствующего гладченко а н судей негласона а а чаплыгиной т в при секретаре и рассмотрела в открытом судебном заседании гражданское дело по исковому заявлению е к государственному учреждению управлению пенсионного фонда российской федерации в ленинском районе г саратова межрайонное о признании решения об отказе в назначении досрочной страховой пенсии по старости незаконным включении в стаж работу дающей право на досрочное назначение страховой пенсии по старости по апелляционной жалобе государственного учреждения управления пенсионного фонда российской федерации в ленинском районе г саратова межрайонное на решение ленинского районного суда г саратова от г которым в исковые требования удовлетворены заслушав доклад судьи гладченко а н объяснения представителя ответчика п поддержавшей доводы жалобы изучив материал

In [11]:
ec_all_date['tk'][0][:10]

['саратовский',
 'областной',
 'суд',
 'апелляционное',
 'определение',
 'от',
 'августа',
 'г',
 'по',
 'делу']

# 2. Тестирование алгоритмов gensim на ТОКЕНАХ

## 2.1. Используем простой корпус без предобработки и без ограничения на частотности встречаемости ни снизу, ни сверху

In [5]:
gsm_dct_tok = gsm.corpora.Dictionary(doc for doc in ec_all_date['tk'])

2019-12-06 11:44:15,638 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2019-12-06 11:44:43,743 : INFO : adding document #10000 to Dictionary(81688 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-06 11:45:12,310 : INFO : adding document #20000 to Dictionary(106132 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-06 11:45:44,680 : INFO : adding document #30000 to Dictionary(139991 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-06 11:46:54,589 : INFO : adding document #40000 to Dictionary(171889 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-06 11:47:04,957 : INFO : built Dictionary(178331 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...) from 42625 documents (total 79878376 corpus positions)


In [7]:
gsm_dct_tok_tfidf = gsm.models.TfidfModel(gsm_dct_tok.doc2bow(doc) for doc in ec_all_date['tk'])

2019-12-06 11:53:30,180 : INFO : collecting document frequencies
2019-12-06 11:53:30,184 : INFO : PROGRESS: processing document #0
2019-12-06 11:53:54,098 : INFO : PROGRESS: processing document #10000
2019-12-06 11:54:15,213 : INFO : PROGRESS: processing document #20000
2019-12-06 11:54:39,037 : INFO : PROGRESS: processing document #30000
2019-12-06 11:55:12,257 : INFO : PROGRESS: processing document #40000
2019-12-06 11:55:18,889 : INFO : calculating IDF weights for 42625 documents and 178331 features (28869794 matrix non-zeros)


In [9]:
gsm_corp_tok_tfidf = list(gsm_dct_tok_tfidf[conv_doc] for conv_doc in (gsm_dct_tok.doc2bow(doc) for doc in ec_all_date['tk']))

In [12]:
len(gsm_corp_tok_tfidf)

42625

##### Почему-то корпус порядка 2,5 Гб оперативной памяти, что довольно странно для такого размера...
upd: такой результат получился из-за python memory allocation и python garbadge collector - в последующих тестах объем выделенной памяти уменьшился

### 2.1.1. Тестирование LDA (7, 10, 12, 15, 17, 20 топиков)

In [60]:
model_iterator(gsm.models.LdaMulticore, gsm_corp_tok_tfidf, gsm_dct_tok, [7,10,12,15,17,20], alpha='asymmetric', eta='auto', iterations=5)

2019-12-06 13:26:59,392 : INFO : using asymmetric alpha [0.26219156, 0.19027454, 0.14931786, 0.12287004, 0.104381524, 0.090729296, 0.080235206]
2019-12-06 13:26:59,447 : INFO : using serial LDA version on this node


Num of topics 7


2019-12-06 13:26:59,682 : INFO : running online LDA training, 7 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:26:59,690 : INFO : training LDA model using 3 processes
2019-12-06 13:27:00,087 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:27:00,091 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:27:00,096 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:27:00,102 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:27:00,115 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:27:00,123 : INFO : PROGRESS: pass 

2019-12-06 13:29:33,641 : INFO : topic #5 (0.091): 0.001*"фио" + 0.001*"ооо" + 0.001*"кассационной" + 0.001*"коап" + 0.001*"москвы" + 0.001*"москве" + 0.000*"руб" + 0.000*"московского" + 0.000*"административного" + 0.000*"иностранных"
2019-12-06 13:29:33,646 : INFO : topic #2 (0.149): 0.002*"ооо" + 0.001*"мм" + 0.001*"старости" + 0.001*"пенсии" + 0.001*"дд" + 0.001*"дата" + 0.001*"руб" + 0.001*"фио" + 0.001*"гггг" + 0.001*"коап"
2019-12-06 13:29:33,651 : INFO : topic #1 (0.190): 0.001*"дд" + 0.001*"ооо" + 0.001*"коап" + 0.001*"мм" + 0.001*"гггг" + 0.001*"фио" + 0.001*"выплаты" + 0.001*"заработной" + 0.001*"дата" + 0.001*"административном"
2019-12-06 13:29:33,657 : INFO : topic #0 (0.262): 0.002*"коап" + 0.002*"ооо" + 0.002*"фио" + 0.001*"дата" + 0.001*"гггг" + 0.001*"административного" + 0.001*"дд" + 0.001*"мм" + 0.001*"руб" + 0.001*"правонарушении"
2019-12-06 13:29:33,662 : INFO : topic diff=0.170568, rho=0.258199
2019-12-06 13:29:36,909 : INFO : PROGRESS: pass 0, dispatched chunk #18

1    мм, дд, гггг, коап, изъяты, ооо, руб, фио, труда, республики, административного, края, дата, заработной, правонарушении, платы, административном, внутренних, административных, ущерба
2    дд, мм, гггг, ооо, заработной, выплаты, красноярского, оплаты, фио, коап, старости, увольнения, пенсии, увольнении, платы, б, руб, изъяты, истца, вреда
3    старости, пенсии, ооо, мм, дд, стаж, дата, руб, гггг, фио, периоды, коап, пенсиях, кассационной, административного, страховой, москвы, тк, заработной, периодов
4    коап, административного, ооо, москвы, фио, кассационной, москве, иностранных, правонарушении, правонарушения, россии, руб, административном, внутренних, иностранного, гггг, ип, дд, города, федерального
5    коап, ооо, фио, иностранных, дата, кассационной, москвы, административного, руб, правонарушении, москве, правонарушения, тк, иностранного, увольнения, дисциплинарного, патента, рф, работе, заработной
6    фио, ооо, кассационной, коап, москвы, москве, руб, московского, администр

2019-12-06 13:30:15,046 : INFO : running online LDA training, 10 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:30:15,050 : INFO : training LDA model using 3 processes
2019-12-06 13:30:15,719 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:30:24,655 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:30:24,679 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:30:24,682 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:30:24,700 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:30:24,746 : INFO : PROGRESS: pass

2019-12-06 13:33:23,957 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:33:27,107 : INFO : topic #9 (0.053): 0.001*"коап" + 0.001*"ооо" + 0.000*"фио" + 0.000*"москвы" + 0.000*"кассационной" + 0.000*"дд" + 0.000*"изъяты" + 0.000*"гггг" + 0.000*"д" + 0.000*"мм"
2019-12-06 13:33:27,115 : INFO : topic #8 (0.058): 0.001*"фио" + 0.000*"коап" + 0.000*"москвы" + 0.000*"руб" + 0.000*"ооо" + 0.000*"дд" + 0.000*"кассационной" + 0.000*"заработной" + 0.000*"рф" + 0.000*"мм"
2019-12-06 13:33:27,123 : INFO : topic #2 (0.125): 0.002*"фио" + 0.001*"кассационной" + 0.001*"москвы" + 0.001*"дд" + 0.001*"руб" + 0.001*"коап" + 0.001*"гггг" + 0.001*"внутренних" + 0.001*"ооо" + 0.001*"мм"
2019-12-06 13:33:27,128 : INFO : topic #1 (0.155): 0.002*"ооо" + 0.002*"руб" + 0.002*"фио" + 0.002*"дд" + 0.001*"заработной" + 0.001*"дата" + 0.001*"мм" + 0.001*"гггг" + 0.001*"коап" + 0.001*"административного"
2019-12-06 13:33:27,137 : INFO : topic #0 (0.203): 0.002*"коап" + 0.002*

1    коап, мм, ооо, гггг, дд, административного, заработной, изъяты, труда, правонарушении, руб, дата, фио, административном, республики, края, пенсии, области, платы, увольнения
2    дд, руб, ооо, мм, гггг, фио, заработной, изъяты, дата, платы, рублей, коап, административного, труда, компенсации, морального, рф, отпуск, б, правонарушения
3    фио, кассационной, москвы, дд, руб, внутренних, коап, гггг, мм, ооо, увольнения, правонарушения, компенсации, дисциплинарного, коп, дата, истец, рф, судебных, мвд
4    коап, москвы, ооо, фио, руб, увольнении, кассационной, прогула, выплаты, платы, дисциплинарного, заработной, увольнения, рф, мм, гггг, компенсации, правонарушения, коп, премии
5    коап, фио, кассационной, ооо, административного, руб, москвы, рф, увольнении, мм, тк, гггг, иностранных, увольнения, правонарушения, выплаты, дд, л, трудовой, изъяты
6    ооо, фио, гггг, дд, мм, москвы, кассационной, ао, коап, увольнении, руб, вынужденного, увольнения, тк, л, рф, договора, административн

2019-12-06 13:33:37,220 : INFO : running online LDA training, 12 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:33:37,224 : INFO : training LDA model using 3 processes
2019-12-06 13:33:37,345 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:33:46,201 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:33:46,206 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:33:46,209 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:33:46,231 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:33:46,233 : INFO : PROGRESS: pass

2019-12-06 13:36:44,138 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 4
2019-12-06 13:36:53,577 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 4
2019-12-06 13:37:10,932 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:37:14,808 : INFO : topic #11 (0.043): 0.001*"фио" + 0.001*"коап" + 0.001*"административного" + 0.001*"кассационной" + 0.001*"москвы" + 0.001*"ооо" + 0.000*"ао" + 0.000*"мм" + 0.000*"московского" + 0.000*"дисциплинарного"
2019-12-06 13:37:14,818 : INFO : topic #10 (0.046): 0.001*"коап" + 0.001*"фио" + 0.001*"ооо" + 0.001*"административного" + 0.001*"кассационной" + 0.000*"москве" + 0.000*"москвы" + 0.000*"правонарушения" + 0.000*"правонарушении" + 0.000*"рф"
2019-12-06 13:37:14,829 : INFO : topic #2 (0.113): 0.001*"фио" + 0.001*"коап" + 0.001*"ооо" + 0.001*"административного" + 0.001*"внутренних" + 0.001*"административно

2019-12-06 13:37:25,882 : INFO : using serial LDA version on this node


1    мм, дд, гггг, коап, ооо, руб, заработной, изъяты, административного, дата, труда, фио, рублей, платы, республики, ущерба, административном, области, правонарушении, морального
2    пенсии, дд, мм, ооо, стаж, старости, гггг, внутренних, саха, коап, руб, увольнения, платы, дел, фио, дата, якутия, труда, республики, рф
3    фио, коап, ооо, административного, внутренних, кассационной, административном, ао, москвы, руб, гггг, мм, увольнении, москве, заработной, правонарушении, рф, работе, ип, правонарушения
4    фио, москвы, ооо, коап, кассационной, руб, административного, правонарушении, ао, увольнении, заработной, дата, дисциплинарного, рф, москве, д, московского, трудовой, тк, прогула
5    коап, ооо, фио, кассационной, москвы, административного, москве, правонарушения, московского, заработной, иностранных, гпк, тк, иностранного, рф, коп, увольнении, компенсации, руб, правонарушении
6    фио, ооо, кассационной, коап, москвы, дд, гггг, административного, мм, иностранных, дата, тк, вып

2019-12-06 13:37:26,274 : INFO : running online LDA training, 15 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:37:26,280 : INFO : training LDA model using 3 processes
2019-12-06 13:37:26,709 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:37:36,258 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:37:44,704 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 2
2019-12-06 13:37:44,731 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 3
2019-12-06 13:37:53,175 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 4
2019-12-06 13:37:53,734 : INFO : PROGRESS: pass

2019-12-06 13:39:52,533 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 6
2019-12-06 13:40:02,701 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 6
2019-12-06 13:40:22,334 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:40:32,139 : INFO : topic #14 (0.033): 0.001*"коап" + 0.001*"фио" + 0.001*"кассационной" + 0.001*"ооо" + 0.001*"руб" + 0.000*"правонарушении" + 0.000*"административного" + 0.000*"москвы" + 0.000*"административном" + 0.000*"правонарушения"
2019-12-06 13:40:32,145 : INFO : topic #13 (0.035): 0.001*"фио" + 0.001*"коап" + 0.001*"москвы" + 0.001*"ооо" + 0.000*"административного" + 0.000*"руб" + 0.000*"рф" + 0.000*"москве" + 0.000*"дисциплинарного" + 0.000*"дата"
2019-12-06 13:40:32,150 : INFO : topic #2 (0.101): 0.002*"коап" + 0.002*"ооо" + 0.002*"гггг" + 0.001*"фио" + 0.001*"мм" + 0.001*"административного" + 0.001*"руб" + 0.

2019-12-06 13:40:56,008 : INFO : topic #13 (0.035): 0.001*"фио" + 0.001*"коап" + 0.000*"москвы" + 0.000*"ооо" + 0.000*"административного" + 0.000*"руб" + 0.000*"рф" + 0.000*"москве" + 0.000*"дисциплинарного" + 0.000*"дата" + 0.000*"административном" + 0.000*"мм" + 0.000*"правонарушении" + 0.000*"кассационной" + 0.000*"гггг" + 0.000*"увольнении" + 0.000*"московского" + 0.000*"тк" + 0.000*"россии" + 0.000*"взыскания"
2019-12-06 13:40:56,016 : INFO : topic #14 (0.033): 0.001*"коап" + 0.001*"фио" + 0.001*"кассационной" + 0.001*"ооо" + 0.001*"руб" + 0.000*"правонарушении" + 0.000*"административного" + 0.000*"москвы" + 0.000*"административном" + 0.000*"правонарушения" + 0.000*"иностранного" + 0.000*"дата" + 0.000*"ао" + 0.000*"дд" + 0.000*"московского" + 0.000*"иностранных" + 0.000*"москве" + 0.000*"гггг" + 0.000*"города" + 0.000*"дисциплинарного"
2019-12-06 13:40:56,066 : INFO : using asymmetric alpha [0.13970585, 0.112436086, 0.0940735, 0.080866694, 0.07091154, 0.063138805, 0.05690171, 0.0

1    мм, ооо, коап, дд, руб, дата, гггг, фио, административного, заработной, изъяты, труда, платы, правонарушении, внутренних, области, республики, административном, морального, рублей
2    дд, коап, ооо, гггг, кассационной, пенсии, старости, мм, заработной, фио, стаж, дисциплинарного, увольнения, дата, руб, труда, москвы, прогула, срока, административного
3    коап, ооо, гггг, фио, мм, административного, руб, москвы, кассационной, дд, иностранных, тк, ип, увольнении, административном, ао, платы, увольнения, срока, правонарушения
4    коап, фио, москвы, административного, ооо, руб, гггг, иностранных, кассационной, правонарушении, правонарушения, москве, административном, заработной, ао, рф, дд, россии, увольнения, московского
5    коап, фио, москвы, гггг, дд, иностранных, кассационной, административного, мм, ооо, иностранного, правонарушения, ао, административном, рф, дата, гражданства, правонарушении, московского, патента
6    москвы, фио, коап, ооо, административного, иностранных, мо

2019-12-06 13:40:56,578 : INFO : running online LDA training, 17 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:40:56,582 : INFO : training LDA model using 3 processes
2019-12-06 13:40:56,904 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:41:06,575 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:41:06,578 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:41:15,609 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 3
2019-12-06 13:41:15,611 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 4
2019-12-06 13:41:15,613 : INFO : PROGRESS: pass

2019-12-06 13:43:41,081 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 4
2019-12-06 13:43:41,094 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 5
2019-12-06 13:44:07,322 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:44:11,189 : INFO : topic #16 (0.029): 0.001*"фио" + 0.001*"коап" + 0.000*"кассационной" + 0.000*"ооо" + 0.000*"руб" + 0.000*"административного" + 0.000*"москвы" + 0.000*"дата" + 0.000*"правонарушении" + 0.000*"иностранных"
2019-12-06 13:44:11,199 : INFO : topic #15 (0.030): 0.001*"фио" + 0.000*"коап" + 0.000*"ооо" + 0.000*"москвы" + 0.000*"руб" + 0.000*"дата" + 0.000*"д" + 0.000*"гпк" + 0.000*"тк" + 0.000*"выплаты"
2019-12-06 13:44:11,207 : INFO : topic #2 (0.094): 0.003*"коап" + 0.002*"административного" + 0.002*"фио" + 0.001*"правонарушения" + 0.001*"ооо" + 0.001*"административном" + 0.001*"руб" + 0.001*"иностранных" 

2019-12-06 13:44:23,092 : INFO : topic #13 (0.034): 0.001*"фио" + 0.001*"коап" + 0.000*"москвы" + 0.000*"гггг" + 0.000*"административного" + 0.000*"ооо" + 0.000*"иностранного" + 0.000*"дд" + 0.000*"руб" + 0.000*"кассационной" + 0.000*"мм" + 0.000*"москве" + 0.000*"заработной" + 0.000*"дата" + 0.000*"правонарушения" + 0.000*"трудовой" + 0.000*"увольнении" + 0.000*"патента" + 0.000*"увольнения" + 0.000*"иностранных"
2019-12-06 13:44:23,102 : INFO : topic #14 (0.032): 0.001*"коап" + 0.001*"фио" + 0.001*"кассационной" + 0.000*"москве" + 0.000*"иностранных" + 0.000*"административного" + 0.000*"гггг" + 0.000*"правонарушении" + 0.000*"ооо" + 0.000*"административном" + 0.000*"руб" + 0.000*"дисциплинарного" + 0.000*"мм" + 0.000*"москвы" + 0.000*"дата" + 0.000*"рф" + 0.000*"дд" + 0.000*"гу" + 0.000*"патента" + 0.000*"иностранного"
2019-12-06 13:44:23,116 : INFO : topic #15 (0.030): 0.001*"фио" + 0.000*"коап" + 0.000*"ооо" + 0.000*"москвы" + 0.000*"руб" + 0.000*"дата" + 0.000*"д" + 0.000*"гпк" + 

1    дд, мм, гггг, ооо, руб, коап, изъяты, заработной, труда, дата, фио, увольнения, административного, платы, края, внутренних, республики, морального, рублей, россии
2    пенсии, старости, ооо, стаж, гггг, мм, дд, коап, фио, страховой, периоды, заработной, дата, административного, ип, руб, пенсиях, специальный, административном, платы
3    коап, административного, фио, правонарушения, ооо, административном, руб, правонарушении, гражданина, иностранных, патента, москве, кассационной, москвы, заработной, административных, иностранного, правонарушениях, гражданства, рф
4    чувашской, коап, административного, фио, москвы, ооо, дата, москве, гггг, руб, ао, коп, правонарушении, правонарушения, мм, иностранного, хх, административном, иностранных, д
5    кассационной, фио, ооо, коап, москвы, руб, мм, иностранных, административного, правонарушения, гггг, московского, заработной, дд, выплаты, дата, рф, морального, гпк, москве
6    фио, коап, кассационной, ооо, гггг, москвы, руб, дд, мм, админ

2019-12-06 13:44:23,680 : INFO : running online LDA training, 20 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:44:23,687 : INFO : training LDA model using 3 processes
2019-12-06 13:44:23,825 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:44:33,059 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:44:33,062 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:44:33,072 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:44:33,075 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:44:33,078 : INFO : PROGRESS: pass

2019-12-06 13:47:26,770 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 2
2019-12-06 13:47:26,787 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 3
2019-12-06 13:47:39,649 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:47:39,974 : INFO : topic #19 (0.024): 0.001*"москвы" + 0.001*"коап" + 0.000*"кассационной" + 0.000*"фио" + 0.000*"ооо" + 0.000*"административного" + 0.000*"ао" + 0.000*"дата" + 0.000*"ип" + 0.000*"иностранных"
2019-12-06 13:47:39,978 : INFO : topic #18 (0.025): 0.001*"коап" + 0.000*"административного" + 0.000*"ооо" + 0.000*"кассационной" + 0.000*"москвы" + 0.000*"фио" + 0.000*"правонарушения" + 0.000*"иностранных" + 0.000*"руб" + 0.000*"правонарушении"
2019-12-06 13:47:39,982 : INFO : topic #2 (0.086): 0.002*"коап" + 0.001*"ооо" + 0.001*"кассационной" + 0.001*"фио" + 0.001*"москвы" + 0.001*"административного" + 0.001*"р

2019-12-06 13:47:51,610 : INFO : topic #13 (0.032): 0.001*"коап" + 0.001*"фио" + 0.000*"москвы" + 0.000*"ооо" + 0.000*"руб" + 0.000*"административного" + 0.000*"кассационной" + 0.000*"дд" + 0.000*"дисциплинарного" + 0.000*"гггг" + 0.000*"мм" + 0.000*"административном" + 0.000*"заработной" + 0.000*"увольнении" + 0.000*"изъяты" + 0.000*"правонарушении" + 0.000*"правонарушения" + 0.000*"гпк" + 0.000*"рф" + 0.000*"рабочем"
2019-12-06 13:47:51,626 : INFO : topic #14 (0.030): 0.001*"фио" + 0.001*"кассационной" + 0.001*"москвы" + 0.000*"ооо" + 0.000*"руб" + 0.000*"коап" + 0.000*"правонарушения" + 0.000*"увольнении" + 0.000*"рф" + 0.000*"заработной" + 0.000*"гггг" + 0.000*"колос" + 0.000*"выплаты" + 0.000*"москве" + 0.000*"увольнения" + 0.000*"московского" + 0.000*"города" + 0.000*"правонарушении" + 0.000*"дата" + 0.000*"мм"
2019-12-06 13:47:51,637 : INFO : topic #15 (0.029): 0.001*"коап" + 0.001*"фио" + 0.001*"ооо" + 0.000*"гггг" + 0.000*"москвы" + 0.000*"кассационной" + 0.000*"административн

1    мм, дд, гггг, ооо, коап, изъяты, края, руб, труда, заработной, административного, саха, фио, республики, правонарушении, платы, якутия, административном, рублей, оплаты
2    дд, мм, гггг, коап, фио, дата, административного, изъяты, ооо, якутия, руб, административном, кассационной, заработной, компенсации, рс, ущерба, ао, службы, ип
3    коап, ооо, кассационной, фио, москвы, административного, руб, правонарушения, гггг, административном, правонарушении, иностранного, рф, заработной, увольнения, тк, увольнении, московского, изъяты, москве
4    коап, ооо, фио, кассационной, административного, административном, россии, гггг, правонарушении, москве, москвы, дд, самарской, руб, мм, правонарушения, гражданина, внутренних, иностранного, дата
5    фио, коап, кассационной, москвы, руб, иностранных, ооо, дд, дата, гггг, мм, московского, административном, тк, правонарушения, административного, москве, заработной, увольнения, ао
6    коап, ооо, фио, административного, кассационной, москвы, дат

### 2.1.2. Тестирование LSI (7, 10, 12, 15, 17, 20 топиков)

In [63]:
model_iterator(gsm.models.LsiModel, gsm_corp_tok_tfidf, gsm_dct_tok, [7,10,12,15,17,20], onepass=False, power_iters=5)

2019-12-06 14:20:09,437 : INFO : using serial LSI version on this node
2019-12-06 14:20:09,447 : INFO : updating model with new documents
2019-12-06 14:20:09,448 : INFO : using 100 extra samples and 5 power iterations
2019-12-06 14:20:09,450 : INFO : 1st phase: constructing (178331, 107) action matrix


Num of topics 7


2019-12-06 14:20:09,921 : INFO : PROGRESS: at document #0
2019-12-06 14:20:29,838 : INFO : PROGRESS: at document #20000
2019-12-06 14:20:42,497 : INFO : PROGRESS: at document #40000
2019-12-06 14:20:45,827 : INFO : running power iteration #1
2019-12-06 14:20:46,022 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:20:59,666 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:21:14,826 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:21:17,606 : INFO : running power iteration #2
2019-12-06 14:21:17,744 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:21:29,698 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:21:43,953 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:21:46,791 : INFO : running power iteration #3
2019-12-06 14:21:46,936 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:21:59,422 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:22:14,242 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:22:17,580 : INFO : runni

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:23:51,561 : INFO : PROGRESS: at document #20000
2019-12-06 14:24:07,095 : INFO : PROGRESS: at document #40000
2019-12-06 14:24:09,994 : INFO : running power iteration #1
2019-12-06 14:24:10,214 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:24:23,051 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:24:37,497 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:24:39,861 : INFO : running power iteration #2
2019-12-06 14:24:40,050 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:24:53,412 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:25:08,192 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:25:11,201 : INFO : running power iteration #3
2019-12-06 14:25:11,351 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:25:24,926 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:25:39,000 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:25:41,370 : INFO : running power iteration #4
2019-12-06 14:25:41,517 : INFO : PRO

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:27:07,081 : INFO : PROGRESS: at document #0
2019-12-06 14:27:17,221 : INFO : PROGRESS: at document #20000
2019-12-06 14:27:28,969 : INFO : PROGRESS: at document #40000
2019-12-06 14:27:32,448 : INFO : running power iteration #1
2019-12-06 14:27:32,610 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:27:44,022 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:27:58,214 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:28:01,557 : INFO : running power iteration #2
2019-12-06 14:28:01,713 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:28:14,000 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:28:28,287 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:28:31,618 : INFO : running power iteration #3
2019-12-06 14:28:31,786 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:28:43,505 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:28:57,497 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:29:00,763 : INFO : runni

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:30:36,334 : INFO : PROGRESS: at document #20000
2019-12-06 14:30:48,271 : INFO : PROGRESS: at document #40000
2019-12-06 14:30:50,829 : INFO : running power iteration #1
2019-12-06 14:30:50,983 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:31:03,303 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:31:18,063 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:31:21,246 : INFO : running power iteration #2
2019-12-06 14:31:21,424 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:31:33,383 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:31:47,619 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:31:50,696 : INFO : running power iteration #3
2019-12-06 14:31:50,859 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:32:03,102 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:32:17,181 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:32:20,250 : INFO : running power iteration #4
2019-12-06 14:32:20,416 : INFO : PRO

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:33:52,227 : INFO : PROGRESS: at document #20000
2019-12-06 14:34:04,105 : INFO : PROGRESS: at document #40000
2019-12-06 14:34:07,280 : INFO : running power iteration #1
2019-12-06 14:34:07,454 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:34:19,659 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:34:34,227 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:34:37,254 : INFO : running power iteration #2
2019-12-06 14:34:37,422 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:34:50,178 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:35:04,335 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:35:06,897 : INFO : running power iteration #3
2019-12-06 14:35:07,056 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:35:19,564 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:35:33,620 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:35:36,147 : INFO : running power iteration #4
2019-12-06 14:35:36,307 : INFO : PRO

2019-12-06 14:37:01,983 : INFO : topic #14(11.771): 0.367*"дата" + -0.348*"фио" + -0.151*"ип" + 0.145*"премии" + -0.142*"отношений" + -0.115*"ведома" + -0.108*"поручению" + 0.099*"выплаты" + -0.094*"отношения" + -0.086*"допущения" + -0.083*"приеме" + -0.083*"минимального" + 0.082*"коап" + 0.081*"дисциплинарного" + -0.080*"оформить" + 0.071*"премия" + 0.071*"коп" + -0.071*"договор" + -0.071*"письменной" + 0.068*"ао"
2019-12-06 14:37:02,008 : INFO : topic #15(11.495): -0.551*"дата" + 0.494*"фио" + 0.119*"коп" + 0.114*"руб" + -0.107*"отношений" + -0.095*"кассационной" + -0.087*"ип" + -0.086*"ведома" + -0.083*"башкортостан" + -0.082*"изъяты" + -0.080*"поручению" + -0.070*"отношения" + -0.069*"обезличена" + -0.067*"допущения" + 0.064*"пособия" + 0.063*"отпуск" + -0.062*"нормативными" + 0.062*"москвы" + 0.062*"отпуска" + -0.061*"договор"
2019-12-06 14:37:02,077 : INFO : topic #16(10.814): -0.223*"исковой" + -0.211*"обращения" + -0.196*"почтовой" + -0.180*"срока" + -0.157*"пропуска" + -0.150*

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:37:11,625 : INFO : PROGRESS: at document #20000
2019-12-06 14:37:22,881 : INFO : PROGRESS: at document #40000
2019-12-06 14:37:25,646 : INFO : running power iteration #1
2019-12-06 14:37:25,797 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:37:36,889 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:37:49,911 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:37:52,743 : INFO : running power iteration #2
2019-12-06 14:37:52,888 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:38:04,045 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:38:16,949 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:38:19,787 : INFO : running power iteration #3
2019-12-06 14:38:19,938 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:38:31,922 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:38:45,210 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:38:48,109 : INFO : running power iteration #4
2019-12-06 14:38:48,268 : INFO : PRO

2019-12-06 14:40:04,104 : INFO : topic #14(11.771): 0.367*"дата" + -0.348*"фио" + -0.151*"ип" + 0.145*"премии" + -0.142*"отношений" + -0.115*"ведома" + -0.108*"поручению" + 0.099*"выплаты" + -0.094*"отношения" + -0.086*"допущения" + -0.083*"приеме" + -0.083*"минимального" + 0.082*"коап" + 0.081*"дисциплинарного" + -0.080*"оформить" + 0.071*"премия" + 0.071*"коп" + -0.071*"договор" + -0.071*"письменной" + 0.068*"ао"
2019-12-06 14:40:04,112 : INFO : topic #15(11.495): -0.551*"дата" + 0.494*"фио" + 0.119*"коп" + 0.114*"руб" + -0.107*"отношений" + -0.095*"кассационной" + -0.087*"ип" + -0.086*"ведома" + -0.083*"башкортостан" + -0.082*"изъяты" + -0.080*"поручению" + -0.070*"отношения" + -0.069*"обезличена" + -0.067*"допущения" + 0.064*"пособия" + 0.063*"отпуск" + -0.062*"нормативными" + 0.062*"москвы" + 0.062*"отпуска" + -0.061*"договор"
2019-12-06 14:40:04,121 : INFO : topic #16(10.814): 0.223*"исковой" + 0.211*"обращения" + 0.196*"почтовой" + 0.180*"срока" + 0.157*"пропуска" + 0.150*"фгуп"

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

### 2.1.3. Тестирование HDP (7, 10, 12, 15, 17, 20 топиков)

In [66]:
hdp_m = gsm.models.HdpModel(gsm_corp_tok_tfidf, id2word=gsm_dct_tok, max_time=300)























































































































































































































































2019-12-06 16:24:51,096 : INFO : (0, '0.002*фио + 0.002*коап + 0.001*ооо + 0.001*кассационной + 0.001*москвы + 0.001*руб + 0.001*административного + 0.001*гггг + 0.001*дд + 0.001*мм')
2019-12-06 16:24:51,328 : INFO : (1, '0.001*фио + 0.001*кассационной + 0.001*ооо + 0.001*коап + 0.001*москвы + 0.001*руб + 0.001*гггг + 0.001*дд + 0.001*мм + 0.001*административного')
2019-12-06 16:24:51,557 : INFO : (2, '0.001*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*гггг + 0.001*руб + 0.001*москвы + 0.001*дд + 0.001*мм + 0.000*административного')
2019-12-06 16:24:51,813 : INFO : (3, '0.001*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*руб + 0.001*москвы + 0.000*гггг + 0.000*дд + 0.000*мм + 0.000*административного')
2019-12-06 16:24:52,054 : INFO : (4, '0.001*фио + 0.001*ооо + 0.001*кассационной + 0.001*гггг + 0.001*дд + 0.001*мм + 0.000*руб + 0.000*москвы + 0.000*изъяты + 0.000*коап')
2019-12-06 16:24:52,344 : INFO : (5, '0.000*гггг + 0.000*дд + 0.000*мм + 0.000*ооо + 0.000*

In [1]:
print(3+3)

6
