In [1]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
import re
from collections import Counter

import gensim as gsm
import pymorphy2 as pmr

from guidialogs import ffp, fdp
from textproc import rwtools
from tempscripts import codeutils as cdu
from tempscripts import corpproc as crp
from tempscripts import iopickler as iop
from tempscripts import reader_for_csv as rfc

2019-12-09 15:02:44,456 : INFO : Loading dictionaries from C:\Users\EA-ShevchenkoIS\AppData\Local\Continuum\anaconda3\lib\site-packages\pymorphy2_dicts\data
2019-12-09 15:02:44,533 : INFO : format: 2.4, revision: 393442, updated: 2015-01-17T16:03:56.586168
2019-12-09 15:02:44,555 : INFO : Loading dictionaries from C:\Users\EA-ShevchenkoIS\AppData\Local\Continuum\anaconda3\lib\site-packages\pymorphy2_dicts\data
2019-12-09 15:02:44,642 : INFO : format: 2.4, revision: 393442, updated: 2015-01-17T16:03:56.586168


In [23]:
def pretty_printer(list_of_info, mode='norm'):
    options = {
        'norm': r'(?<=")[а-я0-9].*?(?=")',
        'hdp': r'(?<=\*)[а-я0-9].*?(?=\'|\b)'
    }
    for ind, item in enumerate(list_of_info, start=1):
        _, data = item
        print(ind, ', '.join(re.findall(options[mode], data)), sep='    ')

In [3]:
def model_iterator(model, tfidf_corpus, dictionary, num_of_topics, **params):
    if not isinstance(num_of_topics, list):
       raise TypeError('incorrect data in "num_of_topics" argument')
    for num in num_of_topics:
        print('='*96)
        print('Num of topics', num)
        print('='*96)
        trained_model = model(tfidf_corpus, id2word=dictionary, num_topics=num, **params)
        topics = trained_model.print_topics(num_words=20)
        pretty_printer(topics)

# 1. Обрабатываем новый корпус "_TestSuit EC 43241 date 01092016-01092019"

In [4]:
corp_it = rfc.CommonReader(fdp())
corp_it.create_readers()
len(corp_it)

42625

In [5]:
ec_all_date = crp.main((d['Текст документа'] for  d in corp_it), '43241_date', fdp())

Corpus length unavailable
Docs: 10000
Totlal words: 81688
Docs: 20000
Totlal words: 106125
Docs: 30000
Totlal words: 139991
Docs: 40000
Totlal words: 171885
Processed words: 10000
Processed words: 20000
Processed words: 30000
Processed words: 40000
Processed words: 50000
Processed words: 60000
Processed words: 70000
Processed words: 80000
Processed words: 90000
Processed words: 100000
Processed words: 110000
Processed words: 120000
Processed words: 130000
Processed words: 140000
Processed words: 150000
Processed words: 160000
Processed words: 170000
Dictionaries were created:   2 min, 34.639 sec
Dictionaries were saved:   0 min,  0.706 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000
Docs:  40000
Corpus was lemmatized:   1 min, 11.098 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000
Docs:  40000
Bg_tk was created:   2 min,  5.618 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000
Docs:  40000
Bg_lm was created:   1 min, 23.439 sec
Docs:  0
Docs:  10000
Docs:  20000
Docs:  30000


In [6]:
ec_all_date = crp.load_previous_session(fdp())

Dicts loaded:   0 min,  0.000 sec


EOFError: Ran out of input

In [6]:
' '.join(ec_all_date['tk'][0])

'саратовский областной суд апелляционное определение от августа г по делу судья кожахин а н судебная коллегия по гражданским делам саратовского областного суда в составе председательствующего гладченко а н судей негласона а а чаплыгиной т в при секретаре и рассмотрела в открытом судебном заседании гражданское дело по исковому заявлению е к государственному учреждению управлению пенсионного фонда российской федерации в ленинском районе г саратова межрайонное о признании решения об отказе в назначении досрочной страховой пенсии по старости незаконным включении в стаж работу дающей право на досрочное назначение страховой пенсии по старости по апелляционной жалобе государственного учреждения управления пенсионного фонда российской федерации в ленинском районе г саратова межрайонное на решение ленинского районного суда г саратова от г которым в исковые требования удовлетворены заслушав доклад судьи гладченко а н объяснения представителя ответчика п поддержавшей доводы жалобы изучив материал

In [7]:
ec_all_date['tk'][0][:10]

['саратовский',
 'областной',
 'суд',
 'апелляционное',
 'определение',
 'от',
 'августа',
 'г',
 'по',
 'делу']

# 2. Тестирование алгоритмов gensim на ТОКЕНАХ

## 2.1. Используем простой корпус без предобработки и без ограничения на частотности встречаемости ни снизу, ни сверху

In [8]:
gsm_dct_tok = gsm.corpora.Dictionary(doc for doc in ec_all_date['tk'])

2019-12-09 15:41:30,446 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2019-12-09 15:42:06,419 : INFO : adding document #10000 to Dictionary(81688 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-09 15:42:55,391 : INFO : adding document #20000 to Dictionary(106132 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-09 15:43:28,288 : INFO : adding document #30000 to Dictionary(139991 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-09 15:44:01,506 : INFO : adding document #40000 to Dictionary(171889 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...)
2019-12-09 15:44:10,947 : INFO : built Dictionary(178331 unique tokens: ['а', 'августа', 'апелляционная', 'апелляционное', 'апелляционной']...) from 42625 documents (total 79878376 corpus positions)


In [9]:
gsm_dct_tok_tfidf = gsm.models.TfidfModel(gsm_dct_tok.doc2bow(doc) for doc in ec_all_date['tk'])

2019-12-09 15:49:45,918 : INFO : collecting document frequencies
2019-12-09 15:49:45,918 : INFO : PROGRESS: processing document #0
2019-12-09 15:50:06,541 : INFO : PROGRESS: processing document #10000
2019-12-09 15:50:25,627 : INFO : PROGRESS: processing document #20000
2019-12-09 15:50:47,089 : INFO : PROGRESS: processing document #30000
2019-12-09 15:51:10,133 : INFO : PROGRESS: processing document #40000
2019-12-09 15:51:14,852 : INFO : calculating IDF weights for 42625 documents and 178331 features (28869794 matrix non-zeros)


In [9]:
gsm_corp_tok_tfidf = list(gsm_dct_tok_tfidf[conv_doc] for conv_doc in (gsm_dct_tok.doc2bow(doc) for doc in ec_all_date['tk']))

In [10]:
tfidf_file = rwtools.create_new_binary('EC_43241_date_tfidf', fdp())

In [11]:
tfidf_iop = iop.IOPickler(file=tfidf_file)

In [12]:
tfidf_iop.write(gsm_dct_tok_tfidf[conv_doc] for conv_doc in (gsm_dct_tok.doc2bow(doc) for doc in ec_all_date['tk']))

2019-12-09, Mon, 16:05:18	IOPickler.write: IOPickler writing! TIME:    6.7527 min ( 405.1617 sec)


In [12]:
len(gsm_corp_tok_tfidf)

42625

In [13]:
len(tfidf_iop)

42625

In [14]:
gsm_tfidf = tfidf_iop

##### Почему-то корпус порядка 2,5 Гб оперативной памяти, что довольно странно для такого размера...
upd: такой результат получился из-за python memory allocation и python garbadge collector - в последующих тестах объем выделенной памяти уменьшился

### 2.1.1. Тестирование LDA (7, 10, 12, 15, 17, 20 топиков)

In [60]:
model_iterator(gsm.models.LdaMulticore, gsm_tfidf, gsm_dct_tok, [7,10,12,15,17,20], alpha='asymmetric', eta='auto', iterations=5)

2019-12-06 13:26:59,392 : INFO : using asymmetric alpha [0.26219156, 0.19027454, 0.14931786, 0.12287004, 0.104381524, 0.090729296, 0.080235206]
2019-12-06 13:26:59,447 : INFO : using serial LDA version on this node


Num of topics 7


2019-12-06 13:26:59,682 : INFO : running online LDA training, 7 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:26:59,690 : INFO : training LDA model using 3 processes
2019-12-06 13:27:00,087 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:27:00,091 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:27:00,096 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:27:00,102 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:27:00,115 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:27:00,123 : INFO : PROGRESS: pass 

2019-12-06 13:29:33,641 : INFO : topic #5 (0.091): 0.001*"фио" + 0.001*"ооо" + 0.001*"кассационной" + 0.001*"коап" + 0.001*"москвы" + 0.001*"москве" + 0.000*"руб" + 0.000*"московского" + 0.000*"административного" + 0.000*"иностранных"
2019-12-06 13:29:33,646 : INFO : topic #2 (0.149): 0.002*"ооо" + 0.001*"мм" + 0.001*"старости" + 0.001*"пенсии" + 0.001*"дд" + 0.001*"дата" + 0.001*"руб" + 0.001*"фио" + 0.001*"гггг" + 0.001*"коап"
2019-12-06 13:29:33,651 : INFO : topic #1 (0.190): 0.001*"дд" + 0.001*"ооо" + 0.001*"коап" + 0.001*"мм" + 0.001*"гггг" + 0.001*"фио" + 0.001*"выплаты" + 0.001*"заработной" + 0.001*"дата" + 0.001*"административном"
2019-12-06 13:29:33,657 : INFO : topic #0 (0.262): 0.002*"коап" + 0.002*"ооо" + 0.002*"фио" + 0.001*"дата" + 0.001*"гггг" + 0.001*"административного" + 0.001*"дд" + 0.001*"мм" + 0.001*"руб" + 0.001*"правонарушении"
2019-12-06 13:29:33,662 : INFO : topic diff=0.170568, rho=0.258199
2019-12-06 13:29:36,909 : INFO : PROGRESS: pass 0, dispatched chunk #18

1    мм, дд, гггг, коап, изъяты, ооо, руб, фио, труда, республики, административного, края, дата, заработной, правонарушении, платы, административном, внутренних, административных, ущерба
2    дд, мм, гггг, ооо, заработной, выплаты, красноярского, оплаты, фио, коап, старости, увольнения, пенсии, увольнении, платы, б, руб, изъяты, истца, вреда
3    старости, пенсии, ооо, мм, дд, стаж, дата, руб, гггг, фио, периоды, коап, пенсиях, кассационной, административного, страховой, москвы, тк, заработной, периодов
4    коап, административного, ооо, москвы, фио, кассационной, москве, иностранных, правонарушении, правонарушения, россии, руб, административном, внутренних, иностранного, гггг, ип, дд, города, федерального
5    коап, ооо, фио, иностранных, дата, кассационной, москвы, административного, руб, правонарушении, москве, правонарушения, тк, иностранного, увольнения, дисциплинарного, патента, рф, работе, заработной
6    фио, ооо, кассационной, коап, москвы, москве, руб, московского, администр

2019-12-06 13:30:15,046 : INFO : running online LDA training, 10 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:30:15,050 : INFO : training LDA model using 3 processes
2019-12-06 13:30:15,719 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:30:24,655 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:30:24,679 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:30:24,682 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:30:24,700 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:30:24,746 : INFO : PROGRESS: pass

2019-12-06 13:33:23,957 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:33:27,107 : INFO : topic #9 (0.053): 0.001*"коап" + 0.001*"ооо" + 0.000*"фио" + 0.000*"москвы" + 0.000*"кассационной" + 0.000*"дд" + 0.000*"изъяты" + 0.000*"гггг" + 0.000*"д" + 0.000*"мм"
2019-12-06 13:33:27,115 : INFO : topic #8 (0.058): 0.001*"фио" + 0.000*"коап" + 0.000*"москвы" + 0.000*"руб" + 0.000*"ооо" + 0.000*"дд" + 0.000*"кассационной" + 0.000*"заработной" + 0.000*"рф" + 0.000*"мм"
2019-12-06 13:33:27,123 : INFO : topic #2 (0.125): 0.002*"фио" + 0.001*"кассационной" + 0.001*"москвы" + 0.001*"дд" + 0.001*"руб" + 0.001*"коап" + 0.001*"гггг" + 0.001*"внутренних" + 0.001*"ооо" + 0.001*"мм"
2019-12-06 13:33:27,128 : INFO : topic #1 (0.155): 0.002*"ооо" + 0.002*"руб" + 0.002*"фио" + 0.002*"дд" + 0.001*"заработной" + 0.001*"дата" + 0.001*"мм" + 0.001*"гггг" + 0.001*"коап" + 0.001*"административного"
2019-12-06 13:33:27,137 : INFO : topic #0 (0.203): 0.002*"коап" + 0.002*

1    коап, мм, ооо, гггг, дд, административного, заработной, изъяты, труда, правонарушении, руб, дата, фио, административном, республики, края, пенсии, области, платы, увольнения
2    дд, руб, ооо, мм, гггг, фио, заработной, изъяты, дата, платы, рублей, коап, административного, труда, компенсации, морального, рф, отпуск, б, правонарушения
3    фио, кассационной, москвы, дд, руб, внутренних, коап, гггг, мм, ооо, увольнения, правонарушения, компенсации, дисциплинарного, коп, дата, истец, рф, судебных, мвд
4    коап, москвы, ооо, фио, руб, увольнении, кассационной, прогула, выплаты, платы, дисциплинарного, заработной, увольнения, рф, мм, гггг, компенсации, правонарушения, коп, премии
5    коап, фио, кассационной, ооо, административного, руб, москвы, рф, увольнении, мм, тк, гггг, иностранных, увольнения, правонарушения, выплаты, дд, л, трудовой, изъяты
6    ооо, фио, гггг, дд, мм, москвы, кассационной, ао, коап, увольнении, руб, вынужденного, увольнения, тк, л, рф, договора, административн

2019-12-06 13:33:37,220 : INFO : running online LDA training, 12 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:33:37,224 : INFO : training LDA model using 3 processes
2019-12-06 13:33:37,345 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:33:46,201 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:33:46,206 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:33:46,209 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:33:46,231 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:33:46,233 : INFO : PROGRESS: pass

2019-12-06 13:36:44,138 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 4
2019-12-06 13:36:53,577 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 4
2019-12-06 13:37:10,932 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:37:14,808 : INFO : topic #11 (0.043): 0.001*"фио" + 0.001*"коап" + 0.001*"административного" + 0.001*"кассационной" + 0.001*"москвы" + 0.001*"ооо" + 0.000*"ао" + 0.000*"мм" + 0.000*"московского" + 0.000*"дисциплинарного"
2019-12-06 13:37:14,818 : INFO : topic #10 (0.046): 0.001*"коап" + 0.001*"фио" + 0.001*"ооо" + 0.001*"административного" + 0.001*"кассационной" + 0.000*"москве" + 0.000*"москвы" + 0.000*"правонарушения" + 0.000*"правонарушении" + 0.000*"рф"
2019-12-06 13:37:14,829 : INFO : topic #2 (0.113): 0.001*"фио" + 0.001*"коап" + 0.001*"ооо" + 0.001*"административного" + 0.001*"внутренних" + 0.001*"административно

2019-12-06 13:37:25,882 : INFO : using serial LDA version on this node


1    мм, дд, гггг, коап, ооо, руб, заработной, изъяты, административного, дата, труда, фио, рублей, платы, республики, ущерба, административном, области, правонарушении, морального
2    пенсии, дд, мм, ооо, стаж, старости, гггг, внутренних, саха, коап, руб, увольнения, платы, дел, фио, дата, якутия, труда, республики, рф
3    фио, коап, ооо, административного, внутренних, кассационной, административном, ао, москвы, руб, гггг, мм, увольнении, москве, заработной, правонарушении, рф, работе, ип, правонарушения
4    фио, москвы, ооо, коап, кассационной, руб, административного, правонарушении, ао, увольнении, заработной, дата, дисциплинарного, рф, москве, д, московского, трудовой, тк, прогула
5    коап, ооо, фио, кассационной, москвы, административного, москве, правонарушения, московского, заработной, иностранных, гпк, тк, иностранного, рф, коп, увольнении, компенсации, руб, правонарушении
6    фио, ооо, кассационной, коап, москвы, дд, гггг, административного, мм, иностранных, дата, тк, вып

2019-12-06 13:37:26,274 : INFO : running online LDA training, 15 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:37:26,280 : INFO : training LDA model using 3 processes
2019-12-06 13:37:26,709 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:37:36,258 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:37:44,704 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 2
2019-12-06 13:37:44,731 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 3
2019-12-06 13:37:53,175 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 4
2019-12-06 13:37:53,734 : INFO : PROGRESS: pass

2019-12-06 13:39:52,533 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 6
2019-12-06 13:40:02,701 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 6
2019-12-06 13:40:22,334 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:40:32,139 : INFO : topic #14 (0.033): 0.001*"коап" + 0.001*"фио" + 0.001*"кассационной" + 0.001*"ооо" + 0.001*"руб" + 0.000*"правонарушении" + 0.000*"административного" + 0.000*"москвы" + 0.000*"административном" + 0.000*"правонарушения"
2019-12-06 13:40:32,145 : INFO : topic #13 (0.035): 0.001*"фио" + 0.001*"коап" + 0.001*"москвы" + 0.001*"ооо" + 0.000*"административного" + 0.000*"руб" + 0.000*"рф" + 0.000*"москве" + 0.000*"дисциплинарного" + 0.000*"дата"
2019-12-06 13:40:32,150 : INFO : topic #2 (0.101): 0.002*"коап" + 0.002*"ооо" + 0.002*"гггг" + 0.001*"фио" + 0.001*"мм" + 0.001*"административного" + 0.001*"руб" + 0.

2019-12-06 13:40:56,008 : INFO : topic #13 (0.035): 0.001*"фио" + 0.001*"коап" + 0.000*"москвы" + 0.000*"ооо" + 0.000*"административного" + 0.000*"руб" + 0.000*"рф" + 0.000*"москве" + 0.000*"дисциплинарного" + 0.000*"дата" + 0.000*"административном" + 0.000*"мм" + 0.000*"правонарушении" + 0.000*"кассационной" + 0.000*"гггг" + 0.000*"увольнении" + 0.000*"московского" + 0.000*"тк" + 0.000*"россии" + 0.000*"взыскания"
2019-12-06 13:40:56,016 : INFO : topic #14 (0.033): 0.001*"коап" + 0.001*"фио" + 0.001*"кассационной" + 0.001*"ооо" + 0.001*"руб" + 0.000*"правонарушении" + 0.000*"административного" + 0.000*"москвы" + 0.000*"административном" + 0.000*"правонарушения" + 0.000*"иностранного" + 0.000*"дата" + 0.000*"ао" + 0.000*"дд" + 0.000*"московского" + 0.000*"иностранных" + 0.000*"москве" + 0.000*"гггг" + 0.000*"города" + 0.000*"дисциплинарного"
2019-12-06 13:40:56,066 : INFO : using asymmetric alpha [0.13970585, 0.112436086, 0.0940735, 0.080866694, 0.07091154, 0.063138805, 0.05690171, 0.0

1    мм, ооо, коап, дд, руб, дата, гггг, фио, административного, заработной, изъяты, труда, платы, правонарушении, внутренних, области, республики, административном, морального, рублей
2    дд, коап, ооо, гггг, кассационной, пенсии, старости, мм, заработной, фио, стаж, дисциплинарного, увольнения, дата, руб, труда, москвы, прогула, срока, административного
3    коап, ооо, гггг, фио, мм, административного, руб, москвы, кассационной, дд, иностранных, тк, ип, увольнении, административном, ао, платы, увольнения, срока, правонарушения
4    коап, фио, москвы, административного, ооо, руб, гггг, иностранных, кассационной, правонарушении, правонарушения, москве, административном, заработной, ао, рф, дд, россии, увольнения, московского
5    коап, фио, москвы, гггг, дд, иностранных, кассационной, административного, мм, ооо, иностранного, правонарушения, ао, административном, рф, дата, гражданства, правонарушении, московского, патента
6    москвы, фио, коап, ооо, административного, иностранных, мо

2019-12-06 13:40:56,578 : INFO : running online LDA training, 17 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:40:56,582 : INFO : training LDA model using 3 processes
2019-12-06 13:40:56,904 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:41:06,575 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:41:06,578 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:41:15,609 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 3
2019-12-06 13:41:15,611 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 4
2019-12-06 13:41:15,613 : INFO : PROGRESS: pass

2019-12-06 13:43:41,081 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 4
2019-12-06 13:43:41,094 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 5
2019-12-06 13:44:07,322 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:44:11,189 : INFO : topic #16 (0.029): 0.001*"фио" + 0.001*"коап" + 0.000*"кассационной" + 0.000*"ооо" + 0.000*"руб" + 0.000*"административного" + 0.000*"москвы" + 0.000*"дата" + 0.000*"правонарушении" + 0.000*"иностранных"
2019-12-06 13:44:11,199 : INFO : topic #15 (0.030): 0.001*"фио" + 0.000*"коап" + 0.000*"ооо" + 0.000*"москвы" + 0.000*"руб" + 0.000*"дата" + 0.000*"д" + 0.000*"гпк" + 0.000*"тк" + 0.000*"выплаты"
2019-12-06 13:44:11,207 : INFO : topic #2 (0.094): 0.003*"коап" + 0.002*"административного" + 0.002*"фио" + 0.001*"правонарушения" + 0.001*"ооо" + 0.001*"административном" + 0.001*"руб" + 0.001*"иностранных" 

2019-12-06 13:44:23,092 : INFO : topic #13 (0.034): 0.001*"фио" + 0.001*"коап" + 0.000*"москвы" + 0.000*"гггг" + 0.000*"административного" + 0.000*"ооо" + 0.000*"иностранного" + 0.000*"дд" + 0.000*"руб" + 0.000*"кассационной" + 0.000*"мм" + 0.000*"москве" + 0.000*"заработной" + 0.000*"дата" + 0.000*"правонарушения" + 0.000*"трудовой" + 0.000*"увольнении" + 0.000*"патента" + 0.000*"увольнения" + 0.000*"иностранных"
2019-12-06 13:44:23,102 : INFO : topic #14 (0.032): 0.001*"коап" + 0.001*"фио" + 0.001*"кассационной" + 0.000*"москве" + 0.000*"иностранных" + 0.000*"административного" + 0.000*"гггг" + 0.000*"правонарушении" + 0.000*"ооо" + 0.000*"административном" + 0.000*"руб" + 0.000*"дисциплинарного" + 0.000*"мм" + 0.000*"москвы" + 0.000*"дата" + 0.000*"рф" + 0.000*"дд" + 0.000*"гу" + 0.000*"патента" + 0.000*"иностранного"
2019-12-06 13:44:23,116 : INFO : topic #15 (0.030): 0.001*"фио" + 0.000*"коап" + 0.000*"ооо" + 0.000*"москвы" + 0.000*"руб" + 0.000*"дата" + 0.000*"д" + 0.000*"гпк" + 

1    дд, мм, гггг, ооо, руб, коап, изъяты, заработной, труда, дата, фио, увольнения, административного, платы, края, внутренних, республики, морального, рублей, россии
2    пенсии, старости, ооо, стаж, гггг, мм, дд, коап, фио, страховой, периоды, заработной, дата, административного, ип, руб, пенсиях, специальный, административном, платы
3    коап, административного, фио, правонарушения, ооо, административном, руб, правонарушении, гражданина, иностранных, патента, москве, кассационной, москвы, заработной, административных, иностранного, правонарушениях, гражданства, рф
4    чувашской, коап, административного, фио, москвы, ооо, дата, москве, гггг, руб, ао, коп, правонарушении, правонарушения, мм, иностранного, хх, административном, иностранных, д
5    кассационной, фио, ооо, коап, москвы, руб, мм, иностранных, административного, правонарушения, гггг, московского, заработной, дд, выплаты, дата, рф, морального, гпк, москве
6    фио, коап, кассационной, ооо, гггг, москвы, руб, дд, мм, админ

2019-12-06 13:44:23,680 : INFO : running online LDA training, 20 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000
2019-12-06 13:44:23,687 : INFO : training LDA model using 3 processes
2019-12-06 13:44:23,825 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-06 13:44:33,059 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-06 13:44:33,062 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-06 13:44:33,072 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-06 13:44:33,075 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-06 13:44:33,078 : INFO : PROGRESS: pass

2019-12-06 13:47:26,770 : INFO : PROGRESS: pass 0, dispatched chunk #20 = documents up to #42000/42625, outstanding queue size 2
2019-12-06 13:47:26,787 : INFO : PROGRESS: pass 0, dispatched chunk #21 = documents up to #42625/42625, outstanding queue size 3
2019-12-06 13:47:39,649 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-06 13:47:39,974 : INFO : topic #19 (0.024): 0.001*"москвы" + 0.001*"коап" + 0.000*"кассационной" + 0.000*"фио" + 0.000*"ооо" + 0.000*"административного" + 0.000*"ао" + 0.000*"дата" + 0.000*"ип" + 0.000*"иностранных"
2019-12-06 13:47:39,978 : INFO : topic #18 (0.025): 0.001*"коап" + 0.000*"административного" + 0.000*"ооо" + 0.000*"кассационной" + 0.000*"москвы" + 0.000*"фио" + 0.000*"правонарушения" + 0.000*"иностранных" + 0.000*"руб" + 0.000*"правонарушении"
2019-12-06 13:47:39,982 : INFO : topic #2 (0.086): 0.002*"коап" + 0.001*"ооо" + 0.001*"кассационной" + 0.001*"фио" + 0.001*"москвы" + 0.001*"административного" + 0.001*"р

2019-12-06 13:47:51,610 : INFO : topic #13 (0.032): 0.001*"коап" + 0.001*"фио" + 0.000*"москвы" + 0.000*"ооо" + 0.000*"руб" + 0.000*"административного" + 0.000*"кассационной" + 0.000*"дд" + 0.000*"дисциплинарного" + 0.000*"гггг" + 0.000*"мм" + 0.000*"административном" + 0.000*"заработной" + 0.000*"увольнении" + 0.000*"изъяты" + 0.000*"правонарушении" + 0.000*"правонарушения" + 0.000*"гпк" + 0.000*"рф" + 0.000*"рабочем"
2019-12-06 13:47:51,626 : INFO : topic #14 (0.030): 0.001*"фио" + 0.001*"кассационной" + 0.001*"москвы" + 0.000*"ооо" + 0.000*"руб" + 0.000*"коап" + 0.000*"правонарушения" + 0.000*"увольнении" + 0.000*"рф" + 0.000*"заработной" + 0.000*"гггг" + 0.000*"колос" + 0.000*"выплаты" + 0.000*"москве" + 0.000*"увольнения" + 0.000*"московского" + 0.000*"города" + 0.000*"правонарушении" + 0.000*"дата" + 0.000*"мм"
2019-12-06 13:47:51,637 : INFO : topic #15 (0.029): 0.001*"коап" + 0.001*"фио" + 0.001*"ооо" + 0.000*"гггг" + 0.000*"москвы" + 0.000*"кассационной" + 0.000*"административн

1    мм, дд, гггг, ооо, коап, изъяты, края, руб, труда, заработной, административного, саха, фио, республики, правонарушении, платы, якутия, административном, рублей, оплаты
2    дд, мм, гггг, коап, фио, дата, административного, изъяты, ооо, якутия, руб, административном, кассационной, заработной, компенсации, рс, ущерба, ао, службы, ип
3    коап, ооо, кассационной, фио, москвы, административного, руб, правонарушения, гггг, административном, правонарушении, иностранного, рф, заработной, увольнения, тк, увольнении, московского, изъяты, москве
4    коап, ооо, фио, кассационной, административного, административном, россии, гггг, правонарушении, москве, москвы, дд, самарской, руб, мм, правонарушения, гражданина, внутренних, иностранного, дата
5    фио, коап, кассационной, москвы, руб, иностранных, ооо, дд, дата, гггг, мм, московского, административном, тк, правонарушения, административного, москве, заработной, увольнения, ао
6    коап, ооо, фио, административного, кассационной, москвы, дат

### 2.1.2. Тестирование LSI (7, 10, 12, 15, 17, 20 топиков)

In [63]:
model_iterator(gsm.models.LsiModel, gsm_tfidf, gsm_dct_tok, [7,10,12,15,17,20], onepass=False, power_iters=5)

2019-12-06 14:20:09,437 : INFO : using serial LSI version on this node
2019-12-06 14:20:09,447 : INFO : updating model with new documents
2019-12-06 14:20:09,448 : INFO : using 100 extra samples and 5 power iterations
2019-12-06 14:20:09,450 : INFO : 1st phase: constructing (178331, 107) action matrix


Num of topics 7


2019-12-06 14:20:09,921 : INFO : PROGRESS: at document #0
2019-12-06 14:20:29,838 : INFO : PROGRESS: at document #20000
2019-12-06 14:20:42,497 : INFO : PROGRESS: at document #40000
2019-12-06 14:20:45,827 : INFO : running power iteration #1
2019-12-06 14:20:46,022 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:20:59,666 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:21:14,826 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:21:17,606 : INFO : running power iteration #2
2019-12-06 14:21:17,744 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:21:29,698 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:21:43,953 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:21:46,791 : INFO : running power iteration #3
2019-12-06 14:21:46,936 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:21:59,422 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:22:14,242 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:22:17,580 : INFO : runni

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:23:51,561 : INFO : PROGRESS: at document #20000
2019-12-06 14:24:07,095 : INFO : PROGRESS: at document #40000
2019-12-06 14:24:09,994 : INFO : running power iteration #1
2019-12-06 14:24:10,214 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:24:23,051 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:24:37,497 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:24:39,861 : INFO : running power iteration #2
2019-12-06 14:24:40,050 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:24:53,412 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:25:08,192 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:25:11,201 : INFO : running power iteration #3
2019-12-06 14:25:11,351 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:25:24,926 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:25:39,000 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:25:41,370 : INFO : running power iteration #4
2019-12-06 14:25:41,517 : INFO : PRO

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:27:07,081 : INFO : PROGRESS: at document #0
2019-12-06 14:27:17,221 : INFO : PROGRESS: at document #20000
2019-12-06 14:27:28,969 : INFO : PROGRESS: at document #40000
2019-12-06 14:27:32,448 : INFO : running power iteration #1
2019-12-06 14:27:32,610 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:27:44,022 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:27:58,214 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:28:01,557 : INFO : running power iteration #2
2019-12-06 14:28:01,713 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:28:14,000 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:28:28,287 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:28:31,618 : INFO : running power iteration #3
2019-12-06 14:28:31,786 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:28:43,505 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:28:57,497 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:29:00,763 : INFO : runni

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:30:36,334 : INFO : PROGRESS: at document #20000
2019-12-06 14:30:48,271 : INFO : PROGRESS: at document #40000
2019-12-06 14:30:50,829 : INFO : running power iteration #1
2019-12-06 14:30:50,983 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:31:03,303 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:31:18,063 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:31:21,246 : INFO : running power iteration #2
2019-12-06 14:31:21,424 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:31:33,383 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:31:47,619 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:31:50,696 : INFO : running power iteration #3
2019-12-06 14:31:50,859 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:32:03,102 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:32:17,181 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:32:20,250 : INFO : running power iteration #4
2019-12-06 14:32:20,416 : INFO : PRO

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:33:52,227 : INFO : PROGRESS: at document #20000
2019-12-06 14:34:04,105 : INFO : PROGRESS: at document #40000
2019-12-06 14:34:07,280 : INFO : running power iteration #1
2019-12-06 14:34:07,454 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:34:19,659 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:34:34,227 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:34:37,254 : INFO : running power iteration #2
2019-12-06 14:34:37,422 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:34:50,178 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:35:04,335 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:35:06,897 : INFO : running power iteration #3
2019-12-06 14:35:07,056 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:35:19,564 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:35:33,620 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:35:36,147 : INFO : running power iteration #4
2019-12-06 14:35:36,307 : INFO : PRO

2019-12-06 14:37:01,983 : INFO : topic #14(11.771): 0.367*"дата" + -0.348*"фио" + -0.151*"ип" + 0.145*"премии" + -0.142*"отношений" + -0.115*"ведома" + -0.108*"поручению" + 0.099*"выплаты" + -0.094*"отношения" + -0.086*"допущения" + -0.083*"приеме" + -0.083*"минимального" + 0.082*"коап" + 0.081*"дисциплинарного" + -0.080*"оформить" + 0.071*"премия" + 0.071*"коп" + -0.071*"договор" + -0.071*"письменной" + 0.068*"ао"
2019-12-06 14:37:02,008 : INFO : topic #15(11.495): -0.551*"дата" + 0.494*"фио" + 0.119*"коп" + 0.114*"руб" + -0.107*"отношений" + -0.095*"кассационной" + -0.087*"ип" + -0.086*"ведома" + -0.083*"башкортостан" + -0.082*"изъяты" + -0.080*"поручению" + -0.070*"отношения" + -0.069*"обезличена" + -0.067*"допущения" + 0.064*"пособия" + 0.063*"отпуск" + -0.062*"нормативными" + 0.062*"москвы" + 0.062*"отпуска" + -0.061*"договор"
2019-12-06 14:37:02,077 : INFO : topic #16(10.814): -0.223*"исковой" + -0.211*"обращения" + -0.196*"почтовой" + -0.180*"срока" + -0.157*"пропуска" + -0.150*

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

2019-12-06 14:37:11,625 : INFO : PROGRESS: at document #20000
2019-12-06 14:37:22,881 : INFO : PROGRESS: at document #40000
2019-12-06 14:37:25,646 : INFO : running power iteration #1
2019-12-06 14:37:25,797 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:37:36,889 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:37:49,911 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:37:52,743 : INFO : running power iteration #2
2019-12-06 14:37:52,888 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:38:04,045 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:38:16,949 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:38:19,787 : INFO : running power iteration #3
2019-12-06 14:38:19,938 : INFO : PROGRESS: at document #0/42625
2019-12-06 14:38:31,922 : INFO : PROGRESS: at document #20000/42625
2019-12-06 14:38:45,210 : INFO : PROGRESS: at document #40000/42625
2019-12-06 14:38:48,109 : INFO : running power iteration #4
2019-12-06 14:38:48,268 : INFO : PRO

2019-12-06 14:40:04,104 : INFO : topic #14(11.771): 0.367*"дата" + -0.348*"фио" + -0.151*"ип" + 0.145*"премии" + -0.142*"отношений" + -0.115*"ведома" + -0.108*"поручению" + 0.099*"выплаты" + -0.094*"отношения" + -0.086*"допущения" + -0.083*"приеме" + -0.083*"минимального" + 0.082*"коап" + 0.081*"дисциплинарного" + -0.080*"оформить" + 0.071*"премия" + 0.071*"коп" + -0.071*"договор" + -0.071*"письменной" + 0.068*"ао"
2019-12-06 14:40:04,112 : INFO : topic #15(11.495): -0.551*"дата" + 0.494*"фио" + 0.119*"коп" + 0.114*"руб" + -0.107*"отношений" + -0.095*"кассационной" + -0.087*"ип" + -0.086*"ведома" + -0.083*"башкортостан" + -0.082*"изъяты" + -0.080*"поручению" + -0.070*"отношения" + -0.069*"обезличена" + -0.067*"допущения" + 0.064*"пособия" + 0.063*"отпуск" + -0.062*"нормативными" + 0.062*"москвы" + 0.062*"отпуска" + -0.061*"договор"
2019-12-06 14:40:04,121 : INFO : topic #16(10.814): 0.223*"исковой" + 0.211*"обращения" + 0.196*"почтовой" + 0.180*"срока" + 0.157*"пропуска" + 0.150*"фгуп"

1    коап, дд, мм, гггг, фио, ооо, административного, правонарушения, руб, правонарушении, административном, дата, заработной, москвы, иностранных, труда, кассационной, платы, увольнения, изъяты
2    коап, административного, дд, мм, гггг, правонарушения, правонарушении, административном, иностранных, иностранного, патента, москве, гражданина, административных, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, коап, руб, изъяты, административного, кассационной, пенсии, заработной, правонарушения, правонарушении, старости, административном, дата, коп, иностранных, гг, платы, выплаты
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, назначение, пенсию, стажа, дд, страховых, мм, гггг, досрочной, лет, дающей
5    внутренних, дел, органах, мвд, службе, службы, россии, органов, минимального, оплаты, заработной, сотрудника, местностях, труда, служебной, красноярского, службу, платы, севера, к

### 2.1.3. Тестирование HDP (20 топиков)

In [15]:
hdp_m = gsm.models.HdpModel(gsm_tfidf, id2word=gsm_dct_tok, max_time=300)





























































































































































2019-12-09 16:17:48,099 : INFO : (0, '0.002*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*гггг + 0.001*москвы + 0.001*дд + 0.001*мм + 0.001*руб + 0.001*пенсии')
2019-12-09 16:17:48,323 : INFO : (1, '0.002*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*москвы + 0.001*руб + 0.001*гггг + 0.001*мм + 0.001*дд + 0.001*изъяты')
2019-12-09 16:17:48,538 : INFO : (2, '0.001*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*дд + 0.001*гггг + 0.001*москвы + 0.001*руб + 0.001*мм + 0.001*изъяты')
2019-12-09 16:17:48,770 : INFO : (3, '0.000*мм + 0.000*гггг + 0.000*дд + 0.000*воронежской + 0.000*тсж + 0.000*севастополя + 0.000*ооо + 0.000*василек + 0.000*изъяты + 0.000*кстово')
2019-12-09 16:17:48,986 : INFO : (4, '0.000*гггг + 0.000*мм + 0.000*дд + 0.000*мордовия + 0.000*айболид + 0.000*саратова + 0.000*военторг-москва + 0.000*стаж + 0.000*бактериологическую + 0.000*старости')
2019-12-09 16:17:49,209 : INFO : (5, '0.000*вектор + 0.000*пензенской + 0.000*пенсии + 0.000*с

2019-12-09 16:17:52,374 : INFO : (19, '0.000*внутриведомственного + 0.000*головкина + 0.000*устьянский + 0.000*лоскут + 0.000*джинс + 0.000*недееспособной + 0.000*согласующееся + 0.000*показаньй + 0.000*волнением + 0.000*саморазвитию')


In [18]:
topics=hdp_m.print_topics(num_topics=20, num_words=15)

2019-12-09 16:26:16,955 : INFO : (0, '0.002*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*гггг + 0.001*москвы + 0.001*дд + 0.001*мм + 0.001*руб + 0.001*пенсии + 0.001*изъяты + 0.001*старости + 0.001*административного + 0.001*заработной + 0.001*коп')
2019-12-09 16:26:17,209 : INFO : (1, '0.002*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*москвы + 0.001*руб + 0.001*гггг + 0.001*мм + 0.001*дд + 0.001*изъяты + 0.001*административного + 0.001*ао + 0.001*увольнения + 0.001*коп + 0.001*д')
2019-12-09 16:26:17,472 : INFO : (2, '0.001*фио + 0.001*ооо + 0.001*кассационной + 0.001*коап + 0.001*дд + 0.001*гггг + 0.001*москвы + 0.001*руб + 0.001*мм + 0.001*изъяты + 0.001*административного + 0.001*ао + 0.001*правонарушении + 0.001*административном + 0.001*заработной')
2019-12-09 16:26:17,727 : INFO : (3, '0.000*мм + 0.000*гггг + 0.000*дд + 0.000*воронежской + 0.000*тсж + 0.000*севастополя + 0.000*ооо + 0.000*василек + 0.000*изъяты + 0.000*кстово + 0.000*указах + 0.000*рыцарь

In [25]:
pretty_printer(topics, mode='hdp')

1    фио, ооо, кассационной, коап, гггг, москвы, дд, мм, руб, пенсии, изъяты, старости, административного, заработной, коп
2    фио, ооо, кассационной, коап, москвы, руб, гггг, мм, дд, изъяты, административного, ао, увольнения, коп, д
3    фио, ооо, кассационной, коап, дд, гггг, москвы, руб, мм, изъяты, административного, ао, правонарушении, административном, заработной
4    мм, гггг, дд, воронежской, тсж, севастополя, ооо, василек, изъяты, кстово, указах, рыцарь, квадра, устаревших, проколол
5    гггг, мм, дд, мордовия, айболид, саратова, военторг, стаж, бактериологическую, старости, специальный, фбу, пенсии, аракс, бот
6    вектор, пензенской, пенсии, старости, саратовской, коап, фио, страховой, ооо, ан, мордовия, багетный, облагалось, следственные, упакованной
7    гггг, дд, мм, фио, неперечисления, комбинированного, х, лувд, переименовывались, задержками, судебная, изъяты, нефтегазоразведочную, компи, ооо
8    пензенской, саратова, саратовской, дд, млг, нижнеамурзолото, мордовия, у

### 2.1.4. Тестирование NMF (7, 10, 12, 15, 17, 20 топиков)

In [26]:
from gensim.models import nmf

In [28]:
model_iterator(nmf.Nmf, gsm_tfidf, gsm_dct_tok, [7,10,12,15,17,20], kappa=0.1, eval_every=5)

2019-12-09 16:44:21,262 : INFO : running NMF training, 7 topics, 1 passes over the supplied corpus of 42625 documents, evaluating l2 norm every 10000 documents


Num of topics 7


2019-12-09 16:44:22,737 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-09 16:44:26,942 : INFO : W error diff: -inf
2019-12-09 16:44:28,387 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-09 16:44:34,434 : INFO : W error diff: -1.2800399046159328
2019-12-09 16:44:35,797 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-09 16:44:41,934 : INFO : W error diff: -4.3136631334820805
2019-12-09 16:44:43,564 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-09 16:44:47,405 : INFO : W error diff: -5.822358808526346
2019-12-09 16:44:49,031 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-09 16:44:57,637 : INFO : L2 norm: 43.19020990197832
2019-12-09 16:44:58,650 : INFO : topic #0 (0.671): 0.005*"кассационной" + 0.004*"москвы" + 0.003*"фио" + 0.002*"дата" + 0.002*"московского" + 0.002*"дисциплинарного" + 0.002*"судебных" + 0.002*"постановлений" + 0.001*"города" + 0.001*"работе"
2019-12-09 16:44:58,650 : INFO : topic #1 (0.690): 0.018*"гггг" + 0.0

2019-12-09 16:46:15,249 : INFO : PROGRESS: pass 0, at document #42625/42625
2019-12-09 16:46:18,906 : INFO : L2 norm: 24.61010269787952
2019-12-09 16:46:20,701 : INFO : topic #4 (0.435): 0.004*"руб" + 0.003*"заработной" + 0.003*"выплаты" + 0.003*"платы" + 0.002*"коп" + 0.002*"ооо" + 0.002*"плате" + 0.002*"оплаты" + 0.002*"компенсации" + 0.002*"отпуск"
2019-12-09 16:46:20,710 : INFO : topic #5 (0.439): 0.012*"фио" + 0.004*"штата" + 0.004*"дисциплинарного" + 0.003*"численности" + 0.003*"увольнения" + 0.002*"прогула" + 0.002*"взыскания" + 0.002*"увольнение" + 0.002*"вынужденного" + 0.002*"сокращением"
2019-12-09 16:46:20,720 : INFO : topic #1 (0.525): 0.037*"гггг" + 0.037*"дд" + 0.036*"мм" + 0.013*"изъяты" + 0.005*"данные" + 0.004*"пензенской" + 0.004*"ущерба" + 0.003*"области" + 0.003*"мордовия" + 0.002*"нижегородской"
2019-12-09 16:46:20,734 : INFO : topic #6 (0.736): 0.019*"коап" + 0.011*"административного" + 0.009*"правонарушения" + 0.008*"иностранных" + 0.008*"правонарушении" + 0.008

1    кассационной, москвы, дата, судебных, московского, постановлений, прогула, увольнения, работе, внутренних, вынужденного, дисциплинарного, рабочем, обращения, взыскания, городского, службы, книжки, интересов, дел
2    гггг, дд, мм, изъяты, данные, пензенской, ущерба, области, мордовия, нижегородской, новгорода, ущерб, областного, пензы, воронежской, нижегородского, имущества, причиненного, саратова, ленинского
3    пенсии, старости, стаж, страховой, периоды, пенсиях, пенсионного, периодов, специальный, досрочное, пенсию, назначение, страховых, лет, стажа, внутренних, досрочной, фонда, области, назначении
4    коап, административного, москве, правонарушения, правонарушении, административном, иностранных, ооо, административных, ип, иностранного, деятельности, правонарушениях, гражданина, постановление, россии, проверки, патента, наименование, мвд
5    руб, заработной, выплаты, платы, коп, ооо, плате, оплаты, компенсации, отпуск, задержку, труда, задолженности, премии, неиспользованны

2019-12-09 16:46:25,997 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-09 16:46:35,766 : INFO : W error diff: -inf
2019-12-09 16:46:37,107 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-09 16:46:45,609 : INFO : W error diff: -5.264144881687592
2019-12-09 16:46:47,050 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-09 16:46:55,484 : INFO : W error diff: -4.143217553216537
2019-12-09 16:46:57,004 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-09 16:47:01,115 : INFO : W error diff: -4.221871573760573
2019-12-09 16:47:02,569 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-09 16:47:11,872 : INFO : L2 norm: 43.177332079099855
2019-12-09 16:47:12,889 : INFO : topic #4 (0.712): 0.008*"пенсии" + 0.007*"старости" + 0.006*"саратовской" + 0.005*"страховой" + 0.004*"области" + 0.004*"московской" + 0.004*"пенсиях" + 0.004*"стаж" + 0.004*"гу" + 0.003*"страховых"
2019-12-09 16:47:12,889 : INFO : topic #3 (0.722): 0.003*"ооо" + 0.003*"москвы" +

2019-12-09 16:48:32,905 : INFO : L2 norm: 24.44961946169358
2019-12-09 16:48:33,907 : INFO : topic #4 (0.504): 0.012*"пенсии" + 0.010*"старости" + 0.008*"стаж" + 0.007*"страховой" + 0.005*"пенсиях" + 0.005*"периоды" + 0.005*"пенсионного" + 0.005*"периодов" + 0.004*"специальный" + 0.004*"досрочное"
2019-12-09 16:48:33,907 : INFO : topic #3 (0.509): 0.004*"дисциплинарного" + 0.003*"ущерба" + 0.002*"проступка" + 0.002*"взыскания" + 0.002*"дисциплинарной" + 0.002*"дисциплинарное" + 0.002*"рабочем" + 0.002*"взыскание" + 0.002*"ооо" + 0.002*"россии"
2019-12-09 16:48:33,907 : INFO : topic #0 (0.672): 0.060*"гггг" + 0.059*"дд" + 0.059*"мм" + 0.019*"фио" + 0.007*"мордовия" + 0.005*"изъяты" + 0.004*"адрес" + 0.003*"тульской" + 0.002*"производстве" + 0.002*"несчастного"
2019-12-09 16:48:33,923 : INFO : topic #8 (0.696): 0.012*"коап" + 0.008*"административного" + 0.006*"ооо" + 0.006*"правонарушении" + 0.006*"административном" + 0.006*"правонарушения" + 0.005*"москве" + 0.004*"административных" + 0

1    гггг, дд, мм, фио, мордовия, изъяты, адрес, тульской, производстве, несчастного, случая, данные, гг, тулы, пензы, пензенской, новгорода, крым, охране, самарской
2    коап, административного, иностранных, правонарушения, иностранного, правонарушении, административном, гражданина, фио, патента, гражданства, наименование, москве, граждан, деятельности, административных, правовом, судьей, правонарушениях, территории
3    кассационной, штата, численности, сокращением, увольнения, должность, организации, сокращении, предстоящем, вакантную, постановлений, москвы, сокращению, работников, дата, другую, судебных, вынужденного, вакансии, незаконным
4    дисциплинарного, ущерба, проступка, взыскания, дисциплинарной, дисциплинарное, рабочем, взыскание, ооо, россии, обязанностей, работе, ответственности, ущерб, уважительных, имущества, москвы, причин, выговора, служебной
5    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, досрочное, стажа, страховых, пе

2019-12-09 16:48:36,831 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-09 16:48:47,194 : INFO : W error diff: -inf
2019-12-09 16:48:48,682 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-09 16:48:58,740 : INFO : W error diff: -8.49549464273312
2019-12-09 16:49:00,229 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-09 16:49:10,957 : INFO : W error diff: -5.757259025038678
2019-12-09 16:49:12,957 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-09 16:49:22,665 : INFO : W error diff: -4.528581038104868
2019-12-09 16:49:24,371 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-09 16:49:36,633 : INFO : L2 norm: 43.180714611654196
2019-12-09 16:49:37,751 : INFO : topic #10 (0.748): 0.009*"дисциплинарного" + 0.005*"взыскания" + 0.005*"саратовской" + 0.004*"проступка" + 0.004*"дисциплинарное" + 0.004*"рабочем" + 0.004*"увольнения" + 0.004*"прогула" + 0.004*"взыскание" + 0.004*"дисциплинарной"
2019-12-09 16:49:37,751 : INFO : topic #0 (0.782)

2019-12-09 16:51:22,554 : INFO : L2 norm: 24.49946585809484
2019-12-09 16:51:23,526 : INFO : topic #5 (0.443): 0.005*"дд" + 0.005*"мм" + 0.005*"изъяты" + 0.005*"гггг" + 0.003*"области" + 0.003*"производстве" + 0.003*"случая" + 0.003*"несчастного" + 0.003*"пенсии" + 0.003*"стаж"
2019-12-09 16:51:23,542 : INFO : topic #10 (0.563): 0.010*"дисциплинарного" + 0.006*"взыскания" + 0.005*"проступка" + 0.005*"дисциплинарное" + 0.005*"рабочем" + 0.004*"взыскание" + 0.004*"дисциплинарной" + 0.004*"уважительных" + 0.004*"увольнения" + 0.004*"прогула"
2019-12-09 16:51:23,542 : INFO : topic #9 (0.745): 0.016*"кассационной" + 0.007*"москвы" + 0.006*"московского" + 0.006*"постановлений" + 0.005*"судебных" + 0.004*"передаче" + 0.004*"защита" + 0.004*"кассационном" + 0.003*"интересов" + 0.003*"кассационных"
2019-12-09 16:51:23,555 : INFO : topic #0 (0.756): 0.021*"коап" + 0.013*"административного" + 0.010*"правонарушении" + 0.010*"административном" + 0.010*"правонарушения" + 0.007*"иностранных" + 0.006*

1    коап, административного, правонарушении, административном, правонарушения, иностранных, иностранного, административных, правонарушениях, патента, гражданина, постановление, гражданства, гггг, дд, мм, административной, граждан, административное, штрафа
2    коап, административного, правонарушения, иностранных, москве, правонарушении, административном, иностранного, гражданина, патента, административных, правонарушениях, ооо, граждан, гражданства, деятельности, постановление, судьей, административной, увд
3    руб, выплаты, заработной, оплаты, коп, премии, ущерба, платы, плате, надбавки, выплат, заработная, труда, плата, задолженности, характера, размер, доплаты, компенсационного, оклада
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, специальный, стажа, досрочное, пенсию, страховых, назначение, досрочной, лет, должностей, фонда, назначении, гу
5    фио, дата, сумма, наименование, адрес, организации, ребенком, отпуск, отпуска, уходу, пособия, заработ

2019-12-09 16:51:26,628 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-09 16:51:39,161 : INFO : W error diff: -inf
2019-12-09 16:51:40,548 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-09 16:51:52,723 : INFO : W error diff: -9.785833861783402
2019-12-09 16:51:54,123 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-09 16:52:06,284 : INFO : W error diff: -7.264221539724062
2019-12-09 16:52:08,012 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-09 16:52:14,001 : INFO : W error diff: -3.9715851265434807
2019-12-09 16:52:15,335 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-09 16:52:25,520 : INFO : L2 norm: 42.9935436979557
2019-12-09 16:52:26,523 : INFO : topic #8 (0.742): 0.008*"дисциплинарного" + 0.006*"ущерба" + 0.005*"взыскания" + 0.004*"проступка" + 0.004*"дисциплинарное" + 0.004*"взыскание" + 0.003*"рабочем" + 0.003*"ущерб" + 0.003*"имущества" + 0.003*"инвентаризации"
2019-12-09 16:52:26,523 : INFO : topic #6 (0.745): 0.005*"

2019-12-09 16:54:05,568 : INFO : PROGRESS: pass 0, at document #42000/42625
2019-12-09 16:54:07,005 : INFO : W error diff: 0.1050691363288152
2019-12-09 16:54:07,505 : INFO : PROGRESS: pass 0, at document #42625/42625
2019-12-09 16:54:11,065 : INFO : L2 norm: 24.4017899539959
2019-12-09 16:54:12,065 : INFO : topic #8 (0.488): 0.008*"дисциплинарного" + 0.005*"ущерба" + 0.005*"взыскания" + 0.004*"проступка" + 0.004*"дисциплинарное" + 0.004*"взыскание" + 0.004*"дисциплинарной" + 0.003*"рабочем" + 0.003*"выговора" + 0.003*"неисполнение"
2019-12-09 16:54:12,081 : INFO : topic #2 (0.572): 0.016*"внутренних" + 0.011*"дел" + 0.008*"органах" + 0.006*"службы" + 0.005*"пенсии" + 0.005*"мвд" + 0.005*"службе" + 0.005*"органов" + 0.005*"россии" + 0.004*"старости"
2019-12-09 16:54:12,097 : INFO : topic #10 (0.772): 0.022*"кассационной" + 0.007*"судебных" + 0.007*"постановлений" + 0.007*"руб" + 0.006*"московского" + 0.005*"передаче" + 0.005*"кассационном" + 0.005*"коп" + 0.005*"защита" + 0.005*"кассац

1    коап, административного, иностранных, правонарушения, правонарушении, административном, иностранного, патента, гражданина, гражданства, ооо, граждан, судьей, административных, деятельности, территории, правонарушениях, правовом, постановление, административное
2    фио, изъяты, гггг, дд, мм, адрес, данные, наименование, дата, нижегородской, несчастного, саратовской, случая, нижегородского, новгорода, организации, советского, производстве, сумма, несчастном
3    внутренних, дел, органах, службы, пенсии, мвд, службе, органов, россии, старости, фз, стаж, страховой, области, федерального, гу, службу, сотрудника, страховых, лет
4    дата, фио, ооо, сумма, организации, ао, отношения, отношений, договор, директора, москвы, генерального, между, адрес, распорядка, внутреннего, поручению, наименование, ведома, функции
5    ооо, книжки, заработной, руб, увольнении, задержку, книжку, платы, неиспользованный, отпуск, компенсации, срока, плате, морального, выдачи, коп, увольнения, собственному,

2019-12-09 16:54:15,597 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-09 16:54:33,338 : INFO : W error diff: -inf
2019-12-09 16:54:35,260 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-09 16:54:51,173 : INFO : W error diff: -13.616996751438073
2019-12-09 16:54:52,497 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-09 16:55:07,943 : INFO : W error diff: -6.485396770526393
2019-12-09 16:55:09,522 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-09 16:55:18,691 : INFO : W error diff: -4.79165151456742
2019-12-09 16:55:20,113 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-09 16:55:30,769 : INFO : L2 norm: 42.86392350514334
2019-12-09 16:55:31,816 : INFO : topic #6 (0.763): 0.013*"кассационной" + 0.004*"дисциплинарного" + 0.004*"постановлений" + 0.004*"прогула" + 0.004*"вынужденного" + 0.004*"увольнения" + 0.004*"рабочем" + 0.003*"книжки" + 0.003*"московского" + 0.003*"судебных"
2019-12-09 16:55:31,816 : INFO : topic #16 (0.780): 0.

2019-12-09 16:57:12,568 : INFO : PROGRESS: pass 0, at document #42625/42625
2019-12-09 16:57:15,849 : INFO : L2 norm: 24.333233764247552
2019-12-09 16:57:16,865 : INFO : topic #4 (0.490): 0.004*"штата" + 0.003*"численности" + 0.003*"пао" + 0.002*"оао" + 0.002*"сокращении" + 0.002*"сокращением" + 0.002*"вакантную" + 0.002*"предстоящем" + 0.002*"области" + 0.002*"сокращению"
2019-12-09 16:57:16,880 : INFO : topic #9 (0.568): 0.008*"ущерба" + 0.004*"имущества" + 0.004*"ущерб" + 0.004*"инвентаризации" + 0.004*"причиненного" + 0.004*"материальной" + 0.003*"причиненный" + 0.003*"ценностей" + 0.003*"работодателю" + 0.003*"полной"
2019-12-09 16:57:16,880 : INFO : topic #16 (0.755): 0.018*"коап" + 0.010*"административного" + 0.008*"правонарушения" + 0.008*"правонарушении" + 0.008*"административном" + 0.007*"иностранных" + 0.006*"иностранного" + 0.005*"москве" + 0.005*"гражданина" + 0.005*"патента"
2019-12-09 16:57:16,880 : INFO : topic #7 (0.793): 0.014*"коап" + 0.010*"административного" + 0.00

2019-12-09 16:57:18,755 : INFO : topic #16 (0.757): 0.018*"коап" + 0.010*"административного" + 0.008*"правонарушения" + 0.008*"правонарушении" + 0.008*"административном" + 0.007*"иностранных" + 0.006*"иностранного" + 0.005*"москве" + 0.005*"гражданина" + 0.005*"патента" + 0.004*"административных" + 0.004*"гражданства" + 0.004*"правонарушениях" + 0.004*"постановление" + 0.004*"граждан" + 0.004*"административной" + 0.003*"деятельности" + 0.003*"административное" + 0.003*"правовом" + 0.003*"судьей"
2019-12-09 16:57:18,771 : INFO : running NMF training, 20 topics, 1 passes over the supplied corpus of 42625 documents, evaluating l2 norm every 10000 documents


1    фио, увольнения, прогула, вынужденного, увольнении, работе, восстановлении, увольнение, москвы, организации, заявления, незаконным, заявление, штата, собственному, частной, должность, заработка, признании, желанию
2    внутренних, фио, дел, дд, гггг, мм, органах, мвд, россии, службы, службе, органов, сотрудника, служебной, воронежской, изъяты, службу, адрес, законодательные, отдельные
3    пенсии, старости, стаж, страховой, пенсиях, периодов, специальный, досрочное, периоды, пенсионного, пенсию, назначение, досрочной, стажа, пензенской, дающей, страховых, выслугу, учреждениях, повышения
4    дата, руб, заработной, фио, коп, платы, сумма, задержку, отпуск, неиспользованный, плате, выплаты, срока, обращения, причитающихся, задолженности, дисциплинарного, компенсации, взыскания, отпуска
5    штата, численности, пао, оао, сокращении, сокращением, вакантную, предстоящем, области, сокращению, работников, сбербанк, вакансии, профсоюзной, сокращения, охраны, другую, оставление, филиала, р

2019-12-09 16:57:20,052 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-09 16:57:37,224 : INFO : W error diff: -inf
2019-12-09 16:57:38,614 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-09 16:57:55,303 : INFO : W error diff: -17.059588446624197
2019-12-09 16:57:56,693 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-09 16:58:13,273 : INFO : W error diff: -7.044952054808853
2019-12-09 16:58:14,694 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-09 16:58:24,054 : INFO : W error diff: -4.470981455377554
2019-12-09 16:58:25,475 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-09 16:58:36,569 : INFO : L2 norm: 42.74851593301092
2019-12-09 16:58:37,616 : INFO : topic #6 (0.767): 0.020*"коап" + 0.011*"административного" + 0.009*"иностранных" + 0.009*"правонарушения" + 0.009*"правонарушении" + 0.008*"административном" + 0.007*"иностранного" + 0.006*"гражданина" + 0.006*"патента" + 0.005*"гражданства"
2019-12-09 16:58:37,616 : INFO : topic

2019-12-09 17:00:25,321 : INFO : L2 norm: 24.243720038464073
2019-12-09 17:00:26,352 : INFO : topic #17 (0.526): 0.005*"области" + 0.005*"пенсии" + 0.004*"стаж" + 0.004*"старости" + 0.003*"страховой" + 0.003*"охране" + 0.002*"периоды" + 0.002*"пенсионного" + 0.002*"лет" + 0.002*"фонда"
2019-12-09 17:00:26,367 : INFO : topic #4 (0.575): 0.008*"дисциплинарного" + 0.004*"взыскания" + 0.004*"проступка" + 0.004*"дисциплинарной" + 0.004*"рабочем" + 0.004*"дисциплинарное" + 0.003*"взыскание" + 0.003*"прогула" + 0.003*"увольнения" + 0.003*"уважительных"
2019-12-09 17:00:26,367 : INFO : topic #6 (0.805): 0.025*"коап" + 0.014*"административного" + 0.011*"правонарушения" + 0.011*"правонарушении" + 0.011*"административном" + 0.011*"иностранных" + 0.009*"иностранного" + 0.007*"гражданина" + 0.007*"патента" + 0.007*"гражданства"
2019-12-09 17:00:26,383 : INFO : topic #14 (0.818): 0.015*"коап" + 0.010*"административного" + 0.008*"правонарушения" + 0.006*"правонарушении" + 0.006*"административном" + 0

2019-12-09 17:00:28,352 : INFO : topic #16 (0.770): 0.007*"кассационной" + 0.005*"москвы" + 0.005*"ао" + 0.004*"московского" + 0.003*"судебных" + 0.003*"премии" + 0.003*"прогула" + 0.003*"увольнения" + 0.003*"вынужденного" + 0.002*"восстановлении" + 0.002*"постановлений" + 0.002*"коллегии" + 0.002*"нетрудоспособности" + 0.002*"городского" + 0.002*"пособия" + 0.002*"оао" + 0.002*"срока" + 0.002*"обращения" + 0.002*"заработка" + 0.002*"приказом"
2019-12-09 17:00:28,352 : INFO : topic #17 (0.528): 0.005*"области" + 0.005*"пенсии" + 0.004*"стаж" + 0.004*"старости" + 0.003*"страховой" + 0.003*"охране" + 0.002*"периоды" + 0.002*"пенсионного" + 0.002*"лет" + 0.002*"фонда" + 0.002*"района" + 0.002*"досрочное" + 0.002*"государственного" + 0.002*"января" + 0.002*"страховых" + 0.002*"периодов" + 0.002*"назначение" + 0.002*"районе" + 0.002*"управление" + 0.002*"должностей"
2019-12-09 17:00:28,367 : INFO : topic #18 (0.735): 0.010*"коап" + 0.008*"административного" + 0.008*"мвд" + 0.007*"россии" + 

1    ооо, увольнении, книжку, книжки, отношений, трудовой, договора, собственному, желанию, работе, трудовую, договор, заявление, увольнения, заявления, сторонами, выдачи, приеме, отношения, тк
2    руб, ущерба, коп, выплаты, штата, заработной, оплаты, численности, имущества, ущерб, выплат, надбавки, платы, компенсационного, материальной, плате, заработная, причиненного, отпуск, плата
3    дд, мм, гггг, изъяты, пензенской, данные, новгорода, пензы, нижегородского, муп, гг, рублей, пао, нижнего, пензенского, самарской, нижегородской, пензенский, крым, мирового
4    пенсии, старости, мордовия, стаж, страховой, пенсионного, пенсиях, периоды, специальный, периодов, стажа, пенсию, досрочное, страховых, назначение, досрочной, фонда, республики, дающей, назначении
5    дисциплинарного, взыскания, проступка, дисциплинарной, рабочем, дисциплинарное, взыскание, прогула, увольнения, уважительных, обязанностей, причин, выговора, вынужденного, неисполнение, отсутствия, незаконным, увольнение, рабоч

## 2.2. Используем простой корпус без предобработки, но с ограничениями на частотности встречаемости снизу и сверху (15; 0,85)

In [29]:
gsm_dct_tok.filter_extremes(no_below=15, no_above=0.85, keep_n=None)
gsm_dct_tok.compactify()

2019-12-09 17:27:04,667 : INFO : discarding 141481 tokens: [('а', 42309), ('без', 41425), ('в', 42625), ('г', 42137), ('года', 38193), ('дела', 42516), ('делам', 37291), ('дело', 38801), ('делу', 41645), ('для', 42130)]...
2019-12-09 17:27:04,683 : INFO : keeping 36850 tokens which were in no less than 15 and no more than 36231 (=85.0%) documents
2019-12-09 17:27:04,862 : INFO : resulting dictionary: Dictionary(36850 unique tokens: ['августа', 'апелляционная', 'апелляционное', 'апелляционной', 'апелляционную']...)


In [30]:
gsm_dct_tok_tfidf_compact = gsm.models.TfidfModel(gsm_dct_tok.doc2bow(doc) for doc in ec_all_date['tk'])

2019-12-09 17:27:39,895 : INFO : collecting document frequencies
2019-12-09 17:27:39,977 : INFO : PROGRESS: processing document #0
2019-12-09 17:28:02,460 : INFO : PROGRESS: processing document #10000
2019-12-09 17:28:22,773 : INFO : PROGRESS: processing document #20000
2019-12-09 17:28:44,912 : INFO : PROGRESS: processing document #30000
2019-12-09 17:29:08,289 : INFO : PROGRESS: processing document #40000
2019-12-09 17:29:13,184 : INFO : calculating IDF weights for 42625 documents and 36850 features (25815531 matrix non-zeros)


In [34]:
tfidf_file_compact = rwtools.create_new_binary('EC_43241_date_tfidf_compact', fdp())

In [33]:
tfidf_file_compact.name

'C:\\Users\\EA-ShevchenkoIS\\Робот\\__ТЕСТЫ\\EC_43241_date_tfidf'

In [35]:
tfidf_iop_compact = iop.IOPickler(file=tfidf_file_compact)

In [36]:
tfidf_iop_compact.write(gsm_dct_tok_tfidf_compact[conv_doc] for conv_doc in (gsm_dct_tok.doc2bow(doc) for doc in ec_all_date['tk']))

2019-12-09, Mon, 17:39:00	IOPickler.write: IOPickler writing! TIME:    6.3018 min ( 378.1090 sec)


In [41]:
gsm_tfidf = tfidf_iop_compact

### 2.2.1. Тестирование LDA (7, 10, 12, 15, 17, 20 топиков)

In [37]:
model_iterator(gsm.models.LdaMulticore, tfidf_iop_compact, gsm_dct_tok, [7,10,12,15,17,20], alpha='asymmetric', eta='auto', iterations=5)

2019-12-11 10:29:34,340 : INFO : using asymmetric alpha [0.26219156, 0.19027454, 0.14931786, 0.12287004, 0.104381524, 0.090729296, 0.080235206]
2019-12-11 10:29:34,372 : INFO : using serial LDA version on this node
2019-12-11 10:29:34,524 : INFO : running online LDA training, 7 topics, 1 passes over the supplied corpus of 42625 documents, updating every 6000 documents, evaluating every ~42625 documents, iterating 5x with a convergence threshold of 0.001000


Num of topics 7


2019-12-11 10:29:34,605 : INFO : training LDA model using 3 processes
2019-12-11 10:29:45,284 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-11 10:29:53,703 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-11 10:29:55,216 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 3
2019-12-11 10:29:56,520 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 4
2019-12-11 10:29:58,612 : INFO : PROGRESS: pass 0, dispatched chunk #4 = documents up to #10000/42625, outstanding queue size 5
2019-12-11 10:29:59,644 : INFO : PROGRESS: pass 0, dispatched chunk #5 = documents up to #12000/42625, outstanding queue size 6
2019-12-11 10:30:09,199 : INFO : PROGRESS: pass 0, dispatched chunk #6 = documents up to #14000/42625, outstanding queue size 7
2019-12-11 10:30:42,920 : INFO : PROGR

2019-12-11 10:32:19,621 : INFO : topic #5 (0.091): 0.002*"ооо" + 0.002*"фио" + 0.002*"коап" + 0.002*"руб" + 0.002*"административного" + 0.002*"заработной" + 0.001*"кассационной" + 0.001*"москвы" + 0.001*"административном" + 0.001*"правонарушения"
2019-12-11 10:32:19,625 : INFO : topic #2 (0.149): 0.003*"ооо" + 0.002*"мм" + 0.002*"коап" + 0.002*"дд" + 0.002*"гггг" + 0.001*"руб" + 0.001*"фио" + 0.001*"административного" + 0.001*"заработной" + 0.001*"увольнения"
2019-12-11 10:32:19,629 : INFO : topic #1 (0.190): 0.002*"пенсии" + 0.002*"дд" + 0.002*"старости" + 0.002*"коап" + 0.002*"мм" + 0.002*"ооо" + 0.002*"стаж" + 0.001*"области" + 0.001*"гггг" + 0.001*"дата"
2019-12-11 10:32:19,647 : INFO : topic #0 (0.262): 0.002*"коап" + 0.001*"фио" + 0.001*"ооо" + 0.001*"руб" + 0.001*"заработной" + 0.001*"дата" + 0.001*"труда" + 0.001*"внутренних" + 0.001*"платы" + 0.001*"гггг"
2019-12-11 10:32:19,659 : INFO : topic diff=0.223897, rho=0.242536
2019-12-11 10:32:20,841 : INFO : PROGRESS: pass 0, dispa

1    коап, гггг, мм, дд, изъяты, ооо, фио, заработной, республики, руб, внутренних, труда, края, платы, дата, административного, ао, рублей, правонарушении, увольнения
2    дд, мм, пенсии, гггг, старости, стаж, коап, ооо, красноярского, изъяты, административного, области, страховой, дата, фио, административном, труда, руб, правонарушениях, пенсионного
3    ооо, мм, дд, гггг, коап, руб, фио, заработной, увольнения, административного, правонарушения, увольнении, республики, истца, срока, кассационной, ш, задолженности, дата, выплаты
4    ооо, дата, коап, административного, правонарушении, заработной, кассационной, руб, москвы, платы, книжки, тк, морального, отношений, правонарушения, работе, рублей, фио, ао, компенсации
5    руб, ооо, заработной, выплаты, увольнении, коап, кассационной, дата, платы, компенсации, отпуск, морального, москвы, срока, административного, работе, задолженности, коп, фио, оплаты
6    ооо, фио, руб, коап, заработной, административного, кассационной, москвы, админ

2019-12-11 10:32:35,690 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-11 10:32:42,731 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-11 10:32:49,861 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 2
2019-12-11 10:32:57,149 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 2
2019-12-11 10:33:03,531 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:33:03,566 : INFO : topic #9 (0.053): 0.002*"коап" + 0.002*"ооо" + 0.002*"москвы" + 0.002*"фио" + 0.002*"руб" + 0.001*"кассационной" + 0.001*"д" + 0.001*"гггг" + 0.001*"москве" + 0.001*"дд"
2019-12-11 10:33:03,566 : INFO : topic #8 (0.058): 0.002*"ооо" + 0.002*"москвы" + 0.002*"коап" + 0.001*"кассационной" + 0.001*"дд" + 0.001*"руб" + 0.001*"гггг" + 0.001*"административного" 

2019-12-11 10:34:30,914 : INFO : topic #0 (0.203): 0.002*"гггг" + 0.002*"мм" + 0.002*"ооо" + 0.002*"дд" + 0.002*"коап" + 0.002*"дата" + 0.002*"фио" + 0.001*"республики" + 0.001*"административного" + 0.001*"руб"
2019-12-11 10:34:30,918 : INFO : topic diff=0.329584, rho=0.277350
2019-12-11 10:34:32,067 : INFO : PROGRESS: pass 0, dispatched chunk #16 = documents up to #34000/42625, outstanding queue size 2
2019-12-11 10:34:39,880 : INFO : PROGRESS: pass 0, dispatched chunk #17 = documents up to #36000/42625, outstanding queue size 2
2019-12-11 10:34:47,723 : INFO : PROGRESS: pass 0, dispatched chunk #18 = documents up to #38000/42625, outstanding queue size 2
2019-12-11 10:34:54,341 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:34:54,375 : INFO : topic #9 (0.053): 0.006*"коап" + 0.003*"иностранных" + 0.003*"гражданина" + 0.002*"иностранного" + 0.002*"административного" + 0.002*"москве" + 0.002*"правонарушения" + 0.002*"ооо" + 0.002*"правонаруше

2019-12-11 10:35:19,262 : INFO : topic #7 (0.063): 0.002*"фио" + 0.001*"ооо" + 0.001*"москвы" + 0.001*"кассационной" + 0.001*"коап" + 0.001*"руб" + 0.001*"заработной" + 0.001*"увольнения" + 0.001*"дата" + 0.001*"ао" + 0.001*"тк" + 0.001*"гпк" + 0.001*"нетрудоспособности" + 0.001*"выплаты" + 0.001*"дисциплинарного" + 0.001*"москве" + 0.001*"увольнении" + 0.001*"административного" + 0.001*"взыскания" + 0.001*"иностранных"
2019-12-11 10:35:19,266 : INFO : topic #8 (0.058): 0.002*"коап" + 0.002*"ооо" + 0.001*"административного" + 0.001*"москвы" + 0.001*"иностранных" + 0.001*"руб" + 0.001*"дата" + 0.001*"выплаты" + 0.001*"правонарушения" + 0.001*"кассационной" + 0.001*"гпк" + 0.001*"гражданина" + 0.001*"правонарушении" + 0.001*"фио" + 0.001*"москве" + 0.001*"д" + 0.001*"увольнения" + 0.001*"трудовой" + 0.001*"иностранного" + 0.001*"административном"
2019-12-11 10:35:19,267 : INFO : topic #9 (0.053): 0.005*"коап" + 0.003*"иностранных" + 0.002*"гражданина" + 0.002*"иностранного" + 0.002*"адми

1    мм, гггг, дд, якутия, саха, края, изъяты, ооо, труда, коап, республики, руб, административного, дата, краевого, фио, внутренних, ао, службы, области
2    дд, гггг, заработной, ооо, мм, руб, платы, изъяты, приморского, увольнения, увольнении, рублей, морального, ущерба, вынужденного, коп, прогула, фио, оплаты, плате
3    пенсии, старости, дд, стаж, мм, ооо, гггг, коап, периоды, фио, специальный, страховой, пенсионного, приморского, периодов, дата, пенсиях, досрочное, пенсию, административного
4    коап, правонарушении, административном, административного, правонарушениях, правонарушения, административных, ооо, постановление, фио, административной, инспекции, тысяч, штрафа, предусмотренном, труда, должностного, наказание, иностранного, отношении
5    коап, ооо, фио, административного, руб, заработной, административном, платы, отношений, иностранных, москвы, поручению, правонарушения, выплаты, дата, компенсации, дд, работе, плате, деятельности
6    коап, фио, ооо, москвы, руб, увольн

2019-12-11 10:35:20,934 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-11 10:35:27,945 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-11 10:35:35,172 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 2
2019-12-11 10:35:42,422 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 2
2019-12-11 10:35:48,806 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:35:48,854 : INFO : topic #11 (0.043): 0.003*"фио" + 0.002*"коап" + 0.002*"руб" + 0.002*"кассационной" + 0.002*"ооо" + 0.002*"мм" + 0.001*"дд" + 0.001*"москвы" + 0.001*"дисциплинарного" + 0.001*"гггг"
2019-12-11 10:35:48,870 : INFO : topic #10 (0.046): 0.002*"ооо" + 0.002*"коап" + 0.002*"фио" + 0.002*"москвы" + 0.001*"кассационной" + 0.001*"руб" + 0.001*"заработной" + 0.001*"

2019-12-11 10:37:16,193 : INFO : topic #0 (0.179): 0.002*"гггг" + 0.002*"мм" + 0.002*"дд" + 0.002*"ооо" + 0.002*"дата" + 0.002*"фио" + 0.002*"санкт-петербурга" + 0.001*"кассационной" + 0.001*"коап" + 0.001*"башкортостан"
2019-12-11 10:37:16,201 : INFO : topic diff=0.408478, rho=0.277350
2019-12-11 10:37:17,355 : INFO : PROGRESS: pass 0, dispatched chunk #16 = documents up to #34000/42625, outstanding queue size 2
2019-12-11 10:37:25,303 : INFO : PROGRESS: pass 0, dispatched chunk #17 = documents up to #36000/42625, outstanding queue size 2
2019-12-11 10:37:33,229 : INFO : PROGRESS: pass 0, dispatched chunk #18 = documents up to #38000/42625, outstanding queue size 2
2019-12-11 10:37:39,890 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:37:39,939 : INFO : topic #11 (0.043): 0.003*"коап" + 0.002*"фио" + 0.002*"административного" + 0.002*"иностранных" + 0.002*"москве" + 0.001*"патента" + 0.001*"ооо" + 0.001*"руб" + 0.001*"правонарушения" + 0.001

2019-12-11 10:38:04,915 : INFO : topic #7 (0.059): 0.002*"коап" + 0.001*"фио" + 0.001*"руб" + 0.001*"москвы" + 0.001*"ооо" + 0.001*"кассационной" + 0.001*"патента" + 0.001*"административного" + 0.001*"правонарушения" + 0.001*"иностранных" + 0.001*"правонарушении" + 0.001*"дисциплинарного" + 0.001*"дата" + 0.001*"увольнения" + 0.001*"москве" + 0.001*"увольнении" + 0.001*"тк" + 0.001*"административном" + 0.001*"иностранного" + 0.001*"гггг"
2019-12-11 10:38:04,919 : INFO : topic #8 (0.054): 0.003*"коап" + 0.002*"ооо" + 0.002*"иностранного" + 0.001*"правонарушения" + 0.001*"иностранных" + 0.001*"административного" + 0.001*"москве" + 0.001*"фио" + 0.001*"административном" + 0.001*"правонарушении" + 0.001*"москвы" + 0.001*"руб" + 0.001*"гражданина" + 0.001*"деятельности" + 0.001*"граждан" + 0.001*"патента" + 0.001*"мм" + 0.001*"кассационной" + 0.001*"дд" + 0.001*"гражданства"
2019-12-11 10:38:04,922 : INFO : topic #9 (0.050): 0.002*"коап" + 0.002*"ооо" + 0.001*"фио" + 0.001*"административног

1    мм, дд, гггг, якутия, саха, ооо, края, изъяты, хабаровского, внутренних, дата, руб, приморского, фио, рублей, россии, заработной, краевого, службы, увольнения
2    коап, ооо, труда, административного, правонарушении, административном, дд, административных, правонарушениях, мм, инспекции, изъяты, правонарушения, стаж, гггг, фио, старости, республики, пенсии, заработной
3    ооо, заработной, руб, выплаты, платы, фио, отпуск, рублей, коп, коап, оплаты, труда, работе, компенсации, республики, плата, увольнении, отношений, изъяты, плате
4    мм, дд, гггг, ооо, заработной, руб, плате, увольнении, ип, книжку, неиспользованный, платы, книжки, отношений, прогула, увольнения, отпуск, выплаты, тк, задержку
5    коап, административного, административном, правонарушения, правонарушении, административных, правонарушениях, постановление, административной, фио, тысяч, ооо, иностранных, штрафа, иностранного, административное, лица, наказания, предусмотренном, гражданина
6    фио, ооо, коап, руб, а

2019-12-11 10:38:06,606 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-11 10:38:13,679 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-11 10:38:20,951 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 2
2019-12-11 10:38:28,304 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 2
2019-12-11 10:38:34,834 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:38:34,881 : INFO : topic #14 (0.033): 0.004*"фио" + 0.002*"ооо" + 0.002*"руб" + 0.001*"изъяты" + 0.001*"мм" + 0.001*"москвы" + 0.001*"гггг" + 0.001*"дд" + 0.001*"заработной" + 0.001*"кассационной"
2019-12-11 10:38:34,881 : INFO : topic #13 (0.035): 0.002*"мм" + 0.002*"фио" + 0.002*"ооо" + 0.001*"коап" + 0.001*"руб" + 0.001*"кассационной" + 0.001*"увольнении" + 0.001*"админис

2019-12-11 10:40:03,637 : INFO : topic diff=0.532743, rho=0.277350
2019-12-11 10:40:04,813 : INFO : PROGRESS: pass 0, dispatched chunk #16 = documents up to #34000/42625, outstanding queue size 2
2019-12-11 10:40:12,668 : INFO : PROGRESS: pass 0, dispatched chunk #17 = documents up to #36000/42625, outstanding queue size 2
2019-12-11 10:40:20,653 : INFO : PROGRESS: pass 0, dispatched chunk #18 = documents up to #38000/42625, outstanding queue size 2
2019-12-11 10:40:27,422 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:40:27,477 : INFO : topic #14 (0.033): 0.002*"фио" + 0.001*"ооо" + 0.001*"дата" + 0.001*"москвы" + 0.001*"руб" + 0.001*"коап" + 0.001*"административного" + 0.001*"заработной" + 0.001*"мм" + 0.001*"изъяты"
2019-12-11 10:40:27,477 : INFO : topic #13 (0.035): 0.001*"коап" + 0.001*"фио" + 0.001*"ооо" + 0.001*"административного" + 0.001*"кассационной" + 0.001*"мм" + 0.001*"руб" + 0.001*"ао" + 0.001*"увольнении" + 0.001*"москве"
2019-

2019-12-11 10:40:53,118 : INFO : topic #8 (0.050): 0.002*"пск" + 0.002*"ооо" + 0.001*"кассационной" + 0.001*"москвы" + 0.001*"фио" + 0.001*"коап" + 0.001*"руб" + 0.001*"увольнения" + 0.001*"административного" + 0.001*"увольнении" + 0.001*"дисциплинарного" + 0.001*"прогула" + 0.001*"заработной" + 0.001*"коп" + 0.001*"тк" + 0.001*"гпк" + 0.001*"ао" + 0.001*"морального" + 0.001*"вынужденного" + 0.001*"трудовой"
2019-12-11 10:40:53,122 : INFO : topic #9 (0.046): 0.001*"фио" + 0.001*"ооо" + 0.001*"интеркоммерц" + 0.001*"москвы" + 0.001*"руб" + 0.001*"дата" + 0.001*"феникс" + 0.001*"коап" + 0.001*"дисциплинарного" + 0.001*"гггг" + 0.001*"дд" + 0.001*"москве" + 0.001*"выплаты" + 0.001*"д" + 0.001*"административного" + 0.001*"труда" + 0.001*"актами" + 0.001*"компенсации" + 0.001*"увольнении" + 0.001*"тк"
2019-12-11 10:40:53,126 : INFO : topic #10 (0.043): 0.013*"коап" + 0.012*"административного" + 0.009*"правонарушении" + 0.009*"административном" + 0.008*"правонарушения" + 0.008*"правонарушени

1    мм, дд, края, гггг, ооо, заработной, руб, фио, изъяты, краевого, хабаровского, морального, рублей, платы, оплаты, труда, увольнения, вреда, дата, компенсации
2    мм, дд, гггг, якутия, саха, пенсии, рс, стаж, изъяты, внутренних, старости, республики, руб, дел, дата, ооо, страховой, севера, периоды, фио
3    коап, административном, правонарушении, административных, административного, правонарушениях, правонарушения, ооо, инспекции, гггг, постановление, труда, дд, крае, фио, мм, инспектора, проверки, государственного, административной
4    коап, административного, ооо, фио, правонарушении, правонарушения, административном, кассационной, труда, дата, алькор, платы, административных, иностранных, руб, заработной, ао, выплаты, иностранного, увольнении
5    руб, ооо, фио, заработной, укс, коап, кассационной, плате, платы, ао, задолженности, премии, плата, компенсации, административного, выплаты, дата, тк, гмк, актами
6    коап, административного, административном, правонарушения, правон

2019-12-11 10:40:54,865 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-11 10:41:01,808 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-11 10:41:09,204 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 2
2019-12-11 10:41:16,493 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 2
2019-12-11 10:41:22,955 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:41:23,026 : INFO : topic #16 (0.029): 0.003*"фио" + 0.002*"ооо" + 0.002*"руб" + 0.002*"коап" + 0.001*"увольнения" + 0.001*"увольнении" + 0.001*"административного" + 0.001*"гггг" + 0.001*"москвы" + 0.001*"кассационной"
2019-12-11 10:41:23,026 : INFO : topic #15 (0.030): 0.002*"ооо" + 0.002*"кассационной" + 0.002*"коап" + 0.001*"руб" + 0.001*"фио" + 0.001*"москвы" + 0.001*"зар

2019-12-11 10:42:52,172 : INFO : topic #0 (0.140): 0.002*"ооо" + 0.002*"фио" + 0.002*"дата" + 0.002*"санкт-петербурга" + 0.001*"коап" + 0.001*"башкортостан" + 0.001*"руб" + 0.001*"кассационной" + 0.001*"республики" + 0.001*"гггг"
2019-12-11 10:42:52,187 : INFO : topic diff=0.614549, rho=0.277350
2019-12-11 10:42:53,454 : INFO : PROGRESS: pass 0, dispatched chunk #16 = documents up to #34000/42625, outstanding queue size 2
2019-12-11 10:43:01,341 : INFO : PROGRESS: pass 0, dispatched chunk #17 = documents up to #36000/42625, outstanding queue size 2
2019-12-11 10:43:09,326 : INFO : PROGRESS: pass 0, dispatched chunk #18 = documents up to #38000/42625, outstanding queue size 2
2019-12-11 10:43:16,140 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:43:16,197 : INFO : topic #16 (0.029): 0.002*"фио" + 0.002*"коап" + 0.001*"ооо" + 0.001*"административного" + 0.001*"руб" + 0.001*"правонарушении" + 0.001*"увольнения" + 0.001*"москвы" + 0.001*"москве" 

2019-12-11 10:43:41,735 : INFO : topic #7 (0.052): 0.004*"повороте" + 0.004*"поворот" + 0.002*"сообщенных" + 0.002*"отмененное" + 0.002*"подложных" + 0.001*"надзорном" + 0.001*"сведениях" + 0.001*"фио" + 0.001*"ооо" + 0.001*"алиментов" + 0.001*"коап" + 0.001*"ложных" + 0.001*"поворота" + 0.001*"ао" + 0.001*"москвы" + 0.001*"руб" + 0.001*"административного" + 0.001*"отмененному" + 0.001*"темп" + 0.001*"административном"
2019-12-11 10:43:41,739 : INFO : topic #8 (0.048): 0.001*"ооо" + 0.001*"фио" + 0.001*"руб" + 0.001*"москвы" + 0.001*"дд" + 0.001*"гпк" + 0.001*"коп" + 0.001*"увольнения" + 0.001*"кассационной" + 0.001*"коап" + 0.001*"прогула" + 0.001*"тк" + 0.001*"гггг" + 0.001*"мм" + 0.001*"нормативными" + 0.001*"дата" + 0.001*"административного" + 0.001*"неиспользованный" + 0.001*"увольнении" + 0.001*"срока"
2019-12-11 10:43:41,743 : INFO : topic #9 (0.044): 0.001*"фио" + 0.001*"ооо" + 0.001*"коап" + 0.001*"москвы" + 0.001*"кассационной" + 0.001*"руб" + 0.001*"ао" + 0.001*"золото" + 0.

1    ооо, гггг, дд, руб, мм, фио, дата, края, краевого, заработной, внутренних, дисциплинарного, изъяты, ао, хабаровского, увольнения, труда, службы, рублей, платы
2    мм, дд, гггг, саха, якутия, изъяты, пенсии, рс, ооо, стаж, старости, заработной, руб, края, оплаты, страховой, платы, периоды, рублей, труда
3    коап, административного, правонарушении, административном, правонарушения, административных, правонарушениях, инспекции, постановление, административной, ооо, фио, штрафа, инспектора, труда, тысяч, предусмотренном, государственного, отношении, крае
4    ооо, гггг, мм, дд, заработной, инвентаризации, увольнения, платы, фио, ущерба, выплаты, срока, руб, тк, обращения, плате, компенсации, разрешением, задержку, кассационной
5    восход, коап, ооо, руб, москвы, фио, траст, кассационной, заработной, тк, актами, дата, выплаты, прогула, нормативными, платы, административном, административного, увольнения, коп
6    коап, ооо, руб, москвы, кассационной, бинбанк, фио, увольнении, зарабо

2019-12-11 10:43:43,467 : INFO : PROGRESS: pass 0, dispatched chunk #0 = documents up to #2000/42625, outstanding queue size 1
2019-12-11 10:43:50,432 : INFO : PROGRESS: pass 0, dispatched chunk #1 = documents up to #4000/42625, outstanding queue size 2
2019-12-11 10:43:57,726 : INFO : PROGRESS: pass 0, dispatched chunk #2 = documents up to #6000/42625, outstanding queue size 2
2019-12-11 10:44:05,106 : INFO : PROGRESS: pass 0, dispatched chunk #3 = documents up to #8000/42625, outstanding queue size 2
2019-12-11 10:44:11,615 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:44:11,675 : INFO : topic #19 (0.024): 0.002*"фио" + 0.002*"ооо" + 0.001*"москвы" + 0.001*"кассационной" + 0.001*"руб" + 0.001*"коап" + 0.001*"мм" + 0.001*"труда" + 0.001*"тк" + 0.001*"административного"
2019-12-11 10:44:11,690 : INFO : topic #18 (0.025): 0.002*"фио" + 0.002*"ооо" + 0.002*"кассационной" + 0.002*"коап" + 0.001*"руб" + 0.001*"москвы" + 0.001*"гггг" + 0.001*"дд"

2019-12-11 10:45:40,752 : INFO : topic diff=0.732591, rho=0.277350
2019-12-11 10:45:41,903 : INFO : PROGRESS: pass 0, dispatched chunk #16 = documents up to #34000/42625, outstanding queue size 2
2019-12-11 10:45:49,839 : INFO : PROGRESS: pass 0, dispatched chunk #17 = documents up to #36000/42625, outstanding queue size 2
2019-12-11 10:45:57,883 : INFO : PROGRESS: pass 0, dispatched chunk #18 = documents up to #38000/42625, outstanding queue size 2
2019-12-11 10:46:04,875 : INFO : merging changes from 6000 documents into a model of 42625 documents
2019-12-11 10:46:04,956 : INFO : topic #19 (0.024): 0.001*"фио" + 0.001*"ооо" + 0.001*"коап" + 0.001*"москвы" + 0.001*"кассационной" + 0.001*"руб" + 0.001*"административного" + 0.001*"москве" + 0.001*"труда" + 0.001*"тк"
2019-12-11 10:46:04,956 : INFO : topic #18 (0.025): 0.001*"ооо" + 0.001*"фио" + 0.001*"коап" + 0.001*"кассационной" + 0.001*"административного" + 0.001*"руб" + 0.001*"москвы" + 0.001*"иностранного" + 0.001*"административном"

2019-12-11 10:46:31,449 : INFO : topic #8 (0.045): 0.001*"фио" + 0.001*"ооо" + 0.001*"коап" + 0.001*"кассационной" + 0.001*"руб" + 0.001*"дата" + 0.001*"москвы" + 0.001*"внутренних" + 0.001*"административного" + 0.001*"мм" + 0.001*"московского" + 0.001*"ао" + 0.001*"москве" + 0.001*"дисциплинарного" + 0.001*"гггг" + 0.001*"дд" + 0.001*"дел" + 0.001*"коп" + 0.001*"увольнения" + 0.001*"увольнении"
2019-12-11 10:46:31,449 : INFO : topic #9 (0.041): 0.005*"алькор" + 0.002*"фио" + 0.002*"адмиралтейский" + 0.001*"ооо" + 0.001*"москвы" + 0.001*"коап" + 0.001*"коп" + 0.001*"руб" + 0.001*"мм" + 0.001*"гггг" + 0.001*"дата" + 0.001*"кассационной" + 0.001*"заработной" + 0.001*"административного" + 0.001*"дд" + 0.001*"д" + 0.001*"платы" + 0.001*"морального" + 0.001*"плате" + 0.001*"увольнении"
2019-12-11 10:46:31,461 : INFO : topic #10 (0.038): 0.001*"кассационной" + 0.001*"ооо" + 0.001*"фио" + 0.001*"ломбард" + 0.001*"руб" + 0.001*"москвы" + 0.001*"увольнении" + 0.001*"ус-" + 0.001*"ао" + 0.001*"к

1    дд, мм, гггг, якутия, ооо, саха, изъяты, края, фио, заработной, пенсии, дисциплинарного, руб, труда, дата, стаж, увольнения, морального, старости, компенсации
2    мм, рс, руб, гггг, ооо, внутренних, ущерба, изъяты, дд, заработной, рублей, дата, фку, платы, дел, республики, обороны, войсковой, оплаты, россии
3    ооо, платы, заработной, руб, увольнении, выплаты, увольнения, тк, прогула, фио, морального, отношений, плата, отпуск, оклада, оплаты, труда, плате, задержку, трудовой
4    коап, административного, правонарушении, административном, правонарушения, правонарушениях, административных, постановление, инспекции, административной, ооо, штрафа, инспектора, тысяч, предусмотренном, административное, наказания, государственного, проверки, отношении
5    ооо, старателей, руб, артель, заработной, кассационной, увольнении, мфц, москвы, дата, платы, книжку, увольнения, распорядка, московского, выплаты, коап, отношений, актами, фио
6    коап, ооо, фио, административного, москвы, москве, 

### 2.2.2. Тестирование LSI (7, 10, 12, 15, 17, 20 топиков)

In [38]:
model_iterator(gsm.models.LsiModel, tfidf_iop_compact, gsm_dct_tok, [7,10,12,15,17,20], onepass=False, power_iters=5)

2019-12-11 11:03:10,862 : INFO : using serial LSI version on this node
2019-12-11 11:03:10,862 : INFO : updating model with new documents
2019-12-11 11:03:10,862 : INFO : using 100 extra samples and 5 power iterations
2019-12-11 11:03:10,862 : INFO : 1st phase: constructing (36850, 107) action matrix


Num of topics 7


2019-12-11 11:03:17,766 : INFO : PROGRESS: at document #0
2019-12-11 11:04:09,130 : INFO : PROGRESS: at document #20000
2019-12-11 11:04:19,095 : INFO : PROGRESS: at document #40000
2019-12-11 11:04:21,373 : INFO : running power iteration #1
2019-12-11 11:04:30,521 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:05:03,037 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:05:16,680 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:05:18,161 : INFO : running power iteration #2
2019-12-11 11:05:28,868 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:05:46,381 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:05:57,739 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:05:59,262 : INFO : running power iteration #3
2019-12-11 11:06:08,616 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:06:25,276 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:06:36,992 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:06:38,494 : INFO : runni

1    коап, ооо, фио, дд, мм, административного, гггг, руб, правонарушения, правонарушении, административном, заработной, дата, москвы, платы, иностранных, труда, увольнения, кассационной, увольнении
2    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, дд, мм, гггг, гражданина, москве, административных, патента, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, изъяты, руб, пенсии, коап, старости, фио, кассационной, заработной, гг, коп, дата, москвы, административного, стаж, плате, платы, выплаты
4    пенсии, старости, стаж, страховой, периоды, пенсиях, пенсионного, периодов, специальный, досрочное, пенсию, назначение, стажа, страховых, дд, досрочной, гггг, мм, лет, районе
5    внутренних, дел, органах, оплаты, минимального, дисциплинарного, заработной, мвд, кассационной, службы, местностях, службе, плате, россии, платы, руб, труда, выплаты, надбавки, заработная
6    внутренних, дел, ор

2019-12-11 11:08:40,623 : INFO : PROGRESS: at document #0
2019-12-11 11:08:56,633 : INFO : PROGRESS: at document #20000
2019-12-11 11:09:06,826 : INFO : PROGRESS: at document #40000
2019-12-11 11:09:08,003 : INFO : running power iteration #1
2019-12-11 11:09:15,016 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:09:31,405 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:09:43,377 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:09:44,808 : INFO : running power iteration #2
2019-12-11 11:09:51,862 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:10:08,063 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:10:19,360 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:10:20,470 : INFO : running power iteration #3
2019-12-11 11:10:27,048 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:10:43,388 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:10:54,716 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:10:55,810 : INFO : runni

1    коап, ооо, фио, дд, мм, административного, гггг, руб, правонарушения, правонарушении, административном, заработной, дата, москвы, платы, иностранных, труда, увольнения, кассационной, увольнении
2    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, дд, мм, гггг, гражданина, москве, административных, патента, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, изъяты, руб, пенсии, коап, старости, фио, кассационной, заработной, гг, коп, дата, москвы, административного, стаж, плате, платы, выплаты
4    пенсии, старости, стаж, страховой, периоды, пенсиях, пенсионного, периодов, специальный, досрочное, пенсию, назначение, стажа, страховых, дд, досрочной, гггг, мм, лет, районе
5    внутренних, дел, органах, оплаты, минимального, дисциплинарного, заработной, мвд, кассационной, службы, местностях, службе, плате, россии, платы, руб, труда, выплаты, надбавки, заработная
6    внутренних, дел, ор

2019-12-11 11:12:44,576 : INFO : PROGRESS: at document #0
2019-12-11 11:12:59,467 : INFO : PROGRESS: at document #20000
2019-12-11 11:13:09,510 : INFO : PROGRESS: at document #40000
2019-12-11 11:13:10,603 : INFO : running power iteration #1
2019-12-11 11:13:17,353 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:13:33,292 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:13:44,198 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:13:45,495 : INFO : running power iteration #2
2019-12-11 11:13:52,104 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:14:08,277 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:14:19,589 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:14:20,777 : INFO : running power iteration #3
2019-12-11 11:14:27,448 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:14:43,701 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:14:54,607 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:14:55,888 : INFO : runni

1    коап, ооо, фио, дд, мм, административного, гггг, руб, правонарушения, правонарушении, административном, заработной, дата, москвы, платы, иностранных, труда, увольнения, кассационной, увольнении
2    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, дд, мм, гггг, гражданина, москве, административных, патента, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, изъяты, руб, пенсии, коап, старости, фио, кассационной, заработной, гг, коп, дата, москвы, административного, стаж, плате, платы, выплаты
4    пенсии, старости, стаж, страховой, периоды, пенсиях, пенсионного, периодов, специальный, досрочное, пенсию, назначение, стажа, страховых, дд, досрочной, гггг, мм, лет, районе
5    внутренних, дел, органах, оплаты, минимального, дисциплинарного, заработной, мвд, кассационной, службы, местностях, службе, плате, россии, платы, руб, труда, выплаты, надбавки, заработная
6    внутренних, дел, ор

2019-12-11 11:16:46,846 : INFO : PROGRESS: at document #0
2019-12-11 11:17:02,250 : INFO : PROGRESS: at document #20000
2019-12-11 11:17:12,593 : INFO : PROGRESS: at document #40000
2019-12-11 11:17:13,625 : INFO : running power iteration #1
2019-12-11 11:17:20,643 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:17:37,078 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:17:48,455 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:17:49,978 : INFO : running power iteration #2
2019-12-11 11:17:56,523 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:18:13,610 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:18:25,161 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:18:26,333 : INFO : running power iteration #3
2019-12-11 11:18:33,079 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:18:50,118 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:19:01,518 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:19:02,800 : INFO : runni

2019-12-11 11:20:47,499 : INFO : topic #14(13.797): 0.208*"премии" + -0.137*"минимального" + -0.132*"отношений" + 0.128*"выплаты" + 0.116*"ао" + -0.111*"ип" + -0.106*"красноярского" + -0.104*"ведома" + -0.104*"кассационной" + 0.102*"премия" + 0.100*"коп" + -0.098*"поручению" + -0.096*"книжку" + -0.095*"края" + 0.094*"компенсационного" + -0.093*"местностях" + -0.088*"севера" + -0.088*"крайнего" + 0.088*"руб" + 0.086*"премировании"
2019-12-11 11:20:47,511 : INFO : using serial LSI version on this node
2019-12-11 11:20:47,511 : INFO : updating model with new documents
2019-12-11 11:20:47,511 : INFO : using 100 extra samples and 5 power iterations
2019-12-11 11:20:47,511 : INFO : 1st phase: constructing (36850, 117) action matrix


1    коап, ооо, фио, дд, мм, административного, гггг, руб, правонарушения, правонарушении, административном, заработной, дата, москвы, платы, иностранных, труда, увольнения, кассационной, увольнении
2    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, дд, мм, гггг, гражданина, москве, административных, патента, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, изъяты, руб, пенсии, коап, старости, фио, кассационной, заработной, гг, коп, дата, москвы, административного, стаж, плате, платы, выплаты
4    пенсии, старости, стаж, страховой, периоды, пенсиях, пенсионного, периодов, специальный, досрочное, пенсию, назначение, стажа, страховых, дд, досрочной, гггг, мм, лет, районе
5    внутренних, дел, органах, оплаты, минимального, дисциплинарного, заработной, мвд, кассационной, службы, местностях, службе, плате, россии, платы, руб, труда, выплаты, надбавки, заработная
6    внутренних, дел, ор

2019-12-11 11:20:54,293 : INFO : PROGRESS: at document #0
2019-12-11 11:21:09,426 : INFO : PROGRESS: at document #20000
2019-12-11 11:21:19,534 : INFO : PROGRESS: at document #40000
2019-12-11 11:21:20,612 : INFO : running power iteration #1
2019-12-11 11:21:27,102 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:21:43,752 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:21:55,284 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:21:56,611 : INFO : running power iteration #2
2019-12-11 11:22:04,051 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:22:22,336 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:22:34,273 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:22:35,508 : INFO : running power iteration #3
2019-12-11 11:22:42,204 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:22:59,927 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:23:12,453 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:23:13,975 : INFO : runni

2019-12-11 11:24:58,575 : INFO : topic #14(13.797): -0.208*"премии" + 0.137*"минимального" + 0.132*"отношений" + -0.128*"выплаты" + -0.116*"ао" + 0.111*"ип" + 0.106*"красноярского" + 0.104*"ведома" + 0.104*"кассационной" + -0.102*"премия" + -0.100*"коп" + 0.098*"поручению" + 0.096*"книжку" + 0.095*"края" + -0.094*"компенсационного" + 0.093*"местностях" + 0.088*"севера" + 0.088*"крайнего" + -0.088*"руб" + -0.086*"премировании"
2019-12-11 11:24:58,622 : INFO : topic #15(13.331): 0.689*"дата" + -0.562*"фио" + 0.110*"башкортостан" + 0.083*"изъяты" + 0.075*"обезличена" + 0.075*"кассационной" + -0.074*"руб" + -0.072*"коп" + 0.070*"премии" + 0.058*"республики" + -0.055*"москвы" + 0.053*"наименование" + 0.050*"санкт-петербурга" + -0.047*"ооо" + 0.046*"номер" + 0.044*"нормативными" + 0.043*"югры" + -0.041*"несчастного" + 0.039*"актами" + -0.039*"случая"
2019-12-11 11:24:58,638 : INFO : topic #16(12.123): 0.271*"обращения" + 0.228*"срока" + 0.205*"пропуска" + -0.195*"ооо" + 0.176*"исковой" + 0.1

1    коап, ооо, фио, дд, мм, административного, гггг, руб, правонарушения, правонарушении, административном, заработной, дата, москвы, платы, иностранных, труда, увольнения, кассационной, увольнении
2    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, дд, мм, гггг, гражданина, москве, административных, патента, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, изъяты, руб, пенсии, коап, старости, фио, кассационной, заработной, гг, коп, дата, москвы, административного, стаж, плате, платы, выплаты
4    пенсии, старости, стаж, страховой, периоды, пенсиях, пенсионного, периодов, специальный, досрочное, пенсию, назначение, стажа, страховых, дд, досрочной, гггг, мм, лет, районе
5    внутренних, дел, органах, оплаты, минимального, дисциплинарного, заработной, мвд, кассационной, службы, местностях, службе, плате, россии, платы, руб, труда, выплаты, надбавки, заработная
6    внутренних, дел, ор

2019-12-11 11:25:05,388 : INFO : PROGRESS: at document #0
2019-12-11 11:25:20,575 : INFO : PROGRESS: at document #20000
2019-12-11 11:25:30,434 : INFO : PROGRESS: at document #40000
2019-12-11 11:25:31,575 : INFO : running power iteration #1
2019-12-11 11:25:38,106 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:25:54,402 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:26:05,951 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:26:07,123 : INFO : running power iteration #2
2019-12-11 11:26:13,826 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:26:30,013 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:26:41,335 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:26:42,601 : INFO : running power iteration #3
2019-12-11 11:26:49,132 : INFO : PROGRESS: at document #0/42625
2019-12-11 11:27:06,170 : INFO : PROGRESS: at document #20000/42625
2019-12-11 11:27:19,123 : INFO : PROGRESS: at document #40000/42625
2019-12-11 11:27:20,293 : INFO : runni

2019-12-11 11:30:38,797 : INFO : topic #14(13.797): -0.208*"премии" + 0.137*"минимального" + 0.132*"отношений" + -0.128*"выплаты" + -0.116*"ао" + 0.111*"ип" + 0.106*"красноярского" + 0.104*"ведома" + 0.104*"кассационной" + -0.102*"премия" + -0.100*"коп" + 0.098*"поручению" + 0.096*"книжку" + 0.095*"края" + -0.094*"компенсационного" + 0.093*"местностях" + 0.088*"севера" + 0.088*"крайнего" + -0.088*"руб" + -0.086*"премировании"
2019-12-11 11:30:38,817 : INFO : topic #15(13.331): 0.689*"дата" + -0.562*"фио" + 0.110*"башкортостан" + 0.083*"изъяты" + 0.075*"обезличена" + 0.075*"кассационной" + -0.074*"руб" + -0.072*"коп" + 0.070*"премии" + 0.058*"республики" + -0.055*"москвы" + 0.053*"наименование" + 0.050*"санкт-петербурга" + -0.047*"ооо" + 0.046*"номер" + 0.044*"нормативными" + 0.043*"югры" + -0.041*"несчастного" + 0.039*"актами" + -0.039*"случая"
2019-12-11 11:30:38,827 : INFO : topic #16(12.123): 0.271*"обращения" + 0.228*"срока" + 0.205*"пропуска" + -0.195*"ооо" + 0.176*"исковой" + 0.1

1    коап, ооо, фио, дд, мм, административного, гггг, руб, правонарушения, правонарушении, административном, заработной, дата, москвы, платы, иностранных, труда, увольнения, кассационной, увольнении
2    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, дд, мм, гггг, гражданина, москве, административных, патента, правонарушениях, гражданства, постановление, административной, граждан, судьей
3    дд, мм, гггг, изъяты, руб, пенсии, коап, старости, фио, кассационной, заработной, гг, коп, дата, москвы, административного, стаж, плате, платы, выплаты
4    пенсии, старости, стаж, страховой, периоды, пенсиях, пенсионного, периодов, специальный, досрочное, пенсию, назначение, стажа, страховых, дд, досрочной, гггг, мм, лет, районе
5    внутренних, дел, органах, оплаты, минимального, дисциплинарного, заработной, мвд, кассационной, службы, местностях, службе, плате, россии, платы, руб, труда, выплаты, надбавки, заработная
6    внутренних, дел, ор

### 2.2.3. Тестирование HDP (20 топиков)

In [39]:
hdp_m_compact = gsm.models.HdpModel(tfidf_iop_compact, id2word=gsm_dct_tok, max_time=300)































































































































































































































































2019-12-11 11:42:59,661 : INFO : (0, '0.002*коап + 0.002*фио + 0.002*ооо + 0.002*москвы + 0.001*административного + 0.001*кассационной + 0.001*руб + 0.001*дата + 0.001*иностранных + 0.001*москве')
2019-12-11 11:42:59,723 : INFO : (1, '0.001*фио + 0.001*коап + 0.001*ооо + 0.001*кассационной + 0.001*москвы + 0.001*административного + 0.001*руб + 0.001*дисциплинарного + 0.001*дд + 0.001*гггг')
2019-12-11 11:42:59,770 : INFO : (2, '0.000*коап + 0.000*ооо + 0.000*фио + 0.000*распределено + 0.000*москвы + 0.000*кассационной + 0.000*работу + 0.000*руб + 0.000*дата + 0.000*компенсации')
2019-12-11 11:42:59,833 : INFO : (3, '0.000*фио + 0.000*ооо + 0.000*коап + 0.000*кассационной + 0.000*необязателен + 0.000*москвы + 0.000*сумме + 0.000*дата + 0.000*административного + 0.000*мягкого')
2019-12-11 11:42:59,864 : INFO : (4, '0.000*ооо + 0.000*фио + 0.000*правилами + 0.000*коап + 0.000*кассационной + 0.000*селиверстова + 0.000*москвы + 0.000*мм + 0.000*поддерживали + 0.000*руб')
2019-12-11 11:42:59

2019-12-11 11:43:00,440 : INFO : (16, '0.000*ооо + 0.000*фио + 0.000*закону + 0.000*если + 0.000*пролонгации + 0.000*высадки + 0.000*магаданского + 0.000*дата + 0.000*операция + 0.000*сделали')
2019-12-11 11:43:00,487 : INFO : (17, '0.000*ооо + 0.000*фио + 0.000*абонентского + 0.000*отменен + 0.000*животноводства + 0.000*половине + 0.000*гражданку + 0.000*правопреемства + 0.000*ф + 0.000*принятии')
2019-12-11 11:43:00,518 : INFO : (18, '0.000*взыскания + 0.000*ооо + 0.000*фио + 0.000*виновной + 0.000*фельдшера + 0.000*бригадиром + 0.000*лишение + 0.000*запрете + 0.000*коап + 0.000*загрязнением')
2019-12-11 11:43:00,565 : INFO : (19, '0.000*ооо + 0.000*характеризующий + 0.000*фио + 0.000*коап + 0.000*кассационной + 0.000*градусов + 0.000*достигший + 0.000*непреодолимого + 0.000*москвы + 0.000*сэд')


In [42]:
topics_compact=hdp_m_compact.print_topics(num_topics=20, num_words=15)

2019-12-11 11:50:34,108 : INFO : (0, '0.002*коап + 0.002*фио + 0.002*ооо + 0.002*москвы + 0.001*административного + 0.001*кассационной + 0.001*руб + 0.001*дата + 0.001*иностранных + 0.001*москве + 0.001*правонарушения + 0.001*ао + 0.001*правонарушении + 0.001*административном + 0.001*московского')
2019-12-11 11:50:34,200 : INFO : (1, '0.001*фио + 0.001*коап + 0.001*ооо + 0.001*кассационной + 0.001*москвы + 0.001*административного + 0.001*руб + 0.001*дисциплинарного + 0.001*дд + 0.001*гггг + 0.001*дата + 0.001*москве + 0.000*иностранных + 0.000*правонарушения + 0.000*мм')
2019-12-11 11:50:34,291 : INFO : (2, '0.000*коап + 0.000*ооо + 0.000*фио + 0.000*распределено + 0.000*москвы + 0.000*кассационной + 0.000*работу + 0.000*руб + 0.000*дата + 0.000*компенсации + 0.000*адрес + 0.000*административного + 0.000*льготной + 0.000*договора + 0.000*увольнения')
2019-12-11 11:50:34,379 : INFO : (3, '0.000*фио + 0.000*ооо + 0.000*коап + 0.000*кассационной + 0.000*необязателен + 0.000*москвы + 0.000

In [43]:
pretty_printer(topics_compact, mode='hdp')

1    коап, фио, ооо, москвы, административного, кассационной, руб, дата, иностранных, москве, правонарушения, ао, правонарушении, административном, московского
2    фио, коап, ооо, кассационной, москвы, административного, руб, дисциплинарного, дд, гггг, дата, москве, иностранных, правонарушения, мм
3    коап, ооо, фио, распределено, москвы, кассационной, работу, руб, дата, компенсации, адрес, административного, льготной, договора, увольнения
4    фио, ооо, коап, кассационной, необязателен, москвы, сумме, дата, административного, мягкого, руб, дд, административном, гражданина, котельного
5    ооо, фио, правилами, коап, кассационной, селиверстова, москвы, мм, поддерживали, руб, дд, гггг, дата, начались, государства
6    коап, ооо, фио, административного, декриминализации, ответственности, москвы, кассационной, теплохода, заднего, правонарушении, исковых, детства, защите, письму
7    коап, фио, ооо, координацию, работнику, формулировками, неиспользованный, полноценный, подключен, образом,

### 2.2.4. Тестирование NMF (7, 10, 12, 15, 17, 20 топиков)

In [44]:
model_iterator(nmf.Nmf, gsm_tfidf, gsm_dct_tok, [7,10,12,15,17,20], kappa=0.1, eval_every=5)

2019-12-11 11:54:08,872 : INFO : running NMF training, 7 topics, 1 passes over the supplied corpus of 42625 documents, evaluating l2 norm every 10000 documents


Num of topics 7


2019-12-11 11:54:10,243 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-11 11:54:11,926 : INFO : W error diff: -inf
2019-12-11 11:54:13,516 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-11 11:54:15,335 : INFO : W error diff: -3.0659938166040064
2019-12-11 11:54:16,931 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-11 11:54:18,502 : INFO : W error diff: -3.806139759543342
2019-12-11 11:54:20,070 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-11 11:54:21,370 : INFO : W error diff: -6.54935182121347
2019-12-11 11:54:23,059 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-11 11:54:24,458 : INFO : L2 norm: 42.94586750404749
2019-12-11 11:54:24,789 : INFO : topic #1 (0.427): 0.007*"изъяты" + 0.006*"области" + 0.005*"саратовской" + 0.003*"нижегородской" + 0.003*"данные" + 0.003*"охране" + 0.002*"саратова" + 0.002*"областного" + 0.002*"стаж" + 0.002*"случая"
2019-12-11 11:54:24,804 : INFO : topic #3 (0.485): 0.005*"пенсии" + 0.004*"ста

2019-12-11 11:54:55,763 : INFO : topic #4 (0.336): 0.005*"фио" + 0.004*"дисциплинарного" + 0.004*"увольнения" + 0.004*"прогула" + 0.003*"дата" + 0.003*"взыскания" + 0.003*"вынужденного" + 0.003*"рабочем" + 0.002*"уважительных" + 0.002*"восстановлении"
2019-12-11 11:54:55,763 : INFO : topic #2 (0.496): 0.066*"гггг" + 0.065*"дд" + 0.064*"мм" + 0.014*"фио" + 0.010*"изъяты" + 0.005*"пензенской" + 0.004*"данные" + 0.004*"адрес" + 0.003*"новгорода" + 0.003*"пензы"
2019-12-11 11:54:55,763 : INFO : topic #3 (0.500): 0.006*"пенсии" + 0.005*"старости" + 0.004*"дата" + 0.004*"кассационной" + 0.004*"стаж" + 0.004*"страховой" + 0.003*"периоды" + 0.003*"москвы" + 0.003*"пенсионного" + 0.003*"работы"
2019-12-11 11:54:55,763 : INFO : topic #5 (0.551): 0.015*"коап" + 0.009*"административного" + 0.007*"правонарушения" + 0.007*"правонарушении" + 0.007*"административном" + 0.006*"иностранных" + 0.005*"москве" + 0.005*"иностранного" + 0.004*"гражданина" + 0.004*"административных"
2019-12-11 11:54:55,848 : 

1    руб, кассационной, коп, выплаты, внутренних, ущерба, заработной, москвы, компенсации, судебных, дел, платы, плате, выплат, задолженности, срока, оплаты, задержку, отпуск, службы
2    изъяты, области, пенсии, старости, стаж, охране, саратовской, случая, несчастного, производстве, данные, страховой, специальный, периоды, досрочное, службы, периодов, пенсионного, внутренних, здравоохранения
3    гггг, дд, мм, фио, изъяты, пензенской, данные, адрес, новгорода, пензы, нижегородской, нижегородского, ленинского, ущерба, самарской, областного, мирового, пао, нижнего, крым
4    пенсии, старости, дата, кассационной, стаж, страховой, периоды, москвы, пенсионного, работы, пенсиях, страховых, лет, стажа, периодов, квалификации, московской, назначение, пенсию, должностей
5    фио, дисциплинарного, увольнения, прогула, дата, взыскания, вынужденного, рабочем, уважительных, восстановлении, увольнение, причин, увольнении, проступка, дисциплинарной, незаконным, ао, отсутствия, дисциплинарное, взыска

2019-12-11 11:54:57,489 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-11 11:54:59,432 : INFO : W error diff: -inf
2019-12-11 11:55:00,626 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-11 11:55:02,556 : INFO : W error diff: -6.658550983275042
2019-12-11 11:55:03,821 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-11 11:55:05,443 : INFO : W error diff: -5.272123367128394
2019-12-11 11:55:06,657 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-11 11:55:07,531 : INFO : W error diff: -7.671771348058435
2019-12-11 11:55:08,824 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-11 11:55:10,074 : INFO : L2 norm: 42.65534256788656
2019-12-11 11:55:10,326 : INFO : topic #3 (0.506): 0.005*"кассационной" + 0.004*"москвы" + 0.003*"увольнения" + 0.003*"прогула" + 0.003*"вынужденного" + 0.003*"увольнении" + 0.002*"дисциплинарного" + 0.002*"руб" + 0.002*"работе" + 0.002*"московского"
2019-12-11 11:55:10,326 : INFO : topic #7 (0.513): 0.020*"гггг"

2019-12-11 11:55:41,052 : INFO : L2 norm: 24.283935718474588
2019-12-11 11:55:41,306 : INFO : topic #6 (0.317): 0.008*"пенсии" + 0.007*"старости" + 0.006*"стаж" + 0.005*"страховой" + 0.004*"периоды" + 0.004*"пенсионного" + 0.004*"пенсиях" + 0.003*"периодов" + 0.003*"страховых" + 0.003*"специальный"
2019-12-11 11:55:41,322 : INFO : topic #3 (0.335): 0.004*"увольнения" + 0.003*"прогула" + 0.003*"вынужденного" + 0.003*"москвы" + 0.003*"штата" + 0.003*"работе" + 0.003*"дисциплинарного" + 0.002*"увольнении" + 0.002*"восстановлении" + 0.002*"увольнение"
2019-12-11 11:55:41,322 : INFO : topic #1 (0.539): 0.005*"заработной" + 0.005*"руб" + 0.005*"фио" + 0.004*"выплаты" + 0.004*"платы" + 0.004*"отношений" + 0.004*"плате" + 0.004*"нормативными" + 0.003*"коп" + 0.003*"актами"
2019-12-11 11:55:41,322 : INFO : topic #8 (0.600): 0.012*"коап" + 0.008*"административного" + 0.007*"мвд" + 0.006*"иностранных" + 0.006*"россии" + 0.006*"москве" + 0.006*"внутренних" + 0.005*"правонарушения" + 0.005*"иностра

1    гггг, дд, мм, фио, воронежской, пао, ущерба, адрес, липецкой, имущества, нижегородской, гг, штата, самарской, филиала, численности, гбуз, ущерб, д, материальной
2    заработной, руб, фио, выплаты, платы, отношений, плате, нормативными, коп, актами, оплаты, неиспользованный, заработная, плата, задолженности, договором, отпуск, отношения, локальными, труда
3    кассационной, ущерба, постановлений, судебных, имущества, московского, ущерб, передаче, кассационном, защита, кассационных, материальной, интересов, причиненного, службы, инвентаризации, коллегии, причиненный, городского, представления
4    увольнения, прогула, вынужденного, москвы, штата, работе, дисциплинарного, увольнении, восстановлении, увольнение, незаконным, взыскания, численности, заработка, рабочем, тк, истца, среднего, приказом, истец
5    коап, административного, правонарушении, административном, правонарушения, административных, ооо, правонарушениях, иностранных, иностранного, гражданина, постановление, москве, де

2019-12-11 11:55:42,965 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-11 11:55:45,253 : INFO : W error diff: -inf
2019-12-11 11:55:46,541 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-11 11:55:48,815 : INFO : W error diff: -9.183491073809684
2019-12-11 11:55:49,999 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-11 11:55:52,179 : INFO : W error diff: -6.750821148512102
2019-12-11 11:55:53,492 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-11 11:55:54,779 : INFO : W error diff: -8.552911887586205
2019-12-11 11:55:56,105 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-11 11:55:57,498 : INFO : L2 norm: 42.4790468764834
2019-12-11 11:55:57,797 : INFO : topic #5 (0.530): 0.005*"руб" + 0.004*"дисциплинарного" + 0.003*"коп" + 0.003*"премии" + 0.003*"взыскания" + 0.003*"ао" + 0.002*"заработной" + 0.002*"выплаты" + 0.002*"москвы" + 0.002*"дисциплинарное"
2019-12-11 11:55:57,797 : INFO : topic #2 (0.534): 0.006*"кассационной" + 0.003*"

2019-12-11 11:56:31,683 : INFO : L2 norm: 24.230265061717404
2019-12-11 11:56:31,938 : INFO : topic #5 (0.347): 0.004*"руб" + 0.003*"ао" + 0.003*"дисциплинарного" + 0.003*"заработной" + 0.003*"премии" + 0.002*"коп" + 0.002*"взыскания" + 0.002*"выплаты" + 0.002*"платы" + 0.002*"оплаты"
2019-12-11 11:56:31,938 : INFO : topic #3 (0.348): 0.011*"пенсии" + 0.010*"старости" + 0.008*"стаж" + 0.006*"страховой" + 0.005*"пенсиях" + 0.005*"периоды" + 0.005*"пенсионного" + 0.005*"периодов" + 0.004*"досрочное" + 0.004*"специальный"
2019-12-11 11:56:31,938 : INFO : topic #6 (0.654): 0.018*"коап" + 0.011*"административного" + 0.009*"правонарушении" + 0.009*"административном" + 0.008*"ооо" + 0.008*"правонарушения" + 0.005*"административных" + 0.005*"правонарушениях" + 0.004*"постановление" + 0.004*"иностранного"
2019-12-11 11:56:31,938 : INFO : topic #1 (0.667): 0.009*"москве" + 0.008*"мвд" + 0.007*"россии" + 0.007*"коап" + 0.007*"иностранных" + 0.006*"иностранного" + 0.005*"гражданина" + 0.005*"ооо" 

1    кассационной, москвы, судебных, постановлений, московского, передаче, кассационном, коллегии, защита, городского, кассационных, интересов, судебной, представления, службы, января, декабря, руб, обращения, города
2    москве, мвд, россии, коап, иностранных, иностранного, гражданина, ооо, федерального, административного, деятельности, патента, граждан, правонарушения, увд, работ, проверки, москвы, фз, гражданства
3    ооо, работе, договор, книжку, отношений, книжки, увольнения, увольнении, трудовой, договора, вынужденного, прогула, восстановлении, приеме, трудовую, кассационной, москвы, тк, отношения, между
4    пенсии, старости, стаж, страховой, пенсиях, периоды, пенсионного, периодов, досрочное, специальный, пенсию, стажа, ущерба, страховых, назначение, области, досрочной, лет, районе, фонда
5    заработной, руб, выплаты, платы, плате, ооо, задержку, оплаты, коп, заработная, плата, задолженности, неиспользованный, выплат, нормативными, труда, компенсации, отношений, работнику, отп

2019-12-11 11:56:33,730 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-11 11:56:36,594 : INFO : W error diff: -inf
2019-12-11 11:56:37,937 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-11 11:56:40,836 : INFO : W error diff: -14.083072443760138
2019-12-11 11:56:42,107 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-11 11:56:44,978 : INFO : W error diff: -7.8456287430381195
2019-12-11 11:56:46,182 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-11 11:56:47,800 : INFO : W error diff: -7.615347466504261
2019-12-11 11:56:49,098 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-11 11:56:50,780 : INFO : L2 norm: 42.38928891996847
2019-12-11 11:56:51,032 : INFO : topic #13 (0.567): 0.016*"фио" + 0.005*"дата" + 0.003*"дисциплинарного" + 0.003*"прогула" + 0.003*"увольнения" + 0.003*"вынужденного" + 0.002*"взыскания" + 0.002*"рабочем" + 0.002*"увольнение" + 0.002*"работе"
2019-12-11 11:56:51,048 : INFO : topic #5 (0.582): 0.026*"изъяты" + 0

2019-12-11 11:57:25,490 : INFO : W error diff: 0.16919747022116383
2019-12-11 11:57:25,955 : INFO : PROGRESS: pass 0, at document #42625/42625
2019-12-11 11:57:26,476 : INFO : L2 norm: 24.186058280118278
2019-12-11 11:57:26,729 : INFO : topic #14 (0.359): 0.006*"ооо" + 0.005*"производстве" + 0.004*"случая" + 0.004*"несчастного" + 0.003*"труда" + 0.002*"инспекции" + 0.002*"случай" + 0.002*"отношений" + 0.002*"несчастных" + 0.002*"заболевания"
2019-12-11 11:57:26,729 : INFO : topic #9 (0.442): 0.007*"штата" + 0.005*"численности" + 0.005*"увольнения" + 0.004*"прогула" + 0.004*"сокращением" + 0.004*"вынужденного" + 0.003*"сокращении" + 0.003*"предстоящем" + 0.003*"увольнение" + 0.003*"вакантную"
2019-12-11 11:57:26,729 : INFO : topic #1 (0.695): 0.024*"коап" + 0.014*"административного" + 0.011*"правонарушения" + 0.011*"правонарушении" + 0.011*"административном" + 0.009*"иностранных" + 0.007*"иностранного" + 0.006*"административных" + 0.006*"правонарушениях" + 0.006*"гражданина"
2019-12-11 

2019-12-11 11:57:27,364 : INFO : running NMF training, 17 topics, 1 passes over the supplied corpus of 42625 documents, evaluating l2 norm every 10000 documents


1    пенсии, старости, стаж, страховой, пенсиях, пенсионного, периоды, стажа, периодов, страховых, пенсию, специальный, досрочное, назначение, досрочной, фонда, лет, назначении, дающей, пфр
2    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, административных, правонарушениях, гражданина, патента, постановление, москве, гражданства, граждан, административной, административное, штрафа, тысяч, судьей
3    пенсии, старости, стаж, страховой, периоды, пенсионного, специальный, пенсиях, досрочное, периодов, назначение, лет, пенсию, страховых, стажа, фонда, должностей, досрочной, здравоохранения, районе
4    коап, административного, правонарушения, правонарушении, административном, иностранных, иностранного, гражданина, гражданства, патента, административных, правонарушениях, граждан, постановление, административной, ооо, административное, деятельности, судьей, штрафа
5    нормативными, заработной, актами, отношений, выплаты, локальными, д

2019-12-11 11:57:28,564 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-11 11:57:31,993 : INFO : W error diff: -inf
2019-12-11 11:57:33,266 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-11 11:57:36,612 : INFO : W error diff: -13.567048462640443
2019-12-11 11:57:37,805 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-11 11:57:41,179 : INFO : W error diff: -8.052536981351452
2019-12-11 11:57:42,500 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-11 11:57:44,831 : INFO : W error diff: -8.2835315160239
2019-12-11 11:57:46,158 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-11 11:57:47,897 : INFO : L2 norm: 42.443729028091504
2019-12-11 11:57:48,150 : INFO : topic #3 (0.543): 0.006*"кассационной" + 0.005*"ущерба" + 0.003*"имущества" + 0.003*"ущерб" + 0.002*"москвы" + 0.002*"б" + 0.002*"причиненного" + 0.002*"материальной" + 0.002*"причиненный" + 0.002*"ао"
2019-12-11 11:57:48,150 : INFO : topic #12 (0.606): 0.026*"гггг" + 0.026*"дд" +

2019-12-11 11:58:27,482 : INFO : topic #10 (0.456): 0.006*"штата" + 0.005*"премии" + 0.004*"численности" + 0.004*"труда" + 0.004*"ао" + 0.004*"работников" + 0.003*"оао" + 0.003*"надбавки" + 0.003*"оплаты" + 0.003*"сокращением"
2019-12-11 11:58:27,482 : INFO : topic #5 (0.758): 0.019*"коап" + 0.010*"иностранных" + 0.009*"административного" + 0.009*"иностранного" + 0.008*"правонарушения" + 0.007*"гражданина" + 0.007*"москве" + 0.006*"патента" + 0.006*"правонарушении" + 0.006*"гражданства"
2019-12-11 11:58:27,482 : INFO : topic #4 (0.762): 0.019*"коап" + 0.012*"административного" + 0.009*"иностранных" + 0.009*"москве" + 0.009*"правонарушения" + 0.008*"иностранного" + 0.008*"правонарушении" + 0.007*"административном" + 0.007*"гражданина" + 0.006*"патента"
2019-12-11 11:58:27,482 : INFO : topic #11 (0.774): 0.190*"фио" + 0.036*"гггг" + 0.035*"дд" + 0.034*"мм" + 0.032*"наименование" + 0.026*"дата" + 0.019*"адрес" + 0.017*"сумма" + 0.009*"организации" + 0.003*"нижегородского"
2019-12-11 11:58

2019-12-11 11:58:28,109 : INFO : running NMF training, 20 topics, 1 passes over the supplied corpus of 42625 documents, evaluating l2 norm every 10000 documents


1    пенсии, старости, стаж, страховой, пенсионного, пенсиях, периоды, периодов, специальный, досрочное, пенсию, назначение, стажа, страховых, досрочной, фонда, лет, мордовия, гу, назначении
2    кассационной, москвы, московского, судебных, постановлений, защита, передаче, гпк, кассационном, коллегии, городского, кассационных, интересов, судебной, представления, премии, нормативными, выплаты, московский, оплаты
3    книжки, дата, выдачи, книжку, увольнении, заработной, выдать, увольнения, задержку, платы, обращения, желанию, собственному, отпуск, день, срока, выплаты, отпуска, книжка, неиспользованный
4    кассационной, судебных, ущерба, б, работодателю, вынужденного, постановлений, прогула, ао, р, коллегии, з, имущества, московского, судебной, пао, причиненного, интересов, судами, ш
5    коап, административного, иностранных, москве, правонарушения, иностранного, правонарушении, административном, гражданина, патента, граждан, гражданства, деятельности, административных, ооо, правонаруш

2019-12-11 11:58:29,348 : INFO : PROGRESS: pass 0, at document #2000/42625
2019-12-11 11:58:33,211 : INFO : W error diff: -inf
2019-12-11 11:58:34,407 : INFO : PROGRESS: pass 0, at document #4000/42625
2019-12-11 11:58:38,414 : INFO : W error diff: -17.371819206476076
2019-12-11 11:58:39,672 : INFO : PROGRESS: pass 0, at document #6000/42625
2019-12-11 11:58:43,510 : INFO : W error diff: -8.24423533045345
2019-12-11 11:58:44,725 : INFO : PROGRESS: pass 0, at document #8000/42625
2019-12-11 11:58:46,979 : INFO : W error diff: -6.950924380218979
2019-12-11 11:58:48,290 : INFO : PROGRESS: pass 0, at document #10000/42625
2019-12-11 11:58:50,220 : INFO : L2 norm: 42.39156931666688
2019-12-11 11:58:50,504 : INFO : topic #2 (0.578): 0.010*"ущерба" + 0.006*"воронежской" + 0.006*"ущерб" + 0.005*"имущества" + 0.005*"штата" + 0.004*"материальной" + 0.004*"численности" + 0.004*"причиненного" + 0.003*"частной" + 0.003*"инвентаризации"
2019-12-11 11:58:50,504 : INFO : topic #3 (0.608): 0.014*"внутр

2019-12-11 11:59:34,893 : INFO : topic #2 (0.453): 0.010*"ущерба" + 0.008*"штата" + 0.006*"численности" + 0.006*"ущерб" + 0.005*"имущества" + 0.004*"материальной" + 0.004*"причиненного" + 0.004*"вакантную" + 0.004*"сокращением" + 0.003*"сокращении"
2019-12-11 11:59:34,893 : INFO : topic #7 (0.712): 0.013*"коап" + 0.009*"административного" + 0.007*"правонарушения" + 0.006*"иностранных" + 0.006*"иностранного" + 0.006*"москве" + 0.005*"правонарушении" + 0.005*"гражданина" + 0.005*"административном" + 0.005*"ооо"
2019-12-11 11:59:34,906 : INFO : topic #10 (0.728): 0.026*"коап" + 0.014*"административного" + 0.011*"правонарушении" + 0.011*"правонарушения" + 0.011*"административном" + 0.011*"иностранных" + 0.008*"иностранного" + 0.008*"москве" + 0.008*"патента" + 0.007*"гражданина"
2019-12-11 11:59:34,914 : INFO : topic #18 (0.753): 0.102*"гггг" + 0.101*"дд" + 0.100*"мм" + 0.028*"изъяты" + 0.011*"данные" + 0.008*"тульской" + 0.006*"охране" + 0.005*"тулы" + 0.005*"адрес" + 0.004*"советского"
2

2019-12-11 11:59:35,952 : INFO : topic #17 (0.655): 0.054*"дд" + 0.054*"гггг" + 0.054*"мм" + 0.006*"несчастного" + 0.006*"случая" + 0.004*"производстве" + 0.003*"гг" + 0.003*"воронежа" + 0.003*"несчастном" + 0.003*"несчастный" + 0.003*"адрес" + 0.003*"саратова" + 0.003*"воронежского" + 0.003*"срока" + 0.003*"нижегородского" + 0.003*"самарской" + 0.002*"вред" + 0.002*"книжку" + 0.002*"крым" + 0.002*"случай"
2019-12-11 11:59:35,988 : INFO : topic #18 (0.752): 0.103*"гггг" + 0.103*"дд" + 0.102*"мм" + 0.028*"изъяты" + 0.011*"данные" + 0.008*"тульской" + 0.006*"охране" + 0.005*"адрес" + 0.005*"тулы" + 0.004*"гг" + 0.004*"советского" + 0.004*"пензе" + 0.004*"опнм" + 0.003*"самарской" + 0.003*"крым" + 0.003*"леса" + 0.002*"удмуртской" + 0.002*"специальный" + 0.002*"малозначительности" + 0.002*"порфирьева"
2019-12-11 11:59:36,000 : INFO : topic #19 (0.557): 0.009*"руб" + 0.007*"коп" + 0.007*"заработной" + 0.007*"выплаты" + 0.005*"платы" + 0.005*"оплаты" + 0.005*"плате" + 0.005*"премии" + 0.004

1    фио, дата, наименование, адрес, сумма, организации, директора, доверенности, масленниковой, школа, работе, гбоу, договор, обязанностей, ничем, работником, оценки, толкованию, инструкции, нестеровой
2    увольнения, прогула, дисциплинарного, вынужденного, увольнение, восстановлении, штата, увольнении, незаконным, взыскания, уважительных, рабочем, дисциплинарной, численности, проступка, дисциплинарное, работе, причин, взыскание, заработка
3    ущерба, штата, численности, ущерб, имущества, материальной, причиненного, вакантную, сокращением, сокращении, причиненный, предстоящем, инвентаризации, сокращению, воронежской, вакансии, ответственность, сокращения, ценностей, материальную
4    внутренних, дел, органах, мвд, россии, службы, службе, органов, дисциплинарного, служебной, сотрудника, службу, проступка, служебного, законодательные, отдельные, полиции, обучение, фз, федерального
5    дата, фио, книжки, сумма, отпуск, задержку, неиспользованный, заработной, компенсации, отпуска, выпл

In [47]:
gsm_dct_tok.token2id['московского']

9090