In [1]:
!pip install ipython --upgrade



You should consider upgrading via the 'C:\Users\DaniilAdmin\AppData\Local\Programs\Python\Python39\python.exe -m pip install --upgrade pip' command.


In [2]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,

    Doc
)

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

text = open("Протокол.txt",encoding="utf-8").read()
doc = Doc(text)
doc

Doc(text='ПРИГОВОР\\nИМЕНЕМ  РОССИЙСКОЙ ФЕДЕРАЦИИ\\n01 дека...)

In [3]:
from IPython.core.display_functions import display

doc.segment(segmenter)
display(doc)
display(doc.sents[:2])
display(doc.tokens[:5])

Doc(text='ПРИГОВОР\\nИМЕНЕМ  РОССИЙСКОЙ ФЕДЕРАЦИИ\\n01 дека..., tokens=[...], sents=[...])

[DocSent(stop=2006, text='ПРИГОВОР\\nИМЕНЕМ  РОССИЙСКОЙ ФЕДЕРАЦИИ\\n01 дека..., tokens=[...]),
 DocSent(start=2007, stop=6145, text='\\nВо исполнение своего совместного преступного п..., tokens=[...])]

[DocToken(stop=8, text='ПРИГОВОР'),
 DocToken(start=8, stop=9, text='\\'),
 DocToken(start=9, stop=10, text='n'),
 DocToken(start=10, stop=16, text='ИМЕНЕМ'),
 DocToken(start=18, stop=28, text='РОССИЙСКОЙ')]

In [4]:
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
display(doc.tokens[:5])

[DocToken(stop=8, text='ПРИГОВОР', id='1_1', head_id='1_317', rel='nsubj', pos='NOUN', feats=<Inan,Nom,Masc,Sing>),
 DocToken(start=8, stop=9, text='\\', id='1_2', head_id='1_1', rel='punct', pos='PUNCT'),
 DocToken(start=9, stop=10, text='n', id='1_3', head_id='1_1', rel='appos', pos='ADP'),
 DocToken(start=10, stop=16, text='ИМЕНЕМ', id='1_4', head_id='1_62', rel='appos', pos='PROPN', feats=<Anim,Gen,Masc,Sing>),
 DocToken(start=18, stop=28, text='РОССИЙСКОЙ', id='1_5', head_id='1_6', rel='amod', pos='ADJ', feats=<Gen,Pos,Fem,Sing>)]

In [5]:
doc.tag_ner(ner_tagger)
display(doc.spans[:5])

[DocSpan(start=129, stop=164, type='LOC', text='Москва\\nПреображенский районный суд', tokens=[...]),
 DocSpan(start=165, stop=171, type='LOC', text='Москвы', tokens=[...]),
 DocSpan(start=188, stop=203, type='PER', text='Духновской З.А.', tokens=[...]),
 DocSpan(start=219, stop=233, type='PER', text='Горшковой А.А.', tokens=[...]),
 DocSpan(start=274, stop=288, type='PER', text='Давыдовой Д.Е.', tokens=[...])]

In [6]:
doc.ner.print()

ПРИГОВОР\nИМЕНЕМ  РОССИЙСКОЙ ФЕДЕРАЦИИ\n01 декабря 2016 года
                                                                     
Москва\nПреображенский районный суд Москвы в составе судьи Духновской 
LOC──────────────────────────────── LOC───                 PER────────
З.А., при секретаре Горшковой А.А., с участием государственных 
────                PER───────────                             
обвинителей Давыдовой Д.Е., Дудукова М.Ю., Чубенко А.А., подсудимого 
            PER───────────  PER──────────  PER─────────              
************а А.А., его защитников – адвокатов Попова А.В.,  
              PER─                             PER────────   
Колокольниковой Е.В., рассмотрев в открытом судебном заседании 
PER─────────────────                                           
уголовное дело по обвинению:\n************ ****** **************, ** 
** **** года рождения, уроженца г. Москвы, гражданина РФ, 
                                   LOC───             LO  
зарегистрированного

In [7]:
sent = doc.sents[0]
sent.morph.print()

            ПРИГОВОР NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
                   \ PUNCT
                   n ADP
              ИМЕНЕМ PROPN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing
          РОССИЙСКОЙ ADJ|Case=Gen|Degree=Pos|Gender=Fem|Number=Sing
           ФЕДЕРАЦИИ PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
                   \ PUNCT
                   n X|Foreign=Yes
                  01 ADJ
             декабря NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
                2016 ADJ
                года NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
              Москва PROPN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
                   \ PUNCT
                   n X|Foreign=Yes
      Преображенский ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
            районный ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
                 суд NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
              Москвы PROPN|Animacy=Inan|Case=Gen|Gender=Fem|Num

In [8]:
sent.syntax.print()

┌────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────► ПРИГОВОР            nsubj
│                                                                                                                                                                                                                                      \                   
│                                                                                                                                                                                                                                      n                   
│           ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┌────────────────────────────────────────────────────────────► ИМЕНЕМ  

In [9]:
for token in doc.tokens:
    token.lemmatize(morph_vocab)
    
{_.text: _.lemma for _ in doc.tokens[:10]}

{'ПРИГОВОР': 'приговор',
 '\\': '\\',
 'n': 'n',
 'ИМЕНЕМ': 'имя',
 'РОССИЙСКОЙ': 'российский',
 'ФЕДЕРАЦИИ': 'федерация',
 '01': '01',
 'декабря': 'декабрь'}

In [10]:
for span in doc.spans:
    span.normalize(morph_vocab)
    
{_.text: _.normal for _ in doc.spans}

{'Москва\\nПреображенский районный суд': 'Москва\\nПреображенский районный суд',
 'Москвы': 'Москва',
 'Духновской З.А.': 'Духновской З.А.',
 'Горшковой А.А.': 'Горшковой А.А.',
 'Давыдовой Д.Е.': 'Давыдова Д.Е.',
 'Дудукова М.Ю.': 'Дудукова М.Ю.',
 'Чубенко А.А.': 'Чубенко А.А.',
 'А.А.': 'А.А.',
 'Попова А.В.': 'Попов А.В.',
 'Колокольниковой Е.В.': 'Колокольниковой Е.В.',
 'РФ': 'РФ',
 'Чайхона': 'Чайхона',
 'Москва': 'Москва',
 'Службы по': 'Служба по',
 'ВАО': 'ВАО',
 'ФСКН': 'ФСКН',
 'России': 'Россия',
 'Москве': 'Москва',
 'Наблюдение': 'Наблюдение',
 'Службы': 'Служба',
 'Российской Федерации': 'Российская Федерация',
 'Правительства': 'Правительство',
 'А.А.\\nДопрошенный': 'А.А.\\nДопрошенный',
 'Биткова А.Ю.': 'Битков А.Ю.',
 'Орел И.В.': 'Орел И.В.',
 'Самсунг': 'Самсунг',
 'Русинова А.А.': 'Русинов А.А.',
 'Русинов А.А.': 'Русины А.А.',
 'Чайхана': 'Чайхана',
 'Прасолова Д.А.': 'Прасолова Д.А.',
 'Кормилицына Д.А.': 'Кормилицына Д.А.',
 'Лукашенко А.А.': 'Лукашенко А.А.',

In [11]:
for span in doc.spans:
    if span.type == PER:
        span.extract_fact(names_extractor)
    
{_.normal: _.fact.as_dict for _ in doc.spans if _.fact}

{'Духновской З.А.': {'first': 'З', 'last': 'Духновской', 'middle': 'А'},
 'Горшковой А.А.': {'first': 'А', 'last': 'Горшковой', 'middle': 'А'},
 'Давыдова Д.Е.': {'first': 'Д', 'last': 'Давыдова', 'middle': 'Е'},
 'Дудукова М.Ю.': {'first': 'М', 'last': 'Дудукова', 'middle': 'Ю'},
 'Чубенко А.А.': {'first': 'А', 'last': 'Чубенко', 'middle': 'А'},
 'А.А.': {'last': 'А'},
 'Попов А.В.': {'first': 'А', 'last': 'Попов', 'middle': 'В'},
 'Колокольниковой Е.В.': {'first': 'Е',
  'last': 'Колокольниковой',
  'middle': 'В'},
 'А.А.\\nДопрошенный': {'last': 'А'},
 'Битков А.Ю.': {'first': 'А', 'last': 'Битков', 'middle': 'Ю'},
 'Орел И.В.': {'first': 'И', 'last': 'Орел', 'middle': 'В'},
 'Русинов А.А.': {'first': 'А', 'last': 'Русинов', 'middle': 'А'},
 'Прасолова Д.А.': {'first': 'Д', 'last': 'Прасолова', 'middle': 'А'},
 'Кормилицына Д.А.': {'first': 'Д', 'last': 'Кормилицына', 'middle': 'А'},
 'Лукашенко А.А.': {'first': 'А', 'last': 'Лукашенко', 'middle': 'А'},
 'Русинову А.А. Лукашенко': {

In [12]:
forms = morph_vocab('стали')
forms

[MorphForm(normal='стать', pos='VERB', feats={'VerbForm': 'Fin', 'Aspect': 'Perf', 'Number': 'Plur', 'Tense': 'Past', 'Mood': 'Ind'}),
 MorphForm(normal='сталь', pos='NOUN', feats={'Animacy': 'Inan', 'Gender': 'Fem', 'Number': 'Sing', 'Case': 'Gen'}),
 MorphForm(normal='сталь', pos='NOUN', feats={'Animacy': 'Inan', 'Gender': 'Fem', 'Number': 'Plur', 'Case': 'Nom'}),
 MorphForm(normal='сталь', pos='NOUN', feats={'Animacy': 'Inan', 'Gender': 'Fem', 'Number': 'Sing', 'Case': 'Dat'}),
 MorphForm(normal='сталь', pos='NOUN', feats={'Animacy': 'Inan', 'Gender': 'Fem', 'Number': 'Sing', 'Case': 'Loc'}),
 MorphForm(normal='сталь', pos='NOUN', feats={'Animacy': 'Inan', 'Gender': 'Fem', 'Number': 'Plur', 'Case': 'Acc'})]

In [13]:
morph_vocab.__call__.cache_info()

CacheInfo(hits=2407, misses=1363, maxsize=10000, currsize=1363)

In [14]:
morph_vocab.lemmatize('стали', 'VERB', {})

'стать'

In [15]:
morph_vocab.lemmatize('стали', 'X', {'Case': 'Gen'})

'сталь'

In [16]:
print('Words in vocab + 2 for pad and unk: %d' % len(emb.vocab.words) )

Words in vocab + 2 for pad and unk: 250002


In [17]:
emb['навек'][:100]

array([ 0.3309305 ,  0.18249014,  0.23347412,  0.14935994, -0.17402406,
       -0.47864223, -0.24524143,  0.15673256, -0.08669729, -0.11727095,
        0.13135901,  0.5481293 ,  0.7048632 ,  0.22077431, -0.78015256,
        0.43273082,  0.13458823,  0.6609183 ,  0.03002832,  0.14311466,
       -0.5047413 ,  0.4969848 ,  0.14717759,  0.38688493,  0.3237942 ,
       -0.04422767,  0.18814448,  0.53533834,  0.00823402, -0.00508584,
        0.01242104, -0.24465695, -0.02266642,  0.3197186 , -0.03069695,
        0.16558675,  0.16404535, -0.19663632,  0.63850045, -0.42745766,
       -0.18280992, -0.17906225,  0.33154383,  0.05501431,  0.04037222,
       -0.3435012 , -0.35397884,  0.03054078, -0.01661319, -0.11361139,
        0.10814258, -0.09624135, -0.12813228,  0.10973183,  0.18781611,
       -0.10195816,  0.22453588, -0.20526455, -0.33552003,  0.1652816 ,
        0.54490954,  0.9377614 , -0.2514508 , -0.5247126 ,  0.33496034,
       -0.19549994, -0.29204327,  0.33321744, -0.38820186,  0.06

In [18]:
markup = ner_tagger(text)
markup.print()

ПРИГОВОР\nИМЕНЕМ  РОССИЙСКОЙ ФЕДЕРАЦИИ\n01 декабря 2016 года
                                                                     
Москва\nПреображенский районный суд Москвы в составе судьи Духновской 
LOC──────────────────────────────── LOC───                 PER────────
З.А., при секретаре Горшковой А.А., с участием государственных 
────                PER───────────                             
обвинителей Давыдовой Д.Е., Дудукова М.Ю., Чубенко А.А., подсудимого 
            PER───────────  PER──────────  PER─────────              
************а А.А., его защитников – адвокатов Попова А.В.,  
              PER─                             PER────────   
Колокольниковой Е.В., рассмотрев в открытом судебном заседании 
PER─────────────────                                           
уголовное дело по обвинению:\n************ ****** **************, ** 
** **** года рождения, уроженца г. Москвы, гражданина РФ, 
                                   LOC───             LO  
зарегистрированного

In [19]:
import numpy
import sys
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from keras.models import Sequential
from keras.layers import Dense, Dropout, LSTM
from keras.utils import np_utils
from keras.callbacks import ModelCheckpoint

In [20]:
file = text #Начало тренировки

In [21]:
def tokenize_words(input):
    # lowercase everything to standardize it
    input = input.lower()

    # instantiate the tokenizer
    tokenizer = RegexpTokenizer(r'\w+')
    tokens = tokenizer.tokenize(input)

    # if the created token isn't in the stop words, make it part of "filtered"
    filtered = filter(lambda token: token not in stopwords.words('russian'), tokens)
    return " ".join(filtered)


In [22]:
processed_inputs = tokenize_words(file)

In [23]:
chars = sorted(list(set(processed_inputs)))
char_to_num = dict((c, i) for i, c in enumerate(chars))

In [24]:
input_len = len(processed_inputs)
vocab_len = len(chars)
print ("Total number of characters:", input_len)
print ("Total vocab:", vocab_len)


Total number of characters: 13229
Total vocab: 64


In [25]:
seq_length = 100
x_data = []
y_data = []


In [26]:
# loop through inputs, start at the beginning and go until we hit
# the final character we can create a sequence out of
for i in range(0, input_len - seq_length, 1):
    # Define input and output sequences
    # Input is the current character plus desired sequence length
    in_seq = processed_inputs[i:i + seq_length]

    # Out sequence is the initial character plus total sequence length
    out_seq = processed_inputs[i + seq_length]

    # We now convert list of characters to integers based on
    # previously and add the values to our lists
    x_data.append([char_to_num[char] for char in in_seq])
    y_data.append(char_to_num[out_seq])


In [27]:
n_patterns = len(x_data)
print ("Total Patterns:", n_patterns)


Total Patterns: 13129


In [28]:
X = numpy.reshape(x_data, (n_patterns, seq_length, 1))
X = X/float(vocab_len)

In [29]:
y = np_utils.to_categorical(y_data)

In [30]:
model = Sequential()
model.add(LSTM(256, input_shape=(X.shape[1], X.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(128))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))


In [31]:
model.compile(loss='categorical_crossentropy', optimizer='adam')

In [32]:
filepath = "model_Generating an annotation to the text.hdf5"
checkpoint = ModelCheckpoint(filepath, monitor='loss', verbose=1, save_best_only=True, mode='min')
desired_callbacks = [checkpoint]

In [33]:
model.fit(X, y, epochs=10, batch_size=2048, callbacks=desired_callbacks)

Epoch 1/10
Epoch 1: loss improved from inf to 3.85311, saving model to model_Generating an annotation to the text.hdf5
Epoch 2/10
Epoch 2: loss improved from 3.85311 to 3.35035, saving model to model_Generating an annotation to the text.hdf5
Epoch 3/10
Epoch 3: loss improved from 3.35035 to 3.29915, saving model to model_Generating an annotation to the text.hdf5
Epoch 4/10
Epoch 4: loss improved from 3.29915 to 3.27740, saving model to model_Generating an annotation to the text.hdf5
Epoch 5/10
Epoch 5: loss improved from 3.27740 to 3.25937, saving model to model_Generating an annotation to the text.hdf5
Epoch 6/10
Epoch 6: loss improved from 3.25937 to 3.25914, saving model to model_Generating an annotation to the text.hdf5
Epoch 7/10
Epoch 7: loss improved from 3.25914 to 3.25239, saving model to model_Generating an annotation to the text.hdf5
Epoch 8/10
Epoch 8: loss improved from 3.25239 to 3.24916, saving model to model_Generating an annotation to the text.hdf5
Epoch 9/10
Epoch 9: 

<keras.callbacks.History at 0x285ecd4e130>

In [34]:
filename = "model_Generating an annotation to the text.hdf5"
model.load_weights(filename)
model.compile(loss='categorical_crossentropy', optimizer='adam')


In [35]:
num_to_char = dict((i, c) for i, c in enumerate(chars))

In [36]:
start = numpy.random.randint(0, len(x_data) - 1)
pattern = x_data[start]
print("Annotation:")
print("\"", ''.join([num_to_char[value] for value in pattern]), "\"")


Annotation:
"  досмотра изъяты левого кармана джинс полимерный сверток 151 свертками полиэтилена веществом также и "


 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
