In [1]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    LOC,
    NamesExtractor,
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,

    Doc
)

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

In [2]:
file = open('/Users/alesyamarohovskaya/Desktop/приговор.txt')
text = file.read()

In [3]:
text

'ПРИГОВОР\nИМЕНЕМ  РОССИЙСКОЙ ФЕДЕРАЦИИ\n01 декабря 2016 года                                                                     Москва\nПреображенский районный суд Москвы в составе судьи Духновской З.А., при секретаре Горшковой А.А., с участием государственных обвинителей Давыдовой Д.Е., Дудукова М.Ю., Чубенко А.А., подсудимого ************а А.А., его защитников – адвокатов Попова А.В.,  Колокольниковой Е.В., рассмотрев в открытом судебном заседании уголовное дело по обвинению:\n************ ****** **************, ** ** **** года рождения, уроженца г. Москвы, гражданина РФ, зарегистрированного по адресу: *****************, со средне-специальным образованием, холостого, не работающего, не судимого,  в совершении преступления, предусмотренного ч. 3 ст. 30, п.«г» ч. 4 ст. 228-1 УК РФ, \nУСТАНОВИЛ:\n************ ****** ******** совершил покушение на незаконный сбыт наркотических средств, то есть умышленные действия, непосредственно направленные на незаконный сбыт наркотических средств, с

In [5]:
doc = Doc(text)
doc.segment(segmenter) 
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
doc.tag_ner(ner_tagger)

In [6]:
doc.segment(segmenter)
display(doc.tokens[:5])

[DocToken(stop=8, text='ПРИГОВОР'),
 DocToken(start=9, stop=15, text='ИМЕНЕМ'),
 DocToken(start=17, stop=27, text='РОССИЙСКОЙ'),
 DocToken(start=28, stop=37, text='ФЕДЕРАЦИИ'),
 DocToken(start=38, stop=40, text='01')]

In [7]:
display(doc.sents[:5])

[DocSent(stop=1999, text='ПРИГОВОР\nИМЕНЕМ  РОССИЙСКОЙ ФЕДЕРАЦИИ\n01 декабр..., tokens=[...]),
 DocSent(start=2001, stop=3080, text='Во исполнение своего совместного преступного план..., tokens=[...]),
 DocSent(start=3081, stop=6135, text='Продолжая реализовывать совместный с соучастникам..., tokens=[...]),
 DocSent(start=6137, stop=7085, text='Таким образом, ************ А.А. и его неустановл..., tokens=[...]),
 DocSent(start=7087, stop=7939, text='Суд, проведя судебное следствие, выслушав судебны..., tokens=[...])]

In [8]:
doc.tag_morph(morph_tagger)
display(doc.tokens[:5])

[DocToken(stop=8, text='ПРИГОВОР', pos='NOUN', feats=<Inan,Nom,Masc,Sing>),
 DocToken(start=9, stop=15, text='ИМЕНЕМ', pos='PROPN', feats=<Anim,Gen,Masc,Sing>),
 DocToken(start=17, stop=27, text='РОССИЙСКОЙ', pos='ADJ', feats=<Gen,Pos,Fem,Sing>),
 DocToken(start=28, stop=37, text='ФЕДЕРАЦИИ', pos='PROPN', feats=<Inan,Gen,Fem,Sing>),
 DocToken(start=38, stop=40, text='01', pos='ADJ')]

In [9]:
for span in doc.spans:
    span.normalize(morph_vocab)

{_.text: _.normal for _ in doc.spans if _.text != _.normal}

{'Москвы': 'Москва',
 'Давыдовой Д.Е.': 'Давыдова Д.Е.',
 'Попова А.В.': 'Попов А.В.',
 'Службы по': 'Служба по',
 'России': 'Россия',
 'Москве': 'Москва',
 'Службы': 'Служба',
 'Российской Федерации': 'Российская Федерация',
 'Правительства': 'Правительство',
 'А.А.\nДопрошенный': 'А.А. Допрошенный',
 'Биткова А.Ю.': 'Битков А.Ю.',
 'Русинова А.А.': 'Русинов А.А.',
 'Кормилицыну Д.А.': 'Кормилицын Д.А.',
 'Русиновым А.А.': 'Русинов А.А.',
 'Русинов А.А.': 'Русины А.А.',
 'Андрея Александровича': 'Андрей Александрович'}

In [11]:
for token in doc.tokens:
    token.lemmatize(morph_vocab)
    
{_.text: _.lemma for _ in doc.tokens}

{'ПРИГОВОР': 'приговор',
 'ИМЕНЕМ': 'имя',
 'РОССИЙСКОЙ': 'российский',
 'ФЕДЕРАЦИИ': 'федерация',
 '01': '01',
 'декабря': 'декабрь',
 '2016': '2016',
 'года': 'год',
 'Москва': 'москва',
 'Преображенский': 'преображенский',
 'районный': 'районный',
 'суд': 'суд',
 'Москвы': 'москва',
 'в': 'в',
 'составе': 'состав',
 'судьи': 'судья',
 'Духновской': 'духновский',
 'З': 'з',
 '.': '.',
 'А': 'а',
 ',': ',',
 'при': 'при',
 'секретаре': 'секретарь',
 'Горшковой': 'горшков',
 'с': 'с',
 'участием': 'участие',
 'государственных': 'государственный',
 'обвинителей': 'обвинитель',
 'Давыдовой': 'давыдов',
 'Д': 'д',
 'Е': 'е',
 'Дудукова': 'дудукова',
 'М': 'м',
 'Ю': 'ю',
 'Чубенко': 'чубенко',
 'подсудимого': 'подсудимый',
 '************': '************',
 'а': 'а',
 'его': 'он',
 'защитников': 'защитник',
 '–': '–',
 'адвокатов': 'адвокат',
 'Попова': 'попов',
 'В': 'в',
 'Колокольниковой': 'колокольников',
 'рассмотрев': 'рассмотреть',
 'открытом': 'открыть',
 'судебном': 'судебный',
 '

In [12]:
matches = dates_extractor(text)
facts = [i.fact.as_json for i in matches]
facts

[OrderedDict([('year', 2016), ('month', 12), ('day', 1)]),
 OrderedDict([('year', 1998), ('month', 1), ('day', 8)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 1998), ('month', 1), ('day', 8)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 10), ('day', 16)]),
 OrderedDict([('year', 1998), ('month', 6), ('day', 30)]),
 OrderedDict([('year', 2016), ('month', 4), ('day', 1)]),
 OrderedDict([('year', 2012), ('month', 10), ('day', 1)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),
 OrderedDict([('year', 2015), ('month', 9), ('day', 16)]),

In [13]:
for f in facts:
    print(f"{f.get('day')}.{f.get('month')}.{f.get('year')}")

1.12.2016
8.1.1998
16.9.2015
16.9.2015
8.1.1998
16.9.2015
16.9.2015
16.9.2015
16.10.2015
30.6.1998
1.4.2016
1.10.2012
16.9.2015
16.9.2015
16.9.2015
16.9.2015
16.9.2015
16.9.2015
1.12.2016
16.9.2015
1.12.2016


In [14]:
for span in doc.spans:
    if span.type == PER:
        span.extract_fact(names_extractor)

names_dict = {_.normal: _.fact.as_dict for _ in doc.spans if _.fact}
names_dict

{'Духновской З.А.': {'first': 'З', 'last': 'Духновской', 'middle': 'А'},
 'Горшковой А.А.': {'first': 'А', 'last': 'Горшковой', 'middle': 'А'},
 'Давыдова Д.Е.': {'first': 'Д', 'last': 'Давыдова', 'middle': 'Е'},
 'Дудукова М.Ю.': {'first': 'М', 'last': 'Дудукова', 'middle': 'Ю'},
 'Чубенко А.А.': {'first': 'А', 'last': 'Чубенко', 'middle': 'А'},
 'А.А.': {'last': 'А'},
 'Попов А.В.': {'first': 'А', 'last': 'Попов', 'middle': 'В'},
 'Колокольниковой Е.В.': {'first': 'Е',
  'last': 'Колокольниковой',
  'middle': 'В'},
 'Так ************ А.А.': {'last': 'А'},
 'А.А. Допрошенный': {'first': 'А', 'last': 'Допрошенный', 'middle': 'А'},
 'Битков А.Ю.': {'first': 'А', 'last': 'Битков', 'middle': 'Ю'},
 'Орел И.В.': {'first': 'И', 'last': 'Орел', 'middle': 'В'},
 'Русинов А.А.': {'first': 'А', 'last': 'Русинов', 'middle': 'А'},
 'Прасолова Д.А.': {'first': 'Д', 'last': 'Прасолова', 'middle': 'А'},
 'Кормилицына Д.А.': {'first': 'Д', 'last': 'Кормилицына', 'middle': 'А'},
 'Лукашенко А.А.': {'f

In [16]:
list(names_dict.keys())

['Духновской З.А.',
 'Горшковой А.А.',
 'Давыдова Д.Е.',
 'Дудукова М.Ю.',
 'Чубенко А.А.',
 'А.А.',
 'Попов А.В.',
 'Колокольниковой Е.В.',
 'Так ************ А.А.',
 'А.А. Допрошенный',
 'Битков А.Ю.',
 'Орел И.В.',
 'Русинов А.А.',
 'Прасолова Д.А.',
 'Кормилицына Д.А.',
 'Лукашенко А.А.',
 'Русинову А.А. Лукашенко',
 'Кормилицын Д.А.',
 'Русины А.А.',
 'А.А',
 'Андрей Александрович',
 'Духновская З.А.']