In [1]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    LOC,
    NamesExtractor,
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,

    Doc
)

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

In [2]:
import codecs
fileObj = codecs.open( "C:/Users/Влад/Documents/Мое все/кодинг/статья.txt", "r", "utf_8_sig" )
text = fileObj.read()

In [3]:
text

'Есть особая прелесть в британских таблоидах — в них всегда найдется, чем можно удовлетворить самые причудливые прихоти читателей. За сюжетом о британце из Уэльса, убившем собственную мать, идет рассказ о смерти бывшего футболиста и порноактера. Затем новости об изменениях в меню сети "Макдоналдс". Сразу после этих шокирующих вестей — заметка о телеведущей, опубликовавшей фото без лифчика. И далее в таком же роде. Пролистав интернет-страницу почти до самого конца и шапочно познакомившись с сюжетами из повседневной жизни британской желтой прессы, самые изощренные перверты смогут найти то, ради чего сюда пришли: интервью Зеленского для The Sun.\r\nДля особо искушенных даже есть видеоверсия. Правда, придется пробираться через насилие над английским языком, которым украинский лидер увлеченно занимается на протяжении 15 минут. Право слово, можно было бы отнестись к языку спонсоров более щадяще. Но выпускник Криворожского экономического института, волею судеб оказавшийся в кресле президента,

In [4]:
doc = Doc(text)
doc.segment(segmenter) 
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
doc.tag_ner(ner_tagger)

In [5]:
doc.segment(segmenter)
display(doc.tokens[:5])

[DocToken(stop=4, text='Есть'),
 DocToken(start=5, stop=11, text='особая'),
 DocToken(start=12, stop=20, text='прелесть'),
 DocToken(start=21, stop=22, text='в'),
 DocToken(start=23, stop=33, text='британских')]

In [6]:
display(doc.sents[:5])

[DocSent(stop=129, text='Есть особая прелесть в британских таблоидах — в н..., tokens=[...]),
 DocSent(start=130, stop=244, text='За сюжетом о британце из Уэльса, убившем собствен..., tokens=[...]),
 DocSent(start=245, stop=298, text='Затем новости об изменениях в меню сети "Макдонал..., tokens=[...]),
 DocSent(start=299, stop=391, text='Сразу после этих шокирующих вестей — заметка о те..., tokens=[...]),
 DocSent(start=392, stop=416, text='И далее в таком же роде.', tokens=[...])]

In [7]:
#Морфологический разбор отдельных слов(существительное, глагол и тд)
doc.tag_morph(morph_tagger)
display(doc.tokens[:5])

[DocToken(stop=4, text='Есть', pos='VERB', feats=<Imp,Ind,Sing,3,Pres,Fin,Act>),
 DocToken(start=5, stop=11, text='особая', pos='ADJ', feats=<Nom,Pos,Fem,Sing>),
 DocToken(start=12, stop=20, text='прелесть', pos='NOUN', feats=<Inan,Nom,Fem,Sing>),
 DocToken(start=21, stop=22, text='в', pos='ADP'),
 DocToken(start=23, stop=33, text='британских', pos='ADJ', feats=<Loc,Pos,Plur>)]

In [8]:
for span in doc.spans:
    span.normalize(morph_vocab)

{_.text: _.normal for _ in doc.spans if _.text != _.normal}

{'Уэльса': 'Уэльс',
 'Зеленского': 'Зеленский',
 'Криворожского экономического института': 'Криворожский экономический институт',
 'Киеве': 'Киев',
 'Запада': 'Запад',
 'Пентагона': 'Пентагон',
 'Киеву': 'Киев',
 'Тель-Авиву ВСУ': 'Тель-Авив ВСУ',
 'Европейского совета': 'Европейский совет',
 'Германии': 'Германия',
 'Британии': 'Британия',
 'Украине': 'Украина',
 'Россией': 'Россия',
 'Азовскому морю': 'Азовское море'}

In [9]:
#лемматизация
for token in doc.tokens:
    token.lemmatize(morph_vocab)
    
{_.text: _.lemma for _ in doc.tokens}

{'Есть': 'быть',
 'особая': 'особый',
 'прелесть': 'прелесть',
 'в': 'в',
 'британских': 'британский',
 'таблоидах': 'таблоид',
 '—': '—',
 'них': 'они',
 'всегда': 'всегда',
 'найдется': 'найтись',
 ',': ',',
 'чем': 'чем',
 'можно': 'можно',
 'удовлетворить': 'удовлетворить',
 'самые': 'самый',
 'причудливые': 'причудливый',
 'прихоти': 'прихоть',
 'читателей': 'читатель',
 '.': '.',
 'За': 'за',
 'сюжетом': 'сюжет',
 'о': 'о',
 'британце': 'британец',
 'из': 'из',
 'Уэльса': 'уэльс',
 'убившем': 'убить',
 'собственную': 'собственный',
 'мать': 'мать',
 'идет': 'идти',
 'рассказ': 'рассказ',
 'смерти': 'смерть',
 'бывшего': 'бывший',
 'футболиста': 'футболист',
 'и': 'и',
 'порноактера': 'порноактер',
 'Затем': 'затем',
 'новости': 'новость',
 'об': 'о',
 'изменениях': 'изменение',
 'меню': 'меню',
 'сети': 'сеть',
 '"': '"',
 'Макдоналдс': 'макдоналдс',
 'Сразу': 'сразу',
 'после': 'после',
 'этих': 'этот',
 'шокирующих': 'шокировать',
 'вестей': 'весть',
 'заметка': 'заметка',
 'те

In [10]:
#может искать даты, но я не нашел норм статью с датами
matches = dates_extractor(text)
facts = [i.fact.as_json for i in matches]
facts

[]

In [11]:
for f in facts:
    print(f"{f.get('day')}.{f.get('month')}.{f.get('year')}")

In [12]:
for span in doc.spans:
    if span.type == PER:
        span.extract_fact(names_extractor)

names_dict = {_.normal: _.fact.as_dict for _ in doc.spans if _.fact}
names_dict

{'Зеленский': {'last': 'Зеленский'},
 'Уильям Бернс': {'first': 'Уильям', 'last': 'Бернс'},
 'Ллойд Остин': {'first': 'Остин', 'last': 'Ллойд'},
 'Шарль Мишель': {'first': 'Шарль', 'last': 'Мишель'},
 'Борис Писториус': {'first': 'Борис', 'last': 'Писториус'},
 'Дэвид Кэмерон': {'first': 'Дэвид', 'last': 'Кэмерон'}}

In [13]:
list(names_dict.keys())

['Зеленский',
 'Уильям Бернс',
 'Ллойд Остин',
 'Шарль Мишель',
 'Борис Писториус',
 'Дэвид Кэмерон']