In [137]:
import os
import re
from tqdm import tqdm

In [138]:
! python -m pip install natasha



In [139]:
from natasha import (
    Segmenter,
    MorphVocab,

    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,

    PER,
    NamesExtractor,
    DatesExtractor,
    MoneyExtractor,
    AddrExtractor,

    Doc
)

In [140]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
addr_extractor = AddrExtractor(morph_vocab)

In [141]:
with open('text.txt', 'r', encoding='utf-8') as f:
    text = f.read().strip()

In [142]:
text

"'Предположение о том, что мы произошли от обезьяны в 21 веке терпит крах. Ученые зашли в тупик. За годы исследований им так и не удалось доказать теорию эволюции и найти общих предков человека и приматов. Иначе современные шимпанзе или гориллы уже давно превратились бы в людей. Мы слишком не похожи друг на друга, чтобы быть родственниками. И даже генетики это подтверждают. Так что Дарвин был неправ. Никакого отношения человек к обезьянам не имеет. До сих пор ученые, биологи, палеонтологи, антропологи и прочие, и типа меня персонажи, вынуждены это опровергать. И поэтому нынче я, Станислав Дорбышевский, буду жарить этот дурацкий миф вместе с Рбака Трендами. На планете существует очень много млекопитающих. И эти млекопитающие по-разному родственны друг другу. Есть мерзуны, рукокрылые, хищные, копытные, китообразные, панголины и всякие прочие. А есть приматы. Приматов много разных. И удивительным образом, человек это просто один из великого множества этих самых приматов. И это родство, ес

In [143]:
len(text)

13901

In [144]:
doc = Doc(text)
doc

Doc(text="'Предположение о том, что мы произошли от обезьян...)

In [145]:
vars(doc)

{'text': "'Предположение о том, что мы произошли от обезьяны в 21 веке терпит крах. Ученые зашли в тупик. За годы исследований им так и не удалось доказать теорию эволюции и найти общих предков человека и приматов. Иначе современные шимпанзе или гориллы уже давно превратились бы в людей. Мы слишком не похожи друг на друга, чтобы быть родственниками. И даже генетики это подтверждают. Так что Дарвин был неправ. Никакого отношения человек к обезьянам не имеет. До сих пор ученые, биологи, палеонтологи, антропологи и прочие, и типа меня персонажи, вынуждены это опровергать. И поэтому нынче я, Станислав Дорбышевский, буду жарить этот дурацкий миф вместе с Рбака Трендами. На планете существует очень много млекопитающих. И эти млекопитающие по-разному родственны друг другу. Есть мерзуны, рукокрылые, хищные, копытные, китообразные, панголины и всякие прочие. А есть приматы. Приматов много разных. И удивительным образом, человек это просто один из великого множества этих самых приматов. И это ро

In [146]:
doc.segment(segmenter)

# документ
display(doc)

# предложения
display(doc.sents[:3])

# токены
display(doc.tokens[:5])

Doc(text="'Предположение о том, что мы произошли от обезьян..., tokens=[...], sents=[...])

[DocSent(stop=73, text="'Предположение о том, что мы произошли от обезьян..., tokens=[...]),
 DocSent(start=74, stop=95, text='Ученые зашли в тупик.', tokens=[...]),
 DocSent(start=96, stop=204, text='За годы исследований им так и не удалось доказать..., tokens=[...])]

[DocToken(stop=1, text="'"),
 DocToken(start=1, stop=14, text='Предположение'),
 DocToken(start=15, stop=16, text='о'),
 DocToken(start=17, stop=20, text='том'),
 DocToken(start=20, stop=21, text=',')]

In [147]:
# выделяем части речи
doc.tag_morph(morph_tagger)

doc.parse_syntax(syntax_parser)

display(doc.tokens[:15])

[DocToken(stop=1, text="'", id='1_1', head_id='1_14', rel='punct', pos='PUNCT'),
 DocToken(start=1, stop=14, text='Предположение', id='1_2', head_id='1_14', rel='nsubj', pos='NOUN', feats=<Inan,Nom,Neut,Sing>),
 DocToken(start=15, stop=16, text='о', id='1_3', head_id='1_4', rel='case', pos='ADP'),
 DocToken(start=17, stop=20, text='том', id='1_4', head_id='1_2', rel='nmod', pos='PRON', feats=<Inan,Loc,Neut,Sing>),
 DocToken(start=20, stop=21, text=',', id='1_5', head_id='1_8', rel='punct', pos='PUNCT'),
 DocToken(start=22, stop=25, text='что', id='1_6', head_id='1_8', rel='mark', pos='SCONJ'),
 DocToken(start=26, stop=28, text='мы', id='1_7', head_id='1_8', rel='nsubj', pos='PRON', feats=<Nom,Plur,1>),
 DocToken(start=29, stop=38, text='произошли', id='1_8', head_id='1_4', rel='acl', pos='VERB', feats=<Perf,Ind,Plur,Past,Fin,Act>),
 DocToken(start=39, stop=41, text='от', id='1_9', head_id='1_10', rel='case', pos='ADP'),
 DocToken(start=42, stop=50, text='обезьяны', id='1_10', head_id='

In [148]:
doc.tag_ner(ner_tagger)

len(doc.spans)

8

In [149]:
doc.spans

[DocSpan(start=384, stop=390, type='PER', text='Дарвин', tokens=[...]),
 DocSpan(start=585, stop=607, type='PER', text='Станислав Дорбышевский', tokens=[...]),
 DocSpan(start=648, stop=662, type='PER', text='Рбака Трендами', tokens=[...]),
 DocSpan(start=7656, stop=7664, type='PER', text='Поедение', tokens=[...]),
 DocSpan(start=9142, stop=9154, type='PER', text='Пургаториуса', tokens=[...]),
 DocSpan(start=9350, stop=9362, type='PER', text='Пургаториуса', tokens=[...]),
 DocSpan(start=11548, stop=11554, type='LOC', text='Африке', tokens=[...]),
 DocSpan(start=12973, stop=12982, type='LOC', text='Австралии', tokens=[...])]

In [150]:
[a for a in dir(doc) if not a.startswith('_')]

['as_json',
 'clear_envelopes',
 'envelop_sent_spans',
 'envelop_sent_tokens',
 'envelop_span_tokens',
 'from_json',
 'morph',
 'ner',
 'parse_syntax',
 'segment',
 'sents',
 'spans',
 'syntax',
 'tag_morph',
 'tag_ner',
 'text',
 'tokens']

In [151]:
set([s.text for s in doc.spans])

{'Австралии',
 'Африке',
 'Дарвин',
 'Поедение',
 'Пургаториуса',
 'Рбака Трендами',
 'Станислав Дорбышевский'}

In [152]:
# лемматизируем извлеченные сущности
for span in doc.spans:
    span.normalize(morph_vocab)

{s.text: s.normal for s in doc.spans}

{'Дарвин': 'Дарвин',
 'Станислав Дорбышевский': 'Станислав Дорбышевский',
 'Рбака Трендами': 'Рбака Тренды',
 'Поедение': 'Поедение',
 'Пургаториуса': 'Пургаториус',
 'Африке': 'Африка',
 'Австралии': 'Австралия'}

In [153]:
# извлечем персон

for span in doc.spans:
    if span.type == PER:
        span.extract_fact(names_extractor)

{s.normal: s.fact.as_dict for s in doc.spans if s.fact}

{'Дарвин': {'last': 'Дарвин'},
 'Станислав Дорбышевский': {'first': 'Станислав', 'last': 'Дорбышевский'},
 'Рбака Тренды': {'last': 'Рбака'}}

In [154]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [155]:
from functools import lru_cache

In [156]:
dataset_folder = 'NPlus1/texts'

In [157]:
files = os.listdir(dataset_folder)

In [158]:
! cat ../NPlus1/texts/20150928kc46a.txt

'cat' is not recognized as an internal or external command,
operable program or batch file.


In [159]:
files[:10]

['20150302bionics.txt',
 '20150302chaotic.txt',
 '20150302culture.txt',
 '20150302ebola.txt',
 '20150302epigenom.txt',
 '20150302full.txt',
 '20150302gene.txt',
 '20150302goats.txt',
 '20150302hair.txt',
 '20150302lens.txt']

In [160]:
texts = []

for f in files:
    with open(os.path.join(dataset_folder, f), 'r', encoding='utf-8') as fo:
        texts.append(fo.read())

In [161]:
def get_ner_natasha(text):
    text = re.sub(r'[^s\d\w\-:,\.\?\!]', ' ', text)
    doc = Doc(text)
    doc.segment(segmenter)
    doc.tag_ner(ner_tagger)

    for span in doc.spans:
        span.normalize(morph_vocab)

    res = set((s.normal for s in doc.spans))

    return res


In [162]:
text = """Первый полностью укомплектованный всеми системами прототип перспективного американского самолета-заправщика KC-46A Pegasus совершил первый полет. Как сообщает Defense News, первый полет состоялся вечером 25 сентября 2015 года на аэродроме концерна Boeing в Сиэтле. В воздухе на самолете была проверена работа двигателей, систем управления и систем создания искусственного климата в герметизированных отсеках. Общая продолжительность полета составила четыре часа.В ближайшее время Boeing, занимающийся разработкой KC-46A, намерен провести еще несколько испытательных полетов танкера, в ходе которых он будет выпускать заправочную штангу и шланги. Будет проверяться влияние этих систем перекачки топлива на управляемость самолета. Затем данные предварительных испытаний прототипов будут переданы ВВС США, а после этого транспортник будет участвовать в проверках на дозаправку других летательных аппаратов.Разработка KC-46A ведется на базе перспективного гражданского грузового самолета Boeing 767-2C с 2012 года. На танкер будут установлены полностью цифровые кабина пилотов и место оператора заправочного оборудования. Самолет сможет развивать скорость до 920 километров в час и совершать полеты на расстояние до 12,2 тысячи километров. KC-46A сможет перевозить до 92 тонн топлива. Действующим графиком предусмотрено строительство 18 новых самолетов-заправщиков к августу 2017 года.Поскольку разработка KC-46A ведется с использованием уже существующих технологий, в рамках проектах прототипы танкера совершали несколько первых полетов в разном оснащении. Так, в декабре 2014 года в воздух впервые поднялся самолет B767-2C — планер танкера без каких-либо специальных систем. Строительство этого самолета велось с конца 2012 года. В июне 2015 года первый полет совершил B767-2C с системами дозаправки. «Правильным» первым полетом следует считать сентябрьский 2015 года; прототип собран полностью."""

In [163]:
get_ner_natasha(text)

{'Boeing', 'Defense News', 'ВВС', 'США', 'Сиэтле'}

In [164]:
@lru_cache(10000)
def lemmatize(s):
    s = str(s).lower()
    return morph.parse(s)[0].normal_form.capitalize()

In [165]:
reg1 = re.compile(r'[^s\d\w\-:,\.\?\!]')
reg2 = re.compile(r'([\.\?!])')

def get_ner_regex(s):
    s = reg1.sub(' ', s)
    s = reg2.sub(r'\g<1><sep>', s)
    sent1 = [sent.strip() for sent in s.split('<sep>')]
    sent2 = [' '.join(ss.split()[1:]) for ss in sent1]
    res = []
    for ss in sent2:
        res.extend([e.strip() for e in re.findall(r'(?:[A-ZА-ЯЁ][A-ZА-ЯЁа-яёa-z\d-]+\s*)+', ss)])

    return set((lemmatize(s) for s in res))

In [166]:
def get_ner(text):
    return get_ner_regex(text).union(get_ner_natasha(text))

In [167]:
text = texts[0]
print(text)


Сотрудники Венского медицинского университета разработали технологию, которая позволяет пациентам с травмой плечевого нервного сплетения управлять бионическим протезом. Работа опубликована в журнале Lancet. Плечевое сплетение дает начало нервам, которые управляют движением всех мышц руки. Травмы этого сплетения приводят к «функциональной ампутации» конечности, причем восстановить ее иннервацию обычно не удается. Вместо попыток наладить иннервацию австрийские медики решили использовать бионический протез. Управлять им должна была остаточная активность нервов плеча, а также работа нервов, ранее пересаженных пациентам вместе с мышцей с другой части тела (ноги). Обнаружив слабую активность плечевых нервов, ученые снабдили их электрическими сенсорами и начали тренировать пациентов управлять виртуальной рукой, которую показывали на экране компьютера. После девяти месяцев тренировок электрическая активность нервных окончаний значительно возросла, и к нервам подключили бионический протез. Пер

In [168]:
get_ner_natasha(text)

{'Lancet', 'Венского медицинского университета'}

In [169]:
get_ner_regex(text)

{'Lancet', 'Венский'}

In [170]:
get_ner(text)

{'Lancet', 'Венский', 'Венского медицинского университета'}

In [171]:
res_ners = []

for f, text in tqdm(zip(files, texts)):
    res_ners.append((f, sorted(get_ner(text))))

7696it [02:59, 42.95it/s]


In [172]:
set(res_ners[0][1])

{'Lancet', 'Венский', 'Венского медицинского университета'}

In [173]:
print(texts[0])


Сотрудники Венского медицинского университета разработали технологию, которая позволяет пациентам с травмой плечевого нервного сплетения управлять бионическим протезом. Работа опубликована в журнале Lancet. Плечевое сплетение дает начало нервам, которые управляют движением всех мышц руки. Травмы этого сплетения приводят к «функциональной ампутации» конечности, причем восстановить ее иннервацию обычно не удается. Вместо попыток наладить иннервацию австрийские медики решили использовать бионический протез. Управлять им должна была остаточная активность нервов плеча, а также работа нервов, ранее пересаженных пациентам вместе с мышцей с другой части тела (ноги). Обнаружив слабую активность плечевых нервов, ученые снабдили их электрическими сенсорами и начали тренировать пациентов управлять виртуальной рукой, которую показывали на экране компьютера. После девяти месяцев тренировок электрическая активность нервных окончаний значительно возросла, и к нервам подключили бионический протез. Пер