## NER - Natasha

Natasha  - питоновская библиотека для извлечения именованных сущностей. Она похоже на Tomita-parser, но в ней все на чистом питоне, с открытым кодом и активно развивается. 

Если быть точнее, то natasha - набор готовых правил для парсера yargy. 

Есть например готовые правила для извлечения персон.

In [1]:
# Установить можно через pip.
from natasha import NamesExtractor

In [2]:
sents = open('sents.txt').read().splitlines()

In [3]:
extractor = NamesExtractor()

In [4]:
extractor('\n'.join(sents))

Видно, что извлекается не очень хорошо. К тому же в реальной задаче нам потребуется извлекать ещё какие-то аттрибуты сущностей и группировать их в факты. И не обязательно этих типов. Поэтому полезно разобраться с самим парсером yargy.

Документация yargy: https://yargy.readthedocs.io/ru/latest/reference.html

Лучше всего с такими штуками разбираться на практике. Давайте попробуем написать правила для извлечения персон. Каждая персона должна описываться 3 полями - Имя, Фамилия, Отчество. Также у Персоны должны быть атрибуты - должность и место работы. 

За основу возьмем пример из документации:

In [29]:
from yargy import Parser, rule
from yargy.tokenizer import MorphTokenizer
from yargy.pipelines import morph_pipeline
from yargy.interpretation import fact
from IPython.display import display


Person = fact(
    'Person',
    ['position', 'name']
)
Name = fact(
    'Name',
    ['first', 'last']
)


POSITION = morph_pipeline([
    'премьер министр',
    'президент'
])

NAME = rule(
    gram('Name').interpretation(
        Name.first.inflected()
    ),
    gram('Surn').interpretation(
        Name.last.inflected()
    )
).interpretation(
    Name
)

PERSON = rule(
    POSITION.interpretation(
        Person.position.inflected()
    ),
    NAME.interpretation(
        Person.name
    )
).interpretation(
    Person
)


parser = Parser(PERSON)

Посмотрим, что получается:

In [32]:
for sent in sents[:100]:
    
    for match in parser.findall(sent):
        display(match.fact)
    print('---------------')

In [13]:
matches = []

for sent in sents:
    for match in parser.findall(sent):
        matches.append(match.fact)

In [22]:
matches

[Person(position='президент',
        name=Name(first='гурбангул',
                  last='бердымухамедов')), Person(position='президент',
        name=Name(first='виктор',
                  last='ющенко')), Person(position='президент',
        name=Name(first='владимир',
                  last='путин'))]

In [15]:
len(matches)

3

Чтобы проверить какие морфологические тэги приписываются словам, можно использовать MorphTokenizer.

In [30]:
tokenizer = MorphTokenizer()

In [31]:
list(tokenizer('Медведев'))

[MorphToken('Медведев',
            [0, 8),
            'RU',
            [Form('медведев', Grams(NOUN,Sgtm,Surn,anim,masc,nomn,sing))])]

## Задача на семинар:
Доработать правила так, чтобы извлекалось как можно больше правильных фактов.

Документация yargy вот тут - https://yargy.readthedocs.io/ru/latest/reference.html