## Распознавание Именованных Сущностей с помощью библиотеки DeepPavlov
---

<img align="center" height="27%" width="27%" src="https://deeppavlov.ai/docs/_static/ipavlov_logo.png"/>


Системы Распознавания Именованных Сущностей (NER) занимаются извлечение из текста таких объектов как 
**имена**, **названия организаций**, **названия географических объектов**. Данная задача как правило является компонентом в более крупной системе. Например, в диалоговой системе NER может быть использован для выделения имени собеседника. В библиотеке [DeepPavlov](https://github.com/deepmipt/DeepPavlov) есть ряд моделей которые решают данную задачу. Мы рассмотрим две модели решающие задачу NER на русском языке: [BERT](https://arxiv.org/pdf/1810.04805.pdf), показывающий на данный момент наилучшее качество, и [Bi-LSTM-CRF](https://arxiv.org/pdf/1603.01360.pdf), который несколько уступает в качестве при этом превосходит в скорости.

[NER Demo](https://demo.ipavlov.ai/#/ru/ner)

## Постановка задачи

Задача НЕР может быть поставлена следующим образом: для заданной последовательность слов предсказать последовательность меток. Каждому входному слову сопоставляется метка из заданного множества меток. Пример: 
 
    Саша живет в Нижнем Новгороде
    PER    O   O   LOC     LOC

здесь **PER** - персона, **LOC** - локация. Однако, представленная разметка не позволяет разделять подряд идущие сущности. Для разделения таких сущностей используют префиксы B и I перед каждой меткой кроме O. Префикс B обозначает начало сущности, а I - продолжение. Тогда для примера выше будет следующая разметка:

    Саша живет в Нижнем Новгороде
    PER    O   O  B-LOC    I-LOC

Разметка с префиксами B и O - наиболее распространённый способ разметки данных. Данный тип разметки часто называют **BIO** или **IOB**.

## Dataset

Рассматриваемые в данном notebook-е модели были обучены на датасете [1]. Данный датасет содержит 1000 новостей в которых размечены персоны (PER), локации (LOC) и организации (ORG). В силу того, что обучающая выборка содержит только новостные данные смена типов распознаваемых текстов может существенно отразиться на качестве работы системы. Например, при использовании модели обученной на новостях переход к распознавания диалогов службы поддрежки может существенно снизить качество работы системы. 

1. Mozharova V., Loukachevitch N., Two-stage approach in Russian named entity recognition // International FRUCT Conference on Intelligence, Social Media and Web, ISMW FRUCT 2016. Saint-Petersburg; Russian Federation, DOI 10.1109/FRUCT.2016.7584769 

## Установка библиотеки

In [None]:
!pip install -q deeppavlov

## Установка зависимостей

In [None]:
!python -m deeppavlov install ner_rus
!python -m deeppavlov install ner_rus_bert

## Использование моделей 

### BERT 

BERT - сеть архитектуры Transformer предобученная на задаче Masked Language Modelling (MLM). Модель осуществляющая НЕР использует [RuBERT](https://arxiv.org/abs/1905.07213) предобученный на русском языке. 

In [None]:
from deeppavlov import configs, build_model

ner = build_model(configs.ner.ner_rus_bert, download=True)

In [None]:
tokens, tags = ner(['Саша живет в Нижнем Новгороде'])
for tok, tag in zip(tokens[0], tags[0]):
    print(f'{tok}\t{tag}')

### Bi-LSTM-CRF
Архитектура [Bi-LSTM-CRF](https://arxiv.org/pdf/1603.01360.pdf) проще BERT как по памяти, так и по сложности вычисления. Данная архитектура уступает в качетсве BERT, однако, работает заметно быстрее.

In [None]:
ner = build_model(configs.ner.ner_rus, download=True)

In [None]:
tokens, tags = ner(['Саша живет в Нижнем Новгороде'])
for tok, tag in zip(tokens[0], tags[0]):
    print(f'{tok}\t{tag}')

## DeepPavlov documentation: 

### http://docs.deeppavlov.ai/en/master/components/ner.html

## GitHub Repository

### https://github.com/deepmipt/DeepPavlov

## DeepPavlov demo page

### https://demo.ipavlov.ai

## Forum

### https://forum.ipavlov.ai
