# Named entity recognition (NER)

## Е.В. Еникеева

## 2022/11/17

# NER План

* Постановка задачи
  * проблема - неоднозначность => нужно учитывать контекст
* Применение
* Датасеты и разметка
  * MUC, ACE
  * CoNLL
  * BIO-разметка
* Supervised learning
  * два подхода: выделение кандидатов + классификация vs. теггинг последовательности
  * выделение кандидатов: синтаксические шаблоны, словари (ключевые слова, газетиры, лексические шаблоны)
  * как можно расширять такие словари
  * bootstrapping
  * CRF
* Оценка качества


https://nlp.rusvectores.org/en/publ/aist_2016_915619d137e77e9d84569f3fa9493cdb476d5e39

# Извлечение информации из текста (Information extraction)
* извлечение/распознавание именованных сущностей (Named enitites extraction/recognition, NER/NERC)
* извлечение отношений: часть-целое, персона-статус/должность/фамилия/место работы… (Relationship Extraction & Classification)
* извлечение фактов/событий: продажа, арест, стихийные бедствия … - факт + участники факта + локализация + время (Event Detection & Classification)
* извлечение речи персон
* временной анализ событий (Temporal Analysis)
* заполнение шаблонов о событии/факте


# Разметка именованных сущностей

* выделение спанов - подстрок / последовательностей токенов
* определение границ ИС - оффсеты / индексы начала и конца спана
* теггинг
* *нормализация
* *ontology  mapping

![](3_NER_img/Raul_castro_example.png)

# Типы именованных сущностей
Стандартные:
- Person *Paris Hilton*
- Location *Paris*
- Organization *Hilton*

Более специфические:
- LocOrg (см. FactRuEval-2016) *конференция прошла в ВШЭ*
- валюта / сумма + валюта  *$500*
- даты *November 3rd*
- именованные события *World War II*

# Проблемы

- словарный подход
> неоднозначность!

- data-driven подход
> сложность разметки

# Использование разметки NE
* Информационный поиск
* Пополнение онтологий, баз данных / знаний
* Knowledge extraction
  * маппинг сущностей в онтологию (внешнюю/внутреннюю)
* Вопросно-ответные системы
* Аналитика контента
  * аналитика по упоминаемости персоны
  * репутация ВУЗов
* Привлечение внимания эксперта к значимым аспектам информации
  * например, рабочее место журналиста; подсветка в новостных текстах
  * рубрикация и кластеризация текстов



# Использование разметки NE

<img width=600 src="3_NER_img/вузы.png"/>

Источник: https://ineo.hse.ru/data/2012/04/20/1250125810/UniversResults_HSE_IRO_seminar_01-11-2011.pdf

# Использование разметки NE

<img width=500 src="3_NER_img/lenta_NE.png"/>

Источник: lenta.ru

# Использование разметки NE

<img width=800 src="3_NER_img/eventos.png"/>

Источник: проект Eventos https://publications.hse.ru/articles/97529325

# Подготовка данных

* специализированные corpus-editors
* необходима связь с препроцессингом:
  * какие токены входят в сущность
  * границы сущности в исходном тексте
  
![](3_NER_img/Raul_castro_example.png)
Источник: http://opencorpora.org/wiki/Nermanual/2/model

# NER standards

* Message understanding conference (MUC), Automatic content extraction (ACE) ...
* SemEval workshops
* Conference on Computational Natural Language Learning (CoNLL)

# Разметка BIOES

(иногда - *BIO-tagging*)

**B** - beginning - 1 токен сущности

**I** - inside - не 1/последний токен сущности

**O** - out - не сущность

**E** - ending - последний токен сущности

**S** - single - сущность из одного токена

|Рауль|Модесто|Кастро|Рус|родился|в|городке|Биран|в|1931|году|.|
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|B-PER|I-PER|I-PER|E-PER|OUT|OUT|OUT|S-LOC|OUT|OUT|B-DATE|E-DATE|OUT|

# Недостатки разметки BIOES

> один токен - один тег

> не учитываем вложенность

> маппинг в исходный текст через токенизацию

# BIO + CoNLL

Nerus: NER+corpus

<img src="3_NER_img/nerus.png"/>


# Датасеты для русского языка

* [RuEval-2014](http://www.dialog-21.ru/evaluation/2014/anaphora/)
* [FactRuEval-2016](https://github.com/dialogue-evaluation/factRuEval-2016)
* [Nerus](https://github.com/natasha/nerus)
* некоторые другие - в проекте [Corus](https://github.com/natasha/corus):
  * Collection-5
  * WikiNer

# WikiNER

- полуавтоматическая разметка
- выделяем заголовки-NE
- ищем их в текстах

https://www.sciencedirect.com/science/article/pii/S0004370212000276?via%3Dihub

[Ru-Eval](https://ru-eval.github.io/resources.html)

Маппинг в онтологию для русского http://www.dialog-21.ru/media/3433/sysoevaaandrianovia.pdf

### Проблемы разметки:

* инструкция
  * вложенность, дескрипторы, ...
* разметчики

> *Московский государственный университет  имени М.В. Ломоносова*

> *Верховный суд (республики)*_[дескриптор] *Татарстан*

> *Сергиево-Посадский (городской округ)*_[дескриптор] *Московской области*


### Оценка качества

**precision / recall**
* token-level
* span-level
  * учитывать правильно выделенные спаны с неправильным тегом?
  * учитывать пересечение эталонных спанов и автоматически выделенных?

См. https://github.com/davidsbatista/NER-Evaluation

**Системы оценки**

ACE http://www.eng.utah.edu/~cs6961/papers/ACE-2008-description.pdf

MUC http://www.aclweb.org/anthology/M93-1007

SemEeval 2013 https://aclanthology.org/S13-2056.pdf

### Принципы оценки SemEval

Тип совпадения:
* *Correct (COR)* : both are the same;
* *Incorrect (INC)* : the output of a system and the golden annotation don’t match;
* *Partial (PAR)* : system and the golden annotation are somewhat “similar” but not the same;
* *Missing (MIS)* : a golden annotation is not captured by a system;
* *Spurius (SPU)* : system produces a response which doesn’t exist in the golden annotation;


**Тип оценки:**
* Strict: точное совпадение границ и тега;
* Exact: точное совпадение границ без учета тега;
* Partial: частичное пересечение границ без учета тега;
* Type: частичное пересечение разметки (границ и тегов)

См. https://www.davidsbatista.net/blog/2018/05/09/Named_Entity_Evaluation/


<table class="tg">
  <tbody><tr>
    <th class="text-center" colspan="1"><span style="font-weight:bold">Scenario</span></th>
    <th class="text-center" colspan="2"><span style="font-weight:bold">Golden Standard</span></th>
    <th class="text-center" colspan="2"><span style="font-weight:bold">System Prediction</span></th>
    <th class="text-center" colspan="4"><span style="font-weight:bold">Evaluation Schema</span></th>
  </tr>
  <tr>
    <td></td>
    <td><span style="font-weight:bold">Entity Type</span></td>
    <td><span style="font-weight:bold">Surface String</span></td>    
    <td><span style="font-weight:bold">Entity Type</span></td>
    <td><span style="font-weight:bold">Surface String</span></td>    
    <td><span class="text-center" style="font-weight:bold">Type</span></td>
    <td><span class="text-center" style="font-weight:bold">Partial</span></td>
    <td><span class="text-center" style="font-weight:bold">Exact</span></td>
    <td><span class="text-center" style="font-weight:bold">Strict</span></td>
  </tr>
  <tr>
    <td>III</td>
    <td>brand</td>
    <td>TIKOSYN</td>
    <td></td>
    <td></td>
    <td>MIS</td>
    <td>MIS</td>
    <td>MIS</td>
    <td>MIS</td>
  </tr>
  <tr>
    <td>II</td>
    <td></td>
    <td></td>
    <td>brand</td>
    <td>healthy</td>
    <td>SPU</td>
    <td>SPU</td>
    <td>SPU</td>
    <td>SPU</td>
  </tr>
  <tr>
    <td>V</td>
    <td>drug</td>
    <td>warfarin</td>
    <td>drug</td>
    <td>of warfarin</td>
    <td>COR</td>
    <td>PAR</td>
    <td>INC</td>
    <td>INC</td>
  </tr>
  <tr>
    <td>IV</td>
    <td>drug</td>
    <td>propranolol</td>
    <td>brand</td>
    <td>propranolol</td>
    <td>INC</td>
    <td>COR</td>
    <td>COR</td>
    <td>INC</td>
  </tr>
  <tr>
    <td>I</td>
    <td>drug</td>
    <td>phenytoin</td>
    <td>drug</td>
    <td>phenytoin</td>
    <td>COR</td>
    <td>COR</td>
    <td>COR</td>
    <td>COR</td>
  </tr>
  <tr>
    <td>I</td>  
    <td>Drug</td>
    <td>theophylline</td>
    <td>drug</td>
    <td>theophylline</td>
    <td>COR</td>
    <td>COR</td>
    <td>COR</td>
    <td>COR</td>
  </tr>
  <tr>
    <td>VI</td>
    <td>group</td>
    <td>contraceptives</td>
    <td>drug</td>
    <td>oral contraceptives</td>
    <td>INC</td>
    <td>PAR</td>
    <td>INC</td>
    <td>INC</td>
  </tr>
</tbody></table>

### Метрики SemEval

Как оценить количество релевантных и предсказанных элементов? (знаменатель в формулах Precision&Recall)

$\text{TRUE} = COR + INC + PAR + MIS = TP + FN$

$\text{PRED} = COR + INC + PAR + SPU = TP + FP$


**Exact Match (strict + exact):**

$\text{Precision} = \frac{COR}{PRED} = \frac{TP}{TP+FP}$

$\text{Recall} = \frac{COR}{TRUE} = \frac{TP}{TP+FN}$

**Partial Match (partial + type):**

$\text{Precision} = \frac{COR\ +\ 0.5\ \times\ PAR}{PRED} = \frac{TP}{TP+FP}$

$\text{Recall} = \frac{COR\ +\ 0.5\ \times\ PAR}{TRUE} = \frac{COR}{PRED} = \frac{TP}{TP+FP}$

# Использование rule-based подходов

* тексты одной тематики
* чётко ограниченная предметная область
* легко формализуемые сущности
* мало неоднозначности
* стандартные тексты (напр., заявления одного типа)

# Пример: Томита-парсер

### Ключевые слова
```cpp
TAuxDicArticle "месяц"
{
    key = "январь" | "февраль" | "март" | "апрель" | "май" | "июнь" |
          "июль" | "август" |   "сентябрь" | "октябрь" | "ноябрь" | "декабрь"
}
TAuxDicArticle "день_недели"
{
    key = "понедельник" | "вторник" | "среда" | "четверг" | "пятница" | "суббота" | "воскресенье"
}
```

### Правила грамматики
```cpp
DayOfWeek -> Noun<kwtype="день_недели">;
Day -> AnyWord<wff=/([1-2]?[0-9])|(3[0-1])/>;
Month -> Noun<kwtype="месяц">;
YearDescr -> "год" | "г. "
Year -> AnyWord<wff=/[1-2]?[0-9]{1,3}г?\.?/>;
Year -> Year YearDescr;

// "понедельник, 3 сентября 2012г."
Date -> DayOfWeek interp (Date.DayOfWeek) (Comma)
        Day interp (Date.Day) 
        Month interp (Date.Month)
        (Year interp (Date.Year)); 
```

См. https://github.com/yandex/tomita-parser/blob/master/docs/ru/README.md

# Словари ключевых слов

словарь / газетир

Можно собирать полуавтоматически:
- semantic similarity
- bootstrapping: находим похожие вхождения по шаблонам
| | |
|-|-|
|“The city like New York” | “The city like X ” |
|“My name is John” | “My name is Y” |
|“Улица ак. Варги” | “Улица ак. Z” |

# Ещё пример: natasha/yargy

In [10]:
#!pip install yargy

In [11]:
from yargy import rule, Parser, or_, and_
from yargy.predicates import gte, lte, caseless, normalized, dictionary

In [12]:
DAY = and_(
    gte(1),
    lte(31)
)
MONTH = and_(
    gte(1),
    lte(12)
)
YEAR = and_(
    gte(1),
    lte(2018)
)

MONTHS = {
    'январь',
    'февраль',
    'март',
    'апрель',
    'мая',
    'июнь',
    'июль',
    'август',
    'сентябрь',
    'октябрь',
    'ноябрь',
    'декабрь'
}
MONTH_NAME = dictionary(MONTHS)
YEAR_WORDS = or_(
    rule(caseless('г'), '.'),
    rule(normalized('год'))
)
DATE =  rule(
    DAY,
    MONTH_NAME,
    YEAR,
    YEAR_WORDS.optional()
)

parser = Parser(DATE)
text = '''
8 января 2014 года, 15 июня 2001 г.,
31 февраля 2018
'''
for match in parser.findall(text):
    print(match)

Match(tokens=[Token(value='8', span=[1, 2), type='INT'), MorphToken(value='января', span=[3, 9), type='RU', forms=[Form('январь', Grams(NOUN,gent,inan,masc,sing))]), Token(value='2014', span=[10, 14), type='INT'), MorphToken(value='года', span=[15, 19), type='RU', forms=[Form('год', Grams(NOUN,gent,inan,masc,sing)), Form('год', Grams(Infr,NOUN,accs,inan,masc,plur)), Form('год', Grams(Infr,NOUN,inan,masc,nomn,plur))])], span=[1, 19))
Match(tokens=[Token(value='15', span=[21, 23), type='INT'), MorphToken(value='июня', span=[24, 28), type='RU', forms=[Form('июнь', Grams(NOUN,gent,inan,masc,sing))]), Token(value='2001', span=[29, 33), type='INT'), MorphToken(value='г', span=[34, 35), type='RU', forms=[Form('г', Grams(Abbr,Fixd,NOUN,gent,inan,masc,sing)), Form('г', Grams(Abbr,Fixd,NOUN,inan,loct,masc,sing)), Form('г', Grams(Abbr,Fixd,NOUN,inan,masc,nomn,sing)), Form('г', Grams(Abbr,Fixd,NOUN,anim,masc,nomn,sing)), Form('г', Grams(Abbr,Fixd,NOUN,anim,gent,masc,sing)), Form('г', Grams(Abbr,Fi

См. ещё примеры https://habr.com/ru/post/349864/

И ещё https://github.com/natasha/yargy-examples

# Classification-based подход

* выделяем кандидатов в NE
* feature extraction
* классифицируем

> какие недостатки?

# Sequence tagging

POS-tagging, NER - задачи *разметки последовательности*

Classification vs. sequence tagging:
- представление объекта - label 
- объект + контекст (включая предыдущие теги) - label

Главные проблемы sequence tagging:
* inference: новая последовательность лейблов для входных данных
* decoding: оценить данную последовательность лейблов

# Генеративные модели

Моделируем совместное распределение $p(y,x)$

Простейший классификатор - наивный Байес
$$p(y,x)=p(y)*\prod_{k=1}^K{p(x_k|y)}$$

Простейший теггинг последовательностей - HMM
$$p(x,y)=\prod_{t=1}^T{p(y_t|y_{t-1})p(x_t|y_t)}$$

# Дискриминативные модели

Моделируем условную вероятность $p(y|x)$

Простейший классификатор - логистическая регрессия

$p(y|x)=\frac{1}{Z}\exp\{\lambda_y + \sum_{j=1}^K{\lambda_{y,j}x_j}\}$
, где $Z=\sum_y{exp\{\lambda_y+\sum_{j=1}^K{\lambda_{y,j}x_j}\}}$

Простейший теггинг последовательностей - linear CRF

## HMM

<img src="https://d1m75rqqgidzqn.cloudfront.net/wp-data/2020/04/16135135/pos7.png">

# Дискриминативные модели

Введем feature functions: функции, которые выбирают фичи текущего класса (см.[Дельта Кронекера/identity functions](https://ru.wikipedia.org/wiki/Символ_Кронекера)), они будут иметь вид $f_k(y_t,y_{t-1},x_t)$

для перехода между y: $f_{ij}(y, y', x) = 1_{\{y=i\}}1_{\{y'=j\}}$

для перехода x->y: $f_{io}(y, y', x) = 1_{\{y=i\}}1_{\{x=o\}}$

*Логистическую регрессию* тогда можно представить так:
$$p(y|x)=\frac{1}{Z}\exp \left\{ \sum_{k=1}^K{\lambda_k * f_k(y,x)} \right\}$$

# Условные случайные поля

*Conditional Random Fields* (CRF)

Простейший случай - *Linear-chain conditional random field*

$$p(y|x)=\frac{1}{Z(x)}\exp{ \left\{ \sum_{k=1}^K{\lambda_k f_k(y_t,y_{t-1},x)} \right\}}$$

($Z(x)$ - сумма по всем $y$)

Общий случай - General CRFs - более дистантные зависимости

Подробнее: https://people.cs.umass.edu/~mccallum/papers/crf-tutorial.pdf

Впервые CRF предложены в статье [Lafferty et al., 2001](https://repository.upenn.edu/cgi/viewcontent.cgi?article=1162&context=cis_papers)

Для задач NLP использованы в [McCallum 2003](https://www.aclweb.org/anthology/W03-0430.pdf)

# Генеративные vs. дискриминативные модели

<img src="3_NER_img/gen_vs_discr.png"/>

# Подбор параметров

*Parameter estimation*

Обычно - **maximum likelihood estimation** (conditional log likelihood):

$$\mathscr{l}(\theta)=\sum_{i=1}^N {\log p(\mathbf{y}^{(i)}|\mathbf{x}^{(i)})}$$

> Gradient descent!

# Inference

*Почему проблема?*
Экспоненциальная сложность

* HMM - алгоритм Витерби

* CRF - схожий  подход, основанный на динамическом программировании

# Преимущества CRF

> учитывает фичи независимо от расстояния

> находит более сложные зависимости 

> (как и все дискриминативные модели) не моделирует $\text{p}(x)$

# Применение CRF к задаче NER

* фичи: POS-теги, char-level (капитализация, суффиксы/префиксы)
* поверх эмбеддингов:
   - word embeddings
   - char embeddings
   - нейронная архитектура<br/>*напр. BiLSTM-CRF NER*

## BiLSTM-CRF архитектура

<img width=600 src="3_NER_img/bilstm-crf.png"/>

Источник: https://arxiv.org/pdf/1808.08450.pdf

### BiLSTM-CRF
https://arxiv.org/pdf/1508.01991.pdf

https://arxiv.org/pdf/1808.08450.pdf


### Для русского

CRF:
http://www.dialog-21.ru/media/1220/antonovaaj.pdf

CRF+knowledge-based: 
Mozharova, V. A., & Loukachevitch, N. V. (2016, April). Combining knowledge and CRF-based approach to named entity recognition in Russian. In International Conference on Analysis of Images, Social Networks and Texts (pp. 185-195). Springer, Cham. https://link.springer.com/chapter/10.1007/978-3-319-52920-2_18

RuReBus shared task:
Ivanin, V., Artemova, E., Batura, T., Ivanov, V., Sarkisyan, V., Tutubalina, E., & Smurov, I. (2020). RuREBus: a Case Study of Joint Named Entity Recognition and Relation Extraction from e-Government Domain. arXiv preprint arXiv:2010.15939. https://arxiv.org/pdf/2010.15939.pdf

# Пример 

NB! Хороший пример, как сущность зависит от задачи

<img width=800 src="3_NER_img/twitter.png"/>

См. https://twitter.com/echen/status/153683967315419136

https://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/

# Пример: stanza NLP library

https://stanfordnlp.github.io/stanza/

In [13]:
#!pip install stanza

In [14]:
import stanza
#stanza.download('ru')

In [15]:
text =  """
Сегодня Поварская улица соединяет Новый Арбат и Садовое кольцо. 
А когда-то здесь проходила Волоцкая торговая дорога на Великий Новгород. 
В 1570 году по ней из новгородского похода возвращался Иван Грозный с опричным войском. 
После разделения страны на земщину и опричнину эта местность вошла в состав последней — здесь селились приближенные к царю люди.
"""
nlp = stanza.Pipeline(lang='ru', processors='tokenize,ner')
doc = nlp(text)
for sent in doc.sentences:
    for ent in sent.ents:  # достаем NE
        print(ent)

2021-11-08 14:20:25 INFO: Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| ner       | wikiner   |

2021-11-08 14:20:25 INFO: Use device: cpu
2021-11-08 14:20:25 INFO: Loading: tokenize
2021-11-08 14:20:25 INFO: Loading: ner
2021-11-08 14:20:27 INFO: Done loading processors!


{
  "text": "Поварская улица",
  "type": "LOC",
  "start_char": 9,
  "end_char": 24
}
{
  "text": "Новый Арбат",
  "type": "LOC",
  "start_char": 35,
  "end_char": 46
}
{
  "text": "Садовое кольцо",
  "type": "LOC",
  "start_char": 49,
  "end_char": 63
}
{
  "text": "Волоцкая торговая дорога",
  "type": "LOC",
  "start_char": 93,
  "end_char": 117
}
{
  "text": "Великий Новгород",
  "type": "LOC",
  "start_char": 121,
  "end_char": 137
}
{
  "text": "Иван Грозный",
  "type": "PER",
  "start_char": 195,
  "end_char": 207
}


# Другие решения

* [PullEnti](https://github.com/pullenti/pullenti-wrapper)
* [spaCy](https://spacy.io/)
* [AllenNLP](https://github.com/allenai/allennlp)
* [AdaptNLP](https://github.com/Novetta/adaptnlp)
* [natasha/slovnet](https://github.com/natasha/slovnet)
* [DeepPavlov](https://deeppavlov.ai/)
* [StanfordNLP](https://stanfordnlp.github.io/CoreNLP/) (+ [NLTK]())