# Named Entity Recognition

В этом ноутбуке посмотрим на готовые инструменты для распознавания именованных сущностей.

# 1. Russian Language

In [1]:
import warnings
warnings.filterwarnings("ignore")

## Slovnet

[Slovnet](https://habr.com/ru/post/516098/) — проект по обучению нейросетевых моделей для обработки естественного русского языка. В библиотеке собраны качественные компактные модели для извлечения именованных сущностей, разбора морфологии и синтаксиса.

[Гитхаб](https://github.com/natasha/slovnet) проекта.

In [2]:
%pip install ipymarkup
%pip install navec
%pip install slovnet

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


In [3]:
from navec import Navec
from slovnet import NER

In [4]:
text = '''Впервые в мире нейросеть от ПАО Сбербанк написала сборник рассказов вместе с писателем Павлом Пепперштейном, который выпустило издательство Individuum
В издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices. Бумажную книгу уже сейчас можно заказать в интернет-магазине издательства, а на полках книжных магазинов она появится до конца мая. Электронная версия с сегодняшнего дня доступна эксклюзивно на «Букмейте».'''

In [5]:
text

'Впервые в мире нейросеть от ПАО Сбербанк написала сборник рассказов вместе с писателем Павлом Пепперштейном, который выпустило издательство Individuum\nВ издательстве Individuum вышел сборник рассказов «Пытаясь проснуться», написанных писателем и художником Павлом Пепперштейном и генеративной нейросетью ruGPT-3, разработанной командой SberDevices. Бумажную книгу уже сейчас можно заказать в интернет-магазине издательства, а на полках книжных магазинов она появится до конца мая. Электронная версия с сегодняшнего дня доступна эксклюзивно на «Букмейте».'

Для того, чтобы выявить в тексте именованные сущности воспользуемся предобученными эмбеддингами из библиотеки [Navec](https://github.com/natasha/navec), которые мы затем будем использовать в качестве input'а для предобученной модели из Slovnet.

Библиотека [Navec](https://natasha.github.io/navec/) — часть проекта [Natasha](https://github.com/natasha), коллекция предобученных эмбеддингов для русского языка.

Скачаем предобученную [модель](https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar) `'navec_news_v1_1B_250K_300d_100q.tar'`.

In [6]:
!wget -O slovnet_ner_news_v1.tar https://storage.yandexcloud.net/natasha-slovnet/packs/slovnet_ner_news_v1.tar
!wget -O navec_news_v1_1B_250K_300d_100q.tar https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar

--2024-06-17 21:04:33--  https://storage.yandexcloud.net/natasha-slovnet/packs/slovnet_ner_news_v1.tar
Распознаётся storage.yandexcloud.net (storage.yandexcloud.net)… 213.180.193.243
Подключение к storage.yandexcloud.net (storage.yandexcloud.net)|213.180.193.243|:443... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 200 OK
Длина: 2385920 (2,3M) [application/octet-stream]
Сохранение в: «slovnet_ner_news_v1.tar»


2024-06-17 21:04:34 (31,4 MB/s) - «slovnet_ner_news_v1.tar» сохранён [2385920/2385920]

--2024-06-17 21:04:34--  https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar
Распознаётся storage.yandexcloud.net (storage.yandexcloud.net)… 213.180.193.243
Подключение к storage.yandexcloud.net (storage.yandexcloud.net)|213.180.193.243|:443... соединение установлено.
HTTP-запрос отправлен. Ожидание ответа… 200 OK
Длина: 26634240 (25M) [application/x-tar]
Сохранение в: «navec_news_v1_1B_250K_300d_100q.tar»


2024-06-17 21:04:34 (46,5 MB/s)

In [None]:
navec = Navec.load('navec_news_v1_1B_250K_300d_100q.tar')

А теперь, используя полученные эмбеддинги найдем в тексте именованые сущности с помощью предобученной модели  slovnet.

In [None]:
ner = NER.load('slovnet_ner_news_v1.tar')

In [None]:
ner.navec(navec);

In [None]:
markup = ner(text)

In [None]:
markup

**Немного украшательства**

Библиотека ipymarkup предназначена для красивой визуализации NER.

In [None]:
from ipymarkup import show_span_box_markup as show_markup
show_markup(markup.text, markup.spans)

# 2. English Language

А что с английским языком? Модели от navec и slovnet обучены для русского языка.

Для английского воспользуемся библиотекой [spacy](https://spacy.io/), в которую уже встроен парсер для английского языка: [en_core_web_sm](https://spacy.io/models/en).

In [None]:
#! python -m spacy download en_core_web_sm

In [None]:
import spacy
from spacy import displacy
from collections import Counter
import en_core_web_sm

In [None]:
nlp = en_core_web_sm.load()

Посмотрим, как работает английский NER из spacy на примере с новостного сайта.

In [None]:
text = '''One day in mid-November, workers at OpenAI got an unexpected assignment: Release a chatbot, fast. The chatbot, an executive announced, would be known as “Chat with GPT 3.5,” and it would be made available free to the public. '''

In [None]:
doc = nlp(text)
doc

In [None]:
type(doc)

In [None]:
doc.ents

In [None]:
type(doc.ents)

In [None]:
[(X.text, X.label_) for X in doc.ents]

In [None]:
[(X, X.ent_iob_, X.ent_type_) for X in doc]

In [None]:
displacy.render(doc, jupyter=True, style='ent')

А теперь давайте возьмем реальный текст [новости](https://www.nytimes.com/2022/04/21/sports/basketball/nets-celtics-kevin-durant.html) с новостного сайта [NY Times](https://www.nytimes.com) и посмотрим, какие именованные сущности выявит spacy.


Посмотрим, о ком и о чем эта статья.

In [None]:
ny_bb = 'BOSTON — Kevin Durant had no room. He admitted as much. Whenever he had the ball against the Celtics on Wednesday night, and even when he did not, defenders were crowding his space, shadowing him, draping themselves all over him like Saran wrap. They were on the perimeter, and in the paint, and at the elbow. How was it possible that only five of them were on the court at once? “They’re mucking up actions when I run off stuff,” said Durant, who singled out the Celtics’ Al Horford for “leaving his man to come over and hit me sometimes.” Durant went on: “Just two or three guys hitting me wherever I go. And that’s just the nature of the beast in the playoffs.” It was nearing 11 p.m. as Durant offered up his post-mortem of the Nets’ 114-107 loss to the Celtics in Game 2 of their first-round playoff series, and he did not necessarily seem concerned. In fact, his analysis came off as dispassionate: Here were the facts, and it was his job to remedy the issues as the Nets seek to rebound from their two-games-to-none deficit in the best-of-seven series. It heads to Brooklyn for Game 3 on Saturday night. “It’s on me to just finish it and figure it out,” he said. “I’m not expecting my teammates or the defense to give me anything. I just got to go out there and play.”'

In [None]:
print(ny_bb)

In [None]:
article = nlp(ny_bb)
len(article.ents)

In [None]:
labels = [x.label_ for x in article.ents]
Counter(labels)

In [None]:
items = [x.text for x in article.ents]
Counter(items).most_common(20)

In [None]:
sentences = [x for x in article.sents]
print(sentences[3])

И конечно красивая разметка.

In [None]:
displacy.render(nlp(str(sentences)), jupyter=True, style='ent')

In [None]:
[(x.orth_,x.pos_, x.lemma_) for x in [y
                                      for y
                                      in nlp(str(sentences[3]))
                                      if not y.is_stop and y.pos_ != 'PUNCT']]

In [None]:
print([(x, x.ent_iob_, x.ent_type_) for x in sentences[3]])

In [None]:
displacy.render(article, jupyter=True, style='ent')