<a href="https://colab.research.google.com/github/Whereamiactually/lyceumcompling10/blob/main/NER_lemmatization_stemming.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Распознавание именованных сущностей

Natasha также умеет распознавать **именованные сущности** (NER - Named Entity Recognition): имена людей, названия организаций, книг, городов и другие имена собственные.

За одной задачей NER, на самом деле, стоит две:
1. обнаружить, что какая-то последовательность слов — это именованная сущность;
2. понять, к какому классу (имя человека, название организации, город и т.п.) эта именованная сущность относится.

Какие классы именованных сущностей обычно хотят найти? Практически всегда стараются извлекать **имена людей и названия мест и организаций**, а дальше все зависит от конкретных задач, которые нужно решать, или от возможностей предобученной системы, которую планируется использовать. Также к задаче NER относят **извлечение дат, денежных сумм (число + валюта)**.

Всё это нужно, чтобы решать задачи референции, референциального выбора и кореференции и метонимии, которые являются центральными для поиска, вопросно-ответных систем, связности текста, синтаксического и морфологического парсинга и т.д.

Многие именованные сущности могут в разных контекстах относиться к разным классам: слово «Чехов» может быть человеком, городом, названием клуба и т.д.

Какие **проблемы** могут быть связаны с NER?

1. Именованные сущности редко состоят из одного слова. Например, из предложения «Звонил доктор Владимир Бомгард» нужно извлечь, как минимум, имя и фамилию — «Владимир Бомгард», а для многих задач полезно уметь находить полное «наименование» человека, о котором говорится: «доктор Владимир Бомгард».
2. Не всегда очевидны границы, например, словосочетание «Иван Васильевич и партнеры» может быть названием некоторой организации, а может подразумевать некоторого Ивана Васильевича и отдельно его партнеров.
3. С большой буквы пишутся не только имена собственные. Это верно и для русского, и еще больше для английского, но особенно хорошо видно в немецком, где с большой буквы пишутся вообще все существительные.
4. Не во всех языках вообще есть большие буквы (например, это верно для языков со слоговыми системами).

Как **работают** с именованными сущностями?

Хотя большинство именованных сущностей состоит из нескольких слов, при решении этой задачи обычно рассматривают отдельные слова и решают, является ли это слово частью именованной сущности или нет. При этом **различают начало, середину и конец именованной сущности**.

При разметке именованных сущностей принято использовать префиксы **BIOES-схемы**:
* **«B» (beginning, начало)** для обозначения первого слова,
* **«E» (end, конец)** для обозначения последнего слова,
* **«I» (intermediate, промежуточный)** для всех слов между первым и последним,
* **«S» (single, одиночный)** для обозначения именованной сущности, состоящей из одного слова,
* **«O» (outside, снаружи)** — слово не относится ни к какой сущности.

Задача сводится к **пословной классификации**. Обычно тренируют **нейросетевую модель** на большом количестве текстов с разметкой именованных сущностей. В основе моделей обычно стоят модули, которые позволяют учитывать контекст с двух сторон от анализируемого слова.

Хорошие результаты дают и **классические классификаторы**, работающие с предзаданным множеством признаков. Большие буквы или нестандартное использование больших и маленьких букв (iPhone), а также специфических символов (H&M) внутри слова — все это полезные признаки для выявления именованных сущностей.

Также до сих пор используются **системы, основанные на правилах**: в них прописываются разные шаблонные схемы именованных сущностей. Например, шаблон **«Министерство + образования\туризма\здравоохранения + Название страны»** поможет найти «Министерство образования Италии» и «Министерство туризма Мексики». Шаблон **«однозначное\двузначное число + название месяца + четырехзначное число»** — это дата. Основная проблема такого подхода: на подготовку правил требуется очень много времени, а малейшее отступление от паттерна (например, банальная опечатка) все сломает. Также набор правил пишется под определенный язык, поэтому набор правил, помогающий извлекать именованные сущности из текстов на русском языке никак не поможет при обработке другого языка.

**Активно используемых именованных сущностей конечное количество**, многие из них уже собраны в списки (так называемые **газетиры**, gazetteers): географические названия, словари имен, реестры организаций и т.п. Всю эту информацию тоже стараются использовать для решения задачи NER.

In [None]:
pip install natasha

Collecting natasha
  Downloading natasha-1.6.0-py3-none-any.whl (34.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.4/34.4 MB[0m [31m45.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy2 (from natasha)
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting razdel>=0.5.0 (from natasha)
  Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Collecting navec>=0.9.0 (from natasha)
  Downloading navec-0.10.0-py3-none-any.whl (23 kB)
Collecting slovnet>=0.6.0 (from natasha)
  Downloading slovnet-0.6.0-py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.7/46.7 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting yargy>=0.16.0 (from natasha)
  Downloading yargy-0.16.0-py3-none-any.whl (33 kB)
Collecting ipymarkup>=0.8.0 (from natasha)
  Downloading ipymarkup-0.9.0-py3-none-any.w

In [None]:
from natasha import (
  Segmenter,

  NewsEmbedding,
  NewsMorphTagger,
  NewsSyntaxParser,

  Doc
)

segmenter = Segmenter() # сегментирует текст, нужно для распознавания именованных сущностей
emb = NewsEmbedding() # преобразует языковые сущности в числовой вектор
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)

In [None]:
text = 'Киллиан Мёрфи участвовал в 2007 году в кампании Rock the Voteruen, ориентированной на молодых избирателей на всеобщих выборах, и проводил кампанию за права бездомных с организацией Focus Ireland. В 2011 году он стал патроном Исследовательского центра ЮНЕСКО по проблемам детей и семьи при Ирландском национальном университете в Голуэе. Он тесно связан с работой профессора Пэта Долана, директора UCFRC и кафедры ЮНЕСКО по вопросам детей, молодежи и гражданского участия. В феврале 2012 года он написал послание поддержки бывшим работникам Vita Cortexruen, участвовавшим в сидячей забастовке на их заводе. Какое это имеет отношение к Высшей Школе Экономики? Александр Сергеевич Пушкин не понимает.'
doc = Doc(text) # текст нужно определённым образом преобразовать
doc.segment(segmenter) # сегментируем тест
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)
text

'Киллиан Мёрфи участвовал в 2007 году в кампании Rock the Voteruen, ориентированной на молодых избирателей на всеобщих выборах, и проводил кампанию за права бездомных с организацией Focus Ireland. В 2011 году он стал патроном Исследовательского центра ЮНЕСКО по проблемам детей и семьи при Ирландском национальном университете в Голуэе. Он тесно связан с работой профессора Пэта Долана, директора UCFRC и кафедры ЮНЕСКО по вопросам детей, молодежи и гражданского участия. В феврале 2012 года он написал послание поддержки бывшим работникам Vita Cortexruen, участвовавшим в сидячей забастовке на их заводе. Какое это имеет отношение к Высшей Школе Экономики? Александр Сергеевич Пушкин не понимает.'

In [None]:
from natasha import NewsNERTagger
ner_tagger = NewsNERTagger(emb) # инициализируем распознаватель именованных сущностей

In [None]:
doc.tag_ner(ner_tagger)
doc.ner.print()

Киллиан Мёрфи участвовал в 2007 году в кампании Rock the Voteruen, 
PER──────────                                                      
ориентированной на молодых избирателей на всеобщих выборах, и проводил
 кампанию за права бездомных с организацией Focus Ireland. В 2011 году
                                            ORG──────────             
 он стал патроном Исследовательского центра ЮНЕСКО по проблемам детей 
                  ORG────────────────────── ORG───                    
и семьи при Ирландском национальном университете в Голуэе. Он тесно 
            ORG─────────────────────────────────   LOC───           
связан с работой профессора Пэта Долана, директора UCFRC и кафедры 
                            PER────────            ORG──           
ЮНЕСКО по вопросам детей, молодежи и гражданского участия. В феврале 
ORG───                                                               
2012 года он написал послание поддержки бывшим работникам Vita 
                               

In [None]:
from natasha import (
  MorphVocab,
  PER,
  NamesExtractor,
)

morph_vocab = MorphVocab()
names_extractor = NamesExtractor(morph_vocab)

Мы можем вывести нормализованные именованные сущности.

In [None]:
for span in doc.spans: # проходимся по всем именованным сущностям и добавляет к ним нормализацию
  span.normalize(morph_vocab)
{_.text: _.normal for _ in doc.spans if _.text != _.normal}

{'Киллиан Мёрфи': 'Киллиан Мерфи',
 'Исследовательского центра': 'Исследовательский центр',
 'Ирландском национальном университете': 'Ирландский национальный университет',
 'Голуэе': 'Голуэй',
 'Пэта Долана': 'Пэта Долан',
 'Высшей Школе Экономики': 'Высочайшая Школа Экономики'}

Мы можем отдельно выцеплять имена людей, причем мы можем их ФИ(О) поделить на имя и фамилию (и отчество). Но для этого нам нужно знать, в каком формате записано имя (например, ФИО или ИФ).

In [None]:
for span in doc.spans:
  if span.type == PER:
    span.extract_fact(names_extractor)

{_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

{'Киллиан Мерфи': {'first': 'Киллиан', 'last': 'Мерфи'},
 'Пэта Долан': {'first': 'Пэта', 'last': 'Долан'},
 'Александр Сергеевич Пушкин': {'first': 'Александр',
  'last': 'Пушкин',
  'middle': 'Сергеевич'}}

In [None]:
from natasha import (
  DatesExtractor, # для дат
  MoneyExtractor, # для денежных сумм
  AddrExtractor # для адресов
)

dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
address_extractor = AddrExtractor(morph_vocab)

In [None]:
list(dates_extractor(text))

[Match(
     start=27,
     stop=36,
     fact=Date(
         year=2007,
         month=None,
         day=None
     )
 ),
 Match(
     start=198,
     stop=207,
     fact=Date(
         year=2011,
         month=None,
         day=None
     )
 ),
 Match(
     start=473,
     stop=490,
     fact=Date(
         year=2012,
         month=2,
         day=None
     )
 )]

### Stanza

Это библиотека для обработки естественных языков (как и Natasha). Выполнять она может практически всё то же самое, что и Natasha (например, токенизация, лемматизация, морфологический анализ), только с большим количеством языков (66 языков, включая русский). Список языков, для которых возможно распознавание именованных сущностей, можно найти вот [тут](https://stanfordnlp.github.io/stanza/ner_models.html).

In [None]:
pip install stanza

Collecting stanza
  Downloading stanza-1.6.1-py3-none-any.whl (881 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m881.2/881.2 kB[0m [31m11.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting emoji (from stanza)
  Downloading emoji-2.8.0-py2.py3-none-any.whl (358 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m358.9/358.9 kB[0m [31m29.4 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: emoji, stanza
Successfully installed emoji-2.8.0 stanza-1.6.1


In [None]:
import stanza
stanza.download('en') # загружаем язык, с которым мы хотим работать

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Downloading default packages for language: en (English) ...


Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.6.0/models/default.zip:   0%|          | 0…

INFO:stanza:Finished downloading models and saved to /root/stanza_resources.


Нам нужно задать процессоры, с которыми мы хотим работать. В данном случае, **чтобы распознать именованные сущности, нам надо вначале токенизировать текст**, а затем уже попытаться их найти. Список других процессов можно найти [тут](https://stanfordnlp.github.io/stanza/).

In [None]:
nlp = stanza.Pipeline(lang = 'en', processors = 'tokenize, ner')

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Loading these models for language: en (English):
| Processor | Package          |
--------------------------------
| tokenize  | combined         |
| ner       | ontonotes_charlm |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


Попробуем на тексте на английском языке. Список тегов можно найти [тут](https://stanfordnlp.github.io/stanza/ner_models.html) (для разных языков он разный).

In [None]:
eng_text = 'Cillian Murphy participated in the 2007 Rock the Vote Ireland campaign, targeting young voters for the general election, and campaigning for the rights of the homeless with the organisation Focus Ireland. In 2011, he became a patron of the UNESCO Child and Family Research Centre at the National University of Ireland Galway. He is closely associated with the work of Professor Pat Dolan Director UCFRC and UNESCO Chair in Children, Youth and Civic Engagement. In February 2012, he wrote a message of support to the former Vita Cortex workers involved in a sit-in at their plant, congratulating them for "highlighting [what] is hugely important to us all as a nation". Murphy was a supporter of the 2018 Irish referendum to repeal the eighth amendment of the constitution that restricted access to abortions.'
doc = nlp(eng_text)
print(*[f'entity: {ent.text}\ttype: {ent.type}' for sent in doc.sentences for ent in sent.ents], sep = '\n')

entity: Cillian Murphy	type: PERSON
entity: 2007	type: DATE
entity: Rock the Vote Ireland	type: ORG
entity: Focus Ireland	type: ORG
entity: 2011	type: DATE
entity: the UNESCO Child and Family Research Centre	type: ORG
entity: the National University of Ireland Galway	type: ORG
entity: Pat Dolan	type: PERSON
entity: UCFRC	type: ORG
entity: UNESCO	type: ORG
entity: Youth and Civic Engagement	type: ORG
entity: February 2012	type: DATE
entity: Vita Cortex	type: ORG
entity: Murphy	type: PERSON
entity: 2018	type: DATE
entity: Irish	type: NORP
entity: eighth	type: ORDINAL


Мы можем выводить BIOES NER теги для каждого токена, чтобы посмотреть, не упустила ли что-то наша программа.

In [None]:
print(*[f'token: {token.text}\tner: {token.ner}' for sent in doc.sentences for token in sent.tokens], sep = '\n')

token: Cillian	ner: B-PERSON
token: Murphy	ner: E-PERSON
token: participated	ner: O
token: in	ner: O
token: the	ner: O
token: 2007	ner: S-DATE
token: Rock	ner: B-ORG
token: the	ner: I-ORG
token: Vote	ner: I-ORG
token: Ireland	ner: E-ORG
token: campaign	ner: O
token: ,	ner: O
token: targeting	ner: O
token: young	ner: O
token: voters	ner: O
token: for	ner: O
token: the	ner: O
token: general	ner: O
token: election	ner: O
token: ,	ner: O
token: and	ner: O
token: campaigning	ner: O
token: for	ner: O
token: the	ner: O
token: rights	ner: O
token: of	ner: O
token: the	ner: O
token: homeless	ner: O
token: with	ner: O
token: the	ner: O
token: organisation	ner: O
token: Focus	ner: B-ORG
token: Ireland	ner: E-ORG
token: .	ner: O
token: In	ner: O
token: 2011	ner: S-DATE
token: ,	ner: O
token: he	ner: O
token: became	ner: O
token: a	ner: O
token: patron	ner: O
token: of	ner: O
token: the	ner: B-ORG
token: UNESCO	ner: I-ORG
token: Child	ner: I-ORG
token: and	ner: I-ORG
token: Family	ner: I-ORG
token:

Теперь проверим на русском!

In [None]:
stanza.download('ru')
nlp = stanza.Pipeline(lang = 'ru', processors = 'tokenize,ner')
doc = nlp(text)

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Downloading default packages for language: ru (Russian) ...


Downloading https://huggingface.co/stanfordnlp/stanza-ru/resolve/v1.6.0/models/default.zip:   0%|          | 0…

INFO:stanza:Finished downloading models and saved to /root/stanza_resources.
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.6.0.json:   0%|   …

INFO:stanza:Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| ner       | wikiner   |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


In [None]:
print(*[f'entity: {ent.text}\ttype: {ent.type}' for sent in doc.sentences for ent in sent.ents], sep = '\n')

entity: Киллиан Мёрфи	type: PER
entity: Rock the Voteruen	type: ORG
entity: Focus Ireland	type: ORG
entity: Исследовательского центра ЮНЕСКО	type: ORG
entity: Ирландском национальном университете в Голуэе	type: LOC
entity: Пэта Долана	type: PER
entity: UCFRC	type: ORG
entity: ЮНЕСКО	type: ORG
entity: Vita Cortexruen	type: ORG
entity: Высшей Школе Экономики	type: ORG
entity: Александр Сергеевич Пушкин	type: PER


### Ещё один распознаватель ИС

SpaCy - ещё одна библиотека для обработки естественных языков. [Здесь](https://spacy.io/usage) можно найти подробную информацию, в том числе посмотреть, какие языки поддерживает эта библиотека.

Посмотрим вначале на то, как она справляется с английским языком.

In [None]:
!pip install -U pip setuptools wheel
!pip install -U spacy
!python -m spacy download en_core_web_sm

Collecting pip
  Downloading pip-23.2.1-py3-none-any.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m21.5 MB/s[0m eta [36m0:00:00[0m
Collecting setuptools
  Downloading setuptools-68.2.2-py3-none-any.whl (807 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m807.9/807.9 kB[0m [31m54.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: setuptools, pip
  Attempting uninstall: setuptools
    Found existing installation: setuptools 67.7.2
    Uninstalling setuptools-67.7.2:
      Successfully uninstalled setuptools-67.7.2
  Attempting uninstall: pip
    Found existing installation: pip 23.1.2
    Uninstalling pip-23.1.2:
      Successfully uninstalled pip-23.1.2
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
ipython 7.34.0 requires jedi>=0.16, which is not installed.[0m[31m
[0m

Collecting spacy
  Obtaining dependency information for spacy from https://files.pythonhosted.org/packages/fa/7c/8518799f3fc85e4c2538c0b4fc2306de90696f00c1a8286c943f9414292a/spacy-3.7.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata
  Downloading spacy-3.7.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (25 kB)
Collecting weasel<0.4.0,>=0.1.0 (from spacy)
  Obtaining dependency information for weasel<0.4.0,>=0.1.0 from https://files.pythonhosted.org/packages/de/f5/6786a5fd1ab6a38511f3772c9002f312a2d509c1237ae514631adf145ad4/weasel-0.3.2-py3-none-any.whl.metadata
  Downloading weasel-0.3.2-py3-none-any.whl.metadata (4.7 kB)
Collecting cloudpathlib<0.16.0,>=0.7.0 (from weasel<0.4.0,>=0.1.0->spacy)
  Obtaining dependency information for cloudpathlib<0.16.0,>=0.7.0 from https://files.pythonhosted.org/packages/97/a2/e9a5bd762cccefc92a98c87354a65a8b75c280ab187a05e6d5851adbdae6/cloudpathlib-0.15.1-py3-none-any.whl.metadata
  Downloading cloudpathlib-

In [None]:
import spacy
nlp = spacy.load("en_core_web_sm")

In [None]:
doc = nlp(eng_text)

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Cillian Murphy 0 14 PERSON
Rock the 40 48 EVENT
Vote Ireland 49 61 GPE
Focus Ireland 190 203 GPE
2011 208 212 DATE
the National University of Ireland Galway 283 324 ORG
Pat Dolan 378 387 PERSON
UCFRC 397 402 PERSON
UNESCO Chair 407 419 ORG
Children 423 431 GPE
February 2012 464 477 DATE
Vita Cortex 523 534 ORG
Murphy 669 675 PERSON
2018 699 703 DATE
Irish 704 709 NORP
eighth 735 741 ORDINAL


Мы можем вручную задать новые теги и соотнести определенные именованные сущности с ними.

In [None]:
from spacy.tokens import Span

ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print('До:', ents)

rvi_ent = Span(doc, 16, 19, label = "ELECT") # создаем новый спан для слов 16-18
doc.ents = list(doc.ents) + [rvi_ent]

ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print('После:', ents)

До: [('Cillian Murphy', 0, 14, 'PERSON'), ('Rock the', 40, 48, 'EVENT'), ('Vote Ireland', 49, 61, 'GPE'), ('Focus Ireland', 190, 203, 'GPE'), ('2011', 208, 212, 'DATE'), ('the National University of Ireland Galway', 283, 324, 'ORG'), ('Pat Dolan', 378, 387, 'PERSON'), ('UCFRC', 397, 402, 'PERSON'), ('UNESCO Chair', 407, 419, 'ORG'), ('Children', 423, 431, 'GPE'), ('February 2012', 464, 477, 'DATE'), ('Vita Cortex', 523, 534, 'ORG'), ('Murphy', 669, 675, 'PERSON'), ('2018', 699, 703, 'DATE'), ('Irish', 704, 709, 'NORP'), ('eighth', 735, 741, 'ORDINAL')]
После: [('Cillian Murphy', 0, 14, 'PERSON'), ('Rock the', 40, 48, 'EVENT'), ('Vote Ireland', 49, 61, 'GPE'), ('the general election', 99, 119, 'ELECT'), ('Focus Ireland', 190, 203, 'GPE'), ('2011', 208, 212, 'DATE'), ('the National University of Ireland Galway', 283, 324, 'ORG'), ('Pat Dolan', 378, 387, 'PERSON'), ('UCFRC', 397, 402, 'PERSON'), ('UNESCO Chair', 407, 419, 'ORG'), ('Children', 423, 431, 'GPE'), ('February 2012', 464, 477, 

Можем красиво отобразить!

In [None]:
from spacy import displacy

In [None]:
displacy.render(doc,style = "ent",jupyter = True)

Либо что-то только одно!

In [None]:
opts = {'ents': ['PERSON']}
displacy.render(doc, style = "ent", jupyter = True, options = opts)

Ну и все то же самое для русского языка.

In [None]:
! python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m26.2 MB/s[0m eta [36m0:00:00[0m
Collecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.7.0)
  Obtaining dependency information for pymorphy3>=1.0.0 from https://files.pythonhosted.org/packages/d7/f9/ffb9afde503dc6bb2361ea79ceaea18138fbcee32aec4c5d8efa49180753/pymorphy3-1.2.1-py3-none-any.whl.metadata
  Downloading pymorphy3-1.2.1-py3-none-any.whl.metadata (1.6 kB)
Collecting docopt-ng>=0.6 (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Obtaining dependency information for docopt-ng>=0.6 from https://files.pythonhosted.org/packages/6c/4a/c3b77fc1a24510b08918b43a473410c0168f6e657118807015f1f1edceea/docopt_ng-0.9.0-py3-none-any.whl.metadata
  Downloading docopt_ng-0.9.0-py3-none-any.whl.metadata (13 kB)
Collecting pymorphy3-

In [None]:
nlp = spacy.load("ru_core_news_sm")

In [None]:
doc = nlp(text)

for ent in doc.ents:
  print(ent.text, ent.start_char, ent.end_char, ent.label_)

Киллиан Мёрфи 0 13 PER
Rock the Voteruen 48 65 ORG
Focus Ireland 181 194 ORG
Исследовательского центра 225 250 ORG
ЮНЕСКО 251 257 ORG
Ирландском национальном университете 289 325 ORG
Голуэе 328 334 LOC
Пэта Долана 373 384 PER
UCFRC 396 401 ORG
ЮНЕСКО 412 418 ORG
Vita Cortexruen 539 554 ORG
Высшей Школе Экономики 633 655 ORG
Александр Сергеевич Пушкин 657 683 PER


In [None]:
displacy.render(doc, style = "ent", jupyter = True)

### Лемматизация и стемминг

Стемминг vs лемматизация: что это такое и в чём разница?

Это всё способы нормализации.

**Лемма** - словарная форма слова. **Лемматизация** учитывает морфологический анализ слов и использует словарь для **нахождения словарной формы** слова:

* для существительных — именительный падеж, единственное число;
* для прилагательных — именительный падеж, единственное число, мужской род;
* для глаголов, причастий, деепричастий — глагол в инфинитиве несовершенного вида.

**Стемминг** работает, не учитывая контекст и морфологические характеристики слова, Стемминг позволяет привести слово к его основной форме. Суть подхода **в нахождении основы слова, для этого с конца и начала слова последовательно отрезаются его части**. Правила отсекания для стеммера создаются заранее, и чаще всего представляют из себя регулярные выражения, что делает данный подход трудоемким. Вторым недостатком подхода является возможная потеря информации при отрезании частей, например, мы можем потерять информацию о части речи.

Natasha умеет решать задачу лемматизации. Для этого она использует другой морфологический анализатор **Pymorphy2**, с которым мы в полной мере познакомимся чуть попозже.

Чтобы посмотреть, как работает **стемминг**, мы посмотрим на SnowballStemmer из встроенной питоновской библиотеки **NLTK**.

**Natural Language Toolkit** (набор инструментов для естественной обработки языка) - пакет библиотек и программ для обработки естественного языка (токенизация, стемминг, лемматизация, POS-тэггинг, графическое представление структуры, семантические рассуждения, ...). Подробнее мы с ней тоже познакомимся позже.

In [None]:
import nltk
from nltk.stem import SnowballStemmer
snowball = SnowballStemmer(language = "russian")

In [None]:
stems = {}
for token in doc.tokens:
  stem = snowball.stem(token.text)
  stems[token.text] = stem

stems

{'Киллиан': 'киллиа',
 'Мёрфи': 'мерф',
 'участвовал': 'участвова',
 'в': 'в',
 '2007': '2007',
 'году': 'год',
 'кампании': 'кампан',
 'Rock': 'Rock',
 'the': 'the',
 'Voteruen': 'Voteruen',
 ',': ',',
 'ориентированной': 'ориентирова',
 'на': 'на',
 'молодых': 'молод',
 'избирателей': 'избирател',
 'всеобщих': 'всеобщ',
 'выборах': 'выбор',
 'и': 'и',
 'проводил': 'провод',
 'кампанию': 'кампан',
 'за': 'за',
 'права': 'прав',
 'бездомных': 'бездомн',
 'с': 'с',
 'организацией': 'организац',
 'Focus': 'Focus',
 'Ireland': 'Ireland',
 '.': '.',
 'В': 'в',
 '2011': '2011',
 'он': 'он',
 'стал': 'стал',
 'патроном': 'патрон',
 'Исследовательского': 'исследовательск',
 'центра': 'центр',
 'ЮНЕСКО': 'юнеск',
 'по': 'по',
 'проблемам': 'проблем',
 'детей': 'дет',
 'семьи': 'сем',
 'при': 'при',
 'Ирландском': 'ирландск',
 'национальном': 'национальн',
 'университете': 'университет',
 'Голуэе': 'голуэ',
 'Он': 'он',
 'тесно': 'тесн',
 'связан': 'связа',
 'работой': 'работ',
 'профессора': '

In [None]:
from natasha import MorphVocab

morph_vocab = MorphVocab()

text = 'Киллиан Мёрфи участвовал в 2007 году в кампании Rock the Voteruen, ориентированной на молодых избирателей на всеобщих выборах, и проводил кампанию за права бездомных с организацией Focus Ireland. В 2011 году он стал патроном Исследовательского центра ЮНЕСКО по проблемам детей и семьи при Ирландском национальном университете в Голуэе. Он тесно связан с работой профессора Пэта Долана, директора UCFRC и кафедры ЮНЕСКО по вопросам детей, молодежи и гражданского участия. В феврале 2012 года он написал послание поддержки бывшим работникам Vita Cortexruen, участвовавшим в сидячей забастовке на их заводе. Какое это имеет отношение к Высшей Школе Экономики? Александр Сергеевич Пушкин не понимает.'
doc = Doc(text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)

for token in doc.tokens:
  token.lemmatize(morph_vocab)

{word.text: word.lemma for word in doc.tokens} # создаёт для каждого токена вхождение в словаре и соотносит его с словарной формой

{'Киллиан': 'киллиан',
 'Мёрфи': 'мерфь',
 'участвовал': 'участвовать',
 'в': 'в',
 '2007': '2007',
 'году': 'год',
 'кампании': 'кампания',
 'Rock': 'rock',
 'the': 'the',
 'Voteruen': 'voteruen',
 ',': ',',
 'ориентированной': 'ориентировать',
 'на': 'на',
 'молодых': 'молодой',
 'избирателей': 'избиратель',
 'всеобщих': 'всеобщий',
 'выборах': 'выбор',
 'и': 'и',
 'проводил': 'проводить',
 'кампанию': 'кампания',
 'за': 'за',
 'права': 'право',
 'бездомных': 'бездомный',
 'с': 'с',
 'организацией': 'организация',
 'Focus': 'focus',
 'Ireland': 'ireland',
 '.': '.',
 'В': 'в',
 '2011': '2011',
 'он': 'он',
 'стал': 'стать',
 'патроном': 'патрон',
 'Исследовательского': 'исследовательский',
 'центра': 'центр',
 'ЮНЕСКО': 'юнеско',
 'по': 'по',
 'проблемам': 'проблема',
 'детей': 'ребенок',
 'семьи': 'семья',
 'при': 'при',
 'Ирландском': 'ирландский',
 'национальном': 'национальный',
 'университете': 'университет',
 'Голуэе': 'голуэй',
 'Он': 'он',
 'тесно': 'тесно',
 'связан': 'связа

Лемматизиация не очень хорошо справляется с названиями именованных сущностей, потому что она их делит пословно. Но это можно исправить (мы уже делали то же самое выше).

In [None]:
from natasha import NewsNERTagger

ner_tagger = NewsNERTagger(emb) # инициализируем распознаватель именованных сущностей
doc.tag_ner(ner_tagger)

for span in doc.spans: # эта функция опирается на морфологический и синатаксический анализ, а также на NER
  span.normalize(morph_vocab)
{span.text: span.normal for span in doc.spans}

{'Киллиан Мёрфи': 'Киллиан Мерфи',
 'Focus Ireland': 'Focus Ireland',
 'Исследовательского центра': 'Исследовательский центр',
 'ЮНЕСКО': 'ЮНЕСКО',
 'Ирландском национальном университете': 'Ирландский национальный университет',
 'Голуэе': 'Голуэй',
 'Пэта Долана': 'Пэта Долан',
 'UCFRC': 'UCFRC',
 'Vita Cortexruen': 'Vita Cortexruen',
 'Высшей Школе Экономики': 'Высочайшая Школа Экономика',
 'Александр Сергеевич Пушкин': 'Александр Сергеевич Пушкин'}

# Домашка

Можете делать домашку, где хотите. Её можно прислать через эту [форму](https://forms.gle/X7CjDZxk5r5M6aqC7) в формате .py или .ipynb (либо ссылкой на тетрадку, но тогда не забудьте дать доступ). Дедлайн домашки: 06.11.2023 23:59.

### Времена

Посчитайте, глаголы в каком времени чаще всего встречаются в тексте. У вас должен получиться словарь, ключами которого являются времена, а их значениями - их количества в тексте. Используйте морфологический анализатор из библиотеки Natasha. Подсказка: вначале нужно создать список, куда включить время каждого глагола в тексте. Ещё подсказка: время находится в атрибуте 'Tense'. Ещё подсказка: вам поможет использовать `try: ... except: continue`.

In [None]:
albert_text = """Работы 1905 года принесли Эйнштейну, хотя и не сразу, всемирную славу. 30 апреля 1905 он направил в университет Цюриха текст своей докторской диссертации на тему «Новое определение размеров молекул». Рецензентами были профессора Кляйнер и Буркхард. 15 января 1906 года он получил степень доктора наук по физике. Он переписывается и встречается с самыми знаменитыми физиками мира, а Планк в Берлине включает теорию относительности в свой учебный курс. В письмах его называют «г-н профессор», однако ещё четыре года (до октября 1909 года) Эйнштейн продолжает службу в Бюро патентов; в 1906 году его повысили в должности (он стал экспертом II класса с ежегодным окладом 4500 франков). В октябре 1908 года Эйнштейна пригласили читать факультатив в Бернский университет, однако без всякой оплаты. В 1909 году он побывал на съезде натуралистов в Зальцбурге, где собралась элита немецкой физики, и впервые встретился с Планком; за 3 года переписки они быстро стали близкими друзьями. После съезда Эйнштейн наконец получил оплачиваемую должность экстраординарного профессора в Цюрихском университете (декабрь 1909 года), где преподавал геометрию его старый друг Марсель Гроссман. Оплата была небольшой, особенно для семьи с двумя детьми, и в 1911 году Эйнштейн без колебаний принял приглашение возглавить кафедру физики в пражском Немецком университете. В этот период Эйнштейн продолжает публикацию серии статей по термодинамике, теории относительности и квантовой теории. В Праге он активизирует исследования по теории тяготения, поставив целью создать релятивистскую теорию гравитации и осуществить давнюю мечту физиков — исключить из этой области ньютоновское дальнодействие. В 1911 году Эйнштейн участвовал в Первом Сольвеевском конгрессе (Брюссель), посвящённом квантовой физике. Там произошла его единственная встреча с Пуанкаре, который не поддержал теорию относительности, хотя лично к Эйнштейну относился с большим уважением. Эйнштейн провёл в Праге почти два года (с января 1911 по октябрь 1912), в этот период он считался гражданином Австро-Венгрии. Затем он вернулся в Цюрих, где стал профессором родного Политехникума и читал там лекции по физике. В 1913 году он посетил Конгресс естествоиспытателей в Вене, навестил там 75-летнего Эрнста Маха; когда-то критика Махом ньютоновской механики произвела на Эйнштейна огромное впечатление и идейно подготовила к новациям теории относительности. В мае 1914 года пришло приглашение от Петербургской академии наук, подписанное физиком П. П. Лазаревым. Однако впечатления от погромов и «дела Бейлиса» были ещё свежи, и Эйнштейн отказался: «Я нахожу отвратительным ехать без надобности в страну, где так жестоко преследуют моих соплеменников». В конце 1913 года, по рекомендации Планка и Нернста, Эйнштейн получил приглашение возглавить создаваемый в Берлине физический исследовательский институт; он зачислен также профессором Прусской академии. Помимо близости к другу Планку, эта должность имела то преимущество, что не обязывала отвлекаться на преподавание. Он принял приглашение, и в предвоенный 1914 год убеждённый пацифист Эйнштейн прибыл в Берлин. Милева с детьми осталась в Цюрихе, их семья распалась. Гражданство Швейцарии, нейтральной страны, помогало Эйнштейну выдерживать милитаристское давление после начала войны. Он не подписывал никаких «патриотических» воззваний, напротив — в соавторстве с физиологом Георгом Фридрихом Николаи составил антивоенное «Воззвание к европейцам» в противовес шовинистическому «манифесту девяносто трёх», а в письме Ромену Роллану писал: «Поблагодарят ли будущие поколения нашу Европу, в которой три столетия самой напряжённой культурной работы привели лишь к тому, что религиозное безумие сменилось безумием националистическим? Даже учёные разных стран ведут себя так, словно у них ампутировали мозги»."""
albert_text

'Работы 1905 года принесли Эйнштейну, хотя и не сразу, всемирную славу. 30 апреля 1905 он направил в университет Цюриха текст своей докторской диссертации на тему «Новое определение размеров молекул». Рецензентами были профессора Кляйнер и Буркхард. 15 января 1906 года он получил степень доктора наук по физике. Он переписывается и встречается с самыми знаменитыми физиками мира, а Планк в Берлине включает теорию относительности в свой учебный курс. В письмах его называют «г-н профессор», однако ещё четыре года (до октября 1909 года) Эйнштейн продолжает службу в Бюро патентов; в 1906 году его повысили в должности (он стал экспертом II класса с ежегодным окладом 4500 франков). В октябре 1908 года Эйнштейна пригласили читать факультатив в Бернский университет, однако без всякой оплаты. В 1909 году он побывал на съезде натуралистов в Зальцбурге, где собралась элита немецкой физики, и впервые встретился с Планком; за 3 года переписки они быстро стали близкими друзьями. После съезда Эйнштейн 

In [None]:
# для выполнения каждого задания нужно выполнить этот кусок кода (но можно это сделать единожды в самом начале)
from natasha import (
  Segmenter,

  NewsEmbedding,
  NewsMorphTagger,
  NewsSyntaxParser,

  Doc
)

segmenter = Segmenter()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
doc = Doc(albert_text)

doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)

In [None]:
tenses = []
count_tense = {}
# здесь ваш код

### Дерево зависимостей

Постройте дерево зависимостей для любого из предложений (как было у нас на занятии).

In [None]:
# здесь ваш код

### Количество слов

Посчитайте количество уникальных слов (то есть "теория" и "теории" должны считаться одним словом) для текста из предыдущего задания (должен получиться словарь, где ключ это слово, а значение - количество). Программа может допускать ошибки, от этого никуда не деться, поэтому если идеального результата не получится, не переживайте. В вашей программе должно быть как минимум два цикла `for` (с одним циклом не сработает, но можно и больше).

Программа не должна считать пунктуацию как отдельные слова. Когда будете добавлять в словарь, проверяйте, не является ли это слово знаком препинения. Список всех знаков препинения - `list(string.punctuation) + ['«', '—', '»']`, вначале нужно импортировать `string`.

Отсортируйте словарь по количеству вхождений слов (то есть по значению). Для этого используйте функцию `sorted()`, в качестве объекта для сортировки `lemmas.items()` (эта штука даёт кортежи ключ:значение), а в качестве ключа для сортировки `key = lambda item: item[1]`.

In [None]:
from natasha import MorphVocab
morph_vocab = MorphVocab()

In [None]:
import string
punct = list(string.punctuation) + ['«', '—', '»'] # эти знаки есть в тексте, но их нет в списке

lemmas = {}
# здесь ваш код

### Распознавание имён

Выведите весь текст, где обозначаются типы именованных сущностей (как мы делали на занятии). Для каждого человека выведите его имя, фамилию и отчество, если они есть (тоже делали на занятии). Должен получиться словарь, где неразделённые имена - ключи, а разделённые - значения.

In [None]:
# здесь ваш код

In [None]:
# эти штуки надо выполнить перед следующим код
from natasha import (
  MorphVocab,
  PER,
  NamesExtractor,
)

morph_vocab = MorphVocab()
names_extractor = NamesExtractor(morph_vocab)

In [None]:
for span in doc.spans: # перед выполнением задания нужно нормализовать каждую именованную сущность (в этой ячейке ничего менять не надо)
  span.normalize(morph_vocab)

Обратите внимание, что программа не все именованные сущности распознает правильно. Какие-то места она считает людьми. Если мы попробуем применить код для извлечения имен и фамилий к местам, то он нам выдаст ошибку. Поэтому нужно воспользоваться `try: ... except: continue`.
В вашей программе должно быть как минимум два цикла `for` (с одним циклом не сработает, но можно и больше).

In [None]:
people = {}
# здесь ваш код