# Морфологическая и синтаксическая разметка

Для создания качественного корпуса его необходимо разметить. К счастью, в настоящее время есть готовые инструменты, которые это позволяют.

[Ссылка](https://colab.research.google.com/drive/1zS4JdtCbCnbtZJelycTN88QpiDBAVPFV?usp=sharing) на тетрадку в Google Colab.

## Разметка

В Python есть много уже готовых средств для анализа текста: nltk, pymorphy2, pymystem3, spaCy, Stanza и т. д. Разные модули лучше работают для разных языков: из перечисленных первый лучше работает для английского, второй — для русского и украинского, третий — только для русского, четвёртый и пятый содержит модели для многих языков.

Мы будем использовать [Stanza](https://stanfordnlp.github.io/stanza/) как поддерживающий в настоящее время наибольшие количество языков и имеющий высокое качество разметки. Это модуль, который обладает очень широкой функциональностью: токенизация, определение частей речи, морфологическая и синтаксическая разметка, выделение именованных сущностей, анализ тональности.

Как и все современные модели для обработки языка, этот модуль использует подход, основанный на машинном обучении. Он содержит готовые обученные модели для множества языков, в том числе для всех языков, с которыми работаете вы. Модуль даже позволяет дообучить собственную модель, но мы этим пользоваться не будем.

In [1]:
%%capture
#Устанавливаем модуль
!pip install stanza

In [2]:
#Импортируем модуль
import stanza

In [3]:
#Скачиваем обученную для русского языка модель
stanza.download("ru")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: ru (Russian) ...


Downloading https://huggingface.co/stanfordnlp/stanza-ru/resolve/v1.11.0/models/default.zip:   0%|          | …

INFO:stanza:Downloaded file to /root/stanza_resources/ru/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources


In [4]:
#Загружаем модель (чем больше процессоров загружаем, тем дольше работает)
nlp = stanza.Pipeline(lang="ru", processors="tokenize, pos, lemma, depparse, ner")

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: ru (Russian):
| Processor | Package            |
----------------------------------
| tokenize  | syntagrus          |
| pos       | syntagrus_charlm   |
| lemma     | syntagrus_nocharlm |
| depparse  | syntagrus_charlm   |
| ner       | wikiner            |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


### Функциональность Stanza

Теперь мы можем использовать загруженную модель, чтобы разбить текст на предложения, разбить предложения на слова, выполнить морфологическую и синтаксическую разметку и т. д.

In [5]:
#Анализируем текст загруженной моделью

text = '''В моей комнате, на стене, висит портрет моего приятеля Карла Ивановича Шустерлинга.
Третьего дня, когда я убирал свою комнату, я снял портрет со стены, вытер с него пыль и повесил его обратно.
Потом я отошел, чтобы издали взглянуть, не криво ли он висит. Но когда я взглянул, то у меня похолодели ноги, а волосы встали на голове дыбом.
Вместо Карла Ивановича Шустерлинга на меня глядел со стены страшный, бородатый старик в дурацкой шапочке. Я с криком выскочил из комнаты.'''

text_analyzed = nlp(text)

In [6]:
#Выдача клетки удалена, потому что она очень длинная, запускайте на свой страх и риск
#Выглядит новая переменная страшно
#Но на самом деле это новый объект особого типа, с которым можно дальше работать

text_analyzed

[
  [
    {
      "id": 1,
      "text": "В",
      "lemma": "в",
      "upos": "ADP",
      "head": 3,
      "deprel": "case",
      "start_char": 0,
      "end_char": 1,
      "ner": "O",
      "multi_ner": [
        "O"
      ]
    },
    {
      "id": 2,
      "text": "моей",
      "lemma": "мой",
      "upos": "DET",
      "feats": "Case=Loc|Gender=Fem|Number=Sing|Poss=Yes|PronType=Prs",
      "head": 3,
      "deprel": "det",
      "start_char": 2,
      "end_char": 6,
      "ner": "O",
      "multi_ner": [
        "O"
      ]
    },
    {
      "id": 3,
      "text": "комнате",
      "lemma": "комната",
      "upos": "NOUN",
      "feats": "Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing",
      "head": 8,
      "deprel": "obl",
      "start_char": 7,
      "end_char": 14,
      "ner": "O",
      "multi_ner": [
        "O"
      ],
      "misc": "SpaceAfter=No"
    },
    {
      "id": 4,
      "text": ",",
      "lemma": ",",
      "upos": "PUNCT",
      "head": 6,
      "deprel":

In [7]:
#Через точку мы можем добывать результаты анализа

text_analyzed.text

'В моей комнате, на стене, висит портрет моего приятеля Карла Ивановича Шустерлинга.\nТретьего дня, когда я убирал свою комнату, я снял портрет со стены, вытер с него пыль и повесил его обратно.\nПотом я отошел, чтобы издали взглянуть, не криво ли он висит. Но когда я взглянул, то у меня похолодели ноги, а волосы встали на голове дыбом.\nВместо Карла Ивановича Шустерлинга на меня глядел со стены страшный, бородатый старик в дурацкой шапочке. Я с криком выскочил из комнаты.'

In [8]:
text_analyzed.sentences[2]

[
  {
    "id": 1,
    "text": "Потом",
    "lemma": "потом",
    "upos": "ADV",
    "feats": "Degree=Pos",
    "head": 3,
    "deprel": "advmod",
    "start_char": 193,
    "end_char": 198,
    "ner": "O",
    "multi_ner": [
      "O"
    ]
  },
  {
    "id": 2,
    "text": "я",
    "lemma": "я",
    "upos": "PRON",
    "feats": "Case=Nom|Number=Sing|Person=1|PronType=Prs",
    "head": 3,
    "deprel": "nsubj",
    "start_char": 199,
    "end_char": 200,
    "ner": "O",
    "multi_ner": [
      "O"
    ]
  },
  {
    "id": 3,
    "text": "отошел",
    "lemma": "отойти",
    "upos": "VERB",
    "feats": "Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act",
    "head": 0,
    "deprel": "root",
    "start_char": 201,
    "end_char": 207,
    "ner": "O",
    "multi_ner": [
      "O"
    ],
    "misc": "SpaceAfter=No"
  },
  {
    "id": 4,
    "text": ",",
    "lemma": ",",
    "upos": "PUNCT",
    "head": 7,
    "deprel": "punct",
    "start_char": 207,
    "en

In [9]:
text_analyzed.sentences[2].text

'Потом я отошел, чтобы издали взглянуть, не криво ли он висит.'

In [10]:
#Делим на предложения

sentences = [sent.text for sent in text_analyzed.sentences]

sentences[:3]

['В моей комнате, на стене, висит портрет моего приятеля Карла Ивановича Шустерлинга.',
 'Третьего дня, когда я убирал свою комнату, я снял портрет со стены, вытер с него пыль и повесил его обратно.',
 'Потом я отошел, чтобы издали взглянуть, не криво ли он висит.']

In [11]:
#То же самое с помощью обычного цикла

sent_list = []

for sent in text_analyzed.sentences:

  s_text = sent.text
  sent_list.append(s_text)

sent_list

['В моей комнате, на стене, висит портрет моего приятеля Карла Ивановича Шустерлинга.',
 'Третьего дня, когда я убирал свою комнату, я снял портрет со стены, вытер с него пыль и повесил его обратно.',
 'Потом я отошел, чтобы издали взглянуть, не криво ли он висит.',
 'Но когда я взглянул, то у меня похолодели ноги, а волосы встали на голове дыбом.',
 'Вместо Карла Ивановича Шустерлинга на меня глядел со стены страшный, бородатый старик в дурацкой шапочке.',
 'Я с криком выскочил из комнаты.']

In [12]:
text_analyzed.sentences[2].words[12] #Делим предложение на слова просим 12 слово

{
  "id": 13,
  "text": "висит",
  "lemma": "висеть",
  "upos": "VERB",
  "feats": "Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act",
  "head": 7,
  "deprel": "ccomp",
  "start_char": 248,
  "end_char": 253
}

In [13]:
our_word = text_analyzed.sentences[2].words[12]

In [14]:
our_word.text #Токен, слово в своей форме

'висит'

In [15]:
our_word.lemma #Лемма

'висеть'

In [16]:
our_word.upos #Часть речи

'VERB'

In [17]:
our_word.feats #Морфологические характеристики

'Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act'

In [18]:
our_word.deprel #Синтаксическое отношение

'ccomp'

In [19]:
our_word.head #Позиция главного слова в предложении

7

In [20]:
# Выделение именованных сущностей

sentence_ner = 'Лондон это столица Рима, Уральский машиностроительный завод это столица Парижа, — сказала Алиса.'

sentence_ner_analyzed = nlp(sentence_ner)

for named_entity in sentence_ner_analyzed.ents:
    print(named_entity.text, ':', named_entity.type)

Лондон : LOC
Рима : LOC
Уральский машиностроительный завод : LOC
Парижа : LOC
Алиса : PER


Больше о разметке можно узнать по [ссылке](https://stanfordnlp.github.io/stanza/neural_pipeline.html).

По ней не просто сориентироваться, так как там довольно всего. Но, например, на [странице](https://stanfordnlp.github.io/stanza/pos.html), которая описывает части речи и морфологическую разметку, можно найти ссылку на [список частей речи](https://universaldependencies.org/u/pos/), а зайдя на [страницу](https://stanfordnlp.github.io/stanza/depparse.html) о синтаксической аннотации, можно перейти на [описание](https://universaldependencies.org/) моделей в рамках формализма Universal Dependencies и далее на [характеристику](https://universaldependencies.org/ru/index.html) именно разметки русского.

#### Задание 1.1

Выведите лемму, часть речи, морфологические характеристики и синтаксическое отношение для слова _комнату_ в тексте выше.

In [21]:
# Решение задания 1.1



комната NOUN Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing obj


#### Задание 1.2

Выведите лемму, часть речи, морфологические характеристики и синтаксическое отношение для слова _морфологические_ в этом предложении.

In [22]:
# Решение задания 1.2



#### Задание 1.3

Напишите блок кода, который находит вершину для слова _комнату_ в тексте выше и выводит её в той форме, в которой она встречается в тексте. Это можно сделать в одну строку, но может быть удобнее в несколько.

In [None]:
# Решение задания 1.3



In [25]:
for sentence in text_analyzed.sentences[:2]:
  for word in sentence.words:
    print(word.lemma)

в
мой
комната
,
на
стена
,
висеть
портрет
мой
приятель
Карл
Иванович
Шустерлинг
.
третий
день
,
когда
я
убирать
свой
комната
,
я
снять
портрет
с
стена
,
вытереть
с
он
пыль
и
повесить
он
обратно
.


In [26]:
#Работая с несколькими словами, мы можем создавать списки

words = [word.text for word in text_analyzed.iter_words()]

words[:15]

['В',
 'моей',
 'комнате',
 ',',
 'на',
 'стене',
 ',',
 'висит',
 'портрет',
 'моего',
 'приятеля',
 'Карла',
 'Ивановича',
 'Шустерлинга',
 '.']

In [27]:
#И для характеристик тоже

words_pos = [word.pos for word in text_analyzed.iter_words()]

words_pos[:15]

['ADP',
 'DET',
 'NOUN',
 'PUNCT',
 'ADP',
 'NOUN',
 'PUNCT',
 'VERB',
 'NOUN',
 'DET',
 'NOUN',
 'PROPN',
 'PROPN',
 'PROPN',
 'PUNCT']

#### Задание 2

Получите морфологическую и синтаксическую разметку для первых трёх токенов из этого предложения. Представьте её следующим образом: разметка каждого слова представляет собой список, а все эти списки созданы в общий список. Это можно сделать с помощью цикла или генератора списков — используйте любой из этих вариантов. Как выглядит вывод:

[['Получите', 'получить', 'NOUN', ...],

['морфологическую', ...],

['и', ...]]

In [28]:
#Решение задания 2



### Другие инструменты морфологического и синтаксического анализа

#### pymorphy3 и Pymystem3

pymorphy3 и Pymystem3 — библиотеки, которые опираются на словарь и правила и выдают для каждого слова те разборы, которые впринципе для них возможны, а также указывают, насколько вероятен каждый из вариантов. Они работают с отдельными словами и не смотрят на контекст.

Обе библиотеки азработанны специально для русского языка. pymorphy3 работает непосредственно из Питона. Pymystem3 обращается из Питона к программе Mystem, разработанной Яндексом.

#### Скорость и качество

pymorphy2 работает быстрее, чем Pymystem3 — но качество лучше у последнего.

#### Проблема омонимии

В отличие от Stanza, не опираются на машинное обучение для снятия омонимии, при работе с этими инструментами для снятия омонимии приходится рассчитывать только на частотности.


#### Пример использования pymorphy3

In [30]:
%%capture
#Скачиваем модуль
!pip install pymorphy3

In [31]:
#Создаём анализатор
from pymorphy3 import MorphAnalyzer
morph_pymorphy = MorphAnalyzer()

In [32]:
#Анализируем слово
word_pymorphy = morph_pymorphy.parse('комнате')
word_pymorphy

[Parse(word='комнате', tag=OpencorporaTag('NOUN,inan,femn sing,loct'), normal_form='комната', score=0.818181, methods_stack=((DictionaryAnalyzer(), 'комнате', 55, 6),)),
 Parse(word='комнате', tag=OpencorporaTag('NOUN,inan,femn sing,datv'), normal_form='комната', score=0.181818, methods_stack=((DictionaryAnalyzer(), 'комнате', 55, 2),))]

In [33]:
#Выводим информацию о морфологических признаках и лемме
print(word_pymorphy[0].tag)
print(word_pymorphy[0].normal_form)

NOUN,inan,femn sing,loct
комната


#### Пример использования pymystem3

In [34]:
%%capture
#Скачиваем модуль
!pip install pymystem3

In [35]:
from pymystem3 import Mystem
morph_mystem = Mystem()

Installing mystem to /root/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-linux-64bit.tar.gz


In [36]:
#Анализируем текст
text_mystem = morph_mystem.analyze(text)
text_mystem[:5]

[{'analysis': [{'lex': 'получать',
    'wt': 1,
    'gr': 'V,пе=(непрош,мн,изъяв,2-л,сов|мн,пов,2-л,сов)'}],
  'text': 'Получите'},
 {'text': ' '},
 {'analysis': [{'lex': 'морфологический', 'wt': 1, 'gr': 'A=вин,ед,полн,жен'}],
  'text': 'морфологическую'},
 {'text': ' '},
 {'analysis': [{'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='}], 'text': 'и'}]

In [37]:
#Выводим информацию о морфологических признаках и лемме третьего слова
print(text_mystem[4]['analysis'][0]['gr'])
print(text_mystem[4]['analysis'][0]['lex'])

CONJ=
и


### SpaCy

Библиотека, похожая на Stanza. Имеет походий синтаксис и отдельных случаях может работать лучше и быстрее.

## Другие языки

Совершенно аналогичным образом можно анализировать другие языки, загрузив их модель!

In [38]:
#Скачиваем обученную для арабского языка модель
stanza.download("ar")

#Загружаем модель
nlp_ar = stanza.Pipeline(lang="ar", processors="tokenize, pos, lemma, depparse, ner")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: ar (Arabic) ...


Downloading https://huggingface.co/stanfordnlp/stanza-ar/resolve/v1.11.0/models/default.zip:   0%|          | …

INFO:stanza:Downloaded file to /root/stanza_resources/ar/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: ar (Arabic):
| Processor | Package       |
-----------------------------
| tokenize  | padt          |
| mwt       | padt          |
| pos       | padt_charlm   |
| lemma     | padt_nocharlm |
| depparse  | padt_charlm   |
| ner       | aqmar_charlm  |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


In [39]:
ar_analyzed = nlp_ar('ويكيبيديا مشروع تعاوني متعدد اللغات يضم ويكيات بأكثر من 300 لغة للعمل في مشاريع موسوعات حرة ودقيقة ومتكاملة ومتنوعة ومحايدة، يستطيع الجميع المساهمة في تحريرها.')

In [40]:
ar_analyzed.sentences[0].words[3].lemma

'تَعَاوُنِيّ'

In [41]:
#Скачиваем обученную для китайского языка модель (упрощённая графика)
stanza.download("zh-hans")

#Загружаем модель
nlp_zh = stanza.Pipeline(lang="zh-hans", processors="tokenize, pos, lemma, depparse, ner")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: zh-hans (Simplified_Chinese) ...


Downloading https://huggingface.co/stanfordnlp/stanza-zh-hans/resolve/v1.11.0/models/default.zip:   0%|       …

INFO:stanza:Downloaded file to /root/stanza_resources/zh-hans/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: zh-hans (Simplified_Chinese):
| Processor | Package          |
--------------------------------
| tokenize  | gsdsimp          |
| pos       | gsdsimp_charlm   |
| lemma     | gsdsimp_nocharlm |
| depparse  | gsdsimp_charlm   |
| ner       | ontonotes        |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


In [42]:
zh_analyzed = nlp_zh('芬蘭前總理亞歷山大·斯图布在總統選舉第二輪投票中獲勝，当选新任芬兰总统。')

zh_words = [word.text for word in zh_analyzed.iter_words()]

zh_words[:6]

['芬蘭', '前', '總理', '亞', '歷', '山大']

In [43]:
#Скачиваем обученную для японского языка модель
stanza.download("ja")

#Загружаем модель
nlp_ja = stanza.Pipeline(lang="ja", processors="tokenize, pos, lemma, depparse, ner")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Downloading default packages for language: ja (Japanese) ...


Downloading https://huggingface.co/stanfordnlp/stanza-ja/resolve/v1.11.0/models/default.zip:   0%|          | …

INFO:stanza:Downloaded file to /root/stanza_resources/ja/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.11.0.json:   0%|  …

INFO:stanza:Downloaded file to /root/stanza_resources/resources.json
INFO:stanza:Loading these models for language: ja (Japanese):
| Processor | Package      |
----------------------------
| tokenize  | gsd          |
| pos       | gsd_charlm   |
| lemma     | gsd_nocharlm |
| depparse  | gsd_charlm   |
| ner       | gsd          |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


In [44]:
ja_analyzed = nlp_ja('日本とウルグアイの関係では、日本国とウルグアイ東方共和国の国際関係を扱う。')

ja_words = [word.text for word in ja_analyzed.iter_words()]

ja_words[:6]

['日本', 'と', 'ウルグアイ', 'の', '関係', 'で']

In [45]:
ja_analyzed.sentences[0].words[5]

{
  "id": 6,
  "text": "で",
  "lemma": "で",
  "upos": "ADP",
  "xpos": "助詞-格助詞",
  "head": 5,
  "deprel": "case",
  "start_char": 11,
  "end_char": 12
}