#Морфологическая и синтаксическая разметка

Для создания качественного корпуса его необходимо разметить. К счастью, в настоящее время есть готовые инструменты, которые это позволяют.

[Ссылка](https://colab.research.google.com/drive/1hyCIkszZY5dHAyCArhMWfQrdcdKFm-yW?usp=sharing) на тетрадку в Google Colab.

##Разметка

В Python есть много уже готовых средств для анализа текста: nltk, pymorphy2, pymystem3, spaCy, Stanza и т. д. Разные модули лучше работают для разных языков: из перечисленных первый лучше работает для английского, второй — для русского и украинского, третий — только для русского, четвёртый и пятый содержит модели для многих языков.

Мы будем использовать [Stanza](https://stanfordnlp.github.io/stanza/) как поддерживающий в настоящее время наибольшие количество языков и имеющий высокое качество разметки. Это модуль, который обладает очень широкой функциональностью: токенизация, определение частей речи, морфологическая и синтаксическая разметка, выделение именованных сущностей, анализ тональности.

Как и все современные модели для обработки языка, этот модуль использует подход, основанный на машинном обучении. Он содержит готовые обученные модели для множества языков, в том числе для всех языков, с которыми работаете вы. Модуль даже позволяет дообучить собственную модель, но мы этим пользоваться не будем.

In [None]:
#Устанавливаем модуль
!pip install stanza

In [None]:
#Импортируем модуль
import stanza

In [None]:
#Скачиваем обученную для русского языка модель
stanza.download("ru")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.7.0.json:   0%|   …

INFO:stanza:Downloading default packages for language: ru (Russian) ...


Downloading https://huggingface.co/stanfordnlp/stanza-ru/resolve/v1.7.0/models/default.zip:   0%|          | 0…

INFO:stanza:Finished downloading models and saved to /root/stanza_resources.


In [None]:
#Загружаем модель
nlp = stanza.Pipeline(lang="ru", processors="tokenize, pos, lemma, depparse, ner")

INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.7.0.json:   0%|   …

INFO:stanza:Loading these models for language: ru (Russian):
| Processor | Package            |
----------------------------------
| tokenize  | syntagrus          |
| pos       | syntagrus_charlm   |
| lemma     | syntagrus_nocharlm |
| depparse  | syntagrus_charlm   |
| ner       | wikiner            |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


### Функциональность Stanza

Теперь мы можем использовать загруженную модель, чтобы разбить текст на предложения, разбить предложения на слова, выполнить морфологическую и синтаксическую разметку и т. д.

In [None]:
#Анализируем текст загруженной моделью

text = '''Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше". Только он это сказал, как смотрит — перед ним волшебница. А человек небольшого роста стоит и от страха ничего сказать не может.

"Ну?" — говорит волшебница. А человек небольшого роста стоит и молчит. Волшебница исчезла. Тут человек небольшого роста начал плакать и кусать себе ногти. Сначала на руках ногти сгрыз, а потом на ногах.

* * *

Читатель, вдумайся в эту басню, и тебе станет не по себе.'''

text_analyzed = nlp(text)

In [None]:
#Выглядит новая переменная страшно
#Но на самом деле это новый объект особого типа, с которым можно дальше работать

text_analyzed

In [None]:
#Через точку мы можем добывать результаты анализа

text_analyzed.text

'Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше". Только он это сказал, как смотрит — перед ним волшебница. А человек небольшого роста стоит и от страха ничего сказать не может.\n\n"Ну?" — говорит волшебница. А человек небольшого роста стоит и молчит. Волшебница исчезла. Тут человек небольшого роста начал плакать и кусать себе ногти. Сначала на руках ногти сгрыз, а потом на ногах.\n\n* * *\n\nЧитатель, вдумайся в эту басню, и тебе станет не по себе.'

In [None]:
text_analyzed.sentences[2]

In [None]:
text_analyzed.sentences[2].text

'А человек небольшого роста стоит и от страха ничего сказать не может.'

In [None]:
#Делим на предложения

sentences = [sent.text for sent in text_analyzed.sentences]

sentences[:3]

['Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше".',
 'Только он это сказал, как смотрит — перед ним волшебница.',
 'А человек небольшого роста стоит и от страха ничего сказать не может.']

In [None]:
text_analyzed.sentences[2].words[3] #Делим предложение на слова просим третье слово

{
  "id": 4,
  "text": "роста",
  "lemma": "рост",
  "upos": "NOUN",
  "feats": "Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing",
  "head": 2,
  "deprel": "nmod",
  "start_char": 170,
  "end_char": 175
}

In [None]:
our_word = text_analyzed.sentences[2].words[3]

In [None]:
our_word.text #Токен, слово в своей форме

'роста'

In [None]:
our_word.lemma #Лемма

'рост'

In [None]:
our_word.upos #Часть речи

'NOUN'

In [None]:
our_word.feats #Морфологические характеристики

'Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing'

In [None]:
our_word.deprel #Синтаксическое отношение

'nmod'

In [None]:
our_word.head #Позиция главного слова в предложении

2

In [None]:
# Выделение именованных сущностей

sentence_ner = 'Лондон это столица Рима, Рим это столица Парижа, — сказала Алиса.'

sentence_ner_analyzed = nlp(sentence_ner)

for named_entity in sentence_ner_analyzed.ents:
    print(named_entity.text, ':', named_entity.type)

Лондон : LOC
Рима : LOC
Рим : LOC
Парижа : LOC
Алиса : PER


Больше о разметке можно узнать по [ссылке](https://stanfordnlp.github.io/stanza/neural_pipeline.html).

По ней не просто сориентироваться, так как там довольно всего. Но, например, на [странице](https://stanfordnlp.github.io/stanza/pos.html), которая описывает части речи и морфологическую разметку, можно найти ссылку на [список частей речи](https://universaldependencies.org/u/pos/), а зайдя на [страницу](https://stanfordnlp.github.io/stanza/depparse.html) о синтаксической аннотации, можно перейти на [описание](https://universaldependencies.org/) моделей в рамках формализма Universal Dependencies и далее на [характеристику](https://universaldependencies.org/ru/index.html) именно разметки русского.

#### Задание 1.1

Выведите лемму, часть речи, морфологические характеристики и синтаксическое отношение для слова _смотрит_ из текста выше.

In [None]:
# Решение задания 1.1

smotrit = text_analyzed.sentences[1].words[6]

print(
    smotrit.lemma,
    smotrit.upos,
    smotrit.feats,
    smotrit.deprel
)

смотреть VERB Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act ccomp


#### Задание 1.2

Напишите блок кода, который находит вершину для нашего слова (которое our_word) и выводит её в той форме, в которомй она встречается в тексте. Это можно сделать в одну строку, но может быть удобнее в несколько.

In [None]:
# Решение задания 1.2



In [None]:
#Работая с несколькими словами, мы можем создавать списки

words = [word.text for word in text_analyzed.iter_words()]

words[:15]

['Один',
 'человек',
 'небольшого',
 'роста',
 'сказал',
 ':',
 '"',
 'Я',
 'согласен',
 'на',
 'все',
 ',',
 'только',
 'бы',
 'быть']

In [None]:
#Работая с несколькими словами, и для характеристик тоже

words_pos = [word.pos for word in text_analyzed.iter_words()]

words_pos[:15]

['NUM',
 'NOUN',
 'ADJ',
 'NOUN',
 'VERB',
 'PUNCT',
 'PUNCT',
 'PRON',
 'ADJ',
 'ADP',
 'PRON',
 'PUNCT',
 'CCONJ',
 'AUX',
 'AUX']

#Задание 2

Получите  морфологическую и синтаксическую разметку для первых трёх токенов из этого предложения. Выведите её в любом удобном виде.

In [None]:
#Решение задания 2



## Другие языки

Совершенно аналогичным образом можно анализировать другие языки, загрузив их модель!

In [None]:
#Скачиваем обученную для арабского языка модель
stanza.download("ar")

#Загружаем модель
nlp_ar = stanza.Pipeline(lang="ar", processors="tokenize, pos, lemma, depparse, ner")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.7.0.json:   0%|   …

INFO:stanza:Downloading default packages for language: ar (Arabic) ...
INFO:stanza:File exists: /root/stanza_resources/ar/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources.
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.7.0.json:   0%|   …

INFO:stanza:Loading these models for language: ar (Arabic):
| Processor | Package       |
-----------------------------
| tokenize  | padt          |
| mwt       | padt          |
| pos       | padt_charlm   |
| lemma     | padt_nocharlm |
| depparse  | padt_charlm   |
| ner       | aqmar_charlm  |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: mwt
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


In [None]:
ar_analyzed = nlp_ar('ويكيبيديا مشروع تعاوني متعدد اللغات يضم ويكيات بأكثر من 300 لغة للعمل في مشاريع موسوعات حرة ودقيقة ومتكاملة ومتنوعة ومحايدة، يستطيع الجميع المساهمة في تحريرها.')

In [None]:
ar_analyzed.sentences[0].words[3].lemma

'تَعَاوُنِيّ'

In [None]:
#Скачиваем обученную для китайского языка модель (упрощённая графика)
stanza.download("zh-hans")

#Загружаем модель
nlp_zh = stanza.Pipeline(lang="zh-hans", processors="tokenize, pos, lemma, depparse, ner")

In [None]:
zh_analyzed = nlp_zh('芬蘭前總理亞歷山大·斯图布在總統選舉第二輪投票中獲勝，当选新任芬兰总统。')

zh_words = [word.text for word in zh_analyzed.iter_words()]

zh_words[:6]

['芬蘭', '前', '總理', '亞', '歷山大', '·']

In [None]:
#Скачиваем обученную для японского языка модель
stanza.download("ja")

#Загружаем модель
nlp_ja = stanza.Pipeline(lang="ja", processors="tokenize, pos, lemma, depparse, ner")

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.7.0.json:   0%|   …

INFO:stanza:Downloading default packages for language: ja (Japanese) ...
INFO:stanza:File exists: /root/stanza_resources/ja/default.zip
INFO:stanza:Finished downloading models and saved to /root/stanza_resources.
INFO:stanza:Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.7.0.json:   0%|   …

INFO:stanza:Loading these models for language: ja (Japanese):
| Processor | Package      |
----------------------------
| tokenize  | gsd          |
| pos       | gsd_charlm   |
| lemma     | gsd_nocharlm |
| depparse  | gsd_charlm   |
| ner       | gsd          |

INFO:stanza:Using device: cpu
INFO:stanza:Loading: tokenize
INFO:stanza:Loading: pos
INFO:stanza:Loading: lemma
INFO:stanza:Loading: depparse
INFO:stanza:Loading: ner
INFO:stanza:Done loading processors!


In [None]:
ja_analyzed = nlp_ja('日本とウルグアイの関係では、日本国とウルグアイ東方共和国の国際関係を扱う。')

ja_words = [word.text for word in ja_analyzed.iter_words()]

ja_words[:6]

['日本', 'と', 'ウルグアイ', 'の', '関係', 'で']

In [None]:
ja_analyzed.sentences[0].words[5]

{
  "id": 6,
  "text": "で",
  "lemma": "で",
  "upos": "ADP",
  "xpos": "助詞-格助詞",
  "head": 5,
  "deprel": "case",
  "start_char": 11,
  "end_char": 12
}

## Структура корпуса

Перед тем как продолжать, необходимо продумать структуру корпуса. Есть мета-информация о текстах, есть разметка по словам, гипотетически может быть разметка на уровне предложений.

Как следует организовать корпус?