#Морфологическая и синтаксическая разметка

Для создания качественного корпуса его необходимо разметить. К счастью, в настоящее время есть готовые инструменты, которые это позволяют.

[Ссылка](https://colab.research.google.com/drive/1hyCIkszZY5dHAyCArhMWfQrdcdKFm-yW?usp=sharing) на тетрадку в Google Colab.

##Разметка

В Python есть много уже готовых средств для анализа текста: nltk, pymorphy2, pymystem3, spaCy, Stanza и т. д. Разные модули лучше работают для разных языков: из перечисленных первый лучше работает для английского, второй — для русского и украинского, третий — только для русского, четвёртый и пятый содержит модели для многих языков.

Мы будем использовать [Stanza](https://stanfordnlp.github.io/stanza/) как поддерживающий в настоящее время наибольшие количество языков и имеющий высокое качество разметки. Это модуль, который обладает очень широкой функциональностью: токенизация, определение частей речи, морфологическая и синтаксическая разметка, выделение именованных сущностей, анализ тональности.

Как и все современные модели для обработки языка, этот модуль использует подход, основанный на машинном обучении. Он содержит готовые обученные модели для множества языков, в том числе для всех языков, с которыми работаете вы. Модуль даже позволяет дообучить собственную модель, но мы этим пользоваться не будем.

In [None]:
#Скачиваем модуль
!pip install stanza

In [3]:
#Устанавливаем модуль
import stanza

In [None]:
#Скачиваем обученную для русского языка модель
stanza.download("ru")

In [None]:
#Загружаем модель
nlp = stanza.Pipeline(lang="ru", processors="tokenize, pos, lemma, depparse, ner")

### Функциональность Stanza

Теперь мы можем использовать загруженную модель, чтобы разбить текст на предложения, разбить предложения на слова, выполнить морфологическую и синтаксическую разметку и т. д.

In [9]:
#Анализируем текст загруженной моделью

text = '''Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше". Только он это сказал, как смотрит — перед ним волшебница. А человек небольшого роста стоит и от страха ничего сказать не может.

"Ну?" — говорит волшебница. А человек небольшого роста стоит и молчит. Волшебница исчезла. Тут человек небольшого роста начал плакать и кусать себе ногти. Сначала на руках ногти сгрыз, а потом на ногах.

* * *

Читатель, вдумайся в эту басню, и тебе станет не по себе.'''

text_analyzed = nlp(text)

In [None]:
#Выглядит новая переменная страшно
#Но на самом деле это новый объект особого типа, с которым можно дальше работать

text_analyzed

In [18]:
#Через точку мы можем добывать результаты анализа

text_analyzed.text

'Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше". Только он это сказал, как смотрит — перед ним волшебница. А человек небольшого роста стоит и от страха ничего сказать не может.\n\n"Ну?" — говорит волшебница. А человек небольшого роста стоит и молчит. Волшебница исчезла. Тут человек небольшого роста начал плакать и кусать себе ногти. Сначала на руках ногти сгрыз, а потом на ногах.\n\n* * *\n\nЧитатель, вдумайся в эту басню, и тебе станет не по себе.'

In [None]:
text_analyzed.sentences[2]

In [22]:
text_analyzed.sentences[2].text

'А человек небольшого роста стоит и от страха ничего сказать не может.'

In [23]:
#Делим на предложения

sentences = [sent.text.strip() for sent in text_analyzed.sentences]

sentences[:3]

['Один человек небольшого роста сказал: "Я согласен на все, только бы быть капельку повыше".',
 'Только он это сказал, как смотрит — перед ним волшебница.',
 'А человек небольшого роста стоит и от страха ничего сказать не может.']

In [63]:
text_analyzed.sentences[2].words[3] #Делим предложение на слова

{
  "id": 4,
  "text": "роста",
  "lemma": "рост",
  "upos": "NOUN",
  "feats": "Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing",
  "head": 2,
  "deprel": "nmod",
  "start_char": 170,
  "end_char": 175
}

In [62]:
our_word = text_analyzed.sentences[2].words[3]

In [44]:
our_word.text #Токен, слово в своей форме

'роста'

In [42]:
our_word.lemma #Лемма

'рост'

In [46]:
our_word.upos #Часть речи

'NOUN'

In [49]:
our_word.feats #Морфологические характеристики

'Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing'

In [52]:
our_word.deprel #Синтаксическое отношение

'nmod'

In [54]:
our_word.head #Позиция главного слова в предложении

2

In [66]:
# Выделение именованных сущностей

sentence_ner = 'Лондон это столица Рима, Рим это столица Парижа, — сказала Алиса.'

sentence_ner_analyzed = nlp(sentence_ner)

for named_entity in sentence_ner_analyzed.ents:
    print(named_entity.text, ':', named_entity.type)

Лондон : LOC
Рима : LOC
Рим : LOC
Парижа : LOC
Алиса : PER


#### Задание 1.1

Выведите часть речи, морфологические характеристики и синтаксическое отношение для слова _смотрит_ из текста выше.

In [None]:
# Решение задания 1.1



#### Задание 1.2

Напишите блок кода, который находит вершину для нашего слова (которое our_word) и выводит её в той форме, в которомй она встречается в тексте. Это можно сделать в одну строку, но может быть удобнее в несколько.

In [None]:
# Решение задания 1.2



In [59]:
#Работая с несколькими словами, мы можем создавать списки

words = [word.text for word in text_analyzed.iter_words()]

words[:15]

['Один',
 'человек',
 'небольшого',
 'роста',
 'сказал',
 ':',
 '"',
 'Я',
 'согласен',
 'на',
 'все',
 ',',
 'только',
 'бы',
 'быть']

In [61]:
#Работая с несколькими словами, и для характеристик тоже

words_pos = [word.pos for word in text_analyzed.iter_words()]

words_pos[:15]

['NUM',
 'NOUN',
 'ADJ',
 'NOUN',
 'VERB',
 'PUNCT',
 'PUNCT',
 'PRON',
 'ADJ',
 'ADP',
 'PRON',
 'PUNCT',
 'CCONJ',
 'AUX',
 'AUX']

Больше о разметке можно прочесть [здесь](https://spacy.io/usage/linguistic-features).

#Задание 2

Получите  морфологическую и синтаксическую разметку для первых трёх токенов из этого предложения. Выведите её в любом удобном виде.

In [None]:
#Решение задания 2



## Структура корпуса

Перед тем как продолжать, необходимо продумать структуру корпуса. Есть мета-информация о текстах, есть разметка по словам, гипотетически может быть разметка на уровне предложений.

Как следует организовать корпус?