# Изучение морфологической разметки

## Токенизация датасета

In [1]:
import pandas as pd

In [2]:
# Выгрузим датасет
corpora_path = '/kaggle/input/kinoart-new-reviews/corpus.csv'
df = pd.read_csv(corpora_path, sep=',', encoding='utf-8')
df.head()

Unnamed: 0,title,date,author_name,profile_link,text
0,КТО-НИБУДЬ ВИДЕЛ СЕРГЕЯ ДОБРОТВОРСКОГО(?): КРИ...,01.02.21,Зинаида Пронченко,https://kinoart.ru/search?author=2,До российского проката добралась картина Ангел...
1,ДУША ПРИПОМИНАЕТ: «ГЕРДА» НАТАЛЬИ КУДРЯШОВОЙ,18.10.21,Ксения Ильина,https://kinoart.ru/search?author=313,"В прокате «Герда», вторая полнометражная режис..."
2,"«ВСЕМ ПЛОХО, ВСЕ НЕСЧАСТНЫ, И НЕТ СПАСЕНИЯ»: В...",13.08.20,Елена Стишова,https://kinoart.ru/search?author=32,"Проект ИК о постсоветском кино «Пролегомены», ..."
3,"ЛЮК БЕССОН, ГЕРОИНЯ И НАСИЛИЕ. О ФИЛЬМЕ «НИКИТА»",18.03.19,Михаил Трофименков,https://kinoart.ru/search?author=63,Французскому режиссеру Люку Бессону исполнилос...
4,«БРАТ И СЕСТРА»: В ПОИСКАХ ПРОЩЕНИЯ,19.09.22,Яна Телова,https://kinoart.ru/search?author=437,"В прокат вышел фильм «Брат и сестра», последня..."


В дальнейшем будем использовать текст страницы. Нужно будет токенизировать текст по словам. Будем использовать open-source библиотеку SpaCy.

In [3]:
texts = df['text'].values

In [4]:
from spacy.lang.ru import Russian



In [5]:
tokenizer = Russian()
doc = tokenizer(texts[0])
words = [token.text for token in doc]
print(words)

['До', 'российского', 'проката', 'добралась', 'картина', 'Ангелины', 'Никоновой', '«', 'Кто', '-', 'нибудь', 'видел', 'мою', 'девчонку', '?', '»', ',', 'которая', 'вызвала', 'негодование', 'среди', 'кинокритиков', 'на', 'прошлогоднем', '«', 'Кинотавре', '»', '.', 'Фильм', 'снят', 'по', 'одноименным', 'мемуарам', 'Карины', 'Добротворской', ',', 'описывающим', 'ее', 'отношения', 'с', 'известным', 'кинокритиком', 'Сергеем', 'Добротворским', '.', 'Зинаида', 'Пронченко', 'анализирует', 'картину', 'и', 'объясняет', ',', 'почему', 'экранизация', 'вышла', 'слабой', '.', '\n', '«', 'Кто', '-', 'нибудь', 'видел', 'мою', 'девчонку', '»', 'снят', 'по', 'одноименному', 'автобиографическому', 'роману', 'Карины', 'Добротворской', '.', 'Возвращаться', 'к', 'книге', 'и', 'сравнивать', 'литературный', 'источник', 'с', 'его', 'экранной', 'версией', 'мы', 'здесь', 'не', 'будем', '.', 'Ведь', 'не', 'разбирают', 'же', '«', 'Анну', 'Каренину', '»', 'Толстого', 'каждый', 'раз', ',', 'когда', 'кто', '-', 'то',

Заметно, что токенизация работает довольно хорошо и качественно. 

## Морфологический анализ

### Выбор морфопарсера

Существует множество решений, основные из которых были представлены в [MorphRuEval 2017](https://github.com/dialogue-evaluation/morphoRuEval-2017) и [GramEval 2020](https://github.com/dialogue-evaluation/GramEval2020).

* [qbic](https://github.com/DanAnastasyev/GramEval2020) - ELMO и BERT модели, которые достигли топовых метрик на соревновании. Но тем не менее, будет наблюдаться множество галлюцинаций, например при лемматизации. "потерь" -> "потеь"
* [rnnmorph](https://github.com/IlyaGusev/rnnmorph) - рекуррентная нейронная сеть, у которой для самопроверки и уменьшения галлюцинаций есть словарь. Засчет этого данная модель будет достигать наилучших результатов. 
* [pymorphy2](https://github.com/pymorphy2/pymorphy2) - статистический словарный анализатор, который не использует контекст и работает быстро. Но у него очень низкое качество засчет жадного выбора наиболее вероятного варианта.

Поэтому будем использовать rnnmorph, так как он достаточно качественный и простой в архитектуре.

### RNN Morph

In [None]:
!pip install tensorflow --ignore-installed

In [None]:
!pip3 install rnnmorph

In [None]:
from rnnmorph.predictor import RNNMorphPredictor

predictor = RNNMorphPredictor(language="ru")

forms = predictor.predict(words)

In [None]:
forms

Теперь распарсим все слова во всех текстах и сохраним данную информацию вместе с текстами, для удобного доступа. 

In [10]:
from tqdm import tqdm

In [None]:
all_docs = [tokenizer(doc) for doc in tqdm(texts)]
all_words = [[token.text for token in doc] for doc in tqdm(all_docs)]

In [None]:
rnn_morph_tags = [predictor.predict(words) for words in tqdm(all_words)]

In [None]:
config = {"punct_chars": [".", "?", "!", "。"]}
sentencizer = tokenizer.add_pipe("sentencizer", config=config)

In [31]:
import numpy as np

def sample(texts, tokenizer, predictor):
    text = np.random.choice(texts)

    tokens = tokenizer(text)
    sentences = [sent.text for sent in tokens.sents]
    sentence = np.random.choice(sentences)
    print(sentence)
    sent = tokenizer(str(sentence))
    words = [token.text for token in sent]
    
    predictions = predictor.predict(words)
    return sentence, predictions

#### Пример сэмплированного текста

In [None]:
sample(texts, tokenizer, predictor)

```
И одновременно — объяснение того, что собирается сделать Тодд Хейнс.
1/1 [==============================] - 0s 42ms/step
('И одновременно — объяснение того, что собирается сделать Тодд Хейнс.',
 [<normal_form=и; word=И; pos=CONJ; tag=_; score=0.8091>,
  <normal_form=одновременно; word=одновременно; pos=ADV; tag=Degree=Pos; score=0.9375>,
  <normal_form=—; word=—; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=объяснение; word=объяснение; pos=NOUN; tag=Case=Nom|Gender=Neut|Number=Sing; score=0.9997>,
  <normal_form=тот; word=того; pos=PRON; tag=Case=Gen|Gender=Neut|Number=Sing; score=0.9991>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=что; word=что; pos=PRON; tag=Case=Nom|Gender=Neut|Number=Sing; score=0.5441>,
  <normal_form=собираться; word=собирается; pos=VERB; tag=Mood=Ind|Number=Sing|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Mid; score=1.0000>,
  <normal_form=сделать; word=сделать; pos=VERB; tag=VerbForm=Inf; score=1.0000>,
  <normal_form=тодда; word=Тодд; pos=NOUN; tag=Case=Acc|Gender=Fem|Number=Plur; score=0.3173>,
  <normal_form=хейнс; word=Хейнс; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.1866>,
  <normal_form=.; word=.; pos=PUNCT; tag=_; score=1.0000>])
```

Видно, что в основном морфопарсер справился со своей задачей. Но в то же время есть несколько существенных недочетов. 

* "Тодд" слемматизировалось до "тодда", что является ошибочным. Также неправильно определился женский род, множественное число и падеж.

    ``` <normal_form=тодда; word=Тодд; pos=NOUN; tag=Case=Acc|Gender=Fem|Number=Plur; score=0.3173>```
* В остальном ошибок не наблюдается. 

In [35]:
sample(texts, tokenizer, predictor)


Несмотря на киберпанковскую мифологию общества, в котором будущее и настоящее совпадают, фантастический дизайн фильма кажется удивительно архаичным.


('\nНесмотря на киберпанковскую мифологию общества, в котором будущее и настоящее совпадают, фантастический дизайн фильма кажется удивительно архаичным.',
 [<normal_form=
  ; word=
  ; pos=CONJ; tag=_; score=0.9918>,
  <normal_form=несмотря; word=Несмотря; pos=ADV; tag=Degree=Pos; score=0.9625>,
  <normal_form=на; word=на; pos=ADP; tag=_; score=1.0000>,
  <normal_form=киберпанковский; word=киберпанковскую; pos=ADJ; tag=Case=Acc|Degree=Pos|Gender=Fem|Number=Sing; score=0.9999>,
  <normal_form=мифология; word=мифологию; pos=NOUN; tag=Case=Acc|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=общество; word=общества; pos=NOUN; tag=Case=Gen|Gender=Neut|Number=Sing; score=0.9959>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=в; word=в; pos=ADP; tag=_; score=1.0000>,
  <normal_form=который; word=котором; pos=DET; tag=Case=Loc|Gender=Neut|Number=Sing; score=0.9853>,
  <normal_form=будущее; word=будущее; pos=NOUN; tag=Case=Nom|Gender=Neut|Number=Sing; score=0.9

В примере выше, 2 слова: "будущее" и "настоящее"- играющие одинковую роль в предложении, распарсились по разному. Модель правильно разобрала первое слово, но определила второе как прилагательное.
```
<normal_form=будущее; word=будущее; pos=NOUN; tag=Case=Nom|Gender=Neut|Number=Sing; score=0.9485>
<normal_form=настоящий; word=настоящее; pos=ADJ; tag=Case=Nom|Degree=Pos|Gender=Neut|Number=Sing; score=0.6208>
```

In [52]:
sample(texts, tokenizer, predictor)

Тут сказывается не только емкость истории, но и мастеровитость режиссера: новеллу делал Роберт Вэлли, режиссера клипов Gorillaz и пары эпизодов в анимационных сериалах «Эон Флакс» и «Трон: Восстание».


('Тут сказывается не только емкость истории, но и мастеровитость режиссера: новеллу делал Роберт Вэлли, режиссера клипов Gorillaz и пары эпизодов в анимационных сериалах «Эон Флакс» и «Трон: Восстание».',
 [<normal_form=тут; word=Тут; pos=ADV; tag=Degree=Pos; score=0.9997>,
  <normal_form=сказываться; word=сказывается; pos=VERB; tag=Mood=Ind|Number=Sing|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Mid; score=1.0000>,
  <normal_form=не; word=не; pos=PART; tag=_; score=1.0000>,
  <normal_form=только; word=только; pos=ADV; tag=Degree=Pos; score=0.9997>,
  <normal_form=ёмкость; word=емкость; pos=NOUN; tag=Case=Nom|Gender=Fem|Number=Sing; score=0.9890>,
  <normal_form=история; word=истории; pos=NOUN; tag=Case=Gen|Gender=Fem|Number=Sing; score=0.9941>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=но; word=но; pos=CONJ; tag=_; score=1.0000>,
  <normal_form=и; word=и; pos=PART; tag=_; score=0.9988>,
  <normal_form=мастеровитость; word=мастеровитость; pos=NOUN; tag=Cas

Можем заметить, что данный парсер причисляет неизвестные символы и слова на англиском ("Gorrillaz" в даном случае) к пунктуации. 
```
<normal_form=gorillaz; word=Gorillaz; pos=PUNCT; tag=_; score=1.0000>
```

#### Попробуем насэмплировать примеры, на которых модель ошибается.

In [72]:
sample(texts, tokenizer, predictor)

Dark Souls — хардкорная эшкн-РПГ, в которой игроку предстоит умереть не раз и не два.


('Dark Souls — хардкорная эшкн-РПГ, в которой игроку предстоит умереть не раз и не два.',
 [<normal_form=dark; word=Dark; pos=PUNCT; tag=_; score=0.8634>,
  <normal_form=souls; word=Souls; pos=VERB; tag=Mood=Imp|Number=Sing|Person=2|VerbForm=Fin|Voice=Act; score=0.2086>,
  <normal_form=—; word=—; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=хардкорный; word=хардкорная; pos=ADJ; tag=Case=Nom|Degree=Pos|Gender=Fem|Number=Sing; score=0.9982>,
  <normal_form=эшкн; word=эшкн; pos=NOUN; tag=Case=Nom|Gender=Fem|Number=Sing; score=0.9910>,
  <normal_form=-; word=-; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=рпг; word=РПГ; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.7992>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=в; word=в; pos=ADP; tag=_; score=1.0000>,
  <normal_form=который; word=которой; pos=DET; tag=Case=Loc|Gender=Fem|Number=Sing; score=0.9993>,
  <normal_form=игрок; word=игроку; pos=NOUN; tag=Case=Dat|Gender=Masc|Number=Sing; score=0.9

Тут заметны слудеющие интересные недочеты: 
* ```<normal_form=souls; word=Souls; pos=VERB; tag=Mood=Imp|Number=Sing|Person=2|VerbForm=Fin|Voice=Act; score=0.2086>```

    Модель видимо иногда срабатывает для слов на английском, но качество там низкое. Скорее всего это результат галлюцинации, так как в словарях нет значения "souls", которое бы было глаголом. Можно сделать предположение, что в отличие от русского языка, модель не использует словарь для англиских слов.
*  ```<normal_form=эшкн; word=эшкн; pos=NOUN; tag=Case=Nom|Gender=Fem|Number=Sing; score=0.9910>,
   <normal_form=-; word=-; pos=PUNCT; tag=_; score=1.0000>,
   <normal_form=рпг; word=РПГ; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.7992>,```
   
  Тут уже видны артефакты выбранного токенизатора, который разбивает сложные слова с дефисом.

In [88]:
sample(texts, tokenizer, predictor)


Аккурат год назад Райан Мёрфи снял сказку о том, что все могло быть иначе — хотя бы в кузнице мечт Голливуде, который то ли питается социальным запросом, то ли его формирует, — поди разберись, много на себя взяло кино или все-таки поместится еще тюк-другой.


('\nАккурат год назад Райан Мёрфи снял сказку о том, что все могло быть иначе — хотя бы в кузнице мечт Голливуде, который то ли питается социальным запросом, то ли его формирует, — поди разберись, много на себя взяло кино или все-таки поместится еще тюк-другой.',
 [<normal_form=
  ; word=
  ; pos=CONJ; tag=_; score=0.9939>,
  <normal_form=аккурат; word=Аккурат; pos=ADV; tag=Degree=Pos; score=0.9947>,
  <normal_form=год; word=год; pos=NOUN; tag=Case=Acc|Gender=Masc|Number=Sing; score=0.8504>,
  <normal_form=назад; word=назад; pos=ADP; tag=_; score=0.9999>,
  <normal_form=райан; word=Райан; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.9998>,
  <normal_form=мёрфь; word=Мёрфи; pos=NOUN; tag=Case=Gen|Gender=Fem|Number=Sing; score=0.9822>,
  <normal_form=снять; word=снял; pos=VERB; tag=Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act; score=1.0000>,
  <normal_form=сказка; word=сказку; pos=NOUN; tag=Case=Acc|Gender=Fem|Number=Sing; score=0.9999>,
  <normal_form=о;

Тут интересно рассмотреть такую часть предложения: "— поди разберись, много на себя взяло кино или все-таки поместится еще тюк-другой." В данном случае "поди" распарсилось неправильно, а именно - как наречие вместо частицы. Тут могло повлиять контекстное обучение, так как слово стоит перед глаголом, что свойственно наречиям. 
```
<normal_form=поди; word=поди; pos=ADV; tag=Degree=Pos; score=0.2773>
```

In [93]:
sample(texts, tokenizer, predictor)

сигнализируют не только обломки знакомых эстетик, но и остроумный неймдроппинг.


('сигнализируют не только обломки знакомых эстетик, но и остроумный неймдроппинг.',
 [<normal_form=сигнализировать; word=сигнализируют; pos=VERB; tag=Mood=Ind|Number=Plur|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Act; score=1.0000>,
  <normal_form=не; word=не; pos=PART; tag=_; score=0.9999>,
  <normal_form=только; word=только; pos=ADV; tag=Degree=Pos; score=0.9973>,
  <normal_form=обломок; word=обломки; pos=NOUN; tag=Case=Acc|Gender=Masc|Number=Plur; score=0.8311>,
  <normal_form=знакомый; word=знакомых; pos=ADJ; tag=Case=Gen|Degree=Pos|Number=Plur; score=0.9210>,
  <normal_form=эстетика; word=эстетик; pos=NOUN; tag=Case=Gen|Gender=Fem|Number=Plur; score=0.9778>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=но; word=но; pos=CONJ; tag=_; score=1.0000>,
  <normal_form=и; word=и; pos=PART; tag=_; score=0.9748>,
  <normal_form=остроумный; word=остроумный; pos=ADJ; tag=Case=Acc|Degree=Pos|Gender=Masc|Number=Sing; score=0.9387>,
  <normal_form=неймдроппинг; word=

Тут у слов "обломки" и "неймдроппинг" неправильно определился падеж: парсер поставил винительный (Acc) вместо именительного (Pos). 
```
 <normal_form=обломок; word=обломки; pos=NOUN; tag=Case=Acc|Gender=Masc|Number=Plur; score=0.8311>
 <normal_form=неймдроппинг; word=неймдроппинг; pos=NOUN; tag=Case=Acc|Gender=Masc|Number=Sing; score=0.9371>
```

### Примеры омонимии

#### Рассмотрим лексическую (полную омонимию)

Можно конечно рассмотреть пример с лексической омонимией, но данный морфологический парсер не позволяет различать данные случаи, так как у них будут совпадать леммы и прочие параметры тэгов. 

In [94]:
# Функция, которая сэмплит предложение с вхождением данного слова
def sample_with_word(texts, tokenizer, predictor, find_word):
    found_texts = [t for t in texts if find_word in t]
    sentences = [s for t in found_texts for s in tokenizer(t).sents]
    found_sentences = [s for s in sentences if find_word in s.text]
    sentence = np.random.choice(found_sentences)

    sent = tokenizer(sentence.text)
    words = [token.text for token in sent]

    predictions = predictor.predict(words)
    return sentence.text, predictions

##### Топить

In [95]:
sample_with_word(texts, tokenizer, predictor, 'топить')

  sentence = np.random.choice(found_sentences)




('Своей похотью, своей жаждой жизни Яна способна испепелить горные долины, растопить снежные горные пики, но выбирает, чтобы огонь шел за ней, вглубь ее души, в извилины ее головы, то затухал, то занимался вновь.',
 [<normal_form=свой; word=Своей; pos=DET; tag=Case=Ins|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=похоть; word=похотью; pos=NOUN; tag=Case=Ins|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=свой; word=своей; pos=DET; tag=Case=Ins|Gender=Fem|Number=Sing; score=0.9999>,
  <normal_form=жажда; word=жаждой; pos=NOUN; tag=Case=Ins|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=жизнь; word=жизни; pos=NOUN; tag=Case=Gen|Gender=Fem|Number=Sing; score=0.9308>,
  <normal_form=ян; word=Яна; pos=NOUN; tag=Case=Nom|Gender=Fem|Number=Sing; score=0.9873>,
  <normal_form=способный; word=способна; pos=ADJ; tag=Degree=Pos|Gender=Fem|Number=Sing|Variant=Short; score=0.9999>,
  <normal_form=испепелить; word=испеп

В данном случае "растопить" определилось верно. 
```
normal_form=растопить; word=растопить; pos=VERB; tag=VerbForm=Inf; score=1.0000>
```

In [102]:
sample_with_word(texts, tokenizer, predictor, 'топить')



  sentence = np.random.choice(found_sentences)


('Десять часов его станут топить в воде, жечь заживо, использовать в политических играх и угрожать санкциями.',
 [<normal_form=десять; word=Десять; pos=NUM; tag=Case=Acc; score=0.6233>,
  <normal_form=час; word=часов; pos=NOUN; tag=Case=Gen|Gender=Masc|Number=Plur; score=0.9999>,
  <normal_form=он; word=его; pos=PRON; tag=Case=Acc|Gender=Masc|Number=Sing|Person=3; score=0.5644>,
  <normal_form=стать; word=станут; pos=VERB; tag=Mood=Ind|Number=Plur|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Act; score=1.0000>,
  <normal_form=топить; word=топить; pos=VERB; tag=VerbForm=Inf; score=1.0000>,
  <normal_form=в; word=в; pos=ADP; tag=_; score=1.0000>,
  <normal_form=вода; word=воде; pos=NOUN; tag=Case=Loc|Gender=Fem|Number=Sing; score=0.9994>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=жечь; word=жечь; pos=VERB; tag=VerbForm=Inf; score=1.0000>,
  <normal_form=заживо; word=заживо; pos=ADV; tag=Degree=Pos; score=0.9996>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; sc

Тут приведено другое значение слова "топить", а именно в смысле утопления в воде. 
```
<normal_form=топить; word=топить; pos=VERB; tag=VerbForm=Inf; score=1.0000>
```

##### мир

In [127]:
sample_with_word(texts, tokenizer, predictor, 'мира')



  sentence = np.random.choice(found_sentences)


('Впрочем, для женщин здесь мало что изменилось за последние 300 лет, и юная Ада (Милана Агузарова), подпирающая стену на остановке маршрутки, отгородившись от мира безразмерной курткой и глухим воротом спортивной кофты, занята извечным женским делом — она ждет.',
 [<normal_form=впрочем; word=Впрочем; pos=H; tag=_; score=1.0000>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=для; word=для; pos=ADP; tag=_; score=1.0000>,
  <normal_form=женщина; word=женщин; pos=NOUN; tag=Case=Gen|Gender=Fem|Number=Plur; score=0.9979>,
  <normal_form=здесь; word=здесь; pos=ADV; tag=Degree=Pos; score=0.9996>,
  <normal_form=мало; word=мало; pos=PART; tag=_; score=0.9249>,
  <normal_form=что; word=что; pos=PRON; tag=Case=Nom|Gender=Neut|Number=Sing; score=0.9873>,
  <normal_form=измениться; word=изменилось; pos=VERB; tag=Gender=Neut|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid; score=1.0000>,
  <normal_form=за; word=за; pos=ADP; tag=_; score=1.0000>,
  <normal_form=пос

In [137]:
sample_with_word(texts, tokenizer, predictor, ' мир ')



  sentence = np.random.choice(found_sentences)


('\nНет нужды уточнять, соответствует ли этот взгляд действительности (подобного рода обобщения давно считаются неприличными, и, в общем, поделом); главное — что в нем чудится испуг пополам с восторгом, сложная, но едва ли безнадежно неприязненная эмоция, которая не слишком совпадает с образом России последних лет: фабрики троллей, тревожащего мир шатуна.',
 [<normal_form=
  ; word=
  ; pos=CONJ; tag=_; score=0.9772>,
  <normal_form=нет; word=Нет; pos=VERB; tag=Mood=Ind|Number=Sing|Person=3|Tense=Notpast|VerbForm=Fin; score=0.9984>,
  <normal_form=нужда; word=нужды; pos=NOUN; tag=Case=Gen|Gender=Fem|Number=Sing; score=0.9972>,
  <normal_form=уточнять; word=уточнять; pos=VERB; tag=VerbForm=Inf; score=1.0000>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=соответствовать; word=соответствует; pos=VERB; tag=Mood=Ind|Number=Sing|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Act; score=1.0000>,
  <normal_form=ли; word=ли; pos=PART; tag=_; score=1.0000>,
  <normal_form

#### Омоформы

##### Точно

In [140]:
sample_with_word(texts, tokenizer, predictor, ' точно ')



  sentence = np.random.choice(found_sentences)


('Почему эту яркую комедию точно не стоит пропускать и в чем ее главный месседж, рассказывает Юлия Салихова.',
 [<normal_form=почему; word=Почему; pos=ADV; tag=Degree=Pos; score=0.9992>,
  <normal_form=этот; word=эту; pos=DET; tag=Case=Acc|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=яркий; word=яркую; pos=ADJ; tag=Case=Acc|Degree=Pos|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=комедия; word=комедию; pos=NOUN; tag=Case=Acc|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=точно; word=точно; pos=CONJ; tag=_; score=0.5463>,
  <normal_form=не; word=не; pos=PART; tag=_; score=1.0000>,
  <normal_form=стоить; word=стоит; pos=VERB; tag=Mood=Ind|Number=Sing|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Act; score=1.0000>,
  <normal_form=пропускать; word=пропускать; pos=VERB; tag=VerbForm=Inf; score=1.0000>,
  <normal_form=и; word=и; pos=PART; tag=_; score=0.9407>,
  <normal_form=в; word=в; pos=ADP; tag=_; score=1.0000>,
  <normal_form=что; word=чем; pos=PRON; tag=Case=Loc|Ge

Тут слово "точно" ошибочно определилось как союз, хотя в данном случае оно является наречием.
```
<normal_form=точно; word=точно; pos=CONJ; tag=_; score=0.5463>,
```

In [148]:
sample_with_word(texts, tokenizer, predictor, ' точно ')



  sentence = np.random.choice(found_sentences)


('Теперь все точно как в комиксах: не получится просто взять с полки «Удивительного Человека-Паука» под номером 700, не проштудировав предварительно хотя бы предыдущую сотню.',
 [<normal_form=теперь; word=Теперь; pos=ADV; tag=Degree=Pos; score=0.9997>,
  <normal_form=всё; word=все; pos=PRON; tag=Case=Nom|Gender=Neut|Number=Sing|Person=3; score=0.9921>,
  <normal_form=точный; word=точно; pos=ADJ; tag=Degree=Pos|Gender=Neut|Number=Sing|Variant=Short; score=0.9638>,
  <normal_form=как; word=как; pos=CONJ; tag=_; score=0.9977>,
  <normal_form=в; word=в; pos=ADP; tag=_; score=1.0000>,
  <normal_form=комикс; word=комиксах; pos=NOUN; tag=Case=Loc|Gender=Masc|Number=Plur; score=0.9654>,
  <normal_form=:; word=:; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=не; word=не; pos=PART; tag=_; score=1.0000>,
  <normal_form=получиться; word=получится; pos=VERB; tag=Mood=Ind|Number=Sing|Person=3|Tense=Notpast|VerbForm=Fin|Voice=Mid; score=1.0000>,
  <normal_form=просто; word=просто; pos=ADV; tag=Degr

Тут снова неправильно определилось, но уже в обратном направлении. "Теперь все точно как в комиксах" - слово выступает как союз, а не прилагательное. Причем в данном случае модель показала 96% уверенности в своем прогнозе, что заставляет задуматься о ее точности. 
```
<normal_form=точный; word=точно; pos=ADJ; tag=Degree=Pos|Gender=Neut|Number=Sing|Variant=Short; score=0.9638>
```

##### дали

In [170]:
sample_with_word(texts, tokenizer, predictor, ' дали.')

  sentence = np.random.choice(found_sentences)




('\nОзону в этом идеальном teen-movie, которое он мечтал посмотреть 35 лет назад, да некому было его влажные поллюции перенести на экран, помогают любимые артисты старшего поколения: Мельвиль Пупо и Валери Бруни-Тедески — их роль сводится к оберегу, к весточке из родного дома, — а также убойный саундтрек, сплошь состоящий из хитов канувшей эпохи (тут The Cure и Род Стюарт с медляком Sailing обрамлены медоточивыми аккордами участника группы Air), ну и виды, конечно, безупречные атлантические дали.',
 [<normal_form=
  ; word=
  ; pos=CONJ; tag=_; score=0.9396>,
  <normal_form=озон; word=Озону; pos=NOUN; tag=Case=Dat|Gender=Masc|Number=Sing; score=0.9877>,
  <normal_form=в; word=в; pos=ADP; tag=_; score=1.0000>,
  <normal_form=этот; word=этом; pos=DET; tag=Case=Loc|Gender=Neut|Number=Sing; score=0.6496>,
  <normal_form=идеальный; word=идеальном; pos=ADJ; tag=Case=Loc|Degree=Pos|Gender=Neut|Number=Sing; score=0.7350>,
  <normal_form=teen; word=teen; pos=NOUN; tag=Case=Loc|Gender=Masc|Numbe

Тут "дали" ошибочно разобралось как глагол, хотя в данном случае является существительным. 
```
<normal_form=дать; word=дали; pos=VERB; tag=Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act; score=0.4727>
```

In [184]:
sample_with_word(texts, tokenizer, predictor, ' дали ')

  sentence = np.random.choice(found_sentences)




('В их ослепительные дали иронически вложено замкнутое пространство военной части, где в вечном карауле, от наряда до дивана, тянется офицерская и супружеская лямка, «какая-то куцая, бескрылая жизнь, какая-то чепуха, и уйти и бежать нельзя», совершенно по Чехову или по Марко Беллоккьо, чей «Триумфальный марш» размазывал всю эту гротескную чепуху тяжелым армейским ботинком.',
 [<normal_form=в; word=В; pos=ADP; tag=_; score=1.0000>,
  <normal_form=он; word=их; pos=DET; tag=_; score=1.0000>,
  <normal_form=ослепительный; word=ослепительные; pos=ADJ; tag=Case=Acc|Degree=Pos|Number=Plur; score=0.9645>,
  <normal_form=дать; word=дали; pos=VERB; tag=Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act; score=0.7867>,
  <normal_form=иронически; word=иронически; pos=ADV; tag=Degree=Pos; score=1.0000>,
  <normal_form=вложенный; word=вложено; pos=ADJ; tag=Degree=Pos|Gender=Neut|Number=Sing|Variant=Short; score=0.9995>,
  <normal_form=замкнутый; word=замкнутое; pos=ADJ; tag=Case=Nom|Degree=Pos|G

Тут снова наблюдается такая же ошибка. 
```
<normal_form=дать; word=дали; pos=VERB; tag=Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act; score=0.7867>
```
Причем в обратную сторону в корпусе не допускается ошибок. Это говорит о том, что глаголы легче определять по их соотношению к существительному; также модели имеют предрасположенность при дисбалансе классов склоняться к тому, который чаще встречается (в данном случае глагол "дать" более популярен чем сущ. "даль").

### Недревесные явления

Тут уже будет легче искать явления в тексте, чем придумывать нетривиальные функция для поиска эллипсисов. 

In [153]:
def pipeline(sentence, tokenizer, predictor):
    sent = tokenizer(sentence)
    words = [token.text for token in sent]
    predictions = predictor.predict(words)
    return predictions

In [156]:
sentence = "Видимо, таков авторский вывод слегка непоследовательного, но всесторонне примечательного фильма «Проксима» — настоящее сестринство и материнство возможно, только если каждая занята своим делом (одна — покорением миров, вторая — просто учебой в школе), желательно — максимально далеко друг от друга."
sentence

'Видимо, таков авторский вывод слегка непоследовательного, но всесторонне примечательного фильма «Проксима» — настоящее сестринство и материнство возможно, только если каждая занята своим делом (одна — покорением миров, вторая — просто учебой в школе), желательно — максимально далеко друг от друга.'

In [155]:
sentence, pipeline(sentence, tokenizer, predictor)



('Видимо, таков авторский вывод слегка непоследовательного, но всесторонне примечательного фильма «Проксима» — настоящее сестринство и материнство возможно, только если каждая занята своим делом (одна — покорением миров, вторая — просто учебой в школе), желательно — максимально далеко друг от друга.',
 [<normal_form=видимо; word=Видимо; pos=ADV; tag=Degree=Pos; score=0.9999>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=таков; word=таков; pos=DET; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.9940>,
  <normal_form=авторский; word=авторский; pos=ADJ; tag=Case=Nom|Degree=Pos|Gender=Masc|Number=Sing; score=0.9984>,
  <normal_form=вывод; word=вывод; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.9996>,
  <normal_form=слегка; word=слегка; pos=ADV; tag=Degree=Pos; score=0.9619>,
  <normal_form=непоследовательный; word=непоследовательного; pos=ADJ; tag=Case=Gen|Degree=Pos|Gender=Masc|Number=Sing; score=0.9991>,
  <normal_form=,; word=,; pos=PUNCT; tag=_; 

Тут наблюдается множественная омонимия в конце предложения. В данном случае морфопарсер не допустил ошибок, при разборе данной части, так как части речи понятны и без контекста. 

In [157]:
sentence = "«Кто-нибудь видел мою девчонку» именно по этой траектории и развивается. Как эстетически, так и этически."
sentence

'«Кто-нибудь видел мою девчонку» именно по этой траектории и развивается. Как эстетически, так и этически.'

In [158]:
sentence, pipeline(sentence, tokenizer, predictor)



('«Кто-нибудь видел мою девчонку» именно по этой траектории и развивается. Как эстетически, так и этически.',
 [<normal_form=«; word=«; pos=PUNCT; tag=_; score=0.9429>,
  <normal_form=кто; word=Кто; pos=PRON; tag=Case=Nom|Number=Sing; score=1.0000>,
  <normal_form=-; word=-; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=нибыть; word=нибудь; pos=ADV; tag=Degree=Pos; score=0.8450>,
  <normal_form=видеть; word=видел; pos=VERB; tag=Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act; score=1.0000>,
  <normal_form=мой; word=мою; pos=DET; tag=Case=Acc|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=девчонка; word=девчонку; pos=NOUN; tag=Case=Acc|Gender=Fem|Number=Sing; score=1.0000>,
  <normal_form=»; word=»; pos=PUNCT; tag=_; score=0.9973>,
  <normal_form=именно; word=именно; pos=PART; tag=_; score=1.0000>,
  <normal_form=по; word=по; pos=ADP; tag=_; score=1.0000>,
  <normal_form=этот; word=этой; pos=DET; tag=Case=Dat|Gender=Fem|Number=Sing; score=0.9999>,
  <normal_f

### Референциальные цепочки

Но **Вигго Мортенсен** явно другой. **Он** вообще-то лицедей по совместительству. А так **поэт**, **художник**, **фотограф**, **куратор**, **полиглот**. **Символ** мультикультурализма и интерсекционализма. Внутри **Вигго**, как в **его** любимом Нью-Йорке, встречаются все семь искусств, чтобы фонтанировать без перебоя. **Его** режиссерский дебют «Падение», наверное, личная история с элементами автобиографии, но, как иногда случается у людей тонкой душевной конструкции, личное попало в глобальное, отразило дух времени, запечатлело уходящую эпоху.

In [160]:
fragment = "Но Вигго Мортенсен явно другой. Он вообще-то лицедей по совместительству. А так поэт, художник, фотограф, куратор, полиглот. Символ мультикультурализма и интерсекционализма. Внутри Вигго, как в его любимом Нью-Йорке, встречаются все семь искусств, чтобы фонтанировать без перебоя. Его режиссерский дебют «Падение», наверное, личная история с элементами автобиографии, но, как иногда случается у людей тонкой душевной конструкции, личное попало в глобальное, отразило дух времени, запечатлело уходящую эпоху."
fragment

'Но Вигго Мортенсен явно другой. Он вообще-то лицедей по совместительству. А так поэт, художник, фотограф, куратор, полиглот. Символ мультикультурализма и интерсекционализма. Внутри Вигго, как в его любимом Нью-Йорке, встречаются все семь искусств, чтобы фонтанировать без перебоя. Его режиссерский дебют «Падение», наверное, личная история с элементами автобиографии, но, как иногда случается у людей тонкой душевной конструкции, личное попало в глобальное, отразило дух времени, запечатлело уходящую эпоху.'

In [162]:
fragment, pipeline(fragment, tokenizer, predictor)



('Но Вигго Мортенсен явно другой. Он вообще-то лицедей по совместительству. А так поэт, художник, фотограф, куратор, полиглот. Символ мультикультурализма и интерсекционализма. Внутри Вигго, как в его любимом Нью-Йорке, встречаются все семь искусств, чтобы фонтанировать без перебоя. Его режиссерский дебют «Падение», наверное, личная история с элементами автобиографии, но, как иногда случается у людей тонкой душевной конструкции, личное попало в глобальное, отразило дух времени, запечатлело уходящую эпоху.',
 [<normal_form=но; word=Но; pos=CONJ; tag=_; score=1.0000>,
  <normal_form=вигй; word=Вигго; pos=ADJ; tag=Case=Acc|Degree=Pos|Gender=Masc|Number=Sing; score=0.5005>,
  <normal_form=мортенсный; word=Мортенсен; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.9707>,
  <normal_form=явно; word=явно; pos=ADV; tag=Degree=Pos; score=0.9997>,
  <normal_form=другой; word=другой; pos=DET; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.9352>,
  <normal_form=.; word=.; pos=PUNCT; tag=_; sc

Тут видно недочет у 2 элементов цепочки:
* Неправильная лемматизация имени "Вигго" и непоследовательная его лемматизация.
    
    <normal_form=вигй; word=Вигго; pos=ADJ; tag=Case=Acc|Degree=Pos|Gender=Masc|Number=Sing; score=0.5005>
    
    <normal_form=вигго; word=Вигго; pos=NOUN; tag=Case=Gen|Gender=Masc|Number=Sing; score=0.3481>
    
В остальном именно морфологический разбор проведен верно. Но, как мне кажется, морфопарсеры не подходят для выявления референциальных цепочек, так как это другой уровень разбора ЕЯ. 

**Персонаж** Майлса Теллера — это типичный религиозный аскет. В Испании **он** стал бы монахом, в России сектантом, хлыстом (прекрасная рифма к названию фильма!), а в протестантской Америке оказался почему-то барабанщиком. По ходу фильма **он** отказывается от мирских привязанностей, семейных, любовных, дружеских связей, добровольно проходит через чудовищные унижения и муки и терпит сокрушительное поражение, которое в финале, разумеется, оборачивается немыслимым триумфом. Беда в том, что Бога в **его** мире нет, и все что **он** делает, **он** делает не во Славу Божию.

In [163]:
fragment = "Персонаж Майлса Теллера — это типичный религиозный аскет. В Испании он стал бы монахом, в России сектантом, хлыстом (прекрасная рифма к названию фильма!), а в протестантской Америке оказался почему-то барабанщиком. По ходу фильма он отказывается от мирских привязанностей, семейных, любовных, дружеских связей, добровольно проходит через чудовищные унижения и муки и терпит сокрушительное поражение, которое в финале, разумеется, оборачивается немыслимым триумфом. Беда в том, что Бога в его мире нет, и все что он делает, он делает не во Славу Божию."
fragment

'Персонаж Майлса Теллера — это типичный религиозный аскет. В Испании он стал бы монахом, в России сектантом, хлыстом (прекрасная рифма к названию фильма!), а в протестантской Америке оказался почему-то барабанщиком. По ходу фильма он отказывается от мирских привязанностей, семейных, любовных, дружеских связей, добровольно проходит через чудовищные унижения и муки и терпит сокрушительное поражение, которое в финале, разумеется, оборачивается немыслимым триумфом. Беда в том, что Бога в его мире нет, и все что он делает, он делает не во Славу Божию.'

In [164]:
fragment, pipeline(fragment, tokenizer, predictor)



('Персонаж Майлса Теллера — это типичный религиозный аскет. В Испании он стал бы монахом, в России сектантом, хлыстом (прекрасная рифма к названию фильма!), а в протестантской Америке оказался почему-то барабанщиком. По ходу фильма он отказывается от мирских привязанностей, семейных, любовных, дружеских связей, добровольно проходит через чудовищные унижения и муки и терпит сокрушительное поражение, которое в финале, разумеется, оборачивается немыслимым триумфом. Беда в том, что Бога в его мире нет, и все что он делает, он делает не во Славу Божию.',
 [<normal_form=персонаж; word=Персонаж; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.9975>,
  <normal_form=майлс; word=Майлса; pos=NOUN; tag=Case=Gen|Gender=Masc|Number=Sing; score=0.9999>,
  <normal_form=теллер; word=Теллера; pos=NOUN; tag=Case=Gen|Gender=Masc|Number=Sing; score=0.9882>,
  <normal_form=—; word=—; pos=PUNCT; tag=_; score=1.0000>,
  <normal_form=это; word=это; pos=PART; tag=_; score=0.9968>,
  <normal_form=типичны

Тут уже морфопарсинг прошел правильно в таком большом фрагменте текста, несмотря на эллипсис и референциальную цепочку. Это говорит о том, что данные явления редко являются препятствием для правильного мофрологического разбора. 

## Slovnet

C 2017 года популярность обрели BERT-пододобные модели, на которых и работают SOTA решения. Одним из таких является [Slovnet](https://github.com/natasha/slovnet). По сравнению с rnnmorph метрики данной модели выше. 

Но у данного подхода есть существенный недостаток - он не предоставляет лемматизацию. Это снова связано с тем, что подходы с трансформерами "галлюцинируют" при приведении к начальной форме. Я так и не понял, почему авторы решения не могут использовать словарик под "капотом" аналогично rnnmotph. 

<table border="0" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>news</th>
      <th>wiki</th>
      <th>fiction</th>
      <th>social</th>
      <th>poetry</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>slovnet</th>
      <td><b>0.961</b></td>
      <td>0.815</td>
      <td>0.905</td>
      <td>0.807</td>
      <td>0.664</td>
    </tr>
    <tr>
      <th>slovnet_bert</th>
      <td><b>0.982</b></td>
      <td><b>0.884</b></td>
      <td><b>0.990</b></td>
      <td><b>0.890</b></td>
      <td><b>0.856</b></td>
    </tr>
    <tr>
      <th>deeppavlov</th>
      <td>0.940</td>
      <td>0.841</td>
      <td>0.944</td>
      <td>0.870</td>
      <td><b>0.857</b></td>
    </tr>
    <tr>
      <th>deeppavlov_bert</th>
      <td>0.951</td>
      <td><b>0.868</b></td>
      <td><b>0.964</b></td>
      <td><b>0.892</b></td>
      <td><b>0.865</b></td>
    </tr>
    <tr>
      <th>udpipe</th>
      <td>0.918</td>
      <td>0.811</td>
      <td><b>0.957</b></td>
      <td>0.870</td>
      <td>0.776</td>
    </tr>
    <tr>
      <th>spacy</th>
      <td><b>0.964</b></td>
      <td><b>0.849</b></td>
      <td>0.942</td>
      <td>0.857</td>
      <td>0.784</td>
    </tr>
    <tr>
      <th>stanza</th>
      <td>0.934</td>
      <td>0.831</td>
      <td>0.940</td>
      <td><b>0.873</b></td>
      <td>0.825</td>
    </tr>
    <tr>
      <th>rnnmorph</th>
      <td>0.896</td>
      <td>0.812</td>
      <td>0.890</td>
      <td>0.860</td>
      <td>0.838</td>
    </tr>
    <tr>
      <th>maru</th>
      <td>0.894</td>
      <td>0.808</td>
      <td>0.887</td>
      <td>0.861</td>
      <td>0.840</td>
    </tr>
    <tr>
      <th>rupostagger</th>
      <td>0.673</td>
      <td>0.645</td>
      <td>0.661</td>
      <td>0.641</td>
      <td>0.636</td>
    </tr>
  </tbody>
</table>
<!--- morph1 --->

`it/s` — sentences per second.

<!--- morph2 --->
<table border="0" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>init, s</th>
      <th>disk, mb</th>
      <th>ram, mb</th>
      <th>speed, it/s</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>slovnet</th>
      <td><b>1.0</b></td>
      <td><b>27</b></td>
      <td><b>115</b></td>
      <td><b>532.0</b></td>
    </tr>
    <tr>
      <th>slovnet_bert</th>
      <td>5.0</td>
      <td>475</td>
      <td>8087</td>
      <td><b>285.0 (gpu)</b></td>
    </tr>
    <tr>
      <th>deeppavlov</th>
      <td><b>4.0</b></td>
      <td>32</td>
      <td>10240</td>
      <td>90.0 (gpu)</td>
    </tr>
    <tr>
      <th>deeppavlov_bert</th>
      <td>20.0</td>
      <td>1393</td>
      <td>8704</td>
      <td>85.0 (gpu)</td>
    </tr>
    <tr>
      <th>udpipe</th>
      <td>6.9</td>
      <td>45</td>
      <td><b>242</b></td>
      <td>56.2</td>
    </tr>
    <tr>
      <th>spacy</th>
      <td>8.0</td>
      <td>140</td>
      <td>579</td>
      <td>50.0</td>
    </tr>
    <tr>
      <th>stanza</th>
      <td><b>2.0</b></td>
      <td>591</td>
      <td>393</td>
      <td><b>92.0</b></td>
    </tr>
    <tr>
      <th>rnnmorph</th>
      <td>8.7</td>
      <td><b>10</b></td>
      <td>289</td>
      <td>16.6</td>
    </tr>
    <tr>
      <th>maru</th>
      <td>15.8</td>
      <td>44</td>
      <td>370</td>
      <td>36.4</td>
    </tr>
    <tr>
      <th>rupostagger</th>
      <td>4.8</td>
      <td><b>3</b></td>
      <td><b>118</b></td>
      <td>48.0</td>
    </tr>
  </tbody>
</table>
<!--- morph2 --->
Результаты работы на датасетах из GramEval2020

Источник: gitub репозиторий natasha/slovnet

Будем исползовать slovnet_bert, так как он показал лучший результат. Авторы рекомендуют использовать их токенизатор [razdel](https://github.com/natasha/razdel), поэтому будем придерживаться рекомендаций для воспроизведения результатов. Также данная модель использует свои предобученные эмбеддинги для русского языка [navec](https://github.com/natasha/navec)

Посмотрим, будет ли slovnet настолько идеальным решением, как показывают таблицы в нашем случае. (Спойлер: нет)

In [1]:
!pip3 install slovnet

Collecting slovnet
  Downloading slovnet-0.6.0-py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.7/46.7 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
Collecting navec
  Downloading navec-0.10.0-py3-none-any.whl (23 kB)
Collecting razdel
  Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Installing collected packages: razdel, navec, slovnet
Successfully installed navec-0.10.0 razdel-0.5.0 slovnet-0.6.0
[0m

In [2]:
import razdel
from slovnet import Morph
from navec import Navec

In [32]:
!wget https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar

--2023-05-21 13:42:14--  https://storage.yandexcloud.net/natasha-navec/packs/navec_news_v1_1B_250K_300d_100q.tar
Resolving storage.yandexcloud.net (storage.yandexcloud.net)... 213.180.193.243, 2a02:6b8::1d9
Connecting to storage.yandexcloud.net (storage.yandexcloud.net)|213.180.193.243|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 26634240 (25M) [application/x-tar]
Saving to: ‘navec_news_v1_1B_250K_300d_100q.tar’


2023-05-21 13:42:20 (5.34 MB/s) - ‘navec_news_v1_1B_250K_300d_100q.tar’ saved [26634240/26634240]



In [29]:
!wget https://storage.yandexcloud.net/natasha-slovnet/packs/slovnet_morph_news_v1.tar

--2023-05-21 13:41:09--  https://storage.yandexcloud.net/natasha-slovnet/packs/slovnet_morph_news_v1.tar
Resolving storage.yandexcloud.net (storage.yandexcloud.net)... 213.180.193.243, 2a02:6b8::1d9
Connecting to storage.yandexcloud.net (storage.yandexcloud.net)|213.180.193.243|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2580480 (2.5M) [application/octet-stream]
Saving to: ‘slovnet_morph_news_v1.tar’


2023-05-21 13:41:13 (1.08 MB/s) - ‘slovnet_morph_news_v1.tar’ saved [2580480/2580480]



In [None]:
navec_path_target = '/kaggle/working/navec_news_v1_1B_250K_300d_100q.tar'
navec = Navec.load(navec_path_target)

slovnet_path_target = '/kaggle/working/slovnet_morph_news_v1.tar'
morph = Morph.load(slovnet_path_target, batch_size=4)

morph.navec(navec)

In [36]:
def slovnet_pipeline(sentence, morph):
    tokens = [_.text for _ in list(razdel.tokenize(sentence))]
    doc = morph(tokens)
    for token in doc.tokens:
        print(f'{token.text:>20} {token.tag}')

In [39]:
sentence = "И одновременно — объяснение того, что собирается сделать Тодд Хейнс."
print(sentence)
slovnet_pipeline(sentence, morph)

И одновременно — объяснение того, что собирается сделать Тодд Хейнс.
                   И CCONJ
        одновременно ADV|Degree=Pos
                   — PUNCT
          объяснение NOUN|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
                того PRON|Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing
                   , PUNCT
                 что PRON|Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing
          собирается VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Mid
             сделать VERB|Aspect=Perf|VerbForm=Inf|Voice=Act
                Тодд PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
               Хейнс PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
                   . PUNCT


Тут в отличие от rnnmorph правильно определился падеж и род имени "Тодд".
```
rnnmorph: <normal_form=тодда; word=Тодд; pos=NOUN; tag=Case=Acc|Gender=Fem|Number=Plur; score=0.3173>
VS
slovnet: Тодд PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
```

In [40]:
sentence = 'Несмотря на киберпанковскую мифологию общества, в котором будущее и настоящее совпадают, фантастический дизайн фильма кажется удивительно архаичным.'
print(sentence)
slovnet_pipeline(sentence, morph)

Несмотря на киберпанковскую мифологию общества, в котором будущее и настоящее совпадают, фантастический дизайн фильма кажется удивительно архаичным.
            Несмотря ADV|Polarity=Neg
                  на ADP
     киберпанковскую ADJ|Case=Acc|Degree=Pos|Gender=Fem|Number=Sing
           мифологию NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing
            общества NOUN|Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing
                   , PUNCT
                   в ADP
             котором PRON|Case=Loc|Gender=Neut|Number=Sing
             будущее NOUN|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
                   и CCONJ
           настоящее NOUN|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
           совпадают VERB|Aspect=Imp|Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
                   , PUNCT
      фантастический ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
              дизайн NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
              фильма NOUN|

Тут снова мы видим то, что Slovnet справился лучше предшественника.
```
rnnmorph: 
<normal_form=будущее; word=будущее; pos=NOUN; tag=Case=Nom|Gender=Neut|Number=Sing; score=0.9485>
<normal_form=настоящий; word=настоящее; pos=ADJ; tag=Case=Nom|Degree=Pos|Gender=Neut|Number=Sing; score=0.6208>
VS
slovnet:
будущее NOUN|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
настоящее NOUN|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
```

In [41]:
sentence = 'Тут сказывается не только емкость истории, но и мастеровитость режиссера: новеллу делал Роберт Вэлли, режиссера клипов Gorillaz и пары эпизодов в анимационных сериалах «Эон Флакс» и «Трон: Восстание».'
print(sentence)
slovnet_pipeline(sentence, morph)

Тут сказывается не только емкость истории, но и мастеровитость режиссера: новеллу делал Роберт Вэлли, режиссера клипов Gorillaz и пары эпизодов в анимационных сериалах «Эон Флакс» и «Трон: Восстание».
                 Тут ADV|Degree=Pos
         сказывается VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Mid
                  не PART|Polarity=Neg
              только PART
             емкость NOUN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
             истории NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
                   , PUNCT
                  но CCONJ
                   и CCONJ
      мастеровитость ADJ|Animacy=Anim|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing
           режиссера NOUN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing
                   : PUNCT
             новеллу NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing
               делал VERB|Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
              Робе

В отличие от rnnmorph, данный подход относит англоязычные слова к специальное категории Foreign. Это делает использование проще, так как не возникает путанницы с пунктуацией.
```
rnnmorph:
<normal_form=gorillaz; word=Gorillaz; pos=PUNCT; tag=_; score=1.0000>
VS
slovnet:
Gorillaz PROPN|Foreign=Yes
```

In [42]:
sentence = 'Dark Souls — хардкорная эшкн-РПГ, в которой игроку предстоит умереть не раз и не два.'
print(sentence)
slovnet_pipeline(sentence, morph)

Dark Souls — хардкорная эшкн-РПГ, в которой игроку предстоит умереть не раз и не два.
                Dark X|Foreign=Yes
               Souls X|Foreign=Yes
                   — PUNCT
          хардкорная NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
            эшкн-РПГ NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
                   , PUNCT
                   в ADP
             которой PRON|Case=Loc|Gender=Fem|Number=Sing
              игроку NOUN|Animacy=Anim|Case=Dat|Gender=Masc|Number=Sing
           предстоит VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
             умереть VERB|Aspect=Perf|VerbForm=Inf|Voice=Act
                  не PART|Polarity=Neg
                 раз NOUN|Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing
                   и CCONJ
                  не PART|Polarity=Neg
                 два NUM|Case=Nom|Gender=Masc
                   . PUNCT


Здесь видим несколько исправлений, но в то же время и недочеты.
* Английское слово из названия "Souls" разметилось одинаково с первой частью "Dark".

    ```
    rnnmorph:
    <normal_form=souls; word=Souls; pos=VERB; tag=Mood=Imp|Number=Sing|Person=2|VerbForm=Fin|Voice=Act; score=0.2086>
    VS
    slovnet:
    Souls X|Foreign=Yes
    ```
* Составное слово "экшн-РПГ" распарсилось правильно. Скорее всего это связано с особенностью токенизатора Razdel, который не делит по дефисам, в отличие от Spacy. 
    ```
    rnnmorph:
    <normal_form=-; word=-; pos=PUNCT; tag=_; score=1.0000>,
    <normal_form=рпг; word=РПГ; pos=NOUN; tag=Case=Nom|Gender=Masc|Number=Sing; score=0.7992>
    VS
    slovnet:
    эшкн-РПГ NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
    ```
* Но в то же время будут ошибки. Например на слове "хардкорная", которое slovnet определил как существительное. Причиной этого служит то, что в обучающей выборке (тексты новостей) скорее всего не встречалось данное слово. Поэтому оно будет токенизировано как $<UNK>$ при построении эмбеддингов, и потом по контексту уже определится к существительному. 
    ```
    rnnmorph:
    <normal_form=хардкорный; word=хардкорная; pos=ADJ; tag=Case=Nom|Degree=Pos|Gender=Fem|Number=Sing; score=0.9982>
    VS
    slovnet:
    хардкорная NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
    ```

In [43]:
sentence = 'Аккурат год назад Райан Мёрфи снял сказку о том, что все могло быть иначе — хотя бы в кузнице мечт Голливуде, который то ли питается социальным запросом, то ли его формирует, — поди разберись, много на себя взяло кино или все-таки поместится еще тюк-другой.'
print(sentence)
slovnet_pipeline(sentence, morph)

Аккурат год назад Райан Мёрфи снял сказку о том, что все могло быть иначе — хотя бы в кузнице мечт Голливуде, который то ли питается социальным запросом, то ли его формирует, — поди разберись, много на себя взяло кино или все-таки поместится еще тюк-другой.
             Аккурат VERB|Aspect=Perf|Tense=Past|VerbForm=Conv|Voice=Act
                 год NOUN|Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing
               назад ADV|Degree=Pos
               Райан PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
               Мёрфи PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
                снял VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
              сказку NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing
                   о ADP
                 том PRON|Animacy=Inan|Case=Loc|Gender=Neut|Number=Sing
                   , PUNCT
                 что SCONJ
                 все PRON|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
               м

Тут снова видим как плюсы, так и минусы нового подхода. 
* Частица "поди" разобралась правильно. 
```
rnnmorph:
<normal_form=поди; word=поди; pos=ADV; tag=Degree=Pos; score=0.2773>
VS
slovnet:
поди PART
```
* В то же врем наречие "аккурат" slovnet определил как глагол. 
```
rnnmorph:
<normal_form=аккурат; word=Аккурат; pos=ADV; tag=Degree=Pos; score=0.9947>
VS
slovnet:
Аккурат VERB|Aspect=Perf|Tense=Past|VerbForm=Conv|Voice=Act
```

In [44]:
sentence = 'сигнализируют не только обломки знакомых эстетик, но и остроумный неймдроппинг.'
print(sentence)
slovnet_pipeline(sentence, morph)

сигнализируют не только обломки знакомых эстетик, но и остроумный неймдроппинг.
       сигнализируют VERB|Aspect=Imp|Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
                  не PART|Polarity=Neg
              только PART
             обломки NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Plur
            знакомых NOUN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur
             эстетик VERB|Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act
                   , PUNCT
                  но CCONJ
                   и CCONJ
          остроумный ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
        неймдроппинг NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
                   . PUNCT


* Тут падежи 'обломки' и 'неймдроппинг' уже правильно распарсились. 
    ```
    rnnmorph:
    <normal_form=обломок; word=обломки; pos=NOUN; tag=Case=Acc|Gender=Masc|Number=Plur; score=0.8311>
    <normal_form=неймдроппинг; word=неймдроппинг; pos=NOUN; tag=Case=Acc|Gender=Masc|Number=Sing; score=0.9371>
    VS
    slovnet:
    обломки NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Plur
    NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
    ```
* Но снова допускаются ошибки у редких для новостного датасета слов, например сущ. "эстетика". 
    ```
    rnnmorph:
    <normal_form=эстетика; word=эстетик; pos=NOUN; tag=Case=Gen|Gender=Fem|Number=Plur; score=0.9778>
    VS
    slovnet:
    эстетик VERB|Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act
    ```

In [46]:
sentence = 'Почему эту яркую комедию точно не стоит пропускать и в чем ее главный месседж, рассказывает Юлия Салихова.'
print(sentence)
slovnet_pipeline(sentence, morph)

Почему эту яркую комедию точно не стоит пропускать и в чем ее главный месседж, рассказывает Юлия Салихова.
              Почему ADV|Degree=Pos
                 эту DET|Case=Acc|Gender=Fem|Number=Sing
               яркую ADJ|Case=Acc|Degree=Pos|Gender=Fem|Number=Sing
             комедию NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing
               точно ADV|Degree=Pos
                  не PART|Polarity=Neg
               стоит VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
          пропускать VERB|Aspect=Imp|VerbForm=Inf|Voice=Act
                   и CCONJ
                   в ADP
                 чем PRON|Animacy=Inan|Case=Loc|Gender=Neut|Number=Sing
                  ее DET
             главный ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
             месседж NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
                   , PUNCT
        рассказывает VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
       

Тут ошибка с неправильным определением наречия "точно" исправлена. 
```
rnnmorph:
<normal_form=точно; word=точно; pos=CONJ; tag=_; score=0.5463>
VS
slovnet:
точно ADV|Degree=Pos
```

In [47]:
sentence = 'Теперь все точно как в комиксах: не получится просто взять с полки «Удивительного Человека-Паука» под номером 700, не проштудировав предварительно хотя бы предыдущую сотню.'
print(sentence)
slovnet_pipeline(sentence, morph)

Теперь все точно как в комиксах: не получится просто взять с полки «Удивительного Человека-Паука» под номером 700, не проштудировав предварительно хотя бы предыдущую сотню.
              Теперь ADV|Degree=Pos
                 все PRON|Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing
               точно ADV|Degree=Pos
                 как SCONJ
                   в ADP
            комиксах NOUN|Animacy=Inan|Case=Loc|Gender=Masc|Number=Plur
                   : PUNCT
                  не PART|Polarity=Neg
           получится VERB|Aspect=Perf|Mood=Ind|Number=Sing|Person=3|Tense=Fut|VerbForm=Fin|Voice=Mid
              просто PART
               взять VERB|Aspect=Perf|VerbForm=Inf|Voice=Act
                   с ADP
               полки NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
                   « PUNCT
       Удивительного NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
      Человека-Паука PROPN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing
                   » PUNCT
          

Тут "точно как" снова распарсилось ошибочно как наречие, а не союз. Но роль наречия больше подходит под этот случай, в отличие от прилагательного, предложенного rnnmorph. 
```
rnnmorph:
<normal_form=точный; word=точно; pos=ADJ; tag=Degree=Pos|Gender=Neut|Number=Sing|Variant=Short; score=0.9638>
VS
slovnet:
точно ADV|Degree=Pos
```

In [48]:
sentence = 'Озону в этом идеальном teen-movie, которое он мечтал посмотреть 35 лет назад, да некому было его влажные поллюции перенести на экран, помогают любимые артисты старшего поколения: Мельвиль Пупо и Валери Бруни-Тедески — их роль сводится к оберегу, к весточке из родного дома, — а также убойный саундтрек, сплошь состоящий из хитов канувшей эпохи (тут The Cure и Род Стюарт с медляком Sailing обрамлены медоточивыми аккордами участника группы Air), ну и виды, конечно, безупречные атлантические дали.'
print(sentence)
slovnet_pipeline(sentence, morph)

Озону в этом идеальном teen-movie, которое он мечтал посмотреть 35 лет назад, да некому было его влажные поллюции перенести на экран, помогают любимые артисты старшего поколения: Мельвиль Пупо и Валери Бруни-Тедески — их роль сводится к оберегу, к весточке из родного дома, — а также убойный саундтрек, сплошь состоящий из хитов канувшей эпохи (тут The Cure и Род Стюарт с медляком Sailing обрамлены медоточивыми аккордами участника группы Air), ну и виды, конечно, безупречные атлантические дали.
               Озону PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
                   в ADP
                этом DET|Case=Loc|Gender=Masc|Number=Sing
           идеальном NOUN|Animacy=Inan|Case=Loc|Gender=Masc|Number=Sing
          teen-movie X|Foreign=Yes
                   , PUNCT
             которое PRON|Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing
                  он PRON|Case=Nom|Gender=Masc|Number=Sing|Person=3
              мечтал VERB|Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Te

Тут снова ошибка в ошибочном определении "дали" как глагол.
```
rnnmorph:
<normal_form=дать; word=дали; pos=VERB; tag=Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act; score=0.4727>
VS
slovnet:
дали VERB|Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act
```

In [49]:
sentence = 'В их ослепительные дали иронически вложено замкнутое пространство военной части, где в вечном карауле, от наряда до дивана, тянется офицерская и супружеская лямка, «какая-то куцая, бескрылая жизнь, какая-то чепуха, и уйти и бежать нельзя», совершенно по Чехову или по Марко Беллоккьо, чей «Триумфальный марш» размазывал всю эту гротескную чепуху тяжелым армейским ботинком.'
print(sentence)
slovnet_pipeline(sentence, morph)

В их ослепительные дали иронически вложено замкнутое пространство военной части, где в вечном карауле, от наряда до дивана, тянется офицерская и супружеская лямка, «какая-то куцая, бескрылая жизнь, какая-то чепуха, и уйти и бежать нельзя», совершенно по Чехову или по Марко Беллоккьо, чей «Триумфальный марш» размазывал всю эту гротескную чепуху тяжелым армейским ботинком.
                   В ADP
                  их DET
       ослепительные NOUN|Animacy=Inan|Case=Loc|Gender=Fem|Number=Plur
                дали VERB|Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act
          иронически ADV|Degree=Pos
             вложено VERB|Aspect=Perf|Gender=Neut|Number=Sing|Tense=Past|Variant=Short|VerbForm=Part|Voice=Pass
           замкнутое ADJ|Case=Nom|Degree=Pos|Gender=Neut|Number=Sing
        пространство NOUN|Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing
             военной ADJ|Case=Gen|Degree=Pos|Gender=Fem|Number=Sing
               части NOUN|Animacy=Inan|Case=Gen|Gender=

Тут аналогичная ошибка в слове "дали". 
```
rnnmorph:
<normal_form=дать; word=дали; pos=VERB; tag=Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act; score=0.7867>
VS
slovnet:
дали VERB|Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|Voice=Act
```

In [50]:
sentence = 'Видимо, таков авторский вывод слегка непоследовательного, но всесторонне примечательного фильма «Проксима» — настоящее сестринство и материнство возможно, только если каждая занята своим делом (одна — покорением миров, вторая — просто учебой в школе), желательно — максимально далеко друг от друга.'
print(sentence)
slovnet_pipeline(sentence, morph)

Видимо, таков авторский вывод слегка непоследовательного, но всесторонне примечательного фильма «Проксима» — настоящее сестринство и материнство возможно, только если каждая занята своим делом (одна — покорением миров, вторая — просто учебой в школе), желательно — максимально далеко друг от друга.
              Видимо ADV|Degree=Pos
                   , PUNCT
               таков ADJ|Degree=Pos|Gender=Masc|Number=Sing|Variant=Short
           авторский ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
               вывод NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
              слегка ADV|Degree=Pos
 непоследовательного VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
                   , PUNCT
                  но CCONJ
         всесторонне ADV|Degree=Pos
     примечательного ADJ|Case=Gen|Degree=Pos|Gender=Masc|Number=Sing
              фильма NOUN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
                   « PUNCT
            Проксима NOU

Тут уже из-за омонимии были допущены ошибки в роде слов. У слова "покорение" определился женский род вместо среднего, из-за того, что оно связано с подлежащим "одна" и парсер из-за омонимии принимает "покорение" за сказуемое.
```
rnnmorph:
<normal_form=покорение; word=покорением; pos=NOUN; tag=Case=Ins|Gender=Neut|Number=Sing; score=0.9999>
VS
slovnet:
покорением NOUN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
```

In [51]:
sentence = '«Кто-нибудь видел мою девчонку» именно по этой траектории и развивается. Как эстетически, так и этически.'
print(sentence)
slovnet_pipeline(sentence, morph)

«Кто-нибудь видел мою девчонку» именно по этой траектории и развивается. Как эстетически, так и этически.
                   « PUNCT
          Кто-нибудь PRON|Case=Nom
               видел VERB|Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
                 мою DET|Case=Acc|Gender=Fem|Number=Sing
            девчонку VERB|Aspect=Perf|Case=Acc|Gender=Fem|Number=Sing|Tense=Past|VerbForm=Part|Voice=Act
                   » PUNCT
              именно PART
                  по ADP
                этой DET|Case=Dat|Gender=Fem|Number=Sing
          траектории NOUN|Animacy=Inan|Case=Dat|Gender=Fem|Number=Sing
                   и PART
         развивается VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Mid
                   . PUNCT
                 Как SCONJ
         эстетически ADJ|Degree=Pos|Gender=Neut|Number=Sing|Variant=Short
                   , PUNCT
                 так ADV|Degree=Pos
                   и PART
            этич

Здесь уже из-за омонимии была допущена ошибка в слове "эстетически" которое было разобрано как прилагательное. 
```
rnnmorph:
<normal_form=эстетически; word=эстетически; pos=ADV; tag=Degree=Pos; score=0.9834>
VS
slovnet:
эстетически ADJ|Degree=Pos|Gender=Neut|Number=Sing|Variant=Short
```

Но **Вигго Мортенсен** явно другой. **Он** вообще-то лицедей по совместительству. А так **поэт**, **художник**, **фотограф**, **куратор**, **полиглот**. **Символ** мультикультурализма и интерсекционализма. Внутри **Вигго**, как в **его** любимом Нью-Йорке, встречаются все семь искусств, чтобы фонтанировать без перебоя. **Его** режиссерский дебют «Падение», наверное, личная история с элементами автобиографии, но, как иногда случается у людей тонкой душевной конструкции, личное попало в глобальное, отразило дух времени, запечатлело уходящую эпоху.

In [52]:
sentence = 'Но Вигго Мортенсен явно другой. Он вообще-то лицедей по совместительству. А так поэт, художник, фотограф, куратор, полиглот. Символ мультикультурализма и интерсекционализма. Внутри Вигго, как в его любимом Нью-Йорке, встречаются все семь искусств, чтобы фонтанировать без перебоя. Его режиссерский дебют «Падение», наверное, личная история с элементами автобиографии, но, как иногда случается у людей тонкой душевной конструкции, личное попало в глобальное, отразило дух времени, запечатлело уходящую эпоху.'
print(sentence)
slovnet_pipeline(sentence, morph)

Но Вигго Мортенсен явно другой. Он вообще-то лицедей по совместительству. А так поэт, художник, фотограф, куратор, полиглот. Символ мультикультурализма и интерсекционализма. Внутри Вигго, как в его любимом Нью-Йорке, встречаются все семь искусств, чтобы фонтанировать без перебоя. Его режиссерский дебют «Падение», наверное, личная история с элементами автобиографии, но, как иногда случается у людей тонкой душевной конструкции, личное попало в глобальное, отразило дух времени, запечатлело уходящую эпоху.
                  Но CCONJ
               Вигго PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
           Мортенсен PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
                явно ADV|Degree=Pos
              другой ADJ|Case=Ins|Degree=Pos|Gender=Fem|Number=Sing
                   . PUNCT
                  Он PRON|Case=Nom|Gender=Masc|Number=Sing|Person=3
           вообще-то ADV|Degree=Pos
             лицедей VERB|Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|Ver

Тут также не замечено никаких ошибок. Причем имя "Вигго" распарсилось правильно. 
```
rnnmorph:
<normal_form=вигй; word=Вигго; pos=ADJ; tag=Case=Acc|Degree=Pos|Gender=Masc|Number=Sing; score=0.5005>
VS
slovnet:
Вигго PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
```

**Персонаж** Майлса Теллера — это типичный религиозный аскет. В Испании **он** стал бы монахом, в России сектантом, хлыстом (прекрасная рифма к названию фильма!), а в протестантской Америке оказался почему-то барабанщиком. По ходу фильма **он** отказывается от мирских привязанностей, семейных, любовных, дружеских связей, добровольно проходит через чудовищные унижения и муки и терпит сокрушительное поражение, которое в финале, разумеется, оборачивается немыслимым триумфом. Беда в том, что Бога в **его** мире нет, и все что **он** делает, **он** делает не во Славу Божию.

In [53]:
sentence = 'Персонаж Майлса Теллера — это типичный религиозный аскет. В Испании он стал бы монахом, в России сектантом, хлыстом (прекрасная рифма к названию фильма!), а в протестантской Америке оказался почему-то барабанщиком. По ходу фильма он отказывается от мирских привязанностей, семейных, любовных, дружеских связей, добровольно проходит через чудовищные унижения и муки и терпит сокрушительное поражение, которое в финале, разумеется, оборачивается немыслимым триумфом. Беда в том, что Бога в его мире нет, и все что он делает, он делает не во Славу Божию.'
print(sentence)
slovnet_pipeline(sentence, morph)

Персонаж Майлса Теллера — это типичный религиозный аскет. В Испании он стал бы монахом, в России сектантом, хлыстом (прекрасная рифма к названию фильма!), а в протестантской Америке оказался почему-то барабанщиком. По ходу фильма он отказывается от мирских привязанностей, семейных, любовных, дружеских связей, добровольно проходит через чудовищные унижения и муки и терпит сокрушительное поражение, которое в финале, разумеется, оборачивается немыслимым триумфом. Беда в том, что Бога в его мире нет, и все что он делает, он делает не во Славу Божию.
            Персонаж NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
              Майлса PROPN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing
             Теллера PROPN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Sing
                   — PUNCT
                 это PART
            типичный ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
         религиозный ADJ|Case=Nom|Degree=Pos|Gender=Masc|Number=Sing
               аскет NOUN|Animacy=Inan|

Здесь снова не замечено ошибок, за исключением незначительных.
```
rnnmorph:
Божию PROPN|Animacy=Anim|Case=Dat|Gender=Masc|Number=Sing
VS
slovnet:
<normal_form=божий; word=Божию; pos=ADJ; tag=Case=Acc|Degree=Pos|Gender=Fem|Number=Sing; score=0.8375>
```

## Выводы

Можно сделать слудеющие выводы из проведенного исслкдования: 
1. Существует множество решений для морфологического анализа русского языка, которые делятся на 3 основные группы: статистические-словарные, нейросетевые и гибридные. Мы рассмотрели 2 лучших решения: rnnmorph и slovnet.
2. RNNmorph основан на рекуррентных нейронных сетях и использует словарь под капотом для избежания галлюцинаций. Это помогает ему лемматизировать слова и обрабатывать слова, не встречающиеся в обучющейся выборке. RNNMorph умеет обрабатывать эллипсисы и рефференциальные цепочки. Но тем не менее он не справляется с некоторыми именами собственными, составными словами и иностранными словами.
3. SlovNet основан исключительно на BERT архитектуре без использования словаря, и поэтому не имеет функционала лемматизации. Но он справляется с именами собственными, составными словами и иностранными словами. В отличие от rnnmorph, slovnet уже имеет проблемы с обработкой эллипсисов на этапе расставления родов слов. 
4. Я не смог найти в open-source гибридного подхода с использованием словарей и BERT. Кажется это было бы наиболее оптимальным. 
5. Также мне кажется, что с задачей лемматизацией неплохо будут справляться GPT подобные генеративные модели. Так что на данный момент идеальное решение еще не имплементировано.