<a href="https://colab.research.google.com/github/Whereamiactually/lyceumcompling10/blob/main/Morph_analysers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Анализаторы

*   **PyMorphy2** - морфологический анализатор для русского и украинского языков, при работе использует словарь и корпус текстов [OpenCorpora](https://opencorpora.org/), но если слово незнакомое, он строит гипотезу. К сожалению, PyMorphy2 не учитывает контекст, а работает с отдельными словами. В OpenCorpora содержится 391842 лемм (5141279 форм).
*   **MyStem** - морфологический анализатор для русского, польско и английского языков ([разработка Яндекс](https://yandex.ru/dev/mystem/)). При работе учитывает контекст, также умеет строить гипотезы. Более высокая точность, чем у PyMorphy2.
*   **SpaCy** - морфологический анализатор (а еще он умеет работать с именованными сущностями, синтаксическими зависимостями, векторным представлением слов и пр.), который работает с 25+ языками ([сайт проекта](https://spacy.io/)). [Здесь](https://spacy.io/usage/linguistic-features) ссылка на все его NLP функции.



### PyMorphy2

In [1]:
pip install pymorphy2

Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/55.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/8.2 MB[0m [31m61.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: docopt
  Building wheel for docopt (setup.py) ... [?25l[?25hdone
  Created wheel for docopt: filename=docopt-0.6.2-py2.py3-none-any.whl

In [2]:
from pymorphy2 import MorphAnalyzer
morph = MorphAnalyzer()

In [3]:
from pprint import pprint
import string

[Здесь](https://pymorphy2.readthedocs.io/en/stable/) лежит вся документация по работе с PyMorphy2, [здесь](https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html) - обозначения для частей речи и некоторых других морфологических характеристик слова (падеж, число, род) и то, как их вынуть из морф. разбора, а [здесь](https://opencorpora.org/dict.php?act=gram) - список всех морфологических характеристик слова.

* `word` содержит полученное анализатором слово,
* `tag` содержит морф. характеристики слова,
* `normal_form` содержит лемму (начальную форму) слова,
* `score` содержит вероятность именно этого морф. разбора для заданного слова (определяется по частоте встречаемости слова с такими морф. характеристиками),
* `methods_stack` содержит информацию о том, с помощью чего было проанализировано это слово. Если слово нашлось в словаре, то у этого атрибута будет значение `DictionaryAnalyzer()` (**"словарный анализатор"**), если не нашлось, то анализатор может попытаться почленить слово и выделить в нем знакомый для него суффикс, тогда у этого атрибута будет значение `KnownSuffixAnalyzer()` (**"анализатор известных суффиксов"**). Если же ни слово, ни суффикс не будут знакомы анализатору, то у этого атрибута будет значение `FakeDictionary()` (**"фейковый словарь"**).

In [6]:
morph.parse('яблок')

[Parse(word='яблок', tag=OpencorporaTag('NOUN,inan,neut plur,gent'), normal_form='яблоко', score=1.0, methods_stack=((DictionaryAnalyzer(), 'яблок', 583, 7),))]

In [None]:
morph.parse('яблоков')

In [None]:
morph.parse('стол')

In [None]:
morph.parse('финтифлюшки')

In [None]:
morph.parse('водомотодельтаплан')

In [None]:
morph.parse('бутявковедами')

Регистр не играет роли.

In [None]:
morph.parse('КрАсОтА')

Если мы хотим морфологический разбор для всех слов в предложении, то нам надо пройтись по каждому слову по отдельности.

In [None]:
sentence = "Я лгал; но мне хотелось его побесить. У меня врожденная страсть противоречить."
for word in sentence.split():
  print(word.strip(string.punctuation))
  pprint(morph.parse(word.strip(string.punctuation)))

In [None]:
strange_sentence = "Глокая куздра штеко будланула бокра и курдячит бокрёнка."
for word in strange_sentence.split():
  print(word.strip(string.punctuation))
  pprint(morph.parse(word.strip(string.punctuation)))

Можем отдельно вытащить словоформу, ее разбор и лемму.

In [None]:
for word in sentence.split():
  parser = morph.parse(word.strip(string.punctuation))[0] # самый первый разбор самый вероятный
  print(word.strip(string.punctuation), ':', parser.normal_form, ':', parser.tag, sep = ' ')

In [None]:
for word in strange_sentence.split():
  parser = morph.parse(word.strip(string.punctuation))[0]
  print(word.strip(string.punctuation), ':', parser.normal_form, ':', parser.tag, sep = ' ')

Мы можем также склонять или спрягать разные слова (даже если они анализатору неизвестны).

In [None]:
kvakat = morph.parse('квакала')[0]
print(kvakat.inflect({'plur'}))
print(kvakat.inflect({'plur', 'pres'}))
print(kvakat.inflect({'pres'}))
print(kvakat.inflect({'past', 'masc'}))

In [None]:
ship = morph.parse('корабль')[0]
print(ship)
print(ship.inflect({'plur','ablt'}))
print(ship.inflect({'plur','nomn'}))

In [None]:
kurd = morph.parse('курдячит')[0]
print(kurd.inflect({'plur'}))
print(kurd.inflect({'plur', 'past'}))
print(kurd.inflect({'past'}))
print(kurd.inflect({'past', 'femn'}))

Можем попросить выдать нам все возможные формы лексемы.

In [None]:
for lexeme in kurd.lexeme:
  print(lexeme.word)

Также есть очень удобная функция, которая ставит слово в нужную форму в зависимости от числительного.

In [None]:
apple = morph.parse('яблоко')[0]
print(apple.make_agree_with_number(1).word)
print(apple.make_agree_with_number(3).word)
print(apple.make_agree_with_number(4).word)
print(apple.make_agree_with_number(5).word)
print(apple.make_agree_with_number(21).word)

Мы можем проверять, есть ли в теге нужная нам граммема.

In [None]:
print('VERB' in apple.tag) # является ли слово глаголом
print('NOUN' in apple.tag) # является ли слово существительным
print({'plur', 'past'} in apple.tag) # стоит ли слово в прошедшем времени и множественном числе
print({'NOUN', 'sing'} in apple.tag) # является ли слово существительным единственного числа

In [None]:
crash = morph.parse('сломал')[0]
crash

Мы можем вытягивать отдельные морфологические характеристики слова.

In [None]:
print('Часть речь:', crash.tag.POS) # часть речи
print('Одушевленность:', apple.tag.animacy) # одушевленность
print('Вид:', crash.tag.aspect) # вид (соверешенный, несовершенный)
print('Падеж:', apple.tag.case) # падеж
print('Род:', apple.tag.gender) # род (мужской, женский, средний)
print('Включенность говорящего в действие:', crash.tag.involvement) # включенность говорящего в действие
print('Наклонение:', crash.tag.mood) # наклонение (повелительное, изъявительное)
print('Число:', apple.tag.number) # число (единственное, множественное)
print('Лицо:', crash.tag.person) # лицо (1, 2, 3)
print('Время:', crash.tag.tense) # время (настоящее, прошедшее, будущее)
print('Переходность:', crash.tag.transitivity) # переходность (переходный, непереходный)
print('Залог:', crash.tag.voice) # залог (действительный, страдательный)

### MyStem

In [None]:
from pymystem3 import Mystem
m = Mystem()

Мы можем лемматизировать предложение.

In [None]:
lemmas = m.lemmatize(sentence)
lemmas

В отличие от PyMorphy2, MyStem может сделать морфологические разбор целого предложения, ему даже *нужно* целое предложение, чтобы сделать разбор.

MyStem работает более точно, потому что он ориентируется на контекст. Кроме того, как можно заметить, он предлагает лишь один разбор для каждого слова (что логично, так как он ориентируется на контекст).

[Здесь](https://yandex.ru/dev/mystem/doc/ru/grammemes-values) лежит список использующихся условных сокращений для разных морфологических характеристик слов.

* `gr` содержит морф. разбор,
* `lex` содержит лемму слова,
* `wt` содержит вероятность именно такого разбора в данном контексте.

In [None]:
analysis = m.analyze(sentence)
pprint(analysis)

До знака равенства находятся "врожденные характеристики" слова. Например, род для существительного - это неизменяемая врожденная характериситка, тогда как род для прилагательного - изменяемая (соответственно, находится после занка равенства).

In [None]:
for word in analysis:
    if 'analysis' in word:
        gr = word['analysis'][0]['gr'] # берем морф. разбор из 'analysis'
        pos = gr.split('=')[0].split(',')[0] # берем первый элемент списка (часть речи)
        print(word['text'], pos)

Если предложение состоит полностью из неизвестных слов, от качество анализа заметно хуже. Оно и не мудрено. `bastard` означает, что слово не нашлось в словаре.

In [None]:
analysis = m.analyze(strange_sentence)
pprint(analysis)

In [None]:
analysis = m.analyze('Кажется, Порфирий Петрович шлёпнулся на землю около озера Байкал.')
pprint(analysis)

### SpaCy

Мы уже смотрели на эту библиотеку при знакомстве с распознаванием именованных сущностей. Теперь посмотрим, что она умеет еще.

In [None]:
import spacy
nlp_en = spacy.load("en_core_web_sm") # "sm" означает маленький

In [None]:
text_en = "Colorless green ideas sleep furiously."
doc = nlp_en(text_en)
for token in doc:
   print([token.lemma_, token.pos_, token.morph])

Про каждое слово мы можем узнать очень много информации:

* `text`: исходное слово,
* `lemma`: лемма,
* `POS`: "простая" часть речи (местоимение, глагол, ...),
* `tag`: "уточненная" часть речи (деепричастие, причастие, ...),
* `dep`: синтаксические связи между словами в предложении,
* `shape`: вид слова (заглавные буквы, пунктуация, цифры),
* `is alpha`: состоит ли слово только из букв,
* `is stop`: является ли слово стоп-словом.

In [None]:
!python -m spacy download ru_core_news_sm # нужно загрузить для работы с языками, отличными от английского

In [None]:
nlp_rus = spacy.load("ru_core_news_sm")

In [None]:
doc = nlp_rus(sentence)
for token in doc:
  print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
        token.shape_, token.is_alpha, token.is_stop)

In [None]:
text_rus = "Делая это задание, я НиЧеГо не п0нимаю."
doc = nlp_rus(text_rus)
for token in doc:
  print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,
        token.shape_, token.is_alpha, token.is_stop)

Как видно, разбор для русского языка более богатый, что связано с морфологическими особенностями английского языка.

SpaCy также, помимо всего прочего, может делить на предложения.

In [None]:
doc = nlp_rus("Это предложение. И это предложение!!!")
for sent in doc.sents:
    print(sent.text)

Из токенов он может собирать обратно целое предложение.


In [None]:
print("До:", [token.text for token in doc])

with doc.retokenize() as retokenizer:
    retokenizer.merge(doc[3:8])
print("После:", [token.text for token in doc])

Ещё крутая функция: можно сравнивать предложения или тексты между собой.

In [None]:
!python -m spacy download ru_core_news_md # надо загрузить корпус побольше

In [71]:
nlp_rus_md = spacy.load("ru_core_news_md") # чтобы сравнивать тексты, нам нужны вектора слов, а они есть только в среднем или крупном корпусе

In [None]:
!python -m spacy download ru_core_news_lg # еще побольше (весит аж почти 500 мегабайт)

In [77]:
nlp_rus_lg = spacy.load("ru_core_news_lg")

In [None]:
search_doc = nlp_rus_lg("Я очень хочу сходить в Большой Театр на оперу, только вот не знаю, позволит ли мне работа.")
main_doc = nlp_rus_lg("В Большом Театре в следующие выходные будет грандиозное событие - будут выступать оперные певцы из Италии.")
print(main_doc.similarity(search_doc))

Для более точного сравнения нам мешают стоп-слова. Уберем их. А так как каждое слова размечается по этому признаку, то убрать их будет довольно легко.

Добавляем слово в список, только если оно не является стоп-словом. Затем из списка снова делаем строку с помощью метода `' '.join()`. Затем снова парсим получившуюся строку без стоп-слов.

In [None]:
search_doc_no_stop_words = nlp_rus_lg(' '.join([str(t) for t in search_doc if not t.is_stop]))
main_doc_no_stop_words = nlp_rus_lg(' '.join([str(t) for t in main_doc if not t.is_stop]))

print(search_doc_no_stop_words.similarity(main_doc_no_stop_words))

У SpaCy есть готовый pipeline (цепочка действий (функций) для получения конкретного результата) для тренировки вашего собственного анализатора на ваших размеченных данных (но, кажется, доступ там платный). Для этого нужно очень много размеченного материала, но можно попробовать сделать для языков с малым количеством носителей.

# Домашка

Можете делать домашку, где хотите. Её можно прислать через эту [форму](https://forms.gle/Mwvg8BGANvNYePnq5) в формате .py или .ipynb (либо ссылкой на тетрадку, но тогда не забудьте дать доступ). Дедлайн домашки: 20.11.2023 23:59.

### Неправильный морфологический разбор

Придумайте такое предложение, для которого PyMorphy2 делает неправильный разбор, и напишите, почему он делает такую ошибку.



In [None]:
# ваш код здесь

Исправляет ли эту ошибку MyStem? Почему?

In [None]:
# ваш код здесь

Выведите часть речь для каждого слова в этом предложении, также выведите, является ли каждое слово стоп-словом.

In [None]:
# ваш код здесь