<a href="https://colab.research.google.com/github/samsonov4k/hello/blob/main/notebooks/Python_9_pymorphy%2C_mystem.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Лемматизация, морф.анализ

Важно!

Для установки на домашний компьютер самый простой вариант - **pymorphy3**

**pymystem3** уже лет 10 не могут адаптировать для Windows: он работает, но слишком медленно

Мы также воспользуемся **spaCy** - там отличные языковые модельки, большой выбор языков, но spaCy всегда отстает от обновлений Python

In [None]:
!pip install pymorphy3
!pip install pymystem3
# для VS Code - через %

In [None]:
# все импорты...

import nltk
from nltk.tokenize import word_tokenize
# from nltk import download # для Colab
# download('punkt_tab')
# download('stopwords')
from nltk.corpus import stopwords
stop_words = stopwords.words('russian')

from collections import Counter

import pymorphy3
from pymorphy3 import MorphAnalyzer
morph = MorphAnalyzer()

from pymystem3 import Mystem
mystem = Mystem()

Для русского основых лемматизатора два: Pymorphy и Mystem.

## PyMorphy3 (2)

Очень популярный и простой инструмент для лемматизации русского языка

In [None]:
# !pip install pymorphy3

In [None]:
# from pymorphy3 import MorphAnalyzer
# morph = MorphAnalyzer()

### основная функция - parse()
     
Она будет похожа на analyze в mystem, возвращает список объектов Parse

Первый в списке - самый вероятный разбор (у каждого есть score)

Грамматическая информация хранится в объекте OpencorporaTag и из него удобно доставать

In [None]:
morph.parse('человек')

Документация [здесь](https://pymorphy2.readthedocs.io/en/stable/user/guide.html#id3), обозначения для граммем [здесь](https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html#grammeme-docs)

In [None]:
# сделаем красиво
print('Cлово - ', morph.parse('человеком')[0].word)
print('Лемма слова - ', morph.parse('человеком')[0].normal_form)
print('Грамматическая информация слова - ', morph.parse('человеком')[0].tag)
print('Часть речи слова - ', morph.parse('человеком')[0].tag.POS)
print('Род слова - ', morph.parse('человеком')[0].tag.gender)
print('Число слова - ', morph.parse('человеком')[0].tag.number)
print('Падеж слова - ', morph.parse('человеком')[0].tag.case)

In [None]:
# для лемматизации нужна именно эта команда
morph.parse('человеком')[0].normal_form

Давайте возьмем Сэлинджера...

Увы! pymorphy не умеет токенизировать, поэтому...

In [None]:
# препроцессинг в 1 функцию (старая функция)
def clean_text(text):
  text_list_nltk = word_tokenize(text.lower()) # токенизация
  text_clean = [word for word in text_list_nltk if word not in stop_words and word[0].isalpha()] # чистим от стоп-слов и пунктуации
  return text_clean

with open('bananafish.txt', 'r', encoding='utf-8') as file:
  bananafish = file.read()
bananafish_tokens = clean_text(bananafish)
bananafish_tokens

In [None]:
words_lemmatized = []
for word in bananafish_tokens:
    result = morph.parse(word)
    most_probable_result = result[0] ## почему мы берем первый разбор? см.в этом месте: https://pymorphy2.readthedocs.io/en/latest/user/guide.html#select-correct
    normal_form = most_probable_result.normal_form
    words_lemmatized.append(normal_form)

    # или покороче, все в одну строку:
    # words_lemmatized.append(morph.parse(word)[0].normal_form)

words_lemmatized

In [None]:
from collections import Counter

Counter(words_lemmatized).most_common(10)

In [None]:
import nltk

freq_bigramms = Counter(nltk.bigrams(words_lemmatized))
freq_bigramms.most_common(10)

### Задание

Соберите лемматизацию pymorphy в одну функцию

In [None]:
def lemm_pymorphy(text):
  text_list_nltk = word_tokenize(text.lower()) # токенизация
  text_clean = [word for word in text_list_nltk if word not in stop_words and word[0].isalpha()] # чистим от стоп-слов и пунктуации
  # ваш код
  return

# проверьте ее
lemm_pymorphy(bananafish)[:10] # посмотрим на первые 10 лемм

## Лемматизатор MyStem

Сравнительная точность pymorphy и mystem для русского языка [здесь](http://web-corpora.net/wsgi/mystemplus.wsgi/mystemplus/compare_table/)


In [None]:
# !pip install pymystem3

In [None]:
# from pymystem3 import Mystem
# mystem = Mystem()

In [None]:
mystem.lemmatize('mystem даже сам! Умеет токенизировать текст')

In [None]:
words_lemmatized_mystem = mystem.lemmatize(bananafish)
words_lemmatized_mystem

In [None]:
from collections import Counter

Counter(words_lemmatized_mystem).most_common(10)

### Задание

In [None]:
# что-то пошло не так, как поправить?
# исправьте код с помощью цикла for + if так, чтобы отсеять пунктуацию

result = []
for i in # продолжите программу
  if

In [None]:
# снова найдите частотные слова
Counter(result).most_common(10)

А теперь снова соберем лемматизацию от MyStem в одну функцию (помните, что токенизация не нужна - MyStem токенизирует сам):

In [None]:
def lemm_mystem(text):


# проверьте ее
lemm_mystem(bananafish)[:10] # посмотрим на первые 10 лемм

### морф. анализ в MyStem

In [None]:
sometext = "Задача NLI важна для компьютерных лингвистов"
analyzed = mystem.analyze(sometext)
print(analyzed)

In [None]:
# возвращает список словарей
# каждый словарь имеет либо одно поле 'text' (когда попался пробел) или text и analysis
# в analysis снова список словарей с вариантами разбора (первый самый вероятный)
# wt - вес, увереность в правильности
# 'gr' - грамматическая информация, 'lex' - лемма
# analysis - может быть пустым списком

print('Слово - ', analyzed[0]['text'])
print('Разбор слова - ', analyzed[0]['analysis'][0])
print('Лемма слова - ', analyzed[0]['analysis'][0]['lex'])
print('Грамматическая информация слова - ', analyzed[0]['analysis'][0]['gr'])

In [None]:
for word in mystem.analyze(sometext):
  if word.get('analysis'):
    print(word['analysis'][0]['lex'])

# [word['analysis'][0]['lex'] for word in mystem.analyze(sometext) if word.get('analysis')]

## Библиотека spaCy

У нее отличный набор языков! Позже вы еще будете использовать ее для синтаксиса (на компьютерной лингвистике)

Тем не менее, русский язык лучше лемматизировать специальными библиотеками для него! Результат у spaCy будет хуже

Установка [здесь](https://spacy.io/usage/models#quickstart) (в том числе, для разных языков)

In [None]:
!python -m spacy download ru_core_news_sm
import spacy
nlp = spacy.load("ru_core_news_sm")
import ru_core_news_sm
nlp = ru_core_news_sm.load()

Документация лемматизатора [здесь](https://spacy.io/api/lemmatizer)

Морф. анализ [здесь](https://spacy.io/api/morphologizer)

In [None]:
# передаем текст в модель spaCy
doc = nlp("Здесь пример текста на русском")

In [None]:
for w in doc:
  print('Слово -', w.text)
  print('Часть речи -', w.pos_)
  print('Разбор слова -', w.morph)
  print('Лемма -', w.lemma_)
  print()

In [None]:
words_lemmatized_spacy = []
doc = nlp(bananafish.lower())
for word in doc:
  lem = word.lemma_
  if lem not in stop_words and lem[0].isalpha():
    words_lemmatized_spacy.append(lem)

Counter(words_lemmatized_spacy).most_common(10)

Соберем лемматизацию spaCy в одну функцию

In [None]:
def lemm_spacy(text):


# проверьте ее
lemm_spacy(bananafish)[:10] # посмотрим на первые 10 лемм

Ответы для всех функций, которые мы собирали выше :

In [None]:
# @title

def lemm_pymorphy(text):
  text_list_nltk = word_tokenize(text.lower())
  text_clean = [word for word in text_list_nltk if word not in stop_words and word[0].isalpha()]
  lemm = [morph.parse(word)[0].normal_form for word in text_clean]
  return lemm

def lemm_mystem(text):
  lemm = mystem.lemmatize(text)
  lemm_clean = [word for word in lemm if word not in stop_words and word[0].isalpha()]
  return lemm_clean

def lemm_spacy(text):
  doc = nlp(text.lower())
  lem_list = [word.lemma_ for word in doc if word.lemma_ not in stop_words and word.lemma_[0].isalpha()]
  return lem_list

## Задание 2

Омонимия

In [None]:
# омонимия
homonym1 = 'За время обучения я прослушал больше сорока курсов.'
homonym2 = 'Сорока своровала блестящее украшение со стола.'

перед вами два предложения с омонимами: лемматизируйте их через pymorphy, mystem, spaCy

In [None]:
# pymorphy


In [None]:
# mystem


In [None]:
# spaCy


лемматизируйте через pymorphy, mystem, spaCy

In [None]:
text = 'Гуляя в мужской парке по парку им.Карима Тинчурина в Казане, я увидел много белок. Я кармил их куриными яичками, но они не ели белок.'

In [None]:
# pymorphy


In [None]:
# mystem


In [None]:
# spaCy


In [None]:
text = '''Варкалось. Хливкие шорьки
Пырялись по наве,
И хрюкотали зелюки,
Как мюмзики в мове.

О, бойся Бармаглота, сын!
Он так свирлеп и дик!
А в глу́ше ры́мит исполин —
Злопастный Брандашмыг!

Но взял он меч, и взял он щит,
Высоких полон дум.
В глущобу путь его лежит
Под дерево Тумтум.

Он стал под дерево и ждёт.
И вдруг граахнул гром —
Летит ужасный Бармаглот
И пылкает огнём!

Раз-два, раз-два! Горит трава,
Взы-взы — стрижает меч,
Ува! Ува! И голова
Барабардает с плеч!

О светозарный мальчик мой!
Ты победил в бою!
О храброславленный герой,
Хвалу тебе пою!

Варкалось. Хливкие шорьки
Пырялись по наве.
И хрюкотали зелюки,
Как мюмзики в мове.'''

In [None]:
# pymorhy


In [None]:
# mystem


In [None]:
# spaCy


Существуют и другие библиотеки для лемматизации

русский язык:

- [RNNmorph](https://github.com/IlyaGusev/rnnmorph)
- [deeppavlov](http://docs.deeppavlov.ai/en/master/)

другие языки:
- [UralicNLP](https://github.com/mikahama/uralicNLP)
- [hfst от Apertium](https://wiki.apertium.org/wiki/Hfst)
- [Stanza](https://stanfordnlp.github.io/stanza/)
- [Trankit](https://trankit.readthedocs.io/en/latest/posdep.html)

### Маленькое доп. задание для тех, кто плохо разобрался

Предобработайте текст, который находится в переменной text, выполнив следующие этапы:

* Токенизация
* Приведение к нижнему регистру
* Удаление пунктуации
* Удаление стоп-слов
* Лемматизация

Многие действия вы умеете выполнять разными способами, выполните эти шаги так, как удобно вам

В конце у вас должен получиться список, содержащий слова из текста, в удобном для дальнейшей работы формате.



In [None]:
text = """По результатам оценки критериев вузам присвоили один из рейтинговых статусов. Высшая школа экономики вошла в лидерскую группу А+, заняв первое место по таким критериям, как «Востребованность выпускников в найме», «Качество образовательной среды» и «Активность по развитию школьного образования».
Презентация рейтинга прошла в Москве на международной конференции AI Journey 2023. Один из основных критериев оценки вузов при расчете рейтинга — размер заработной платы молодых специалистов в течение года после завершения обучения (при трудоустройстве по специальности). В вузах-лидерах рейтинга средняя зарплата выпускников составила около 140 тыс. рублей.
В НИУ ВШЭ с 2021 года действует Центр искусственного интеллекта. Миссия Центра развитие и внедрение технологий искусственного интеллекта в разные сферы жизни человека и общества, отрасли науки и сектора экономики. НИУ ВШЭ стал одним из победителей конкурса на получение гранта от Правительства Российской Федерации для создания центра искусственного интеллекта.
Конкурс проводился в рамках федерального проекта «Искусственный интеллект», основная задача которого — стимулирование развития и внедрения технологий ИИ в России.
«По поручению главы государства Альянс в сфере ИИ совместно с Минобрнауки разработали рейтинг российских вузов по качеству подготовки специалистов по ИИ. Рейтинг является важнейшим индикатором качества образования в области ИИ и наглядно отражает мнение работодателей о том, насколько образовательные программы актуальны и отвечают запросу рынка. Среди 180 вузов, оказавшихся в рейтинге, 10 имеют оценки А+, А (хорошее качество) B+, B (приемлемое качество).
Абсолютные лидеры — это ВШЭ, МФТИ и ИТМО. Таким образом, ТОП-10 российских университетов уже могут конкурировать за звание лучших, а значит готовят высококвалифицированных специалистов и успешно развивают науку в области искусственного интеллекта», — отметил Дмитрий Чернышенко, заместитель председателя Правительства России, куратор нацпрограммы «Цифровая экономика».
Для объективной оценки качества специалистов по ИИ эксперты выделили 13 критериев, включая такие аспекты, как уровень заработных плат выпускников, их востребованность на рынке труда, наличие научных публикаций на конференциях и в журналах, количество призеров студенческих олимпиад, средний балл по ЕГЭ, и наличие программ, прошедших профессионально-общественную аккредитацию со стороны Альянса."""

In [None]:
# Приведение к нижнему регистру


In [None]:
# Токенизация


In [None]:
# Удаление пунктуации


In [None]:
# Удаление стоп-слов


In [None]:
# Лемматизация


In [None]:
# Теперь можете еще раз собрать результат в функцию



