### Стемминг

In [None]:
from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("russian")

text = "был тихий серый вечер дул ветер слабый и тёплый небо было покрыто тучами"
for word in text.split():
    print(stemmer.stem(word))

### Проблемы стемминга:

In [None]:
# чередование в основах
print(stemmer.stem("ветер"))
print(stemmer.stem("ветра"))

In [None]:
# омонимия основ
print(stemmer.stem("банком"))
print(stemmer.stem("банкой"))

In [None]:
# супплетивизм
print(stemmer.stem("человек"))
print(stemmer.stem("люди"))

### Лемматизация

In [None]:
import pymorphy2 as pymorphy
# import pymorphy3 as pymorphy
morph = pymorphy.MorphAnalyzer()

In [None]:
for word in text.split():
    print(morph.parse(word)[0].normal_form)

Проверим проблемные места:

In [None]:
print(morph.parse("ветер")[0].normal_form)
print(morph.parse("ветра")[0].normal_form)

In [None]:
print(morph.parse("банком")[0].normal_form)
print(morph.parse("банкой")[0].normal_form)

In [None]:
print(morph.parse("человек")[0].normal_form)
print(morph.parse("люди")[0].normal_form)

### Морфологический анализ

https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html

В pymoprhy используются граммемы OpenCorpora с небольшими изменениями:

https://opencorpora.org/dict.php?act=gram

In [None]:
for word in text.split():
    print(morph.parse(word)[0])

In [17]:
parsres = morph.parse("тихий")
parsres

[Parse(word='тихий', tag=OpencorporaTag('ADJF,Qual inan,masc,sing,accs'), normal_form='тихий', score=0.666666, methods_stack=((DictionaryAnalyzer(), 'тихий', 738, 4),)),
 Parse(word='тихий', tag=OpencorporaTag('ADJF,Qual masc,sing,nomn'), normal_form='тихий', score=0.333333, methods_stack=((DictionaryAnalyzer(), 'тихий', 738, 0),))]

In [34]:
parsres = morph.parse("курдячит")
parsres

[Parse(word='курдячит', tag=OpencorporaTag('VERB,impf,intr sing,3per,pres,indc'), normal_form='курдячать', score=0.5384615384615384, methods_stack=((DictionaryAnalyzer(), 'ячит', 564, 5), (UnknownPrefixAnalyzer(score_multiplier=0.5), 'курд'))),
 Parse(word='курдячит', tag=OpencorporaTag('VERB,impf,intr sing,3per,pres,indc'), normal_form='курдячить', score=0.23076923076923075, methods_stack=((FakeDictionary(), 'курдячит', 371, 5), (KnownSuffixAnalyzer(min_word_length=4, score_multiplier=0.5), 'ячит'))),
 Parse(word='курдячит', tag=OpencorporaTag('VERB,perf,intr sing,3per,futr,indc'), normal_form='курдячить', score=0.23076923076923075, methods_stack=((FakeDictionary(), 'курдячит', 1551, 9), (KnownSuffixAnalyzer(min_word_length=4, score_multiplier=0.5), 'ячит')))]

In [20]:
[i for i in dir(parsres[0]) if not i.startswith("_")]

['count',
 'index',
 'inflect',
 'is_known',
 'lexeme',
 'make_agree_with_number',
 'methods_stack',
 'normal_form',
 'normalized',
 'score',
 'tag',
 'word']

In [None]:
parsres[0].lexeme

In [24]:
parsres[0].inflect({"femn", "accs"})

Parse(word='тихую', tag=OpencorporaTag('ADJF,Qual femn,sing,accs'), normal_form='тихий', score=1.0, methods_stack=((DictionaryAnalyzer(), 'тихую', 738, 10),))

In [None]:
tag = morph.parse("тихий")[0].tag
print(tag)

ADJF,Qual inan,masc,sing,accs


In [None]:
dir(tag)

In [None]:
print(tag.POS, tag.number, tag.case, tag.gender)

ADJF sing accs masc


### Задание для выполнения в классе

1. Взять любой текст, создать частотный словарь лексем

2. Определить, сколько встретилось существительных каждого рода

3. Создайте алфавитный список всех глаголов. Каждый глагол поставьте в форму первого лица, единственного числа и настоящего времени, если глагол несовершенного вида, и будущего, если он совершенного вида.

### Домашнее задание

Сделать стеммер для кратких и полных прилагательных русского языка. Можно вдохновиться стеммером из nltk:

https://www.nltk.org/_modules/nltk/stem/snowball.html#RussianStemmer

http://snowball.tartarus.org/algorithms/russian/stemmer.html