## Морфология
#### План семинара:

1. Mystem
2. Pymorphy
3. NLTK
4. SpaCy


Нужные пакеты для этого семинара:

```python
pip install pymystem3
pip install pymorphy2
pip install nltk
pip install spacy
```

Если вы хотите побыстрее и у вас Linux или Mac

``pip install pymorphy2[fast]``

Если вы работаете с Python версии 3.11+, то устанавливайте `pymorphy3`. Это то же самое, но поддерживаются более новые версии Python. Если вы работаете в Google Colab, то он на версии 3.10.

```python
!pip install pymorphy3 --q

from pymorphy3 import MorphAnalyzer
```



### Mystem

Mystem $-$ это свободно распространяемый морфологический анализатор для русского языка с закрытым исходным кодом.

My-stem значит my stemmer, стемминг $-$ это разбиение формы на основу и флексию. На самом деле Mystem может гораздо больше: устанавливать словарную форму слова, определять часть речи и грамматическую форму слова. В последних версиях Mystem умеет и выбирать из нескольких возможных грамматических разборов один, наиболее верный.

У Mystem нет графического оконного интерфейса.

Можно запускать mystem через консоль (см. [документацию](https://yandex.ru/dev/mystem) и про запуск [тут](https://irmn.space/?go=all/lemmatizaciya-zaprosov-v-mystem/)), а можно с помощью специального модуля, **pymystem3**. Это проще и удобнее, потому что с тем, что выдаёт mystem, можно сразу работать как с питоновскими структурами данных. Но медленнее. Иногда гораздо-гораздо медленнее, чем разметить один файл mystem'ом сразу.

In [None]:
!pip install pymystem3 --q

In [None]:
from pymystem3 import Mystem

m_stem = Mystem()

Installing mystem to /root/.local/bin/mystem from http://download.cdn.yandex.net/mystem/mystem-3.1-linux-64bit.tar.gz


Небходимо создать экземпляр класса `Mystem`. У него есть два метода:

* `lemmatize`, возвращающий список лемм,
* `analyze`, возвращающий полные разборы в виде словаря.

Возьмем небольшой текст и опробуем на нем эти два метода:

In [None]:
text = '''Но не становится ли событие тем значительнее и исключительнее,
чем большее число случайностей приводит к нему?
Лишь случайность может предстать перед нами как послание.
Все, что происходит по необходимости, что ожидаемо, что повторяется всякий день, то немо.
Лишь случайность о чем-то говорит нам. Мы стремимся прочесть ее,
как читают цыганки по узорам, начертанным кофейной гущей на дне чашки.'''

In [None]:
lemmas = m_stem.lemmatize(text)
lemmas[10:20]

['тем', ' ', 'значительный', ' ', 'и', ' ', 'исключительный', ',', 'чем', ' ']

Можно собрать лемматизированный текст обратно:

In [None]:
print(''.join(lemmas))

но не становиться ли событие тем значительный и исключительный,чем больший число случайность приводить к он? лишь случайность мочь представать перед мы как послание. все, что происходить по необходимость, что ожидать, что повторяться всякий день, то немо. лишь случайность о что-то говорить мы. мы стремиться прочитывать она, как читать цыганка по узор, начертать кофейный гуща на дно чашка.



In [None]:
from pprint import pprint

In [None]:
ana = m_stem.analyze(text)
pprint(ana[:20])

[{'analysis': [{'gr': 'CONJ=', 'lex': 'но', 'wt': 0.9998906299}], 'text': 'Но'},
 {'text': ' '},
 {'analysis': [{'gr': 'PART=', 'lex': 'не', 'wt': 1}], 'text': 'не'},
 {'text': ' '},
 {'analysis': [{'gr': 'V,нп=непрош,ед,изъяв,3-л,несов',
                'lex': 'становиться',
                'wt': 1}],
  'text': 'становится'},
 {'text': ' '},
 {'analysis': [{'gr': 'PART=', 'lex': 'ли', 'wt': 0.7719288688}], 'text': 'ли'},
 {'text': ' '},
 {'analysis': [{'gr': 'S,сред,неод=(вин,ед|им,ед)', 'lex': 'событие', 'wt': 1}],
  'text': 'событие'},
 {'text': ' '},
 {'analysis': [{'gr': 'CONJ=', 'lex': 'тем', 'wt': 0.0857739759}],
  'text': 'тем'},
 {'text': ' '},
 {'analysis': [{'gr': 'A=срав', 'lex': 'значительный', 'wt': 0.2062520859}],
  'text': 'значительнее'},
 {'text': ' '},
 {'analysis': [{'gr': 'CONJ=', 'lex': 'и', 'wt': 0.9999770357}], 'text': 'и'},
 {'text': ' '},
 {'analysis': [{'gr': 'A=срав', 'lex': 'исключительный', 'wt': 1}],
  'text': 'исключительнее'},
 {'text': ','},
 {'analysi

Разбор для каждого слова является элементом массива:

In [None]:
for word in ana[:20]:
    print(word)

{'analysis': [{'lex': 'но', 'wt': 0.9998906299, 'gr': 'CONJ='}], 'text': 'Но'}
{'text': ' '}
{'analysis': [{'lex': 'не', 'wt': 1, 'gr': 'PART='}], 'text': 'не'}
{'text': ' '}
{'analysis': [{'lex': 'становиться', 'wt': 1, 'gr': 'V,нп=непрош,ед,изъяв,3-л,несов'}], 'text': 'становится'}
{'text': ' '}
{'analysis': [{'lex': 'ли', 'wt': 0.7719288688, 'gr': 'PART='}], 'text': 'ли'}
{'text': ' '}
{'analysis': [{'lex': 'событие', 'wt': 1, 'gr': 'S,сред,неод=(вин,ед|им,ед)'}], 'text': 'событие'}
{'text': ' '}
{'analysis': [{'lex': 'тем', 'wt': 0.0857739759, 'gr': 'CONJ='}], 'text': 'тем'}
{'text': ' '}
{'analysis': [{'lex': 'значительный', 'wt': 0.2062520859, 'gr': 'A=срав'}], 'text': 'значительнее'}
{'text': ' '}
{'analysis': [{'lex': 'и', 'wt': 0.9999770357, 'gr': 'CONJ='}], 'text': 'и'}
{'text': ' '}
{'analysis': [{'lex': 'исключительный', 'wt': 1, 'gr': 'A=срав'}], 'text': 'исключительнее'}
{'text': ','}
{'analysis': [{'lex': 'чем', 'wt': 0.8023791472, 'gr': 'CONJ='}], 'text': 'чем'}
{'text'

В этом разборе в поле `text` можно найти исходное слово, а в поле `analysis` (которого может и не быть) $-$ грамматические характеристики и леммы.

В грамматическом разборе знаком `=` отделяются изменяемые характеристики от неизменяемых. Знаком `|` отделяются омонимичные разборы.

Достанем все части речи:

In [None]:
for word in ana[:20]:
    if 'analysis' in word:
        gr = word['analysis'][0]['gr']
        pos = gr.split('=')[0].split(',')[0]
        print(word['text'], pos)

Но CONJ
не PART
становится V
ли PART
событие S
тем CONJ
значительнее A
и CONJ
исключительнее A
чем CONJ


#### Саммари

**Достоинства Mystem'a:**

- хорошее качество разбора
- по умолчанию разрешается частеречная омонимия (внутри части речи остается)
- при разборе учитывается контекст
- совместим с разметкой НКРЯ

**Недостатки Mystem'a:**

- медленный
- `analyze` возвращает неудобный JSON

### Pymorphy

Может делать то же, что и `pymystem3`, и даже больше: изменять слова в нужную форму (спрягать и склонять). При этом `pymorphy2` справляется и с незнакомыми словами.

[**Документация**](https://pymorphy2.readthedocs.io/en/latest/)

Для работы точно так же надо создать экземпляр класса `MorphAnalyzer`. Рекомендуется создать один экземпляр и дальше с ним и работать, поскольку он занимает достаточно много памяти, и если создать несколько экземпляров анализаторов, то они будут тормозить программу.

In [None]:
!pip install pymorphy2 --q

In [None]:
from pymorphy2 import MorphAnalyzer

morph = MorphAnalyzer()

Разбор слова делается при помощи метода `parse`:

In [None]:
ana = morph.parse('стекла')
ana

[Parse(word='стекла', tag=OpencorporaTag('NOUN,inan,neut sing,gent'), normal_form='стекло', score=0.828282, methods_stack=((DictionaryAnalyzer(), 'стекла', 157, 1),)),
 Parse(word='стёкла', tag=OpencorporaTag('NOUN,inan,neut plur,nomn'), normal_form='стекло', score=0.080808, methods_stack=((DictionaryAnalyzer(), 'стёкла', 157, 6),)),
 Parse(word='стёкла', tag=OpencorporaTag('NOUN,inan,neut plur,accs'), normal_form='стекло', score=0.080808, methods_stack=((DictionaryAnalyzer(), 'стёкла', 157, 9),)),
 Parse(word='стекла', tag=OpencorporaTag('VERB,perf,intr femn,sing,past,indc'), normal_form='стечь', score=0.010101, methods_stack=((DictionaryAnalyzer(), 'стекла', 1015, 2),))]

Как видно, анализатор вернул все возможные разборы этого слова, отранжировав их по вероятности.

У каждого разбора есть атрибуты:
* исходное слово,
* тэг,
* лемма,
* вероятность разбора.

In [None]:
first = ana[0]  # первый разбор
print('Слово:', first.word)
print('Тэг:', first.tag)
print('Лемма:', first.normal_form)
print('Вероятность:', first.score)

Слово: стекла
Тэг: NOUN,inan,neut sing,gent
Лемма: стекло
Вероятность: 0.828282


Для каждого разбора можно получить лемму и всю информацию о ней (т.е. еще один разбор, только уже для леммы):

In [None]:
first.normalized

Parse(word='стекло', tag=OpencorporaTag('NOUN,inan,neut sing,nomn'), normal_form='стекло', score=1.0, methods_stack=((DictionaryAnalyzer(), 'стекло', 157, 0),))

In [None]:
last = ana[-1] # последний разбор
print('Разбор слова: ', last)
print()
print('Разбор леммы: ', last.normalized)

Разбор слова:  Parse(word='стекла', tag=OpencorporaTag('VERB,perf,intr femn,sing,past,indc'), normal_form='стечь', score=0.010101, methods_stack=((DictionaryAnalyzer(), 'стекла', 1015, 2),))

Разбор леммы:  Parse(word='стечь', tag=OpencorporaTag('INFN,perf,intr'), normal_form='стечь', score=1.0, methods_stack=((DictionaryAnalyzer(), 'стечь', 1015, 0),))


Если распечатать тег разбора, то может показаться, что это строка:

In [None]:
first = ana[0]  # первый разбор
print(first.tag)

NOUN,inan,neut sing,gent


Но на самом деле это объект класса `OpencorporaTag`, так что некоторые вещи, которые можно делать со строками, с тэгами делать нельзя. А некоторые все-таки можно.

Например, можно проверить, есть ли какая-то граммема в теге:

In [None]:
'NOUN' in first.tag

True

In [None]:
'VERB' in first.tag

False

In [None]:
{'NOUN', 'inan'} in first.tag

True

Из каждого тега можно достать более дробную информацию. Если граммема есть в разборе, то вернется ее значение, если ее нет, то вернется `None`.

| Граммема                | Значение                                  |
|-------------------------|-------------------------------------------|
| `p.tag.POS`             | Part of Speech, часть речи                |
| `p.tag.animacy`         | одушевленность                            |
| `p.tag.aspect`          | вид: совершенный или несовершенный        |
| `p.tag.case`            | падеж                                     |
| `p.tag.gender`          | род (мужской, женский, средний)           |
| `p.tag.involvement`     | включенность говорящего в действие        |
| `p.tag.mood`            | наклонение (повелительное, изъявительное) |
| `p.tag.number`          | число (единственное, множественное)       |
| `p.tag.person`          | лицо (1, 2, 3)                            |
| `p.tag.tense`           | время (настоящее, прошедшее, будущее)     |
| `p.tag.transitivity`    | переходность (переходный, непереходный)   |
| `p.tag.voice`           | залог (действительный, страдательный)     |
| и др.                   |                                           |

In [None]:
print(last.tag)
print('Время: ', last.tag.tense)
print('Падеж: ', last.tag.case)

VERB,perf,intr femn,sing,past,indc
Время:  past
Падеж:  None


Список граммем, которые используются в модуле, находится [здесь](https://pymorphy2.readthedocs.io/en/latest/user/grammemes.html).

Если искать какую-то граммему, которой нет в этом списке, возникнет ошибка.

Можно получить строку с кириллическими обозначениями граммем:

In [None]:
first.tag.cyr_repr

'СУЩ,неод,ср ед,рд'

**Словоизменение**

Если у нас есть разбор слова, то мы можем это слово поставить в другую форму с помощью функции `inflect`. Эта функция получает на вход множество граммем и пытается применить их к нашему разбору.

In [None]:
prog = morph.parse('программирую')[0]

In [None]:
prog.inflect({'plur'})

Parse(word='программируем', tag=OpencorporaTag('VERB,impf,tran plur,1per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программируем', 171, 2),))

In [None]:
prog.inflect({'plur', 'past'})

Parse(word='программировали', tag=OpencorporaTag('VERB,impf,tran plur,past,indc'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программировали', 171, 10),))

In [None]:
prog.inflect({'past'})

Parse(word='программировал', tag=OpencorporaTag('VERB,impf,tran masc,sing,past,indc'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программировал', 171, 7),))

In [None]:
prog.inflect({'past', 'femn'})[0]

'программировала'

**Формы слова**

С помощью атрибута `lexeme` можно получить массив всех форм слова:

In [None]:
prog.lexeme[:5]

[Parse(word='программировать', tag=OpencorporaTag('INFN,impf,tran'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программировать', 171, 0),)),
 Parse(word='программирую', tag=OpencorporaTag('VERB,impf,tran sing,1per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программирую', 171, 1),)),
 Parse(word='программируем', tag=OpencorporaTag('VERB,impf,tran plur,1per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программируем', 171, 2),)),
 Parse(word='программируешь', tag=OpencorporaTag('VERB,impf,tran sing,2per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программируешь', 171, 3),)),
 Parse(word='программируете', tag=OpencorporaTag('VERB,impf,tran plur,2per,pres,indc'), normal_form='программировать', score=1.0, methods_stack=((DictionaryAnalyzer(), 'программируете', 171, 4),))]

**Согласование слов с числительными**

Из документации:

> Слово нужно ставить в разные формы в зависимости от числительного, к которому оно относится.<br>Например: “1 бутявка”, “2 бутявки”, “5 бутявок” Для этих целей используйте метод `Parse.make_agree_with_number()`:




In [None]:
butyavka = morph.parse('бутявка')[0]

In [None]:
butyavka.make_agree_with_number(1).word

'бутявка'

In [None]:
butyavka.make_agree_with_number(2).word

'бутявки'

In [None]:
butyavka.make_agree_with_number(5).word

'бутявок'

**Приколы**

При помощи `pymorphy2` даже можно делать самое простенькое NER (*Named Entity Recognition*, распознавание именованных сущностей), так как в разборах есть теги:
* `Geox`

In [None]:
print(morph.parse('Санкт-Петербург'))
print(morph.parse('Москва'))

[Parse(word='санкт-петербург', tag=OpencorporaTag('NOUN,inan,masc,Geox sing,nomn'), normal_form='санкт-петербург', score=0.615384, methods_stack=((DictionaryAnalyzer(), 'санкт-петербург', 74, 0),)), Parse(word='санкт-петербург', tag=OpencorporaTag('NOUN,inan,masc,Geox sing,accs'), normal_form='санкт-петербург', score=0.384615, methods_stack=((DictionaryAnalyzer(), 'санкт-петербург', 74, 3),))]
[Parse(word='москва', tag=OpencorporaTag('NOUN,inan,femn,Sgtm,Geox sing,nomn'), normal_form='москва', score=1.0, methods_stack=((DictionaryAnalyzer(), 'москва', 36, 0),))]


* `Surn`

In [None]:
print(morph.parse('Набоков'))
print(morph.parse('Чичиков'))

[Parse(word='набоков', tag=OpencorporaTag('NOUN,anim,masc,Sgtm,Surn sing,nomn'), normal_form='набоков', score=1.0, methods_stack=((DictionaryAnalyzer(), 'набоков', 37, 0),))]
[Parse(word='чичиков', tag=OpencorporaTag('NOUN,anim,masc,Sgtm,Surn sing,nomn'), normal_form='чичиков', score=1.0, methods_stack=((DictionaryAnalyzer(), 'чичиков', 37, 0),))]


* `Name`

In [None]:
print(morph.parse('Владимир'))
print(morph.parse('Павел'))

[Parse(word='владимир', tag=OpencorporaTag('NOUN,anim,masc,Name sing,nomn'), normal_form='владимир', score=0.979452, methods_stack=((DictionaryAnalyzer(), 'владимир', 27, 0),)), Parse(word='владимир', tag=OpencorporaTag('NOUN,inan,masc,Geox sing,nomn'), normal_form='владимир', score=0.013698, methods_stack=((DictionaryAnalyzer(), 'владимир', 33, 0),)), Parse(word='владимир', tag=OpencorporaTag('NOUN,inan,masc,Geox sing,accs'), normal_form='владимир', score=0.006849, methods_stack=((DictionaryAnalyzer(), 'владимир', 33, 3),))]
[Parse(word='павел', tag=OpencorporaTag('NOUN,anim,masc,Name sing,nomn'), normal_form='павел', score=1.0, methods_stack=((DictionaryAnalyzer(), 'павел', 2371, 0),))]


#### Саммари

**Достоинства Pymorphy:**

- умеет составлять разборы, находить лемму, склонять и спрягать
- генерирует гипотезы для незнакомых слов
- написан полностью на питоне и быстрее, чем Mystem (и есть ускоренная версия с вставками на C++)
- может работать с украинским языком (но словари нужно отдельно устанавливать)

**Недостатки Pymorphy:**

- качество хуже, чем у Mystem
- работает только на уровне отдельных слов (и естественно, не учитывает контекст)

**Небольшой хак**

Pymorphy и так работает очень быстро, но можно еще быстрее, если мы будем сохранять разборы для очень популярных слов

In [None]:
from string import punctuation

In [None]:
with open('nabokov.txt', encoding="utf-8") as file:
    text = file.read()
text = [word.lower().strip(punctuation) for word in text.split()]
text = [word for word in text if word != '']

In [None]:
%%timeit
lemmas = []

for word in text:
    lemmas.append(morph.parse(word)[0].normal_form)

6.87 s ± 1.09 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [None]:
%%timeit
lemmas = []
known_words = {}

for word in text:
    if word in known_words:
        lemmas.append(known_words[word])
    else:
        result = morph.parse(word)[0].normal_form
        lemmas.append(result)
        known_words[word] = result

1.87 s ± 511 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


Мы просто запоминаем леммы и поэтому не парсим слово каждый раз, а берем из быстрого хранилища готовый результат. Это может серьезно загружать память (при больших объемах), но значительно сократит время работы.

### NLTK

Это уже не просто морфологический анализатор, а целая NLP библиотека!

[**Документация**](https://www.nltk.org/)

Что мы тут можем делать? Можем токенизировать какой-нибудь текст:

In [None]:
text = '''
В. В. Набоков "Как я люблю тебя".

Такой зеленый, серый, то есть
весь заштрихованный дождем,
и липовое, столь густое,
что я перенести - уйдем!
Уйдем и этот сад оставим
и дождь, кипящий на тропах
между тяжелыми цветами,
целующими липкий прах.
Уйдем, уйдем, пока не поздно,
скорее, под плащом, домой,
пока еще ты не опознан,
безумный мой, безумный мой!
'''

In [None]:
import nltk
from nltk.tokenize import word_tokenize

nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
%time print(word_tokenize(text, language='russian'))

['В.', 'В.', 'Набоков', '``', 'Как', 'я', 'люблю', 'тебя', "''", '.', 'Такой', 'зеленый', ',', 'серый', ',', 'то', 'есть', 'весь', 'заштрихованный', 'дождем', ',', 'и', 'липовое', ',', 'столь', 'густое', ',', 'что', 'я', 'перенести', '-', 'уйдем', '!', 'Уйдем', 'и', 'этот', 'сад', 'оставим', 'и', 'дождь', ',', 'кипящий', 'на', 'тропах', 'между', 'тяжелыми', 'цветами', ',', 'целующими', 'липкий', 'прах', '.', 'Уйдем', ',', 'уйдем', ',', 'пока', 'не', 'поздно', ',', 'скорее', ',', 'под', 'плащом', ',', 'домой', ',', 'пока', 'еще', 'ты', 'не', 'опознан', ',', 'безумный', 'мой', ',', 'безумный', 'мой', '!']
CPU times: user 960 µs, sys: 0 ns, total: 960 µs
Wall time: 953 µs


Можем разделить текст на предложения (сплиттинг):

In [None]:
from nltk.tokenize import sent_tokenize

In [None]:
sent_tokenize(text, language='russian')

['\nВ. В. Набоков "Как я люблю тебя".',
 'Такой зеленый, серый, то есть\nвесь заштрихованный дождем,\nи липовое, столь густое,\nчто я перенести - уйдем!',
 'Уйдем и этот сад оставим\nи дождь, кипящий на тропах\nмежду тяжелыми цветами,\nцелующими липкий прах.',
 'Уйдем, уйдем, пока не поздно,\nскорее, под плащом, домой,\nпока еще ты не опознан,\nбезумный мой, безумный мой!']

NLTK может удалять стоп слова. Стоп-слова - это высокочастотные союзы, предлоги и другие служебные части речи, которые не дают нам никакой информации о конкретном тексте. В NLTK есть готовые списки стоп-слов (да-да, и для русского тоже есть).

In [None]:
from nltk.corpus import stopwords

nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# загружаем нужный список стоп-слов
sw = stopwords.words('russian')

# смотрим, что внутри
print(sw[:15])

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она']


In [None]:
# токенизируем текст, приводим к нижнему регистру и оставляем только последовательности из букв,
# т.е. все токены, где были знаки препинания и числа, исчезнут
words = [w.lower() for w in word_tokenize(text, language='russian') if w.isalpha()]

# какие слова исчезли?
filtered = [w for w in words if w not in sw]
print(filtered[:15])

['набоков', 'люблю', 'зеленый', 'серый', 'весь', 'заштрихованный', 'дождем', 'липовое', 'столь', 'густое', 'перенести', 'уйдем', 'уйдем', 'сад', 'оставим']


И наконец-то стемминг

In [None]:
# умеет работать не только с английским текстом
from nltk.stem.snowball import SnowballStemmer

snowball = SnowballStemmer("russian")

In [None]:
ruswords = set(word_tokenize(text, language='russian'))

for w in sorted(ruswords)[10:30]:
    print("%s: %s" % (w, snowball.stem(w)))

Уйдем: уйд
безумный: безумн
весь: ве
густое: густ
дождем: дожд
дождь: дожд
домой: дом
есть: ест
еще: ещ
заштрихованный: заштрихова
зеленый: зелен
и: и
кипящий: кипя
липкий: липк
липовое: липов
люблю: любл
между: межд
мой: мо
на: на
не: не


По-моему, качество $-$ просто дно.

А в лемматизации тут нет русского, но в целом good to know.

In [None]:
from nltk import WordNetLemmatizer


nltk.download('wordnet')
nltk.download('omw-1.4')


wnl = WordNetLemmatizer()

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [None]:
wnl.lemmatize('running', pos='v')

'run'

#### Саммари

**Достоинства NLTK**:
* хорош для токенизации и разделении на предложения (даже для русского)
* справляется с лемматизацией и стеммингом английского
* большая библиотека с разным функционалом

**Недостатки NLTK**:
* в основном, разработана для английского
* нет лемматизации на русском
* очень некачественный стемминг на русском


### SpaCy

[**Документация**](https://spacy.io/)

Мультиязыковая модель. Если кратко, то SpaCy может примерно всё то же самое, что и NLTK и аналоги (токенизация, лемматизация, POS-тэггинг, построение деревьев зависимостей и NER), но быстрее и точнее (как минимум, для английского).

В целом, сейчас скорее самая популярная для разных задач.

Подробнее можно почитать статьи на Хабре:
* [покороче](https://habr.com/ru/articles/504680/), но 20-го года, поэтому инфа, например, про отсутствие официальных моделей русского языка устарела;
* [подлиннее](https://habr.com/ru/articles/531940/).

Можно даже пройти [курс](https://course.spacy.io/en/) от создателей.

In [None]:
!pip install typing_extensions==4.7.1 --upgrade --q
!python -m spacy download ru_core_news_sm --q

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m43.1 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy
from spacy.lang.ru.examples import sentences
from spacy import displacy

nlp = spacy.load("ru_core_news_sm")

Например, для каждого слова в предложении можно указать часть речи, а также роль в синтаксической структуре предложения. Вспомним структуру зависимостей между словами, как раз роли каждого слова можно вывести с помощью свойства `dep_`. Помимо этого структуру зависимостей предложения можно вывести с помощью функции `displacy.render`.

In [None]:
doc = nlp(" ".join(sentences[:2]))
print(doc.text)
for token in doc:
    print(token.text, token.pos_, token.dep_)

displacy.render(doc, style='dep', jupyter=True)

Apple рассматривает возможность покупки стартапа из Соединённого Королевства за $1 млрд Беспилотные автомобили перекладывают страховую ответственность на производителя
Apple PROPN nsubj
рассматривает VERB ROOT
возможность NOUN obj
покупки NOUN nmod
стартапа NOUN nmod
из ADP case
Соединённого ADJ amod
Королевства PROPN nmod
за ADP case
$ NOUN nmod
1 NUM nummod
млрд NOUN nmod
Беспилотные ADJ amod
автомобили NOUN nsubj
перекладывают VERB conj
страховую ADJ amod
ответственность NOUN obj
на ADP case
производителя NOUN obl


SpaCy можно использовать для извлечения именованных сущностей — персон, мест, организаций, дат и прочего. Для этого можно воспользоваться свойством `ents` у нашего текста, а затем визуализировать лейблы с помощью той же функции `displacy.render`.

In [None]:
doc2 = nlp("Пушкин родился 26 мая 1799 г. в Москве, в Немецкой слободе. Шесть лет (1811—1817) Пушкин провёл в Императорском Царскосельском лицее, открытом 19 октября 1811 года.")
for ent in doc2.ents:
    print(ent.text, ent.label_)

displacy.render(doc2, style='ent', jupyter=True)

Пушкин PER
Москве LOC
Немецкой слободе LOC
Пушкин PER
Императорском Царскосельском лицее ORG


Можно добавить свои именованные сущности для выделения в тексте, если они не учтены в словаре SpaCy. Для этого достаточно выделить `span` — отрезок предложения из слова или нескольких слов — и указать соответствующий лейбл.

In [None]:
from spacy.tokens import Span

nlp = spacy.load("en_core_web_sm")
doc = nlp("fb is hiring a new vice president of global policy")
ents = [(e.text, e.start_char, e.end_char, e.label_) for e in doc.ents]
print('Before', ents)
# Модель не распознаёт "fb" как отдельную сущность :(

# Создаём span с ней и лейбл для неё
fb_ent = Span(doc, 0, 1, label="ORG")
orig_ents = list(doc.ents)

# Вариант 2: Добавляем новую сущность к doc.ents
doc.ents = orig_ents + [fb_ent]

ents = [(e.text, e.start, e.end, e.label_) for e in doc.ents]
print('After', ents)
# [('fb', 0, 1, 'ORG')] 🎉


Before []
After [('fb', 0, 1, 'ORG')]


## Задание 1

Текст $-$ первая глава произведения "Дар" Набокова. Файл `nabokov.txt` у нас в [репозитории](https://raw.githubusercontent.com/anastasie57/compling_57/refs/heads/main/nabokov.txt).

1. Первое задание $-$ это небольшой эксперимент. Возьмите пять любых абзацев из текста и распарсите их двумя способами.
    1. просто через pymystem (`.analyze`) и
    2. через pymystem, предварительно почистив текст от пунктуации (тоже `.analyze`).<br>Замерить, что из этого быстрее с помощью line magic ``%time some_python_expression_here``
2. Токенизируйте весь текст с помощью nltk.
3. Почистите его от знаков препинания (тут пригодится список из первого задания), стоп-слов (с помощью nltk) и слов не на кириллице. Сделайте регистр `lower` у всх слов.
4. Лемматизируйте с помощью pymorphy (`.normal_form`)
5. Cоставьте частотный список слов. Выведите 20 самых частотных слов вообще.
6. Найдите 20 самых частотных существительных.
7. В тексте (списку слов), получившемся после пункта 3 (токенизированному и почищенному), поищите биграммы. Для этого нужно будет посмотреть nltk документацию про `nltk.bigrams()`. Выведите 10 самых частотных биграммов.

Напоминание:

**N-граммы** $-$ это сочетания из N элементов (слов, символов), идущих друг за другом. Одиночные элементы называются униграммами, сочетания из двух элементов $-$ биграммами, из трёх $-$ триграммами, а дальше все пишется цифрами: 4-граммы, 5-граммы и т.д.

In [11]:
!pip install pymystem3 --q
!pip install pymorphy2 --q
!pip install typing_extensions==4.7.1 --upgrade --q
!python -m spacy download ru_core_news_sm --q

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [146]:
import base64
import requests
from pymystem3 import Mystem
from pprint import pprint
import string
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tokenize.treebank import TreebankWordDetokenizer
from nltk.corpus import stopwords
from pymorphy2 import MorphAnalyzer
from collections import Counter
import re

In [13]:
m_stem = Mystem()
morph = MorphAnalyzer()
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [58]:
url =\
"https://raw.githubusercontent.com/anastasie57/compling_57/refs/heads/main/nabokov.txt"
req = requests.get(url)
text = req.text

In [59]:
text_punct_list = text.replace('\r', '').split('\n')[7::]

In [63]:
%%time
anals_1 = []
for parag in text_punct_list[:5]:
    anals_1.append(m_stem.analyze(parag))

CPU times: user 5.37 ms, sys: 0 ns, total: 5.37 ms
Wall time: 65.2 ms


In [61]:
%%time
text_no_punct = text.translate(str.maketrans('', '', string.punctuation))
text_no_punct_list = text_no_punct.replace('\r', '').split('\n')[7::]
anals_2 = []
for parag in text_no_punct_list[:5]:
    anals_2.append(m_stem.analyze(parag))

CPU times: user 22.4 ms, sys: 1.74 ms, total: 24.1 ms
Wall time: 87 ms


In [64]:
tokenized = word_tokenize(text, language='russian')

In [65]:
nltk.download('stopwords')
sw = stopwords.words('russian')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [68]:
words = [w.lower() for w in word_tokenize(
    text_no_punct, language='russian'
    ) if w not in sw and bool(re.search('[Ёёа-яА-Я]', w))]

In [69]:
normal_forms = [morph.parse(w)[0].normal_form for w in words]

In [70]:
cnt = Counter(normal_forms)
cnt.most_common(20)

[('который', 147),
 ('это', 110),
 ('всј', 76),
 ('свой', 67),
 ('константинович', 51),
 ('знать', 50),
 ('он', 48),
 ('стих', 47),
 ('тот', 46),
 ('фёдор', 46),
 ('я', 45),
 ('мой', 40),
 ('один', 39),
 ('сам', 37),
 ('рука', 35),
 ('такой', 34),
 ('сказать', 34),
 ('год', 33),
 ('комната', 33),
 ('яковлевич', 32)]

In [71]:
nouns = [morph.parse(w)[0].normal_form for w in words if 'NOUN' in morph.parse(w)[0].tag]

In [72]:
cnt_nouns = Counter(nouns)
cnt_nouns.most_common(20)

[('константинович', 51),
 ('стих', 47),
 ('фёдор', 46),
 ('рука', 35),
 ('год', 33),
 ('комната', 33),
 ('яковлевич', 32),
 ('лицо', 28),
 ('александр', 28),
 ('нога', 27),
 ('глаз', 27),
 ('угол', 26),
 ('яша', 26),
 ('день', 25),
 ('васильев', 25),
 ('улица', 24),
 ('слово', 24),
 ('время', 24),
 ('человек', 23),
 ('рудольф', 23)]

In [73]:
bigrams_all = list(nltk.bigrams(words))
bigrams_syms = list(nltk.bigrams(list(''.join(words))))
bigrams_all.extend(bigrams_syms)

In [74]:
Counter(bigrams_all).most_common(100)

[(('с', 'т'), 1546),
 (('н', 'о'), 1459),
 (('к', 'о'), 1139),
 (('о', 'в'), 1094),
 (('т', 'о'), 1091),
 (('е', 'н'), 1026),
 (('а', 'л'), 998),
 (('о', 'с'), 997),
 (('р', 'а'), 986),
 (('р', 'о'), 922),
 (('п', 'о'), 895),
 (('н', 'а'), 890),
 (('е', 'р'), 850),
 (('н', 'и'), 850),
 (('о', 'р'), 821),
 (('в', 'о'), 771),
 (('о', 'м'), 769),
 (('к', 'а'), 761),
 (('о', 'л'), 751),
 (('г', 'о'), 747),
 (('л', 'о'), 732),
 (('р', 'е'), 727),
 (('о', 'т'), 714),
 (('л', 'и'), 714),
 (('п', 'р'), 711),
 (('н', 'е'), 703),
 (('в', 'а'), 700),
 (('а', 'н'), 687),
 (('е', 'л'), 657),
 (('л', 'а'), 652),
 (('т', 'а'), 648),
 (('о', 'д'), 646),
 (('е', 'с'), 643),
 (('е', 'т'), 642),
 (('о', 'й'), 639),
 (('л', 'е'), 627),
 (('т', 'е'), 627),
 (('а', 'с'), 610),
 (('в', 'е'), 609),
 (('а', 'т'), 607),
 (('н', 'ы'), 593),
 (('с', 'к'), 572),
 (('и', 'н'), 546),
 (('т', 'ь'), 535),
 (('л', 'ь'), 534),
 (('о', 'б'), 514),
 (('о', 'г'), 508),
 (('и', 'с'), 504),
 (('н', 'н'), 498),
 (('т', 'и'), 

## Задание 2

Выберите любое произведение на русском языке.

1. Возьмите любой абзац из выбранного произведения (минимум 7 предложений).
2. Замените форму всех существительных и прилагательных на форму множественного числа.
3. Замените форму всех глаголов на форму множественного числа, прошедшего времени.
4. Верните абзац с изменёнными формами слов и исходной пунктуацией.

In [101]:
with open('fns.txt', 'r', encoding='utf-8') as f:
    text = f.read()

In [102]:
text = text.split('\n')

In [91]:
par_start = 'Зовут его Николаем Петровичем Кирсановым'

In [107]:
par = [sent for sent in text if par_start in sent][0]

In [113]:
sents = sent_tokenize(par, language='russian')
print(len(sents)) # proof that it has more than 6 sent

22


In [114]:
words = word_tokenize(par, language='russian')

In [147]:
words_changed = []
for w in words:
    parsed = morph.parse(w)[0]
    if 'NOUN' in parsed.tag or 'ADJF' in parsed.tag:
        try:
            words_changed.append(parsed.inflect({'plur'}).word)
        except AttributeError:
            pass
    elif 'VERB' in parsed.tag:
        try:
            words_changed.append(parsed.inflect({'plur', 'past'}).word)
        except AttributeError:
            pass
    else:
        words_changed.append(w)


In [150]:
TreebankWordDetokenizer().detokenize(words_changed)

'звали его николаями петровичами кирсановыми . У него в пятнадцати вёрстах от постоялых двориков хороших имения в двести душ, или, как он выражались с тех пор, как размежевались с крестьянами и завели « фермы », – в две тысяч десятин земель . отцы его, боевых генералы 1812 годов, полуграмотные, грубые, но не злые русские люди, все жизни свои тянули лямки, командовали сперва бригадами, потом дивизиями и постоянно жили в провинциях, где в силы своих чинов играли довольно значительных роли . николаи петровичи родились на югах, подобно старшим своим братьям павлам, о которых речи впереди, и воспитывались до четырнадцатилетних возрастов домов, окруженный дешёвыми гувернёрами, развязными, но подобострастными адъютантами и прочими полковыми и штабными личностями . родительницы его, из фамилий колязиных, в девицах Agathe, а в генеральшах Агафоклея Кузьминишна кирсановов, принадлежали к числам « матушек-командирш », носили пышные и шумные шелковые платья, в церквей подходили первые ко крестам, 

## Задание 3*

Попробуйте запустить ячейку с разбором именованных сущностей в русском тексте с помощью SpaCy после запуска ячейки с подключением английского корпуса текстов. Вы увидите, что добавились обозначения дат, хотя всё остальное стало распознаваться не так корректно. Насколько корректно распознаются даты? Проверьте, насколько отличается распознавание дат в английском языке? Попробуйте добавить паттерн распознавания дат для русского языка.