# Семинар 13

## Токенизация

Токенизация — не такая тривиальная задача, как кажется на первый взгляд. Например, как токенизировать выражение «`Hello world!`»? Можно придумать много разных способов:
1) `Hello` — `world`
2) `Hello` — `world!`
3) `Hello` — `world` — `!`
4) `Hello` — ` ` — `world` — `!`

Реализуем на питоне регулярное выражение, которое будет токенизировать текст по формату (4) выше, то есть раздельно сохраняя все последовательности букв, знаков препинания и пробелов:

In [1]:
import re

text = "Hello world!!! You are so beautiful, isn’t it amazing!"
print(re.findall("[A-Za-z]+| +|[\.,’!\?]+", text))

['Hello', ' ', 'world', '!!!', ' ', 'You', ' ', 'are', ' ', 'so', ' ', 'beautiful', ',', ' ', 'isn', '’', 't', ' ', 'it', ' ', 'amazing', '!']


Получилось! Но, как видите, токенизировать регулярками — не самое лёгкое занятие. Для реального текста нам бы пришлось прописывать ещё миллион отдельных случаев (все знаки препинания, цифры, всякие прочие символы и разные другие проблемы), и регулярное выражение стало бы огромным. Иногда, когда мы хотим настроить в алгоритме токенизации какие-то тонкие детали, у нас просто нет другого выхода. Но для большинства случаев при работе с крупными языками люди пользуются уже готовыми решениями. Одно из них — токенизаторы из библиотеки `nltk`.

### Библиотека `nltk`

#### Установка

Итак, **`nltk`** — библиотека, то есть такой пакет с пакетами, мега-модуль, содержащий другие модули. Попробуем различные токенизаторы из этой библиотеки (см. [документацию](https://www.nltk.org/index.html) `nltk`). Сначала нужно её импортировать, а ещё докачать специальные файлы, необходимые для работы некоторых инструментов:

In [2]:
import nltk

In [3]:
nltk.download("punkt_tab")   # <-- это нужно скачать для токенизации
nltk.download("stopwords")   # <-- это нужно скачать для стоп-слов

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Samsung\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Samsung\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Будем проверять, как работают разные токенизаторы, на вот этом английском тексте:

In [4]:
text = "Good muffins cost $3.88  in New York. \nPlease buy me two of them... Or don't!\n\nThanks."
print(text)

Good muffins cost $3.88  in New York. 
Please buy me two of them... Or don't!

Thanks.


#### Модуль **`nltk.tokenize`**

За токенизацию в библиотеке `nltk` отвечает вложенный в неё модуль **`nltk.tokenize`**. Самый простой и часто используемый инструмент для токенизации в нём — функция `word_tokenize()`. Заметьте, что она не просто делит по пробелам, но (1) выделяет знаки препинания, (2) игнорирует пробелы и переход на новую строку, (3) делит стяжённую словоформу *don’t* на *do* и *n’t*, (4) отделяет знак доллара, но сохраняет целиком число с десятичной запятой ($3.88$):

In [5]:
tokens = nltk.tokenize.word_tokenize(text)
print(tokens)

['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.', 'Please', 'buy', 'me', 'two', 'of', 'them', '...', 'Or', 'do', "n't", '!', 'Thanks', '.']


_____

(На всякий случай вспомним, как мы работаем с модулями. Добраться до функции `word_tokenize()` можно разными способами, вот некоторые из них с пояснениями:)

In [6]:
# 1 способ

# импортируем всю библиотеку nltk
import nltk
# используем вложенный в nltk модуль nltk.tokenize, а из него функцию word_tokenize
print(nltk.tokenize.word_tokenize("Эй, токенизируй меня, друг!"))

['Эй', ',', 'токенизируй', 'меня', ',', 'друг', '!']


In [7]:
# 2 способ

# импортируем только конкретный модуль nltk.tokenize
import nltk.tokenize
# используем импортированный модуль nltk.tokenize, а из него функцию word_tokenize
print(nltk.tokenize.word_tokenize("Эй, токенизируй меня, друг!"))

['Эй', ',', 'токенизируй', 'меня', ',', 'друг', '!']


In [8]:
# 3 способ

# импортируем только конкретный модуль nltk.tokenize и называем её каким-нибудь псевдонимом (например, t)
import nltk.tokenize as t
# обращаемся к модулю nltk.tokenize с помощью псевдонима t и из него используем функцию word_tokenize
print(t.word_tokenize("Эй, токенизируй меня, друг!"))

['Эй', ',', 'токенизируй', 'меня', ',', 'друг', '!']


In [9]:
# 4 способ

# импортируем конкретную функцию word_tokenize из модуля nltk.tokenize
# (импортируется только word_tokenize, другие функции будут недоступны)
from nltk.tokenize import word_tokenize
# зато использовать функцию word_tokenize гораздо проще
print(word_tokenize("Эй, токенизируй меня, друг!"))

['Эй', ',', 'токенизируй', 'меня', ',', 'друг', '!']


_____

#### Другие токенизаторы **`nltk`**

В `nltk` есть и другие токенизаторы (полный список можно найти в [документации](https://www.nltk.org/index.html)). Посмотрим для примера на ещё один из них, `ToktokTokenizer`. Он используется иначе, чем мы привыкли — это не функция, а уникальный объект, то есть **объект собственного класса**.

Классы — это как бы *новые типы данных*, созданные пользователями питона. Как у строк или у списков есть свои методы (`str.split()`, `str.upper()`, `list.append()`), так же и к объектам новых классов можно придумать новые методы. Но только строки — это встроенный тип данных, а `ToktokTokenizer` — это такой особый класс, созданный разработчиками `nltk`. Они прописали, какую информацию объекты этого класса будут хранить, и придумали методы, с помощью которых с этими объектами можно взаимодействовать. Про объект `ToktokTokenizer` можно думать как про специальный инструмент, который будет токенизировать для нас тексты.

Сначала импортируем сам класс `ToktokTokenizer`, а потом **создадим новый объект этого класса**. Чтобы создать объект класса, нужно вызвать функцию, которая совпадает с его названием (то есть функцию `ToktokTokenizer()`). Можно сравнить этом с тем, как мы создавали новый (пустой) список функцией `list()`.

In [10]:
from nltk.tokenize.toktok import ToktokTokenizer
tokenizer = ToktokTokenizer()

(Обратите внимание, что `ToktokTokenizer` мы импортировали не просто из библиотеки `nltk`, и даже не из её модуля `nltk.tokenize`, а из подмодуля `nltk.tokenize.toktok`, который сам вложен в модуль `nltk.tokenize`. К сожалению, структура конкретных модулей и библиотек может быть довольно запутанной. Но есть и хорошие новости: (1) никто не ожидает, что вы это запомните наизусть, (2) никто и не помнит всё это наизусть. Люди просто гуглят или ищут в документации конкретных библиотек и модулей, как сделать то или иное действие с этими инструментами. Это абсолютно нормально и так делают все!)

____

Итак, теперь у нас есть объект-токенизатор, заточённый в переменной `tokenizer`. Убедимся, что это правда объект отдельного типа `ToktokTokenizer`:

In [11]:
print(tokenizer)
print(type(tokenizer))

<nltk.tokenize.toktok.ToktokTokenizer object at 0x0000023EDC1849D0>
<class 'nltk.tokenize.toktok.ToktokTokenizer'>


У этого класса есть метод `.tokenize()`, в который можно подать текст. Обратите внимание, что результат слегка отличается от функции `word_tokenize()`, которую мы видели выше:

In [12]:
print(tokenizer.tokenize(text))

['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York.', 'Please', 'buy', 'me', 'two', 'of', 'them', '...', 'Or', 'don', "'", 't', '!', 'Thanks', '.']


(Напоследок: вообще-то записывать объект в переменную необязательно, можно просто создать объект на ходу и тут же вызвать от него метод.)

In [13]:
print(ToktokTokenizer().tokenize(text))

['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York.', 'Please', 'buy', 'me', 'two', 'of', 'them', '...', 'Or', 'don', "'", 't', '!', 'Thanks', '.']


#### Стоп-слова

В отдельном модуле `nltk.corpus` внутри библиотеки `nltk` можно найти списки **стоп-слов** (*stopwords*) для разных языков. Стоп-слова — это слова (и словоформы), которые частотны в любых текстах на определённом языке, имеют функциональное значение (союзы, предлоги, местоимения, междометия) и поэтому бесполезны при решении задач, в которых нужно понять что-то о смысле текста. Такой список стоп-слов можно собрать вручную, но `nltk` уже любезно сделал это за нас. Чтобы ими воспользоваться, нужно импортировать объект `stopwords` из `nltk.corpus`. У него есть метод `.words()`, в который можно в качестве аргумента подать название языка и получить список со стоп-словами. Такие списки есть для разных языков, включая русский:

In [14]:
from nltk.corpus import stopwords

In [15]:
print(stopwords.words("russian"))

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

К сожалению, персидский не входит в число языков, для которых `nltk` подготовил стоп-слова — но в интернете можно найти кучу подобных списков, в том числе для персидского (как в модулях, специализированных для работы с персидским, так и просто в виде списка слов на чьём-нибудь гитхабе).

In [16]:
print(stopwords.words("english"))

['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', 'couldn', "couldn't", 'd', 'did', 'didn', "didn't", 'do', 'does', 'doesn', "doesn't", 'doing', 'don', "don't", 'down', 'during', 'each', 'few', 'for', 'from', 'further', 'had', 'hadn', "hadn't", 'has', 'hasn', "hasn't", 'have', 'haven', "haven't", 'having', 'he', "he'd", "he'll", 'her', 'here', 'hers', 'herself', "he's", 'him', 'himself', 'his', 'how', 'i', "i'd", 'if', "i'll", "i'm", 'in', 'into', 'is', 'isn', "isn't", 'it', "it'd", "it'll", "it's", 'its', 'itself', "i've", 'just', 'll', 'm', 'ma', 'me', 'mightn', "mightn't", 'more', 'most', 'mustn', "mustn't", 'my', 'myself', 'needn', "needn't", 'no', 'nor', 'not', 'now', 'o', 'of', 'off', 'on', 'once', 'only', 'or', 'other', 'our', 'ours', 'ourselves', 'out', 'over', 'own', 're', 's', 'same', 'shan', "shan't", 'she

**Удаление стоп-слов** — стандартная процедура при предобработке текста для очень многих задач NLP. Например, когда вы токенизировали текст, можно удалить все токены, которые встречаются среди стоп-слов (в цикле поставив условие наподобие `if token in stopwords.words("russian")`).

## Автоматический морфологический анализ

Что мы хотим <s>от этой жизни</s> от автоматического морфологического анализа?

Вот наша троица мечты:
1. **POS-тэггинг** (*part-of-speech tagging*, частеречный тэггинг) — чтобы компьютер сам определял часть речи и проставлял соответствующие тэги всем токенам
2. **определение грамматических свойств** — чтобы компьютер определял для каждого токена грамматические времена, наклонения, род, число, падеж, изафет и всё прочее
3. **лемматизация** — чтобы компьютер определял **лемму**, то есть, по-школьному, начальную форму для каждого токена

Сейчас посмотрим, как это всё можно делать — для русского и для персидского.

### Русский язык

Вот некоторые библиотеки для работы с русским языком:
- [**`pymorphy3`**](https://github.com/no-plagiarism/pymorphy3) — компактный и простой в использовании модуль, не самый точный и быстрый (но тоже очень хороший)
- [`natasha`](https://natasha.github.io) — большая и мощная библиотека с кучей инструментов для русского
- [`spacy`](https://spacy.io) — межъязыковая библиотека с моделями, натренированными решать разные NLP-задачи для разных языков, [включая русский](https://habr.com/ru/articles/531940/)

Мы изучим вопрос морфологического анализа на примере **`pymorphy3`**. С его документацией можно ознакомиться **[вот здесь](https://pymorphy2.readthedocs.io/en/stable/user/guide.html#id3)** (рекомендую, это очень приятная и понятная документация!).

#### Установка

In [None]:
!pip install pymorphy3   # <- установка модуля на ваш компьютер (нужно сделать всего один раз)

In [18]:
import pymorphy3

Модуль `pymorphy3` тоже построен на *объектах*, а не на *функциях*. Самый важный инструмент в нём — это класс `MorphAnalyzer`. Это такая машинка, которая занимается морфоанализом. Инициируем объект этого класса (вызвав функцию `MorphAnalyzer()`) и запишем в переменную.

In [19]:
analyzer = pymorphy3.MorphAnalyzer()

Обратите внимание, что при создании объекта этого класса компьютер может немножечко подвисать. Это потому, что питон подгружает разные механизмы, необходимые для морфологического анализа, из файлов модуля `pymorphy3` в оперативную память вашего компьютера. Было бы нецелесообразно замусоривать оперативную память, поэтому общепринятая практика — создавать такие объекты один раз за код, сохранять их в отдельную переменную (как мы и сделали) и затем пользоваться этой переменной (а не создавать новый объект каждый раз, когда нужно что-то разобрать).

#### Метод **`.parse()`** и класс **`Parse`**

Основной метод класса `MorphAnalyzer` называется **`.parse()`**. В него нужно подавать токены на русском языке (по отдельности!), и тогда наш ручной морфоанализатор будет их парсить, то есть разбирать. Посмотрим, что получится, если подать слово «стекло»:

In [20]:
results = analyzer.parse("стекло")
results

[Parse(word='стекло', tag=OpencorporaTag('NOUN,inan,neut sing,nomn'), normal_form='стекло', score=0.690476, methods_stack=((DictionaryAnalyzer(), 'стекло', 157, 0),)),
 Parse(word='стекло', tag=OpencorporaTag('NOUN,inan,neut sing,accs'), normal_form='стекло', score=0.285714, methods_stack=((DictionaryAnalyzer(), 'стекло', 157, 3),)),
 Parse(word='стекло', tag=OpencorporaTag('VERB,perf,intr neut,sing,past,indc'), normal_form='стечь', score=0.023809, methods_stack=((DictionaryAnalyzer(), 'стекло', 1015, 3),))]

Из метода `.parse()` мы получили список из объектов нового для нас класса, класса **`Parse`**, то бишь «анализ». Такие объекты содержат результат разбора. Например, первый объект в получившемся списке сообщает следующее:

- токен, который в меня подали: `стекло`
- тэги, которые я могу предложить для этого токена: существительное (`NOUN`), неодушевлённое (`inan`), среднего рода единственного числа (`neut sing`), в именительном падеже (`nomn`)
- лемма («нормальная» форма) этой лексемы: `стекло`

Однако в списке больше одного «разбора», потому что слово «стекло» неоднозначно. Оно может значить существительное «стекло» в именительном падеже (это первый разбор, с индексом 0), а может существительное «стекло» в винительном падеже (разбор с индексом 1), а ещё может форму прошедшего времени глагола «стечь» (разбор с индексом 2). Число `score` в получившихся разборах отражает вероятность, что данный анализ является верным. Как видите, наш анализатор посчитал, что «стекло» в именительном падеже — наиболее вероятный сценарий, и присвоил ему вероятность в $69$%, а такая форма глагола «стечь» встречается гораздо реже, поэтому её вероятность всего $2$%. Разборы в списке упорядочиваются по убыванию вероятности, так что, если нужен наиболее вероятный разбор из возможных, можно всегда брать первый.

#### Атрибуты **`Parse`**

У объекта типа `Parse` есть несколько атрибутов: тэги, лемма, вероятность и прочее. Термином «**атрибуты**» в питоне обозначаются какие-то свойства объекта, которые из него можно достать. Обращаться ним надо так же, как к методам класса, только с методами мы (как с функциями) пишем круглые скобки, а с атрибутами нет. (**[Вот здесь](https://stackoverflow.com/questions/46312470/difference-between-methods-and-attributes-in-python)** отличное объяснение разницы между атрибутами и функциями, очень рекомендую.)

Например, проанализируем слово «ласковых», возьмём его первый (самый вероятный) разбор и достанем из него лемму с помощью атрибута **`.normal_form`**:

In [41]:
result = analyzer.parse("ласковых")[0]   # не глядя берём разбор с индексом 0
print(result)  # выведем весь разбор

print("Лемма:", result.normal_form)  # выведем только лемму

Parse(word='ласковых', tag=OpencorporaTag('ADJF,Qual plur,gent'), normal_form='ласковый', score=0.5, methods_stack=((DictionaryAnalyzer(), 'ласковых', 249, 21),))
Лемма: ласковый


А вот ещё один атрибут, **`.tag`**, список тэгов-грамматических свойств токена. Здесь уже чуть более непонятные тэги: `ADJF` — прилагательное в полной форме (*ADJective*+*Full*), `Qual` — если я правильно понимаю, качественное прилагательное (*Qualitative*), `plur` — множественное число, `gent` — родительный падеж (генитив).

Первый тэг, записанный прописными буквами, — всегда часть речи, остальные — прочие свойства. В `pymorphy3` используются тэги из проекта [OpenCorpora](https://www.opencorpora.org), (почти) полный список этих тэгов можно найти **[здесь](https://pymorphy2.readthedocs.io/en/stable/user/grammemes.html#grammeme-docs)**.

In [22]:
tag = result.tag
print(tag)

ADJF,Qual plur,gent


Может показаться, что атрибут `.tag` выдаёт просто обычную строку. Результат действительно похож на строку по многим свойствам: например, с помощью `in` можно проверить, является ли этот токен словом определённой части речи, стоит ли он в определённом падеже, времени и так далее:

In [23]:
print("gent" in tag)
print("ADJF" in tag)

print("nomn" in tag)
print("NOUN" in tag)

True
True
False
False


Но на самом деле это не просто строка, а… объект ещё одного отдельного класса. (Да, так устроены все большие модули в питоне, и это норма!) Убедимся в этом:

In [24]:
print(type(tag))

<class 'pymorphy3.tagset.OpencorporaTag'>


В том, что это не просто строка, есть несколько плюсов. Во-первых, если спросить, нет ли в этом разборе какого-то тэга, который отсутствует в наборе тэгов OpenCorpora, `pymorphy3` это заметит и скажет вам. Допустим, вы хотели найти в тексте все слова в родительном падеже, но забыли тэг для него и написали что-то не то. Модуль не выдаст ответа и вместо этого укажет на ошибку — мол, граммемы такой не знаю, ты ошибся:

In [25]:
print("geni" in tag)

ValueError: Grammeme is unknown: geni

Во-вторых, если нужно найти в цепочке тэгов сразу несколько тэгов (например, проверить токен на число и падеж одновременно), это можно сделать с помощью множества (помните такой тип данных?):

In [26]:
print("gent" in tag)
print("plur" in tag)

print({"gent","plur"} in tag)   # верно ли, что слово и в генитиве, и в мн. ч.? — верно
print({"gent","sing"} in tag)   # верно ли, что слово и в генитиве, и в ед. ч.? — неверно

True
True
True
False


В-третьих, у этого объекта у самого есть атрибуты — с их помощью можно достать отдельные тэги, такие как часть речи, падеж, число и так далее (и вот это уже обычные строки!):

In [27]:
print(tag.POS)
print(tag.number)
print(tag.case)

ADJF
plur
gent


Заметьте, что если мы разобрали существительное, признака «грамматическое время» у него, конечно, не будет, но атрибут такой всё равно есть, просто выдаёт он объект `None`:

In [28]:
print(tag.tense)

None


#### Упражнения

In [None]:
text = """Довольно любопытно, неужели только меня возмущают смещенные акценты 
в угоду малозначительной мишуры? Где затерялся тот первозданный минимализм 
и первоклассная стабильность, оптимизация? Уже молчу о подгрузке контента 
и качестве звонков ― это нечто лежащее за пределами моего понимания. 
И как бы то прискорбно не прозвучало, но вынужден констатировать: 
текущие метаморфозы телеги ― это первосортный кринж в чистом виде. 
По крайней мере, на мой скромный взгляд через ретроспективу. 
Ощущение, будто в одноклассники заглянул, бррррр… Сам бы не поверил 
собственным словам пару-тройку лет назад, но даже whatsapp выглядит 
более выигрышно в этой ситуации. А вообще, пожалуй, начну 
планомерно мигрировать в сигнал."""

_____

**Упражнение 1**. Токенизируйте этот текст с помощью функции `word_tokenize()` из модуля `nltk.tokenize`, результат сохраните в список. (Обязательно пропишите корректный импорт для модуля / функции, чтобы ячейку с вашим решением можно было запускать отдельно от остальной тетрадки.)

In [None]:
# ваше решение



**Упражнение 2**. Импортируйте и создайте новый объект класса `MorphAnalyzer` из `pymorphy3` (чтобы эту ячейку можно было запустить автономно, как и предыдущую). С помощью этого анализатора найдите в тексте все наречия (используйте только наиболее вероятный разбор из предлагаемых). Выведите их на экран (каждое с новой строки или списком, как вам удобнее).

In [None]:
# ваше решение



**Упражнение 3**. Используя уже созданный в предыдущем упражнении объект-анализатор, найдите в тексте все имена существительные в единственном числе и родительном падеже. Для каждого слова выведите на экран через пробел (1) лемму слова и (2) его тэги (например, `понимание NOUN,inan,neut sing,gent`).

In [None]:
# ваше решение



### Персидский язык

Вот некоторые библиотеки для работы с персидским языком:
- [**`hazm`**](https://github.com/roshan-research/hazm) — самый простой в использовании, неплохой по качеству модуль для стандартных задач обработки текста (токенизация, лемматизация, POS-тэггинг, анализ синтаксических зависимостей, эмбеддинги и прочие)
- [`DadmaTools`](https://github.com/Dadmatech/DadmaTools) — бизнес-ориентированный мощный модуль для NLP-задач (токенизация, лемматизация, POS-тэггинг, морфологический анализ, анализ синтаксических зависимостей, эмбеддинги и прочие)
- [`persian_phonemizer`](https://github.com/de-mh/persian_phonemizer/tree/main) — модуль для расстановки огласовок / фонематической транскрипции персидского текста

Задачу морфологического разбора рассмотрим на примере `hazm`. (У этого модуля есть [документация](https://www.roshan-ai.ir/hazm/), но так как он писался иранцами, то и документация на персидском :) Но **[вот здесь](https://github.com/roshan-research/hazm?tab=readme-ov-file#usage)** есть некоторые англоязычные примеры.)

#### Установка **`hazm`**

In [None]:
!pip install hazm   # <- установка модуля на ваш компьютер (нужно сделать всего один раз)

Как и `pymorphy3`, модуль `hazm` тоже построен на объектах — сейчас мы посмотрим на них поподробнее. Сначала импортируем сам модуль и добавим небольшой текст для проверки его работы:

In [30]:
import hazm

In [31]:
text = "او در کودکی به پدر خود کمک می کرد و غذای فرزندان وزیر را برایشان به مدرسه می برد"
print(text)

او در کودکی به پدر خود کمک می کرد و غذای فرزندان وزیر را برایشان به مدرسه می برد


#### Нормализация текста

Класс `hazm.Normalizer` нужен для **нормализации** текста. Это отдельная задача предобработки текста, актуальная для языков с большой вариативностью в записи слов. Создадим объект этого класса и воспользуемся его методом `.normalize()`.

______

<div class="alert alert-block alert-info"> <b><i>Сравните текст до нормализации и после. Что поменялось?</i></b> 
</div>

In [32]:
my_normalizer = hazm.Normalizer()   # создаём переменную и засовываем в неё наш «нормализатор»

In [33]:
text_normalized = my_normalizer.normalize(text)   # применяем метод .normalize()

In [34]:
print(text)
print(text_normalized)

او در کودکی به پدر خود کمک می کرد و غذای فرزندان وزیر را برایشان به مدرسه می برد
او در کودکی به پدر خود کمک می‌کرد و غذای فرزندان وزیر را برایشان به مدرسه می‌برد


#### Токенизация

Токенизация в `hazm`, неожиданно, реализована не через отдельный класс, а через функцию. Функция называется `word_tokenize()`. Применим её к тексту (только уже к нормализованному!):

In [35]:
tokens = hazm.word_tokenize(text_normalized)

In [36]:
print(tokens)

['او', 'در', 'کودکی', 'به', 'پدر', 'خود', 'کمک', 'می\u200cکرد', 'و', 'غذای', 'فرزندان', 'وزیر', 'را', 'برایشان', 'به', 'مدرسه', 'می\u200cبرد']


#### Лемматизация

Лемматизация в `hazm` устроена несколько громоздко. По сути она разделена на два отдельных инструмента:
- класс **`hazm.Stemmer`** выделяет «основу» у всех слов, кроме глаголов (с помощью метода `.stem()`)
- класс **`hazm.Lemmatizer`** выделяет «лемму» у глаголов (с помощью метода `.lemmatize()`)

Я бы рекомендовал вам для полноценного разбора текста пользоваться обоими этими инструментами: сначала прогнать все токены через один, потом через другой.

In [37]:
my_stemmer = hazm.Stemmer()
my_lemmatizer = hazm.Lemmatizer()

<div class="alert alert-block alert-info"> 
<b><i>Изучите выдачу стеммера и лемматизатора. Какие слова они обработали не идеально?</i></b>
</div>

In [38]:
for i in range(len(tokens)):
    print("Token:     ", tokens[i])
    print("Lemmatized:", my_lemmatizer.lemmatize(tokens[i]))
    print("Stemmed:   ", my_stemmer.stem(tokens[i]))
    print()

Token:      او
Lemmatized: او
Stemmed:    او

Token:      در
Lemmatized: در
Stemmed:    در

Token:      کودکی
Lemmatized: کودکی
Stemmed:    کودک

Token:      به
Lemmatized: به
Stemmed:    به

Token:      پدر
Lemmatized: پدر
Stemmed:    پدر

Token:      خود
Lemmatized: خود
Stemmed:    خود

Token:      کمک
Lemmatized: کمک
Stemmed:    کمک

Token:      می‌کرد
Lemmatized: کرد#کن
Stemmed:    می‌کرد

Token:      و
Lemmatized: و
Stemmed:    و

Token:      غذای
Lemmatized: غذای
Stemmed:    غذا

Token:      فرزندان
Lemmatized: فرزندان
Stemmed:    فرزند

Token:      وزیر
Lemmatized: وزیر
Stemmed:    وزیر

Token:      را
Lemmatized: را
Stemmed:    را

Token:      برایشان
Lemmatized: برایشان
Stemmed:    برا

Token:      به
Lemmatized: به
Stemmed:    به

Token:      مدرسه
Lemmatized: مدرسه
Stemmed:    مدرسه

Token:      می‌برد
Lemmatized: برد#بر
Stemmed:    می‌برد



#### POS-тэггинг

К сожалению, возможности `hazm` довольно сильно ограничены. Тем не менее, этот модуль может в POS-тэггинг, но для этого нужно скачать специальную [обученную модель](https://drive.google.com/file/d/1Q3JK4NVUC2t5QT63aDiVrCRBV225E_B3/edit). Это отдельный файлик, который нужно положить в ту же папку, где лежит эта тетрадка, и прописать название файла при создании объекта класса `hazm.POSTagger`:

In [39]:
my_tagger = hazm.POSTagger(model="pos_tagger.model")

Затем можно обратиться к тэггеру и использовать его метод `.tag()`. В него уже нужно подавать не один токен, а список токенов. В результате выдаётся список кортежей, где в каждом кортеже сначала токен, а затем список его «частеречных» тэгов.

<div class="alert alert-block alert-info"> 
<b><i>Изучите получившийся ниже список тэгов. Все ли тэги вам понятны? Есть ли какие-то решения тэггера, которые вас удивили; решения, с которыми вы не согласны?</i></b>
</div>

In [40]:
my_tagger.tag(tokens)

[('او', 'PRON'),
 ('در', 'ADP'),
 ('کودکی', 'NOUN'),
 ('به', 'ADP'),
 ('پدر', 'NOUN,EZ'),
 ('خود', 'PRON'),
 ('کمک', 'NOUN'),
 ('می\u200cکرد', 'VERB'),
 ('و', 'CCONJ'),
 ('غذای', 'NOUN,EZ'),
 ('فرزندان', 'NOUN,EZ'),
 ('وزیر', 'NOUN'),
 ('را', 'ADP'),
 ('برایشان', 'ADP'),
 ('به', 'ADP'),
 ('مدرسه', 'NOUN'),
 ('می\u200cبرد', 'VERB')]

#### Упражнения

**Упражнение 4**. Токенизируйте этот текст, найдите в нём все глаголы и выведите на экран их «основы». (Источник текста [здесь](https://fa.wikipedia.org/wiki/%D8%B3%D8%A7%D8%B1%D8%A7%D8%AA%D9%88%D9%81).)

In [None]:
text = "شهر ساراتوف مرکز استان ساراتوف است و از بندرهای بزرگ کناره رودخانه ولگا به‌شمار می‌آید. جمعیت این شهر در سال ۲۰۰۲ برابر با ۸۷۳٬۰۵۵ نفر بوده که بیشتر آن‌ها روس می‌باشند. اقلیت بزرگی از تاتارها، اکراینی‌ها، یهودی‌ها و آلمانی‌ها نیز در این شهر زندگی می‌کنند."

print(text)

In [None]:
# ваше решение



_____

Если вам интересна тема морфологического анализа для персидского, обратите также внимание на более тяжёлый и профессиональный модуль **`DadmaTools`**. Он предоставляет больше возможностей для этой задачи (например, выдаёт список тэгов, похожий на `pymorphy3`). А **[вот здесь](https://colab.research.google.com/drive/1-hR_ehHtTt06SMWRlM6AmV8eBYVPy_Ef?usp=sharing)** можно посмотреть на сравнение работы `hazm`, `DadmaTools` и ещё одного модуля для персидского языка. (Это была моя домашка по курсу обработки естественного языка в магистратуре.)