# Лабораторная работа 1. Морфологический парсер mystem

## Решения заданий

In [1]:
from pymystem3 import Mystem
import json

**Задание 1.** Изучите документацию и лицензию (!) морфологического парсера mystem от Yandex: https://yandex.ru/dev/mystem.

**Решение:**

Документация mystem доступна по ссылке: https://yandex.ru/dev/mystem
Лицензия: https://yandex.ru/dev/mystem/doc/license.html

Mystem - это свободно распространяемый морфологический анализатор для русского языка, разработанный в Яндексе.

**Задание 2.** Установите `pymystem3` – интерфейс к mystem на Python: https://pypi.org/project/pymystem3.

**Решение:**

Для установки pymystem3 выполните команду:
```bash
pip install pymystem3
```

**Задание 3.** Выпишите с какими параметрами запускается морфологический анализатор.

-n - Построчный режим; каждое слово печатается на новой строке.

-c - Копировать весь ввод на вывод. То есть, не только слова, но и межсловные промежутки.

-w - Печатать только словарные слова.

-l - Не печатать исходные словоформы, только леммы и граммемы.

-i - Печатать грамматическую информацию, расшифровка ниже.

-g - Склеивать информацию словоформ при одной лемме (только при включенной опции -i).

-s - Печатать маркер конца предложения (только при включенной опции -c).

-e - Кодировка ввода/вывода. Возможные варианты: cp866, cp1251, koi8-r, utf-8 (по умолчанию).

-d - Применить контекстное снятие омонимии.

--eng-gr - Печатать английские обозначения граммем.

--filter-gram - Строить разборы только с указанными граммемами.

--fixlist - Использовать файл с пользовательским словарём.

--format - Формат вывода. Возможные варианты: text, xml, json. Значение по умолчанию — text.

--generate-all - Генерировать все возможные гипотезы для несловарных слов.

--weight - Печатать бесконтекстную вероятность леммы.

**а)** Придумайте и запишите примеры предложений со словами не из словаря. Приведите их полученные морфологические разборы.



In [4]:
import string

def analyze_text_with_dict_check(text):
    m = Mystem()
    analysis = m.analyze(text)
    results = []

    for word_data in analysis:
        word_text = word_data['text'].strip()

        # Пропускаем пустые строки, пробелы и знаки препинания
        if not word_text or word_text in string.punctuation or word_text.isspace():
            continue

        result = {'word': word_text, 'in_dictionary': False, 'lemma': None, 'grammar': None}

        if 'analysis' in word_data and word_data['analysis']:
            data = word_data['analysis'][0]
            result['lemma'] = data['lex']
            result['grammar'] = data['gr']
            result['in_dictionary'] = (data.get('qual', '') != '0')

        results.append(result)

    return results

text = """
Сяпала Калуша с калушатами по напушке и увазила Бутявку, и волит: - Калушата, калушаточки, Бутявка! Калушата присяпали и бутявку стрямкали. И подудонились. А Калуша волит: - Оёё, оёё! Бутявка-то некузявая! Калушата Бутявку вычучили. Бутявка вздребезнулась, сопритюкнулась и усяпала с напушки. А Калуша волит: - Калушаточки, бутявок не трямкают, бутявки дюбые и зюмо-зюмо некузявые. От бутявок дудонятся. А Бутявка за напушкой волит: - Калушата подудонились! Калушата подудонились! Зюмо некузявые! Пуськи бятые!.
"""
results = analyze_text_with_dict_check(text)

print("МОРФОЛОГИЧЕСКИЙ РАЗБОР С ПРОВЕРКОЙ СЛОВАРЯ:")
print("=" * 60)

for i, result in enumerate(results, 1):
    status = "В словаре" if result['in_dictionary'] else "НЕТ в словаре"
    print(f"{i:2}. '{result['word']}' -> лемма: '{result['lemma']}', грамматика: {result['grammar']} | {status}")

# Статистика
unknown_words = [r for r in results if not r['in_dictionary']]
print(f"\nСлов не в словаре: {len(unknown_words)}")
print("Слова не из словаря:", [r['word'] for r in unknown_words])

МОРФОЛОГИЧЕСКИЙ РАЗБОР С ПРОВЕРКОЙ СЛОВАРЯ:
 1. 'Сяпала' -> лемма: 'сяпывать', грамматика: V,пе=прош,ед,изъяв,жен,сов | В словаре
 2. 'Калуша' -> лемма: 'калуш', грамматика: S,гео,муж,неод=род,ед | В словаре
 3. 'с' -> лемма: 'с', грамматика: PR= | В словаре
 4. 'калушатами' -> лемма: 'калушат', грамматика: S,муж,неод=твор,мн | В словаре
 5. 'по' -> лемма: 'по', грамматика: PR= | В словаре
 6. 'напушке' -> лемма: 'напушка', грамматика: S,жен,неод=(пр,ед|дат,ед) | В словаре
 7. 'и' -> лемма: 'и', грамматика: CONJ= | В словаре
 8. 'увазила' -> лемма: 'увазил', грамматика: S,муж,од=(вин,ед|род,ед) | В словаре
 9. 'Бутявку' -> лемма: 'бутявка', грамматика: S,жен,неод=вин,ед | В словаре
10. 'и' -> лемма: 'и', грамматика: CONJ= | В словаре
11. 'волит' -> лемма: 'волить', грамматика: V,несов,нп=непрош,ед,изъяв,3-л | В словаре
12. ': -' -> лемма: 'None', грамматика: None | НЕТ в словаре
13. 'Калушата' -> лемма: 'калушенок', грамматика: S,муж,од=им,мн | В словаре
14. 'калушаточки' -> лемма: 'ка


**б)** Применяется ли контекстное снятие омонимии при морфологическом разборе?


In [4]:
# Примеры с разным контекстом для слова "ключ"
sentences = [
    "Он потерял ключ от квартиры.",  # Существительное, мужской род
    "Источник ключ бьет в скале.",   # Существительное, мужской род
    "Нашел ключ к решению проблемы.",      # Существительное, мужской род
    "Слесарь взял ключ на 13 мм.",        # Существительное, мужской род
]

for sentence in sentences:
    analyses = m.analyze(sentence)
    print(f"Предложение: {sentence}")
    for analysis in analyses:
        if analysis['text'].strip() == 'ключ' and 'analysis' in analysis:
            if analysis['analysis']:
                print(f"  Лемма: {analysis['analysis'][0]['lex']}")
                print(f"  Грамм. информация: {analysis['analysis'][0]['gr']}")
    print()

Предложение: Он потерял ключ от квартиры.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)

Предложение: Источник ключ бьет в скале.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)

Предложение: Нашел ключ к решению проблемы.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)

Предложение: Слесарь взял ключ на 13 мм.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)



**Задание 4.** Напишите функцию `parse_text()`, на вход которой поступает текст (в виде строки), а на выходе формируется структура данных, содержащая для каждого слова входного текста следующую информацию:

- исходную словоформу (wordform);
- нормальную форму слова (лемму) (norm, lemma);
- часть речи (part of speech, POS);
- другую грамматическую информацию, выдаваемую mystem;
- признак, присутствует ли слово в словаре mystem.

Функция должна выбирать наиболее вероятный вариант морфологического разбора слова.

In [9]:
import re

def parse_text(text):

    # Проводим морфологический анализ текста
    analyses = m.analyze(text)

    # Список для хранения результатов
    result = []

    # Обрабатываем каждый элемент анализа
    for analysis in analyses:
        # Получаем исходную словоформу
        wordform = analysis.get('text', '')

        # Пропускаем пустые элементы и пробелы
        if not wordform.strip():
            continue

        # Создаем словарь для хранения информации о слове
        word_info = {
            'wordform': wordform,
            'lemma': None,
            'pos': None,
            'gramm_info': None,
            'in_dictionary': False
        }

        # Проверяем наличие анализа
        if 'analysis' in analysis and analysis['analysis']:
            # Слово есть в словаре
            word_info['in_dictionary'] = True

            # Берем первый (наиболее вероятный) вариант анализа
            # MyStem сам выбирает наиболее вероятный вариант на основе контекста
            first_analysis = analysis['analysis'][0]

            # Получаем лемму
            word_info['lemma'] = first_analysis.get('lex', wordform)

            # Получаем грамматическую информацию
            gramm_info = first_analysis.get('gr', '')
            word_info['gramm_info'] = gramm_info

            # Извлекаем часть речи (первый элемент до запятой)
            if gramm_info:
                pos = gramm_info.split(',')[0]
                word_info['pos'] = pos
        else:
            # Слово отсутствует в словаре
            word_info['in_dictionary'] = False
            # Для несловарных слов используем исходную форму как лемму
            word_info['lemma'] = wordform
            word_info['pos'] = 'UNKNOWN'
            word_info['gramm_info'] = 'WORD_NOT_IN_DICTIONARY'

        # Добавляем информацию о слове в результат
        result.append(word_info)

    return result

def print_parsed_text(parsed_words):

    print(f"{'Словоформа':<15} {'Лемма':<15} {'Часть речи':<12} {'В словаре':<10} {'Грамм. инфо'}")
    print("-" * 80)

    for word_info in parsed_words:
        # Получаем словоформу
        wordform = word_info['wordform']

        # Проверяем, содержит ли элемент хотя бы одну букву или цифру
        if re.search(r'[а-яА-ЯёЁa-zA-Z0-9]', wordform):
            # Дополнительно проверяем, что элемент не состоит только из знаков препинания
            if not re.fullmatch(r'[^\w\s]', wordform):
                print(f"{word_info['wordform']:<15} {word_info['lemma']:<15} {word_info['pos']:<12} "
                      f"{'Да' if word_info['in_dictionary'] else 'Нет':<10} {word_info['gramm_info']}")

# Текст с различными знаками препинания
text = "Прекрасный день! Солнце светит ярко, птицы поют... Как хорошо!"

# Анализ текста
parsed = parse_text(text)

# Вывод результатов (без знаков препинания)
print_parsed_text(parsed)

Словоформа      Лемма           Часть речи   В словаре  Грамм. инфо
--------------------------------------------------------------------------------
Прекрасный      прекрасный      A=(вин       Да         A=(вин,ед,полн,муж,неод|им,ед,полн,муж)
день            день            S            Да         S,муж,неод=(вин,ед|им,ед)
Солнце          солнце          S            Да         S,сред,неод=(пр,ед|вин,ед|им,ед)
светит          светить         V            Да         V,несов,нп=непрош,ед,изъяв,3-л
ярко            ярко            ADV=         Да         ADV=
птицы           птица           S            Да         S,жен,од=(род,ед|им,мн)
поют            петь            V            Да         V,несов,пе=непрош,мн,изъяв,3-л
Как             как             ADVPRO=      Да         ADVPRO=
хорошо          хорошо          ADV=вводн    Да         ADV=вводн


**Задание 5.** Напишите функцию `save_morph_results()`, сохраняющую структуру данных, получаемую функцией `parse_text()`, в текстовый файл формата JSON.

**Задание 6.** Напишите функцию `get_dictionary()`, на вход которой поступает текст (в виде строки), а на выходе формируется словарь,

включающий все уникальные слова текста и содержащий для каждого слова следующую информацию:

- нормальную форму слова;
- часть речи;
- частоту слова в тексте;
- все варианты словоформ в тексте с данной нормальной формой.

**Задание 7.** Напишите функцию `save_dictionary()`, сохраняющую предыдущую структуру данных в текстовый файл формата JSON. Слова в файле должны быть упорядочены по убыванию частоты.

**Задание 8.** Напишите функцию `get_non_mystem_dict()`, на вход которой поступает структура данных, получаемая функцией `parse_text()`, а на выходе формируется словарь, содержащий уникальные слова текста, отсутствующие в словаре mystem, вместе с частотой слова в тексте.

**Задание 9.** Напишите функцию `save_non_mystem_dict()`, сохраняющую структуру данных, получаемую функцией `get_non_mystem_dict()`, в текстовый файл формата TSV (tab-separated values). Слова в файле должны быть упорядочены по убыванию частоты.

**Задание 10.** Напишите функцию `get_pos_distribution()`, на вход которой поступает словарь, формируемый функцией `get_dictionary()`, а на выходе выдается структура данных, содержащая частотное распределение частей речи в словаре со следующими значениями

|часть речи|количество уникальных слов|общее количество слов|

| -------- | ------------------------ | ------------------- |

**Задание 11.** Проведите эксперименты с разработанными функциями:

- скачайте 10 файлов с текстами разных жанров и разного размера (например, произведения классиков, современных писателей, новостные статьи, научные статьи и т.п.). *Учитывайте кодировку* – все файлы должны быть в UTF-8;

- обработайте файлы при помощи функций `parse_text()`, `get_dictionary()` и `get_non_mystem_dict()`, и сохраните результаты в текстовых файлах при помощи функций `save_morph_results()`, `save_dictionary()` и `save_non_mystem_dict()`. Измеряйте время запуска функций! (см. следующий пункт);

- заполните следующую таблицу:

|Файл|Размер, байт|Размер текста (кол-во слов)|Размер словаря (кол-во уникальных слов)|Время работы get_dictionary(), сек.|

|----|------------|---------------------------|---------------------------------------|-----------------------------------|

- для самого большого словаря постройте частотное распределение слов:

  - по оси ординат – частота,

  - по оси абсцисс – слова, упорядоченные по убыванию частоты (по-другому, ранги слов);

- постройте график зависимость времени морфологического анализа от размера текстового файла;

- распределение частей речи, полученное функцией `get_pos_distribution()`, выведите на экран в виде таблицы и графика.