## Лабораторная работа 1. Морфологический парсер mystem

In [1]:
from pymystem3 import Mystem
import json

**Задание 1.** Изучите документацию и лицензию (!) морфологического парсера mystem от Yandex: https://yandex.ru/dev/mystem.

**Задание 2.** Установите `pymystem3` – интерфейс к mystem на Python: https://pypi.org/project/pymystem3.

(!) Обратите внимание, что у конструктора объекта Mystem() есть параметры.

**Задание 3.** Выпишите с какими параметрами запускается морфологический анализатор.



-n - Построчный режим; каждое слово печатается на новой строке.

-c - Копировать весь ввод на вывод. То есть, не только слова, но и межсловные промежутки.

-w - Печатать только словарные слова.

-l - Не печатать исходные словоформы, только леммы и граммемы.

-i - Печатать грамматическую информацию, расшифровка ниже.

-g - Склеивать информацию словоформ при одной лемме (только при включенной опции -i).

-s - Печатать маркер конца предложения (только при включенной опции -c).

-e - Кодировка ввода/вывода. Возможные варианты: cp866, cp1251, koi8-r, utf-8 (по умолчанию).

-d - Применить контекстное снятие омонимии.

--eng-gr - Печатать английские обозначения граммем.

--filter-gram - Строить разборы только с указанными граммемами.

--fixlist - Использовать файл с пользовательским словарём.

--format - Формат вывода. Возможные варианты: text, xml, json. Значение по умолчанию — text.

--generate-all - Генерировать все возможные гипотезы для несловарных слов.

--weight - Печатать бесконтекстную вероятность леммы.

**а)** Придумайте и запишите примеры предложений со словами не из словаря. Приведите их полученные морфологические разборы.



In [9]:
m = Mystem()

# Примеры предложений с потенциально несловарными словами
sentences = [
    "Мой друг стал инфлюенсером в социальных сетях.",
    "Этот стартап получил значительный фандрайзинг.",
    "Смартфон имеет отличную автономность и функциональность.",
    "Блогер создал вирусный контент для своей аудитории.",
    "Компания проводит ребрендинг своего бренда.",
    "Калушата дудонили бутявку."
]

# Проведем анализ для каждого предложения
for i, sentence in enumerate(sentences):
    print(f"\nПредложение {i+1}: {sentence}")
    analyses = m.analyze(sentence)

    print("Морфологический анализ:")
    for analysis in analyses:
        text = analysis.get('text', '')
        # Пропускаем пустые и пробельные элементы
        if text.strip() and analysis.get('analysis'):
            # Если слово есть в словаре
            if analysis['analysis']:
                lex = analysis['analysis'][0].get('lex', 'Неизвестно')
                gr = analysis['analysis'][0].get('gr', 'Неизвестно')
                print(f"  {text} -> лемма: {lex}, грамм. информация: {gr}")
            else:
                # Если слово отсутствует в словаре
                print(f"  {text} -> Слово отсутствует в словаре")
        elif text.strip():
            # Если слово отсутствует в словаре (нет анализа)
            print(f"  {text} -> Слово отсутствует в словаре")


Предложение 1: Мой друг стал инфлюенсером в социальных сетях.
Морфологический анализ:
  Мой -> лемма: мой, грамм. информация: APRO=(вин,ед,муж,неод|им,ед,муж)
  друг -> лемма: друг, грамм. информация: S,муж,од=им,ед
  стал -> лемма: становиться, грамм. информация: V,нп=прош,ед,изъяв,муж,сов
  инфлюенсером -> лемма: инфлюенсер, грамм. информация: S,гео,муж,неод=твор,ед
  в -> лемма: в, грамм. информация: PR=
  социальных -> лемма: социальный, грамм. информация: A=(пр,мн,полн|вин,мн,полн,од|род,мн,полн)
  сетях -> лемма: сеть, грамм. информация: S,жен,неод=пр,мн
  . -> Слово отсутствует в словаре

Предложение 2: Этот стартап получил значительный фандрайзинг.
Морфологический анализ:
  Этот -> лемма: этот, грамм. информация: APRO=(вин,ед,муж,неод|им,ед,муж)
  стартап -> лемма: стартап, грамм. информация: S,муж,неод=(вин,ед|им,ед)
  получил -> лемма: получать, грамм. информация: V,пе=прош,ед,изъяв,муж,сов
  значительный -> лемма: значительный, грамм. информация: A=(вин,ед,полн,муж,неод|им,

**б)** Применяется ли контекстное снятие омонимии при морфологическом разборе?



In [15]:
# Примеры с разным контекстом для слова "ключ"
sentences = [
    "Он потерял ключ от квартиры.",  # Существительное, мужской род
    "Источник ключ бьет в скале.",   # Существительное, мужской род
    "Нашел ключ к решению проблемы.",      # Существительное, мужской род
    "Слесарь взял ключ на 13 мм.",        # Существительное, мужской род
]

for sentence in sentences:
    analyses = m.analyze(sentence)
    print(f"Предложение: {sentence}")
    for analysis in analyses:
        if analysis['text'].strip() == 'ключ' and 'analysis' in analysis:
            if analysis['analysis']:
                print(f"  Лемма: {analysis['analysis'][0]['lex']}")
                print(f"  Грамм. информация: {analysis['analysis'][0]['gr']}")
    print()

Предложение: Он потерял ключ от квартиры.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)

Предложение: Источник ключ бьет в скале.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)

Предложение: Нашел ключ к решению проблемы.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)

Предложение: Слесарь взял ключ на 13 мм.
  Лемма: ключ
  Грамм. информация: S,муж,неод=(вин,ед|им,ед)



**Задание 4.** Напишите функцию `parse_text()`, на вход которой поступает текст (в виде строки), а на выходе формируется структура данных, содержащая для каждого слова входного текста следующую информацию:
- исходную словоформу (wordform);
- нормальную форму слова (лемму) (norm, lemma);
- часть речи (part of speech, POS);
- другую грамматическую информацию, выдаваемую mystem;
- признак, присутствует ли слово в словаре mystem.

Функция должна выбирать наиболее вероятный вариант морфологического разбора слова.

In [None]:
import re

def parse_text(text):

    # Создаем экземпляр анализатора MyStem
    m = Mystem()

    # Проводим морфологический анализ текста
    analyses = m.analyze(text)

    # Список для хранения результатов
    result = []

    # Обрабатываем каждый элемент анализа
    for analysis in analyses:
        # Получаем исходную словоформу
        wordform = analysis.get('text', '')

        # Пропускаем пустые элементы и пробелы
        if not wordform.strip():
            continue

        # Создаем словарь для хранения информации о слове
        word_info = {
            'wordform': wordform,
            'lemma': None,
            'pos': None,
            'gramm_info': None,
            'in_dictionary': False
        }

        # Проверяем наличие анализа
        if 'analysis' in analysis and analysis['analysis']:
            # Слово есть в словаре
            word_info['in_dictionary'] = True

            # Берем первый (наиболее вероятный) вариант анализа
            # MyStem сам выбирает наиболее вероятный вариант на основе контекста
            first_analysis = analysis['analysis'][0]

            # Получаем лемму
            word_info['lemma'] = first_analysis.get('lex', wordform)

            # Получаем грамматическую информацию
            gramm_info = first_analysis.get('gr', '')
            word_info['gramm_info'] = gramm_info

            # Извлекаем часть речи (первый элемент до запятой)
            if gramm_info:
                pos = gramm_info.split(',')[0]
                word_info['pos'] = pos
        else:
            # Слово отсутствует в словаре
            word_info['in_dictionary'] = False
            # Для несловарных слов используем исходную форму как лемму
            word_info['lemma'] = wordform
            word_info['pos'] = 'UNKNOWN'
            word_info['gramm_info'] = 'WORD_NOT_IN_DICTIONARY'

        # Добавляем информацию о слове в результат
        result.append(word_info)

    return result

def print_parsed_text(parsed_words):

    print(f"{'Словоформа':<15} {'Лемма':<15} {'Часть речи':<12} {'В словаре':<10} {'Грамм. инфо'}")
    print("-" * 80)

    for word_info in parsed_words:
        # Получаем словоформу
        wordform = word_info['wordform']

        # Проверяем, содержит ли элемент хотя бы одну букву или цифру
        if re.search(r'[а-яА-ЯёЁa-zA-Z0-9]', wordform):
            # Дополнительно проверяем, что элемент не состоит только из знаков препинания
            if not re.fullmatch(r'[^\w\s]', wordform):
                print(f"{word_info['wordform']:<15} {word_info['lemma']:<15} {word_info['pos']:<12} "
                      f"{'Да' if word_info['in_dictionary'] else 'Нет':<10} {word_info['gramm_info']}")

# Текст с различными знаками препинания
text = "Прекрасный день! Солнце светит ярко, птицы поют... Как хорошо!"

# Анализ текста
parsed = parse_text(text)

# Вывод результатов (без знаков препинания)
print_parsed_text(parsed)

Словоформа      Лемма           Часть речи   В словаре  Грамм. инфо
--------------------------------------------------------------------------------
Прекрасный      прекрасный      A=(вин       Да         A=(вин,ед,полн,муж,неод|им,ед,полн,муж)
день            день            S            Да         S,муж,неод=(вин,ед|им,ед)
Солнце          солнце          S            Да         S,сред,неод=(пр,ед|вин,ед|им,ед)
светит          светить         V            Да         V,несов,нп=непрош,ед,изъяв,3-л
ярко            ярко            ADV=         Да         ADV=
птицы           птица           S            Да         S,жен,од=(род,ед|им,мн)
поют            петь            V            Да         V,несов,пе=непрош,мн,изъяв,3-л
Как             как             ADVPRO=      Да         ADVPRO=
хорошо          хорошо          ADV=вводн    Да         ADV=вводн


**Задание 5.** Напишите функцию `save_morph_results()`, сохраняющую структуру данных, получаемую функцией `parse_text()`, в текстовый файл формата JSON.

In [None]:
import json
import os

def parse_text(text):
    # Создаем экземпляр анализатора MyStem
    m = Mystem()

    # Проводим морфологический анализ текста
    analyses = m.analyze(text)

    # Список для хранения результатов
    result = []

    # Обрабатываем каждый элемент анализа
    for analysis in analyses:
        # Получаем исходную словоформу
        wordform = analysis.get('text', '')

        # Пропускаем пустые элементы и пробелы
        if not wordform.strip():
            continue

        # Создаем словарь для хранения информации о слове
        word_info = {
            'wordform': wordform,
            'lemma': None,
            'pos': None,
            'gramm_info': None,
            'in_dictionary': False
        }

        # Проверяем наличие анализа
        if 'analysis' in analysis and analysis['analysis']:
            # Слово есть в словаре
            word_info['in_dictionary'] = True

            # Берем первый (наиболее вероятный) вариант анализа
            # MyStem сам выбирает наиболее вероятный вариант на основе контекста
            first_analysis = analysis['analysis'][0]

            # Получаем лемму
            word_info['lemma'] = first_analysis.get('lex', wordform)

            # Получаем грамматическую информацию
            gramm_info = first_analysis.get('gr', '')
            word_info['gramm_info'] = gramm_info

            # Извлекаем часть речи (первый элемент до запятой)
            if gramm_info:
                pos = gramm_info.split(',')[0]
                word_info['pos'] = pos
        else:
            # Слово отсутствует в словаре
            word_info['in_dictionary'] = False
            # Для несловарных слов используем исходную форму как лемму
            word_info['lemma'] = wordform
            word_info['pos'] = 'UNKNOWN'
            word_info['gramm_info'] = 'WORD_NOT_IN_DICTIONARY'

        # Добавляем информацию о слове в результат
        result.append(word_info)

    return result

def save_morph_results(parsed_data, filename):

    # Проверяем, что parsed_data является списком
    if not isinstance(parsed_data, list):
        raise TypeError("Ожидается список данных для сохранения")

    # Создаем директорию для файла, если она не существует
    directory = os.path.dirname(filename)
    if directory and not os.path.exists(directory):
        os.makedirs(directory)

    # Открываем файл для записи в формате JSON
    with open(filename, 'w', encoding='utf-8') as f:
        # Сохраняем данные в формате JSON с отступами для читаемости
        json.dump(parsed_data, f, ensure_ascii=False, indent=4)

    print(f"Результаты успешно сохранены в файл: {filename}")
    return True


def load_morph_results(filename):
    try:
        # Проверяем существование файла
        if not os.path.exists(filename):
            raise FileNotFoundError(f"Файл {filename} не найден")

        with open(filename, 'r', encoding='utf-8') as f:
            parsed_data = json.load(f)

        # Проверяем, что загруженные данные являются списком
        if not isinstance(parsed_data, list):
            raise TypeError("Загруженные данные не являются списком")

        print(f"Результаты успешно загружены из файла: {filename}")
        return parsed_data

    except FileNotFoundError as e:
        print(f"Ошибка: {e}")
        return None
    except json.JSONDecodeError:
        print(f"Ошибка: Файл {filename} содержит некорректные данные JSON")
        return None
    except PermissionError:
        print(f"Ошибка доступа: Нет прав для чтения файла {filename}")
        return None
    except Exception as e:
        print(f"Неожиданная ошибка при загрузке из файла: {e}")
        return None

def print_parsed_text(parsed_words):

    print(f"{'Словоформа':<15} {'Лемма':<15} {'Часть речи':<12} {'В словаре':<10} {'Грамм. инфо'}")
    print("-" * 80)

    for word_info in parsed_words:
        # Получаем словоформу
        wordform = word_info['wordform']

        # Проверяем, содержит ли элемент хотя бы одну букву или цифру
        if re.search(r'[а-яА-ЯёЁa-zA-Z0-9]', wordform):
            # Дополнительно проверяем, что элемент не состоит только из знаков препинания
            if not re.fullmatch(r'[^\w\s]', wordform):
                print(f"{word_info['wordform']:<15} {word_info['lemma']:<15} {word_info['pos']:<12} "
                      f"{'Да' if word_info['in_dictionary'] else 'Нет':<10} {word_info['gramm_info']}")


# Анализ текста
text = "Мама мыла раму."
parsed_data = parse_text(text)

# Сохранение результатов в JSON файл
success = save_morph_results(parsed_data, "morph_analysis.json")

# Загрузка результатов из JSON файла
if success:
    loaded_data = load_morph_results("morph_analysis.json")
    if loaded_data:
        print_parsed_text(loaded_data)

Результаты успешно сохранены в файл: morph_analysis.json
Результаты успешно загружены из файла: morph_analysis.json
Словоформа      Лемма           Часть речи   В словаре  Грамм. инфо
--------------------------------------------------------------------------------
Мама            мама            S            Да         S,жен,од=им,ед
мыла            мыть            V            Да         V,несов,пе=прош,ед,изъяв,жен
раму            рама            S            Да         S,жен,неод=вин,ед


**Задание 6.** Напишите функцию `get_dictionary()`, на вход которой поступает текст (в виде строки), а на выходе формируется словарь,
включающий все уникальные слова текста и содержащий для каждого слова следующую информацию:
- нормальную форму слова;
- часть речи;
- частоту слова в тексте;
- все варианты словоформ в тексте с данной нормальной формой.

In [26]:
from collections import defaultdict


def parse_text(text):
    # Создаем экземпляр анализатора MyStem
    m = Mystem()

    # Проводим морфологический анализ текста
    analyses = m.analyze(text)

    # Список для хранения результатов
    result = []

    # Обрабатываем каждый элемент анализа
    for analysis in analyses:
        # Получаем исходную словоформу
        wordform = analysis.get('text', '')

        # Пропускаем пустые элементы и пробелы
        if not wordform.strip():
            continue

        # Создаем словарь для хранения информации о слове
        word_info = {
            'wordform': wordform,
            'lemma': None,
            'pos': None,
            'gramm_info': None,
            'in_dictionary': False
        }

        # Проверяем наличие анализа
        if 'analysis' in analysis and analysis['analysis']:
            # Слово есть в словаре
            word_info['in_dictionary'] = True

            # Берем первый (наиболее вероятный) вариант анализа
            # MyStem сам выбирает наиболее вероятный вариант на основе контекста
            first_analysis = analysis['analysis'][0]

            # Получаем лемму
            word_info['lemma'] = first_analysis.get('lex', wordform)

            # Получаем грамматическую информацию
            gramm_info = first_analysis.get('gr', '')
            word_info['gramm_info'] = gramm_info

            # Извлекаем часть речи (первый элемент до запятой)
            if gramm_info:
                pos = gramm_info.split(',')[0]
                word_info['pos'] = pos
        else:
            # Слово отсутствует в словаре
            word_info['in_dictionary'] = False
            # Для несловарных слов используем исходную форму как лемму
            word_info['lemma'] = wordform
            word_info['pos'] = 'UNKNOWN'
            word_info['gramm_info'] = 'WORD_NOT_IN_DICTIONARY'

        # Добавляем информацию о слове в результат
        result.append(word_info)

    return result


def get_dictionary(text):
    # Получаем результаты морфологического анализа
    parsed_words = parse_text(text)

    # Словарь для хранения результатов
    dictionary = {}

    # Словарь для подсчета частоты слов (по леммам)
    frequency_counter = defaultdict(int)

    # Словарь для хранения всех словоформ для каждой леммы
    wordforms_dict = defaultdict(set)

    # Обрабатываем каждое слово из результатов анализа
    for word_info in parsed_words:
        # Получаем словоформу
        wordform = word_info['wordform']

        # Проверяем, содержит ли элемент хотя бы одну букву или цифру
        if not re.search(r'[а-яА-ЯёЁa-zA-Z0-9]', wordform):
            continue

        # Дополнительно проверяем, что элемент не состоит только из знаков препинания
        if re.fullmatch(r'[^\w\s]', wordform):
            continue

        # Получаем лемму (нормальную форму)
        lemma = word_info['lemma']

        # Если лемма не определена, используем словоформу
        if not lemma:
            lemma = wordform

        # Увеличиваем счетчик частоты для данной леммы
        frequency_counter[lemma] += 1

        # Добавляем словоформу в множество словоформ для данной леммы
        wordforms_dict[lemma].add(wordform)

        # Если лемма еще не добавлена в словарь, создаем для нее запись
        if lemma not in dictionary:
            dictionary[lemma] = {
                'norm': lemma,                    # Нормальная форма слова
                'pos': word_info['pos'],          # Часть речи
                'frequency': 0,                   # Частота (будет обновлена позже)
                'wordforms': []                   # Варианты словоформ (будет обновлен позже)
            }
        else:
            # Если для этой леммы уже есть запись, но часть речи еще не определена,
            # пытаемся уточнить ее из текущего слова
            if dictionary[lemma]['pos'] in ['UNKNOWN', None] and word_info['pos'] not in ['UNKNOWN', None]:
                dictionary[lemma]['pos'] = word_info['pos']

    # Обновляем частоту и словоформы для каждой леммы
    for lemma in dictionary:
        dictionary[lemma]['frequency'] = frequency_counter[lemma]
        dictionary[lemma]['wordforms'] = list(wordforms_dict[lemma])

    return dictionary


def print_dictionary(dictionary):

    print(f"{'Нормальная форма':<15} {'Часть речи':<12} {'Частота':<8} {'Словоформы'}")
    print("-" * 70)

    for lemma, info in dictionary.items():
        wordforms_str = ', '.join(info['wordforms'])
        print(f"{info['norm']:<15} {info['pos']:<12} {info['frequency']:<8} {wordforms_str}")


# Анализ текста
text = "Мама мыла раму. Мамы моют рамы."
dictionary = get_dictionary(text)

# Вывод результатов
print_dictionary(dictionary)



Нормальная форма Часть речи   Частота  Словоформы
----------------------------------------------------------------------
мама            S            2        Мамы, Мама
мыть            V            2        мыла, моют
рама            S            2        раму, рамы


**Задание 7.** Напишите функцию `save_dictionary()`, сохраняющую предыдущую структуру данных в текстовый файл формата JSON. Слова в файле должны быть упорядочены по убыванию частоты.

In [27]:
def save_dictionary(dictionary, filename):
    """
    Функция для сохранения словаря в файл формата JSON.

    Аргументы:
        dictionary (dict): Словарь слов
        filename (str): Имя файла для сохранения
    """
    try:
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(dictionary, f, ensure_ascii=False, indent=4)
        print(f"Словарь успешно сохранен в файл: {filename}")
    except Exception as e:
        print(f"Ошибка при сохранении словаря: {e}")

# Сохранение словаря в файл
save_dictionary(dictionary, "word_dictionary.json")

Словарь успешно сохранен в файл: word_dictionary.json


**Задание 8.** Напишите функцию `get_non_mystem_dict()`, на вход которой поступает структура данных, получаемая функцией `parse_text()`, а на выходе формируется словарь, содержащий уникальные слова текста, отсутствующие в словаре mystem, вместе с частотой слова в тексте.

In [29]:
def parse_text(text):
    # Создаем экземпляр анализатора MyStem
    m = Mystem()

    # Проводим морфологический анализ текста
    analyses = m.analyze(text)

    # Список для хранения результатов
    result = []

    # Обрабатываем каждый элемент анализа
    for analysis in analyses:
        # Получаем исходную словоформу
        wordform = analysis.get('text', '')

        # Пропускаем пустые элементы и пробелы
        if not wordform.strip():
            continue

        # Создаем словарь для хранения информации о слове
        word_info = {
            'wordform': wordform,
            'lemma': None,
            'pos': None,
            'gramm_info': None,
            'in_dictionary': False
        }

        # Проверяем наличие анализа
        if 'analysis' in analysis and analysis['analysis']:
            # Слово есть в словаре
            word_info['in_dictionary'] = True

            # Берем первый (наиболее вероятный) вариант анализа
            # MyStem сам выбирает наиболее вероятный вариант на основе контекста
            first_analysis = analysis['analysis'][0]

            # Получаем лемму
            word_info['lemma'] = first_analysis.get('lex', wordform)

            # Получаем грамматическую информацию
            gramm_info = first_analysis.get('gr', '')
            word_info['gramm_info'] = gramm_info

            # Извлекаем часть речи (первый элемент до запятой)
            if gramm_info:
                pos = gramm_info.split(',')[0]
                word_info['pos'] = pos
        else:
            # Слово отсутствует в словаре
            word_info['in_dictionary'] = False
            # Для несловарных слов используем исходную форму как лемму
            word_info['lemma'] = wordform
            word_info['pos'] = 'UNKNOWN'
            word_info['gramm_info'] = 'WORD_NOT_IN_DICTIONARY'

        # Добавляем информацию о слове в результат
        result.append(word_info)

    return result

def get_non_mystem_dict(parsed_data):
    # Словарь для подсчета частоты слов, отсутствующих в словаре mystem
    non_mystem_words = defaultdict(int)

    # Обрабатываем каждое слово из результатов анализа
    for word_info in parsed_data:
        # Получаем словоформу
        wordform = word_info['wordform']

        # Проверяем, содержит ли элемент хотя бы одну букву или цифру
        if not re.search(r'[а-яА-ЯёЁa-zA-Z0-9]', wordform):
            continue

        # Дополнительно проверяем, что элемент не состоит только из знаков препинания
        if re.fullmatch(r'[^\w\s]', wordform):
            continue

        # Проверяем, отсутствует ли слово в словаре mystem
        if not word_info['in_dictionary']:
            # Нормализуем словоформу (приводим к нижнему регистру для объединения разных форм)
            normalized_word = wordform.lower().strip()
            # Увеличиваем счетчик частоты для данного слова
            non_mystem_words[normalized_word] += 1

    # Преобразуем defaultdict в обычный dict для возврата
    return dict(non_mystem_words)

def print_non_mystem_dict(non_mystem_dict):
    if not non_mystem_dict:
        print("Слова, отсутствующие в словаре mystem, не найдены.")
        return

    print(f"{'Слово':<20} {'Частота'}")
    print("-" * 30)

    # Сортируем по частоте (по убыванию)
    sorted_words = sorted(non_mystem_dict.items(), key=lambda x: x[1], reverse=True)

    for word, frequency in sorted_words:
        print(f"{word:<20} {frequency}")

def save_non_mystem_dict(non_mystem_dict, filename):
    try:
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(non_mystem_dict, f, ensure_ascii=False, indent=4)
        print(f"Словарь успешно сохранен в файл: {filename}")
    except Exception as e:
        print(f"Ошибка при сохранении словаря: {e}")


# Анализ текста
text = "Этот стартап получил значительный фандрайзинг."
parsed_data = parse_text(text)

# Получение словаря слов, отсутствующих в mystem
non_mystem_dict = get_non_mystem_dict(parsed_data)

# Вывод результатов
print_non_mystem_dict(non_mystem_dict)

Слова, отсутствующие в словаре mystem, не найдены.


**Задание 9.** Напишите функцию `save_non_mystem_dict()`, сохраняющую структуру данных, получаемую функцией `get_non_mystem_dict()`, в текстовый файл формата TSV (tab-separated values). Слова в файле должны быть упорядочены по убыванию частоты.

In [7]:
# Ваш код

**Задание 10.** Напишите функцию `get_pos_distribution()`, на вход которой поступает словарь, формируемый функцией `get_dictionary()`, а на выходе выдается структура данных, содержащая частотное распределение частей речи в словаре со следующими значениями


|часть речи|количество уникальных слов|общее количество слов|
| -------- | ------------------------ | ------------------- |

In [8]:
# Ваш код

**Задание 11.** Проведите эксперименты с разработанными функциями:
- скачайте 10 файлов с текстами разных жанров и разного размера (например, произведения классиков, современных писателей, новостные статьи, научные статьи и т.п.). *Учитывайте кодировку* – все файлы должны быть в UTF-8;
- обработайте файлы при помощи функций `parse_text()`, `get_dictionary()` и `get_non_mystem_dict()`, и сохраните результаты в текстовых файлах при помощи функций `save_morph_results()`, `save_dictionary()` и `save_non_mystem_dict()`. Измеряйте время запуска функций! (см. следующий пункт);
- заполните следующую таблицу:

|Файл|Размер, байт|Размер текста (кол-во слов)|Размер словаря (кол-во уникальных слов)|Время работы get_dictionary(), сек.|
|----|------------|---------------------------|---------------------------------------|-----------------------------------|
- для самого большого словаря постройте частотное распределение слов:
  - по оси ординат – частота,
  - по оси абсцисс – слова, упорядоченные по убыванию частоты (по-другому, ранги слов);
- постройте график зависимость времени морфологического анализа от размера текстового файла;
- распределение частей речи, полученное функцией `get_pos_distribution()`, выведите на экран в виде таблицы и графика.


In [9]:
# Ваш код