<a href="https://colab.research.google.com/github/Victor0vich/Denis/blob/main/%D0%92%D0%B5%D0%B1%D0%B8%D0%BD%D0%B0%D1%80_21_%D0%BD%D0%BE%D1%8F%D0%B1%D1%80%D1%8F_NLP_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Обработка естественного языка (Natural Language Processing)**

**Natural Language Processing (NLP)**, или **обработка естественного языка**, — это область искусственного интеллекта и компьютерной лингвистики, которая занимается анализом, пониманием и генерацией человеческого языка. NLP объединяет знания из таких областей, как лингвистика, машинное обучение и программирование, чтобы создавать алгоритмы, способные обрабатывать, анализировать и генерировать текст на естественном языке.

### Где применяется NLP?

NLP используется во множестве приложений, от простого анализа текста до сложных систем, таких как виртуальные помощники и чат-боты. Вот несколько примеров, где обработка текста на естественном языке нашла свое применение:

- **Поисковые системы**: Поисковики, такие как Google, используют NLP для понимания запроса пользователя и для поиска наиболее релевантных результатов.

- **Чат-боты и виртуальные помощники**: Такие системы, как "Siri", "Alexa", "Яндекс Алиса" или "Маруся" от Mail.ru Group, используют NLP для распознавания и понимания речи, чтобы ответить на запросы пользователей.

- **Анализ тональности**: Компании используют NLP для анализа отзывов и комментариев, чтобы выявить отношение пользователей к продуктам и услугам (позитивное, негативное или нейтральное).

- **Перевод текста**: Машинный перевод (например, Google Translate) использует NLP для перевода текста с одного языка на другой, учитывая при этом грамматику и контекст.

- **Распознавание сущностей (NER)**: В задачах NLP также выделяют именованные сущности, такие как имена людей, местоположения, даты и организации, что полезно для информационного поиска и анализа данных.

- **Автозаполнение и автокоррекция текста**: Современные текстовые редакторы, такие как Microsoft Word и Google Docs, используют NLP для предложений по исправлению текста и автозаполнения.

- **Обнаружение спама**: NLP помогает выявлять и блокировать спам-сообщения на основе анализа текста и ключевых слов.

### Основные задачи в NLP

NLP охватывает множество задач, каждая из которых имеет свои особенности и применимые методы. Вот основные из них:

- **Распознавание именованных сущностей (NER)**: Выделение значимых сущностей, таких как люди, компании, места, даты и т.д.
- **Классификация текста**: Задача классификации текста, например, определение темы документа или тональности.
- **Суммаризация текста**: Создание кратких резюме или выделение основной информации из текста.
- **Морфологический и синтаксический анализ**: Определение частей речи, синтаксической структуры предложений, лемматизация (приведение слова к нормальной форме с учетом контекста) и стемминг (приведение слова к его корню без учета контекста).
- **Перевод текста**: Перевод текста с одного языка на другой.
- **Ответы на вопросы**: Система получает текст и отвечает на вопросы на основе этого текста.

### Основные библиотеки

Для выполнения задач NLP в Python часто используются такие библиотеки, как **spaCy**, **Gensim**, **pymorphy**, **Hugging Face Transformers**, **T5**, **DeepPavlov**, **Natasha** и др. Эти библиотеки содержат готовые инструменты для различных задач обработки текста, такие как токенизация, выделение сущностей и анализ тональности.

## **1. Распознавание сущностей в тексте**

Распознавание сущностей в тексте (Named Entity Recognition, NER) — это процесс автоматического выделения ключевых элементов в тексте, таких как имена людей, названия мест, даты и организации. В этом уроке мы будем использовать библиотеку spaCy, одну из наиболее мощных и популярных библиотек для обработки естественного языка. В spaCy уже встроены предобученные модели для разных языков, что делает её удобной для быстрого извлечения полезной информации из текста. Она особенно полезна для задач NER благодаря высокой производительности и точности.

Для русского языка spaCy предоставляет модель `ru_core_news_sm`, которая способна распознавать лишь три типа сущностей:
- **LOC**: Местоположения (например, города и страны),
- **ORG**: Организации (компании, учреждения),
- **PER**: Персоны (имена людей).

Эти ограничения связаны с предобученной конфигурацией модели `ru_core_news_sm`. Чтобы расширить возможности распознавания, можно обучить модель на кастомных данных для выделения дополнительных сущностей.

In [None]:
#@title Загрузка и установка библиотек
from IPython.display import clear_output
!pip install -U spacy
!python -m spacy download ru_core_news_lg

import spacy
import random
from spacy.training.example import Example
from spacy import displacy
clear_output()

In [None]:
#@title Сервисные функции
def analyze_text_with_ner(nlp, text):
    """
    Применяет дообученную модель NER к тексту, выводит результаты и визуализирует сущности.

    :param nlp: Объект spaCy, содержащий модель NER.
    :param text: Строка с текстом для анализа.
    """
    # Обработка текста с помощью модели
    doc = nlp(text)

    # Вывод результатов в текстовом формате
    print("Распознанные сущности:")
    for ent in doc.ents:
        print(f"{ent.text} -> {ent.label_}")

    print("\nВизуализация сущностей:")
    # Визуализация сущностей
    displacy.render(doc, style="ent", jupyter=True)

def extract_entities_to_dict(nlp, text):
    """
    Извлекает сущности из текста и записывает их в словарь по категориям.

    Args:
    - nlp: Обученная модель spaCy.
    - text (str): Текст для анализа.

    Returns:
    - dict: Словарь с извлеченными сущностями.
    """
    # Обрабатываем текст моделью spaCy
    doc = nlp(text)

    # Создаем словарь для хранения данных
    data = {
        "LOC": [],
        "DATE": [],
        "TIME": [],
        "AMOUNT": [],
        "TRANSPORT": [],
        "ORG": [],
        "ANIMAL": [],
        "CHILD": [],
        "LEVEL": [],
        "COMFORT": [],
        "INSUR": [],
        "BUDGET": [],
        "RETURN": [],
        "FROM": None,
        "TO": None,
    }

    # Заполняем данные на основе сущностей
    for ent in doc.ents:
        if ent.label_ in ["LOC", "DATE", "TIME", "AMOUNT", "TRANSPORT", "ORG", "ANIMAL",
                          "CHILD", "LEVEL", "COMFORT", "INSUR", "BUDGET", "RETURN"]:
            data[ent.label_].append(ent.text)
        elif ent.label_ in ["FROM", "TO"]:  # FROM и TO хранят одно значение
            data[ent.label_] = ent.text

    # Возвращаем заполненный словарь
    return data

def train_ner_model(nlp, train_data, iterations=30, dropout=0.1):
    """
    Функция для дообучения NER компонента в модели spaCy.

    Параметры:
    - nlp: загруженная модель spaCy (Language object).
    - train_data: обучающие данные в формате списка кортежей (текст, аннотации).
    - iterations: количество итераций для обучения (по умолчанию 30).
    - dropout: вероятность исключения данных для регуляризации (по умолчанию 0.1).
    """
    # Отключаем компоненты, кроме "ner"
    other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"]

    with nlp.disable_pipes(*other_pipes):  # Контекстный менеджер отключает остальные компоненты
        optimizer = nlp.resume_training()  # Возобновляем обучение модели

        for itn in range(iterations):  # Итерации обучения
            random.shuffle(train_data)  # Перемешиваем данные
            losses = {}  # Словарь для потерь

            for text, annotations in train_data:  # Проходим по обучающим данным
                doc = nlp.make_doc(text)  # Преобразуем текст в объект Doc
                example = Example.from_dict(doc, annotations)  # Создаем Example
                nlp.update([example], drop=dropout, losses=losses)  # Обновляем модель

            # Выводим потери после каждой итерации
            print(f"Losses at iteration {itn}: {losses}")

def add_labels_to_ner(ner, train_data):
    """
    Добавляет метки сущностей в объект NER на основе TRAIN_DATA.
    """
    for _, annotations in train_data:
        # Перебираем все сущности в текущем примере
        for ent in annotations.get("entities", []):
            # Добавляем метку сущности в модель NER
            ner.add_label(ent[2])  # ent[2] — это название метки (например, "LOC", "ORG", "DATE")

def print_ner_labels(nlp):
    """
    Загружает русскоязычную модель Spacy, получает компонент NER и выводит список сущностей.
    """
    # Загружаем русскоязычную модель
    nlp = spacy.load("ru_core_news_lg")

    # Получаем компонент NER
    ner = nlp.get_pipe("ner")

    # Выводим список сущностей
    print("Доступные сущности в модели ru_core_news_lg:", ner.labels)

    return ner

### **1.1. Исходная модель**

ЗАГРУЖАЕМ РУССКОЯЗЫЧНУЮ МОДЕЛЬ SPACY И ВЫВОДИМ ДОСТУПНЫЕ СУЩНОСТИ

In [None]:
nlp = spacy.load("ru_core_news_lg")
ner = print_ner_labels(nlp)

Доступные сущности в исходной модели ru_core_news_lg: ('LOC', 'ORG', 'PER')


ПРИМЕР 1

In [None]:
# Предложение для анализа
text_1 = "Мы с коллегами работаем в Сбербанке, нам нужны билеты на самый быстрый поезд в Москву из Краснодара. Планируем выехать вечером 5 декабря, нас четверо. Возвращаемся 7 декабря с ребенком и собакой. Желательно купе, бюджет 10000 рублей. Нужна страховка"

# Использование функции обработки текста
analyze_text_with_ner(nlp, text_1)

Распознанные сущности:
Сбербанке -> ORG
Москву -> LOC
Краснодара -> LOC

Визуализация сущностей:


ПРИМЕР 2

In [None]:
# Предложение для анализа
text_2 = "Я и моя семья (нас трое) собираемся посетить Татарстан. Нам нужны билеты на самолет компании Победа из Екатеринбурга в Казань 3 января вечером, бизнес-класс. Обратно 6 января. Бюджет не более 20000 рублей."

# Использование функции обработки текста
analyze_text_with_ner(nlp, text_2)

Распознанные сущности:
Татарстан -> LOC
Победа -> ORG
Екатеринбурга -> LOC
Казань -> LOC

Визуализация сущностей:


ПРИМЕР 3

In [None]:
# Предложение для анализа
text_3 = "Меня зовут Павел, я хочу поехать в Баку в марте. Я с хомяком. Мне нужны билеты на любой транспорт из Тулы 12 марта. Обратно 20 марта, поездом, желательно в купе."

# Использование функции обработки текста
analyze_text_with_ner(nlp, text_3)

Распознанные сущности:
Павел -> PER
Баку -> LOC
Тулы -> LOC

Визуализация сущностей:


### **1.2. Дообученная модель**

**Задача:**
Разработаем модель на основе spaCy для распознавания именованных сущностей (NER) в текстах, связанных с поездками и бронированием. Цель — извлечь структурированную информацию из текста, такую как маршруты, даты, бюджет, транспорт, и сохранить эти данные в формате, удобном для последующей обработки (например, создания запросов для покупки билетов).

ОПИСЕНИЕ СУЩНОСТЕЙ ДЛЯ ДООБУЧЕНИЯ МОДЕЛИ

- **LOC**: Локация - указывает город отправления или прибытия.
- **DATE**: Дата отправления или прибытия.
- **TIME**: Время отправления или прибытия (утро, вечер..).
- **AMOUNT**: Количество пассажиров.
- **TRANSPORT**: Вид транспорта (поезд, самолет..).
- **ORG**: Организация.
- **ANIMAL**: Животные - информирует о наличии животного.
- **CHILD**: Дети - указывает на наличие детей.
- **LEVEL**: Класс обслуживания (эконом, купе..).
- **COMFORT**: Список дополнительных пожеланий (дешевый, быстрый..).
- **INSUR**: Страховка.
- **BUDGET**: Бюджет на маршрут.
- **RETURN**: Возврат - используется для обозначения обратной поездки.
- **FROM и TO**: Направление движения - указывает, откуда и куда происходит движение.

Эти метки используются для разметки текстов и обучения модели в рамках обработки запросов пассажиров на покупку билетов и планирование поездок.


ТРЕНИРОВОЧНЫЕ ДАННЫЕ

In [None]:
TRAIN_DATA = [
    ("Закажи нам пожалуйста в билеты в Москву из Краснодара 5 декабря. Возвращаемся 12 декабря. Спасибо.",
    {"entities": [
        (31, 32, "TO"), # в
        (33, 39, "LOC"), # Москву
        (40, 42, "FROM"), # из
        (43, 53, "LOC"),   # Краснодара
        (54, 63, "DATE"),  # 5 декабря
        (65, 77, "RETURN"),# возвращаемся
        (78, 88, "DATE"),  # 12 декабря
    ]}),
    ("Какие есть варианты добраться 15 декабря из Краснодара в Новосибирск? Обратный возврат 19 декабря пассажир 1.",
    {"entities": [
        (30, 40, "DATE"),  # 15 декабря
        (41, 43, "FROM"),  # из
        (44, 54, "LOC"),   # Краснодара
        (55, 56, "TO"),    # в
        (57, 68, "LOC"),   # Новосибирск
        (70, 86, "RETURN"), # обратный возврат
        (87, 97, "DATE"), # 19 декабря
        (98, 108, "AMOUNT"), # пассажир 1
    ]}),
    ("Отдай-ка пожалуйста результаты маршрута в январе с 15 по 20 до Петербурга и обратно. Пассажиров два.",
    {"entities": [
        (42, 59, "DATE"),  # январе с 15 по 20
        (60, 62, "TO"),  # до
        (63, 73, "LOC"),  # Петербурга
        (76, 83, "RETURN"),  # обратно
        (85, 99, "AMOUNT"),  # Пассажиров 2
    ]}),
    ("Подбери поезд Казань-Москва на 15 марта. Обратно хотелось бы улететь самолетом Москва-Сочи 22 числа, будний день.",
    {"entities": [
        (8, 13, "TRANSPORT"),  # поезд
        (14, 20, "LOC"),  # казань
        (21, 27, "LOC"),  # москва
        (31, 39, "DATE"),  # 15 марта
        (41, 48, "RETURN"),  # обратно
        (69, 78, "TRANSPORT"),  # самолётом
        (79, 85, "LOC"),  # москва
        (86, 90, "LOC"),  # сочи
        (91, 99, "DATE"),  # 22 числа
    ]}),
    ("маршрут Проложи пожалуйста на 20 января с Москвы до Ярославля",
    {"entities": [
        (30, 39, "DATE"),  # 20 января
        (40, 41, "FROM"),  # с
        (42, 48, "LOC"),  # Москвы
        (49, 51, "TO"),   # до
        (52, 61, "LOC"),   # Ярославля
    ]}),
    ("нужна поездка с Краснодара в Оренбург на 2 дня и обратно",
    {"entities": [
        (14, 15, "FROM"),    # с
        (16, 26, "LOC"),     # Краснодара
        (27, 28, "TO"),      # в
        (29, 37, "LOC"),     # Оренбург
        (49, 56, "RETURN"),   # обратно
    ]}),
    ("на пятое число Мне нужен билет на самолёт в Кисловодск из Томска и потом через 2 дня в Крым",
    {"entities": [
        (0, 14, "DATE"),    # на пятое число
        (34, 41, "TRANSPORT"), # самолёт
        (42, 43, "TO"),     # в
        (44, 54, "LOC"),    # Кисловодск
        (55, 57, "FROM"),   # из
        (58, 64, "LOC"),    # Томска
        (85, 86, "TO"),     # в
        (87, 91, "LOC"),     # Крым
    ]}),
    ("седьмого числа нужен билет на поезд с Краснодара до Анапы",
    {"entities": [
        (0, 14, "DATE"),        # седьмого числа
        (30, 35, "TRANSPORT"),  # поезд
        (36, 37, "FROM"),       # с
        (38, 48, "LOC"),        # Краснодара
        (49, 51, "TO"),         # до
        (52, 57, "LOC"),         # Анапы
    ]}),
    ("через 3 дня хочу Сочи Нет нет в Новороссийск Да у меня 30000 руб Я хочу в Новороссийск через 3 дня ну то есть седьмого числа",
    {"entities": [
        (17, 21, "LOC"),       # Сочи
        (30, 31, "TO"),        # в
        (32, 44, "LOC"),       # Новороссийск
        (55, 60, "BUDGET"),     # 30000
        (72, 73, "TO"),        # в
        (74, 86, "LOC"),       # Новороссийск
        (110, 124, "DATE"),      # седьмого числа
    ]}),
    ("Здравствуйте Мне нужно пятнадцатое число билет в Тверь Из Анапы 5000 руб за 5000",
    {"entities": [
        (23, 40, "DATE"),    # пятнадцатое число
        (47, 48, "TO"),       # в
        (49, 54, "LOC"),      # Тверь
        (55, 57, "FROM"),     # Из
        (58, 63, "LOC"),      # Анапы
        (64, 68, "BUDGET"),   # 5000
        (76, 80, "BUDGET"),   # 5000
    ]}),
    ('из Краснодара в Шахты Тринадцатого числа за 3000 руб',
    {'entities': [
        (0, 2, "FROM"),    # из
        (3, 13, 'LOC'),    # Краснодара
        (14, 15, 'TO'),    # в
        (16, 21, 'LOC'),     # Шахты
        (22, 40, 'DATE'),   # Тринадцатого числа
        (44, 48, 'BUDGET'),  # 3000
    ]}),
    ("Слушай, сегодня поеду я из Рысаева в Орск. Наверное, по пути заеду в Новотроицк. Нужно будет забрать вещи. И, наверное, заправить полный бак сразу. Рублей на 1000, наверное.",
    {"entities": [
        (24, 26, "FROM"), # из
        (27, 34, "LOC"), # Рысаева
        (35, 36, "TO"), # в
        (37, 41, "LOC"), # Орск
        (67, 68, "TO"), # в
        (69, 79, "LOC"), # Новотроицк
        (158, 162, "BUDGET"), # 1000
    ]}),
    ("Надо, короче, сгонять из Ясного в Гай, посмотреть, что там случилось.",
    {"entities": [
        (22, 24, "FROM"), # из
        (25, 31, "LOC"), # Ясного
        (32, 33, "TO"), # в
        (34, 37, "LOC"), # Гай
    ]}),
    ("Сегодня собираюсь ехать с другом из Оренбурга в Самару. Едем на концерт на машине.",
    {"entities": [
        (33, 35, "FROM"), # из
        (36, 45, "LOC"), # Оренбурга
        (46, 47, "TO"), # в
        (48, 54, "LOC"), # Самару
        (75, 81, "TRANSPORT"), # машине
    ]}),
    ("В общем, хочу заказать билет из Оренбурга до Москвы. Летим. Нас двое. А даты? Примерно, может, 1 октября, 2 октября 23 года. Я бы так сказал. Вот в это время собираемся.",
    {"entities": [
        (29, 31, "FROM"), # из
        (32, 41, "LOC"), # Оренбурга
        (42, 44, "TO"), # до
        (45, 51, "LOC"), # Москвы
        (53, 58, "TRANSPORT"), # летим
        (60, 68, "AMOUNT"), # Нас двое
        (95, 104, "DATE"), # 1 октября
        (106, 115, "DATE"), # 2 октября 23 года
    ]}),
    ("Мне нужен на поезд желательно что-нибудь комфортное типа купе или СВ по возможности выкупить сразу всё поеду 27 июля вернусь 22 августа из Владивостока в Хабаровск",
    {"entities": [
        (109, 116, "DATE"),    # 27 июля
        (125, 135, "DATE"),  # 22 августа
        (136, 138, "FROM"),  # из
        (139, 151, "LOC"),   # Владивостока
        (152, 153, "TO"),    # в
        (154, 163, "LOC"),   # Хабаровск
        (13, 18, "TRANSPORT"),# поезд
        (57, 61, "LEVEL"),   # купе
        (66, 68, "LEVEL"),   # СВ
        (117, 124, "RETURN"),  # вернусь
        (41, 51, "COMFORT"),  # комфортное
    ]}),
    ("Мне нужно из Пятигорска 28 ноября добраться до Ростова. При этом у меня будет багаж примерно килограмм 20, но может 25. Посмотри, что-то среднее, недорогое и недешёвое, но по времени, чтобы не очень долго. Желательно во второй половине дня, то есть это после трёх хотя бы какие-то билеты.",
    {"entities": [
        (10, 12, "FROM"),    # из
        (13, 23, "LOC"),     # Пятигорска
        (24, 33, "DATE"),    # 28 ноября
        (44, 46, "TO"),      # до
        (47, 54, "LOC"),     # Ростова
        (217, 239, "TIME"),  # во второй половине дня
        (253, 263, "TIME"),  # после трёх
        (146, 155, "COMFORT"),  # недорогое
        (158, 167, "COMFORT"),  # недешевое
    ]}),
    ("В феврале 24 года мне нужно будет из Сочи на электричке добраться до Краснодара, но нужен выходной день. Посмотри, пожалуйста, какие есть билеты, желательно во второй половине дня, без разницы, суббота это или будет воскресенье.",
    {"entities": [
        (0, 17, "DATE"),      # В феврале 24 года
        (34, 36, "FROM"),    # из
        (37, 41, "LOC"),     # Сочи
        (66, 68, "TO"),      # до
        (69, 79, "LOC"),     # Краснодара
        (45, 55, "TRANSPORT"), # электричке
        (157, 179, "TIME"),   # во второй половине дня
    ]}),
    ("Электричка с Пятигорска до Краснодара на 22 февраля, буду с 2 детьми.",
    {"entities": [
        (11, 12, "FROM"),   # с
        (13, 23, "LOC"),    # Пятигорска
        (23, 25, "TO"),     # до
        (27, 37, "LOC"),    # Краснодара
        (41, 51, "DATE"),   # 22 февраля
        (0, 10, "TRANSPORT"), # Электричка
        (60, 68, "CHILD"), # 2 детьми
    ]}),
    ("4 апреля мне нужно из Томска доехать до Барнаула самым дешевым способом, пожалуйста. У меня будет минимум багажа, но мне именно 4 апреля нужно выехать из Томска и уже 4 апреля быть в Барнауле.",
    {"entities": [
        (0, 8, "DATE"),     # 4 апреля
        (19, 21, "FROM"),   # из
        (22, 28, "LOC"),    # Томска
        (37, 39, "TO"),     # до
        (40, 48, "LOC"),    # Барнаула
        (55, 62, "COMFORT"), # дешевым
        (128, 136, "DATE"),   # 4 апреля
        (151, 153, "FROM"),   # из
        (154, 160, "LOC"),    # Томска
        (167, 165, "DATE"),   # 4 апреля
        (181, 182, "TO"),     # в
        (183, 191, "LOC"),    # Барнауле
    ]}),
    ("6 февраля я выезжаю из Красноярска. Мне нужно доехать до... Сейчас скажу, господи, как он называется... Байкальск. Оттуда через два дня мне нужно доехать до Читы. Из Читы через два дня мне нужно быть в Иркутске. Помоги мне составить маршрут, пожалуйста.",
    {"entities": [
        (0, 9, "DATE"),     # 6 февраля
        (20, 22, "FROM"),   # из
        (23, 34, "LOC"),    # Красноярска
        (54, 56, "TO"),     # до
        (104, 113, "LOC"),    # Байкальск
        (115, 121, "RETURN"), # оттуда
        (154, 156, "TO"),     # до
        (157, 161, "LOC"),    # Читы
        (163, 165, "FROM"),   # из
        (166, 170, "LOC"),    # Читы
        (200, 201, "TO"),   # в
        (202, 210, "LOC"),  # Иркутске
    ]}),
    ("15 марта поеду из Ярка в Уфу и обратно поеду через 4 дня c ребенком и животным.",
    {"entities": [
        (0, 8, "DATE"),     # 15 марта
        (15, 17, "FROM"),   # из
        (18, 22, "LOC"),    # Ярка
        (23, 24, "TO"),     # в
        (25, 28, "LOC"),    # Уфу
        (31, 38, "RETURN"), # обратно
        (59, 67, "CHILD"),   # ребенком
        (70, 78, "ANIMAL"),   # животным
    ]}),
    ("Из Йошкар-олы мне нужно добраться до Тамбова, там у меня будет командировка на 5 дней, то есть мне нужен билет туда-обратно. Из Йошкар-олы я выезжаю 10 октября.",
    {"entities": [
        (0, 2, "FROM"),     # Из
        (3, 13, "LOC"),     # Йошкар-олы
        (128, 138, "LOC"),     # Йошкар-олы
        (34, 36, "TO"),     # до
        (37, 44, "LOC"),    # Тамбова
        (149, 159, "DATE"),  # 10 октября
        (116, 123, "RETURN"), # обратно
    ]}),
    ("Из Брянска в Череповец в марте мне нужен билет. Какой есть самый дешевый, либо какой-нибудь выгодный, чтобы вроде по качеству тоже он был не совсем плохой. То есть имеется в виду, что либо самолет нормальной авиакомпании, либо если это будет поезд, то не плацкарт, хотя бы св.",
    {"entities": [
        (0, 2, "FROM"),     # Из
        (3, 10, "LOC"),     # Брянска
        (11, 12, "TO"),     # в
        (13, 22, "LOC"),    # Череповец
        (25, 30, "DATE"),   # марте
        (65, 72, "COMFORT"), # дешевый
        (92, 100, "COMFORT"), # выгодный
        (189, 196, "TRANSPORT"),# самолет
        (197, 207, "COMFORT"), # нормальной
        (242, 247, "TRANSPORT"), # поезд
        (255, 263, "LEVEL"),# плацкарт
        (273, 275, "LEVEL"),# св
    ]}),
    ("Из Вологды мне надо добраться до Новгорода. Билеты мне нужны будут либо 29 ноября, либо 1 декабря. Мне, в принципе, без разницы, самолёт или этот, как его, господи, поезд. Можно даже автобусы посмотреть.",
    {"entities": [
        (0, 2, "FROM"),      # Из
        (3, 10, "LOC"),      # Вологды
        (30, 32, "TO"),      # до
        (33, 42, "LOC"),     # Новгорода
        (72, 81, "DATE"),    # 29 ноября
        (88, 97, "DATE"),    # 1 декабря
        (129, 136, "TRANSPORT"), # самолёт
        (165, 170, "TRANSPORT"), # поезд
        (183, 191, "TRANSPORT"), # автобусы
    ]}),
    ("Великий Новгород и Чебоксары. Из Великого Новгорода мне нужно уехать 25 декабря и 1 января быть уже в Чебоксарах.",
    {"entities": [
        (0, 16, "LOC"),     # Великий Новгород
        (19, 28, "LOC"),    # Чебоксары
        (30, 32, "FROM"),    # Из
        (33, 51, "LOC"),     # Великого Новгорода
        (69, 79, "DATE"),    # 25 декабря
        (82, 90, "DATE"),    # 1 января
        (100, 101, "TO"),      # в
        (102, 112, "LOC"),    # Чебоксарах
    ]}),
    ("Посмотри, пожалуйста, из Кстова в Нижний Новгород автобус на 6 декабря. Да, желательно во второй половине дня, но если на 6 декабря других нету, мне главное, чтобы 6 числа я выехала и 6 числа я была в Нижнем Новгороде.",
    {"entities": [
        (22, 24, "FROM"),    # из
        (25, 31, "LOC"),     # Кстова
        (32, 33, "TO"),      # в
        (34, 49, "LOC"),     # Нижний Новгород
        (61, 70, "DATE"),    # 6 декабря
        (50, 57, "TRANSPORT"), # автобус
        (87, 109, "TIME"),   # во второй половине дня
        (122, 131, "DATE"),    # 6 декабря
        (164, 171, "DATE"),    # 6 числа
        (184, 191, "DATE"),    # 6 числа
    ]}),
    ("Из Уфы мне нужен билет на 22 февраля в Рязань самый быстрый способ если самолет и там будет пересадка надо посмотреть чтобы я все равно в итоге приехала как можно скорее то есть я 22 числа хочу выехать край 23 утром но желательно хотя бы 22 вечером чтобы я уже была там",
    {"entities": [
        (0, 2, "FROM"),      # Из
        (3, 6, "LOC"),       # Уфы
        (26, 36, "DATE"),    # 22 февраля
        (37, 38, "TO"),      # в
        (39, 45, "LOC"),     # Рязань
        (52, 59, "COMFORT"),     # быстрый
        (72, 79, "TRANSPORT"), # самолет
        (180, 188, "DATE"),  # 22 числа
        (210, 215, "TIME"),  # утром
        (241, 248, "TIME"),  # вечером
    ]}),
    ("5 марта из Саратова мне нужно доехать до Оренбурга и обратно через 4 дня. У меня с собой будет два чемодана, но они такие достаточно большие, килограмм 20, наверное, каждый будет.",
    {"entities": [
        (0, 7, "DATE"),      # 5 марта
        (8, 10, "FROM"),     # из
        (11, 19, "LOC"),     # Саратова
        (38, 40, "TO"),      # до
        (41, 50, "LOC"),     # Оренбурга
        (53, 60, "RETURN"),  # обратно
    ]}),
    ("Как я могу из Астрахани доехать до Белорецка? Мне нужно в марте запланировать командировку. Желательно самый дешевый маршрут. Предложи, пожалуйста.",
    {"entities": [
        (11, 13, "FROM"),    # из
        (14, 23, "LOC"),     # Астрахани
        (32, 34, "TO"),      # до
        (35, 44, "LOC"),     # Белорецка
        (56, 63, "DATE"),    # в марте
        (109, 116, "COMFORT"), # дешевый
    ]}),
    ("Из Нижнего Новгорода во Владикавказ мне нужны летние билеты. Сейчас скажу, хотя... Посмотрите, в промежуток с 17 июля по 27 июля, вот в эти 10 дней какой билет будет самый выгодный.",
    {"entities": [
        (0, 2, "FROM"), # Из
        (3, 20, "LOC"), # Нижнего Новгорода
        (21, 23, "TO"), # во
        (24, 35, "LOC"), # Владикавказ
        (110, 117, "DATE"), # 17 июля
        (121, 128, "DATE"), # 27 июля
        (166, 180, "COMFORT") # самый выгодный
    ]}),
    ("С Волжского нужно доехать до Сочи 15 мая и билет обратно на 20 мая желательно автобус либо ж.д.",
    {"entities": [
        (0, 1, "FROM"),    # С
        (2, 11, "LOC"),    # Волжского
        (26, 28, "TO"),    # до
        (29, 33, "LOC"),   # Сочи
        (34, 40, "DATE"),  # 15 мая
        (60, 66, "DATE"),  # 20 мая
        (49, 56, "RETURN"), # обратно
        (78, 85, "TRANSPORT"), # автобус
        (91, 94, "TRANSPORT"), # ж.д.
    ]}),
    ("В Великий Новгород из Самары. Мне нужно на 13 апреля посмотреть билеты и желательно комфорт класса. То есть это если самолет, то бизнес класс, если поезд, то это что-нибудь СВ или купе.",
    {"entities": [
        (0, 1, "TO"),        # В
        (2, 18, "LOC"),      # Великий Новгород
        (19, 21, "FROM"),    # из
        (22, 28, "LOC"),     # Самары
        (43, 52, "DATE"),    # 13 апреля
        (117, 124, "TRANSPORT"), # самолет
        (84, 98, "LEVEL"), # комфорт класса
        (129, 141, "LEVEL"), # бизнес класс
        (148, 153, "TRANSPORT"),# поезд
        (173, 175, "LEVEL"), # СВ
        (180, 184, "LEVEL"), # купе
    ]}),
    ("Здрасьте, здравсьте! Планируем компанией полететь в Сочи. Будьте добры, подскажите, пожалуйста, стоимость авиаперелётов с Оренбурга до Сочи примерно 1 декабря. Человек нас 5. Думаем, вот отправиться в путешествие новогоднее.",
    {"entities": [
        (50, 51, "TO"), # в
        (52, 56, "LOC"), # Сочи
        (120, 121, "FROM"), # с
        (122, 131, "LOC"), # Оренбурга
        (132, 134, "TO"), # до
        (135, 139, "LOC"), # Сочи
        (149, 158, "DATE"), # 1 декабря
        (168, 173, "AMOUNT"), # нас 5
        (106, 119, "TRANSPORT"), # авиаперелётов
    ]}),
    ("Так короче у нас загрузка под Самарой, там загружаемся по 20 тонн щебня и выезжаем короче это, на, получается сейчас, так так так, даже сейчас, блин, где-то написано, а вот сначала на Оренбург 10 тонн, потом по 10 тонн с машины, потом на Уфу, короче, по 10 тонн и обратно на Самару, вот такой рейс у нас будет.",
    {"entities": [
        (30, 37, "LOC"), # Самарой
        (184, 192, "LOC"), # Оренбург
        (238, 241, "LOC"), # Уфу
        (264, 271, "RETURN"), # обратно
        (202, 207, "RETURN"), # потом
        (229, 234, "RETURN"), # потом
        (275, 281, "LOC"), # Самару
        (221, 227, "TRANSPORT"), # машины
    ]}),
    ("До Ростова, какие есть варианты, на эти выходные сгонять, вернемся обратно в понедельник",
    {"entities": [
        (0, 2, "TO"), # До
        (3, 10, "LOC"), # Ростова
        (58, 74, "RETURN"), # вернемся обратно
    ]}),
    ("Срочно найди на 24 марта билеты до Красноярска, желательно чтобы сумма не больше 5000, поеду с ребенком и с собакой.",
    {"entities": [
        (32, 34, "TO"), # До
        (35, 46, "LOC"), # Красноярска
        (16, 24, "DATE"), # 24 марта
        (81, 85, "BUDGET"), # 5000
        (95, 103, "CHILD"), # ребенком
        (108, 115, "ANIMAL"), # собакой
    ]}),
    ("Мое имя Алексей. Я этнограф и организую экспедицию в малоизвестные народные уголки России. Наша цель – село Верхняя Санарка Алтайского края. Мы планируем изучить местные традиции и обычаи. Наша команда из 5 человек и 2 детей рассчитывает на бюджет 100000 рублей, что должно покрыть транспортные расходы, проживание и питание на 2 недели.",
    {"entities": [
        (108, 123, "LOC"), # Верхняя Санарка
        (205, 214, "AMOUNT"), # 5 человек
        (217, 224, "CHILD"), # 2 детей
        (248, 254, "BUDGET"), # 100000
    ]}),
    ("Подбери завтра, на утро, ЖД до Магнитогорска и оттуда нужно улететь в Челябинск через день, 5 января обратно самолетом, до Адлера. Какие есть варианты?",
    {"entities": [
        (31, 44, "LOC"), # Магнитогорска
        (70, 79, "LOC"), # Челябинск
        (92, 100, "DATE"), # 5 января
        (123, 129, "LOC"), # Адлера
        (19, 23, "TIME"), # утро
        (25, 27, "TRANSPORT"), # ЖД
        (109, 118, "TRANSPORT"), # самолетом
        (60, 67, "TRANSPORT"), # улететь
        (101, 108, "RETURN"), # обратно
        (47, 53, "RETURN"), # оттуда
        (28, 30, "TO"), # до
        (68, 69, "TO"), # в
        (120, 122, "TO"), # до
    ]}),
    ("Срочно найди мне билет на поезд купе из Питера в Калининград на завтра. Ранний рейс мне найди, пожалуйста.",
    {"entities": [
        (37, 39, "FROM"), # из
        (40, 46, "LOC"), # Питера
        (49, 60, "LOC"), # Калининград
        (32, 36, "LEVEL"), # купе
        (47, 48, "TO"), # в
        (72, 78, "TIME"), # ранний
    ]}),
    ("Поеду из Владивостока в Краснодар 25 августа мне нужен самолет с питанием и желательно в первой половине дня чтобы я из Владивостока вылетала обратно хочу вернуться 1 сентября",
    {"entities": [
        (6, 8, "FROM"), # из
        (9, 21, "LOC"),   # Владивостока
        (22, 23, "TO"),    # в
        (24, 33, "LOC"), # в Краснодар
        (34, 44, "DATE"), # 25 августа
        (55, 62, "TRANSPORT"), # самолет
        (65, 73, "COMFORT"), # питанием
        (89, 108, "TIME"), # первой половине дня
        (120, 132, "LOC"),   # Владивостока
        (165, 175, "DATE"), # 1 сентября
        (142, 149, "RETURN"), # обратно
        (133, 141, "TRANSPORT"), # вылетела
    ]}),
    ("Поеду 10 октября из Хабаровска в Якутск, обратно возвращаюсь 28 октября. Мне нужен самый быстрый билет на самолет, либо посмотри ЖД СВ или женское купе, но желательно авиабилет.",
    {"entities": [
        (6, 16, "DATE"), # 10 октября
        (17, 19, "FROM"), # из
        (20, 30, "LOC"), # из Хабаровска
        (31, 32, "TO"),    # в
        (33, 39, "LOC"), # в Якутск
        (41, 48, "RETURN"), # обратно
        (61, 71, "DATE"), # 28 октября
        (89, 96, "COMFORT"), # быстрый
        (106, 113, "TRANSPORT"),# самолет
        (129, 131, "TRANSPORT"),# ЖД
        (132, 134, "LEVEL"),   # СВ
        (139, 146, "COMFORT"),  # женское
        (147, 151, "LEVEL"),   # купе
    ]}),
    ("Найди, пожалуйста, на 3 января поезд из Нерюнгрю в Хабаровск, сутки там переждем и 5 числа найди билет на самолет Хабаровск - Москва, а потом найди самолеты обратно Москва-Нерюнгрю.",
    {"entities": [
        (22, 30, "DATE"),      # 3 января
        (37, 39, "FROM"),      # из
        (40, 48, "LOC"),       # Нерюнгрю
        (49, 50, "TO"),        # в
        (51, 60, "LOC"),       # Хабаровск
        (83, 90, "DATE"),      # 5 числа
        (114, 123, "LOC"),       # Хабаровск
        (126, 132, "LOC"),     # Москва
        (31, 36, "TRANSPORT"), # поезд
        (106, 113, "TRANSPORT"), # самолет
        (148, 156, "TRANSPORT"), # самолетs
        (165, 171, "LOC"),       # Москва
        (172, 180, "LOC"),     # Нерюнгрю
    ]}),
    ("На 20 октября э э э рейс самолет Благовещенск-Чита. Какие есть варианты, утром, ранний выезд, еду с кошкой.",
    {"entities": [
        (3, 13, "DATE"), # 20 октября
        (25, 32, "TRANSPORT"),# самолет
        (33, 45, "LOC"), # Благовещенск
        (46, 59, "LOC"), # Чита
        (73, 78, "TIME"), # утром
        (80, 86, "TIME"), # ранний
        (100, 106, "ANIMAL"), # кошкой
    ]}),
    ("Покажи, как добраться а а с Благовещенска до Красноярска, какие есть самолеты, на 20 ноября и обратно тот же маршрут, но уже 24 ноября нас трое.",
    {"entities": [
        (26, 27, "FROM"),      # с
        (28, 41, "LOC"),       # Благовещенска
        (42, 44, "TO"),        # до
        (45, 56, "LOC"),       # Красноярска
        (69, 77, "TRANSPORT"), # самолеты
        (82, 91, "DATE"),      # 20 ноября
        (94, 101, "RETURN"),   # обратно
        (125, 134, "DATE"),    # 24 ноября
        (135, 143, "AMOUNT"),  # нас трое
    ]}),
    ("Посмотри самый дешевый билет, э бизнес-класса, на 20 июля, из Ростова в Казань буду с ребенком обратно 22 июля.",
    {"entities": [
        (15, 22, "COMFORT"),    # дешевый
        (50, 57, "DATE"),    # 20 июля
        (59, 61, "FROM"),    # из
        (62, 69, "LOC"),     # Ростова
        (70, 71, "TO"),      # в
        (72, 78, "LOC"),     # Казань
        (86, 94, "CHILD"),  # ребенком
        (95, 102, "RETURN"), # обратно
        (103, 110, "DATE"),  # 22 июля
        (32, 45, "LEVEL"),    # бизнес-класса
    ]}),
    ("Мне нужно 20 июля поехать поездом из Улан-Удэ в Магадан. Обратный путь 27 июля. Обратно приехать в Улан-Удэ. Мне нужен самый дешевый авиабилет.",
    {"entities": [
        (10, 17, "DATE"),      # 20 июля
        (26, 33, "TRANSPORT"), # поездом
        (34, 36, "FROM"),     # из
        (37, 45, "LOC"),      # Улан-Удэ
        (46, 47, "TO"),       # в
        (48, 55, "LOC"),      # Магадан
        (71, 78, "DATE"),     # 27 июля
        (80, 87, "RETURN"),   # Обратно
        (97, 98, "TO"),       # в
        (99, 107, "LOC"),     # Улан-Удэ
        (125, 132, "COMFORT"), # дешевый
        (133, 142, "TRANSPORT"), # авиабилет
    ]}),
    ("25 августа поехать из Владивостока в Анадырь. Обратно вернуться 1 сентября. Мне нужен максимально быстрый и дешёвый билет на самолёт. Желательно не Победа со страховкой.",
    {"entities": [
        (0, 10, "DATE"),       # 25 августа
        (19, 21, "FROM"),     # из
        (22, 34, "LOC"),      # Владивостока
        (35, 36, "TO"),       # в
        (37, 44, "LOC"),      # Анадырь
        (64, 74, "DATE"),     # 1 сентября
        (46, 63, "RETURN"),   # Обратно вернуться
        (98, 105, "COMFORT"), # быстрый
        (108, 115, "COMFORT"),# дешёвый
        (125, 132, "TRANSPORT"), # самолёт
        (148, 154, "ORG"), # Победа
        (158, 168, "INSUR"),    # страховкой
    ]}),
    ("28 октября мне нужно уехать в Казань из Волгограда. Обратно вернуться примерно через 7 дней, там числа двадцать седьмого июля, и нужен самый быстрый авиабилет. А желательно либо S7, либо Аэрофлот. У меня будет ручная кладь и животное, нужна страховка.",
    {"entities": [
        (0, 10, "DATE"),       # 28 октября
        (28, 29, "TO"),        # в
        (30, 36, "LOC"),       # Казань
        (37, 39, "FROM"),      # из
        (40, 50, "LOC"),       # Волгограда
        (52, 69, "RETURN"),    # Обратно вернуться
        (103, 125, "DATE"),    # двадцать седьмого июля
        (141, 148, "COMFORT"), # быстрый
        (149, 158, "TRANSPORT"),# авиабилет
        (178, 180, "ORG"),     # S7
        (187, 195, "ORG"),     # Аэрофлот
        (225, 233, "ANIMAL"),  # животное
        (241, 250, "INSUR"),    # страховка
    ]})
]

ДОБВЫЛЯЕМ СУЩНОСТИ ИЗ ТРЕНИРОВОЧНЫХ ДАННЫХ В СПИСОК МЕТОК NER

In [None]:
# ner — это компонент NER из модели spaCy
# TRAIN_DATA — список примеров для обучения в формате spaCy

add_labels_to_ner(ner, TRAIN_DATA)

ДООБУЧАЕМ МОДЕЛЬ

In [None]:
# Передаем в функцию train_ner_model следующие параметры:
# - nlp: загруженную модель spaCy, которую нужно дообучить;
# - TRAIN_DATA: список обучающих данных (текст и разметка сущностей);
# - iterations=30: количество итераций обучения;

train_ner_model(nlp, TRAIN_DATA, iterations=30)

Losses at iteration 0: {'ner': 447.07358579220073}
Losses at iteration 1: {'ner': 313.4923159223781}
Losses at iteration 2: {'ner': 174.69768176704926}
Losses at iteration 3: {'ner': 119.06260254271054}
Losses at iteration 4: {'ner': 138.01177604822163}
Losses at iteration 5: {'ner': 70.72923431855983}
Losses at iteration 6: {'ner': 74.05548583051878}
Losses at iteration 7: {'ner': 76.64168833414004}
Losses at iteration 8: {'ner': 41.56653228449433}
Losses at iteration 9: {'ner': 23.381076782183964}
Losses at iteration 10: {'ner': 15.72987254896223}
Losses at iteration 11: {'ner': 18.7624444388964}
Losses at iteration 12: {'ner': 15.793282980256038}
Losses at iteration 13: {'ner': 14.881079675793913}
Losses at iteration 14: {'ner': 6.001753652377089}
Losses at iteration 15: {'ner': 2.5825476825776597}
Losses at iteration 16: {'ner': 6.491173345800352}
Losses at iteration 17: {'ner': 4.27866168753584}
Losses at iteration 18: {'ner': 3.4786087160376233}
Losses at iteration 19: {'ner': 2.

In [None]:
# Сохраняем дообученную модель
nlp.to_disk("/content/NLP_spacy_custom")

ПРИМЕР 1

In [None]:
# Предложение для анализа
text_1 = "Мы с коллегами работаем в Сбербанке, нам нужны билеты на самый быстрый поезд в Москву из Краснодара. Планируем выехать вечером 5 декабря, нас четверо. Возвращаемся 7 декабря с ребенком и собакой. Желательно купе, бюджет 10000 рублей. Нужна страховка"

# Использование функции обработки текста
analyze_text_with_ner(nlp, text_1)

Распознанные сущности:
Сбербанке -> ORG
быстрый -> COMFORT
поезд -> TRANSPORT
в -> TO
Москву -> LOC
из -> FROM
Краснодара -> LOC
вечером -> TIME
5 декабря -> DATE
нас четверо -> AMOUNT
Возвращаемся -> RETURN
7 декабря -> DATE
ребенком -> CHILD
собакой -> ANIMAL
купе -> LEVEL
10000 -> BUDGET
страховка -> INSUR

Визуализация сущностей:


In [None]:
# Вызов функции для извлечения сущностей
extracted_data = extract_entities_to_dict(nlp, text_1)

# Вывод результатов
print("Извлеченные данные:")
extracted_data

Извлеченные данные:


{'LOC': ['Москву', 'Краснодара'],
 'DATE': ['5 декабря', '7 декабря'],
 'TIME': ['вечером'],
 'AMOUNT': ['нас четверо'],
 'TRANSPORT': ['поезд'],
 'ORG': ['Сбербанке'],
 'ANIMAL': ['собакой'],
 'CHILD': ['ребенком'],
 'LEVEL': ['купе'],
 'COMFORT': ['быстрый'],
 'INSUR': ['страховка'],
 'BUDGET': ['10000'],
 'RETURN': ['Возвращаемся'],
 'FROM': 'из',
 'TO': 'в'}

ПРИМЕР 2

In [None]:
# Предложение для анализа
text_2 = "Я и моя семья (нас трое) собираемся посетить Татарстан. Нам нужны билеты на самолет компании Победа из Екатеринбурга в Казань 3 января вечером, бизнес-класс. Обратно 6 января. Бюджет не более 20000 рублей."

# Использование функции обработки текста
analyze_text_with_ner(nlp, text_2)

Распознанные сущности:
нас трое -> AMOUNT
Татарстан -> LOC
самолет -> TRANSPORT
Победа -> ORG
из -> FROM
Екатеринбурга -> LOC
в -> TO
Казань -> LOC
3 января -> DATE
вечером -> TIME
бизнес-класс -> LEVEL
Обратно -> RETURN
6 января -> DATE
20000 -> BUDGET

Визуализация сущностей:


In [None]:
# Вызов функции для извлечения сущностей
extracted_data = extract_entities_to_dict(nlp, text_2)

# Вывод результатов
print("Извлеченные данные:")
extracted_data

Извлеченные данные:


{'LOC': ['Татарстан', 'Екатеринбурга', 'Казань'],
 'DATE': ['3 января', '6 января'],
 'TIME': ['вечером'],
 'AMOUNT': ['нас трое'],
 'TRANSPORT': ['самолет'],
 'ORG': ['Победа'],
 'ANIMAL': [],
 'CHILD': [],
 'LEVEL': ['бизнес-класс'],
 'COMFORT': [],
 'INSUR': [],
 'BUDGET': ['20000'],
 'RETURN': ['Обратно'],
 'FROM': 'из',
 'TO': 'в'}

ПРИМЕР 3

In [None]:
# Предложение для анализа
text_3 = "Меня зовут Павел, я хочу поехать в Баку в марте. Я с хомяком. Мне нужны билеты на любой транспорт из Тулы 12 марта. Обратно 20 марта, поездом, желательно в купе."

# Использование функции обработки текста
analyze_text_with_ner(nlp, text_3)

Распознанные сущности:
в -> TO
Баку -> LOC
в марте -> DATE
хомяком -> ANIMAL
транспорт -> TRANSPORT
из -> FROM
Тулы -> LOC
12 марта -> DATE
Обратно -> RETURN
20 марта -> DATE
поездом -> TRANSPORT
купе -> LEVEL

Визуализация сущностей:


In [None]:
# Вызов функции для извлечения сущностей
extracted_data = extract_entities_to_dict(nlp, text_3)

# Вывод результатов
print("Извлеченные данные:")
extracted_data

Извлеченные данные:


{'LOC': ['Баку', 'Тулы'],
 'DATE': ['в марте', '12 марта', '20 марта'],
 'TIME': [],
 'AMOUNT': [],
 'TRANSPORT': ['транспорт', 'поездом'],
 'ORG': [],
 'ANIMAL': ['хомяком'],
 'CHILD': [],
 'LEVEL': ['купе'],
 'COMFORT': [],
 'INSUR': [],
 'BUDGET': [],
 'RETURN': ['Обратно'],
 'FROM': 'из',
 'TO': 'в'}

РЕЗУЛЬТАТЫ:

Мы успешно дообучили модель на основе **spaCy** для распознавания именованных сущностей (NER) в текстах, связанных с поездками. Цель заключалась в извлечении структурированной информации из текста, такой как маршруты, даты, бюджет, транспорт, для последующей автоматизированной обработки.

## **2. Тематическая классификация текстов**

Тематическая классификация текстов — это задача автоматического определения темы текста, в нашем примере это темы: NLP, компьютерное зрение и временные ряды.

В этом проекте используется библиотека **Gensim**, которая предоставляет удобные инструменты для обработки текстовых данных и реализации модели скрытого распределения Дирихле - **Latent Dirichlet Allocation (LDA)**.
LDA позволяет выделять скрытые темы в текстах, анализируя распределение слов.

Для обработки текстов применяется библиотека **pymorphy2**, которая выполняет лемматизацию, приводя слова к начальной форме.
Это помогает унифицировать текст и улучшить качество классификации.
Также используется список стоп-слов, чтобы исключить малоинформативные слова, такие как «в», «и», «на».

**Основные этапы работы:**
1. **Предобработка текста**:
   - Токенизация текста.
   - Лемматизация.
   - Удаление стоп-слов.
2. **Создание словаря и корпуса**:
   - Формирование набора уникальных слов (включая фильтрацию редких и слишком частых слов).
   - Преобразование текстов в числовую форму (мешок слов).
3. **Обучение модели LDA**:
   - Выделение ключевых тем на основе статистического анализа распределения слов.

Этот подход позволяет эффективно классифицировать тексты, что полезно для анализа данных, организации информации и автоматизации задач, таких как аналитика или построение систем тематической рекомендации.

**ВНИМЕНИЕ!!!** Перед установкой библиотек перезапустите сеанс (В меню: Среда выполнения/Перезапустить сеанс)

In [None]:
#@title Загрузка и установка библиотек
from IPython.display import clear_output
!pip install gensim pymorphy2 pyLDAvis nltk
import gensim
from gensim import corpora
from gensim.models.ldamodel import LdaModel
from gensim.utils import simple_preprocess
import pymorphy2
import nltk
from nltk.corpus import stopwords
from nltk import download
import logging
import pyLDAvis.gensim as gensimvis
import pyLDAvis
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)
clear_output()

In [None]:
#@title Сервисные функции
# Функция для лемматизации и токенизации
def preprocess_russian(text, morph, russian_stopwords):
    """
    Лемматизация и токенизация текста.

    Args:
        text (str): Текст для обработки.
        morph (pymorphy2.MorphAnalyzer): Анализатор для лемматизации.
        russian_stopwords (set): Набор стоп-слов для фильтрации.

    Returns:
        list of str: Лемматизированный и токенизированный текст.
    """
    tokens = gensim.utils.simple_preprocess(text)  # Токенизация текста
    lemmas = [morph.parse(word)[0].normal_form for word in tokens if word not in russian_stopwords]
    return lemmas

# Функция предобработки текстов
def preprocess_and_display(documents, morph):
    """
    Лемматизация, предобработка текстов и вывод результатов для проверки.

    Args:
        documents (list of str): Список текстов для предобработки.
        morph (pymorphy2.MorphAnalyzer): Анализатор для лемматизации.
        russian_stopwords (set): Набор стоп-слов для фильтрации.

    Returns:
        list of list of str: Лемматизированные тексты.
    """

    # Загружаем стоп-слова для русского языка
    download('stopwords')
    russian_stopwords = set(stopwords.words('russian'))

    # Применяем предобработку ко всем текстам
    processed_docs = [preprocess_russian(doc, morph, russian_stopwords) for doc in documents]

    # Проверяем первые 5 результатов
    for i, doc in enumerate(processed_docs[:5]):
        print(f"Документ {i + 1}: {documents[i]}")
        print(f"После предобработки: {doc}\n")

    return processed_docs

#@title Создание и фильтрация словаря (скрытая функция)
def create_and_filter_dictionary(processed_docs, no_below, no_above):
    """
    Создает словарь, применяет фильтрацию редких и слишком частых слов, и выводит результаты.

    Args:
        processed_docs (list of list of str): Лемматизированные тексты.
        no_below (int): Минимальное количество документов, в которых должно встречаться слово.
        no_above (float): Максимальная доля документов, в которых может встречаться слово.

    Returns:
        tuple: (dictionary, removed_words)
            dictionary - Фильтрованный словарь (gensim.corpora.Dictionary).
            removed_words - Набор слов, удаленных при фильтрации.
    """
    from gensim import corpora

    # Создаем словарь
    dictionary = corpora.Dictionary(processed_docs)

    # Сохраняем список слов до фильтрации
    initial_words = set(dictionary.token2id.keys())

    # Применяем фильтрацию
    dictionary.filter_extremes(no_below=no_below, no_above=no_above)

    # Список слов после фильтрации
    filtered_words = set(dictionary.token2id.keys())
    removed_words = initial_words - filtered_words

    return dictionary, removed_words

# Функция для вывода обнаруженных тем
def print_topics_with_labels(lda_model, topic_labels):
    """
    Выводит темы, обнаруженные моделью LDA, с соответствующими названиями.

    Args:
        lda_model: обученная модель LDA.
        topic_labels: словарь с названиями тем, где ключи — индексы тем, а значения — названия.
    """
    print("\nТемы, обнаруженные моделью LDA (с подписями):")
    for idx, topic in lda_model.print_topics(-1):
        topic_name = topic_labels.get(idx, f"Тема {idx + 1}")
        print(f"{topic_name}: {topic}")

# Объединяем предсказание темы в одну функцию
def classify_new_texts(new_texts, lda_model, dictionary, topic_labels, morph):
    """
    Предсказывает темы для новых текстов на основе обученной LDA модели.

    Args:
        new_texts: список текстов для классификации.
        lda_model: обученная модель LDA.
        dictionary: словарь, использованный для обучения модели.
        topic_labels: словарь с названиями тем.
        morph: pymorphy2.MorphAnalyzer для лемматизации.

    Returns:
        list of dict: Результаты классификации для каждого текста.
    """

    # Загружаем стоп-слова для русского языка
    download('stopwords')
    russian_stopwords = set(stopwords.words('russian'))

    results = []
    for idx, text in enumerate(new_texts):
        # Предобработка текста
        processed_text = preprocess_russian(text, morph, russian_stopwords)
        # Преобразуем текст в мешок слов
        bow_vector = dictionary.doc2bow(processed_text)
        # Получаем распределение тем для текста
        topic_probs = lda_model.get_document_topics(bow_vector)
        # Сортируем по вероятности и выбираем наиболее вероятную тему
        topic_probs = sorted(topic_probs, key=lambda x: x[1], reverse=True)
        most_likely_topic = topic_probs[0][0]  # Номер наиболее вероятной темы
        topic_name = topic_labels.get(most_likely_topic, f"Тема {most_likely_topic + 1}")
        # Сохраняем результаты
        results.append({
            "text": text,
            "most_likely_topic": topic_name,
            "probability": topic_probs[0][1],
            "topic_distribution": [(topic_labels.get(topic[0], f"Тема {topic[0] + 1}"), topic[1]) for topic in topic_probs]
        })
    return results

def print_with_wrap(text, width=80):
    """
    Форматирует текст с переносами по указанной ширине.

    Args:
        text (str): Текст для форматирования.
        width (int): Максимальная ширина строки перед переносом.

    Returns:
        None
    """
    from textwrap import fill
    print(fill(text, width=width))

def create_corpus(processed_docs, dictionary):
    """
    Преобразует лемматизированные тексты в формат "мешок слов" (BoW) и выводит первые 5 документов.

    Args:
        processed_docs (list of list of str): Лемматизированные тексты.
        dictionary (gensim.corpora.Dictionary): Словарь, связывающий ID с уникальными словами.

    Returns:
        list of list of tuple: Корпус текстов в формате BoW.
    """
    # Преобразуем документы в формат BoW
    corpus = [dictionary.doc2bow(doc) for doc in processed_docs]

    # Выводим первые 5 документов для проверки
    print("Корпус текстов (первые 5 документов):")
    for i, doc in enumerate(corpus[:5]):
        print(f"Документ {i + 1}: {doc}")

    return corpus

def analyze_topic_accuracy(documents, corpus, lda_model, topic_labels, topic_index, start_idx, end_idx):
    """
    Анализирует точность классификации документов для заданной темы.

    Args:
        documents (list): Список всех документов.
        corpus (list): Корпус в формате "мешка слов".
        lda_model (LdaModel): Обученная LDA-модель.
        topic_labels (dict): Словарь с названиями тем.
        topic_index (int): Индекс темы, для которой выполняется анализ.
        start_idx (int): Индекс начала блока документов для темы.
        end_idx (int): Индекс конца блока документов для темы.

    Returns:
        float: Процент точности классификации для данной темы.
    """
    # Извлекаем документы, относящиеся к данной теме
    selected_documents = documents[start_idx:end_idx]

    # Получаем предсказанные темы для этих документов
    predicted_topics = [
        max(lda_model.get_document_topics(corpus[i]), key=lambda x: x[1])[0]
        for i in range(start_idx, end_idx)
    ]

    # Выводим результаты по каждому документу
    print(f"Анализ документов в теме '{topic_labels[topic_index]}':\n")
    correct_predictions = 0
    total_documents = len(selected_documents)

    for idx, (doc, predicted) in enumerate(zip(selected_documents, predicted_topics)):
        is_correct = (predicted == topic_index)
        if is_correct:
            correct_predictions += 1
        print(f"Документ {start_idx + idx + 1}:")
        print(f"Текст: {doc}")
        print(f"Предсказанная тема: {topic_labels[predicted]}")
        print(f"Ожидалась тема: {topic_labels[topic_index]}")
        print(f"Результат: {'✅ Правильно' if is_correct else '❌ Неправильно'}")
        print("---")

    # Рассчитываем точность
    accuracy = (correct_predictions / total_documents) * 100
    return accuracy

def initialize_pymorphy(print_stopwords=False, wrap_width=80):
    # Инициализируем pymorphy2 для лемматизации
    morph = pymorphy2.MorphAnalyzer()

    return morph

def filter_and_display_dictionary(processed_docs, no_below=2, no_above=0.8, wrap_width=80):
    """
    Создает и фильтрует словарь на основе обработанных документов.
    Также выводит удаленные слова и первые 20 слов в итоговом словаре.

    Args:
        processed_docs (list of list of str): Список документов, где каждый документ представлен как список токенов.
        no_below (int): Удаляем слова, которые появляются менее чем в `no_below` документах.
        no_above (float): Удаляем слова, которые появляются более чем в `no_above` доле документов.
        wrap_width (int): Ширина строки для вывода результатов (по умолчанию 80 символов).

    Returns:
        tuple: Итоговый словарь и список удаленных слов.
    """
    from gensim.corpora import Dictionary

    # Создаем словарь
    dictionary = Dictionary(processed_docs)

    # Получаем начальный список слов
    initial_words = set(dictionary.values())

    # Фильтруем словарь
    dictionary.filter_extremes(no_below=no_below, no_above=no_above)

    # Получаем список удаленных слов
    removed_words = initial_words - set(dictionary.values())

    # Вывод удаленных слов
    print("Удаленные слова при фильтрации:")
    removed_words_text = ", ".join(sorted(removed_words))
    print_with_wrap(removed_words_text, width=wrap_width)

    # Вывод первых 20 слов из словаря
    print("\nОбщий словарь по итогам фильтрации (первые 20 слов):")
    dictionary_text = ", ".join([f"{idx}: {word}" for idx, word in list(dictionary.items())[:20]])
    print_with_wrap(dictionary_text, width=wrap_width)

    print("\nДлина словаря: ", len(dictionary))

    return dictionary, removed_words

def display_classification_results(classification_results):
    """
    Выводит результаты классификации текстов.

    Args:
        classification_results (list of dict): Результаты классификации, содержащие:
            - text: Исходный текст.
            - most_likely_topic: Наиболее вероятная тема.
            - probability: Вероятность наиболее вероятной темы.
            - topic_distribution: Распределение вероятностей по темам.
    """
    for result in classification_results:
        print(f"\nТекст: \"{result['text']}\"")
        print(f"Наиболее вероятная тема: {result['most_likely_topic']} (вероятность {result['probability']:.2f})")
        print("Распределение по темам:", result['topic_distribution'])

ИНИЦИАЛИЗИРУЕМ PYMORPHY

In [None]:
morph = initialize_pymorphy()

СОЗДАЕМ ТЕМАТИЧЕСКИЕ ТЕКСТЫ ДЛЯ ТРЕНИРОВКИ МОДЕЛИ

In [None]:
documents = [
    # Обработка естественного языка (NLP)
    "NLP активно используется для автоматического анализа текста.",
    "Модели GPT используют NLP для создания реалистичных текстовых диалогов.",
    "Задачи NLP выделяют ключевые слова и идеи из текста.",
    "Генеративные модели на основе GPT создают текст с заданным контекстом.",
    "Семантический анализ текста улучшает поиск информации.",
    "NLP и машинное обучение оптимизируют обработку текста в поисковых системах.",
    "NLP анализируют тональность текста в отзывах.",
    "Модели Word2Vec преобразуют текст в векторное представление.",
    "Суммаризация выделяет главные идеи из текста.",
    "Обработка текста включает синтаксический и морфологический анализ.",
    "Алгоритмы GPT создают качественные переводы текста.",
    "Выявление плагиата анализирует оригинальность текста с помощью NLP.",
    "NLP улучшает обработку юридических документов и автоматизирует анализ текста.",
    "Эмоциональный анализ текста используется в маркетинговых исследованиях.",
    "Алгоритмы NLP анализируют семантику текста для понимания смысла.",
    "NLP выделяют имена, даты и организации в текстах.",
    "Создание текста с помощью GPT повышает автоматизацию обработки документов.",
    "Сравнительный анализ текста улучает качество классификации.",
    "Морфологический анализ текста оптимизирует работу поисковых систем.",
    "GPT улучшает семантику и морфологию текста в NLP.",
    "NLP активно выделяет синтаксис, семантику и морфологию текста.",
    "GPT автоматизирует обработку текста в NLP.",
    "GPT улучшает семантику и морфологию текста в задачах NLP.",
    "NLP активно выделяет синтаксис, семантику и морфологию текста.",
    "GPT улучшает автоматизировать обработку огромных массивов текстовой информации.",

    # Компьютерное зрение
    "Сверточные нейронные сети используются для классификации изображений.",
    "С использованием сегментации выделяют объекты на изображениях.",
    "Распознавание лиц применяется в системах безопасности.",
    "Компьютерное зрение анализирует дорожные знаки для автономных автомобилей.",
    "Компьютерное зрение анализирует видеопоток для распознавания объектов и событий.",
    "Глубокое обучение улучшает качество детекции объектов на видео.",
    "Алгоритмы отслеживания объектов используются в камерах наблюдения.",
    "Компьютерное зрение способно анализировать медицинские снимки.",
    "GAN-модели способны создавать сверточные изображения для анализа объектов.",
    "Компьютерное зрение улучшает распознавание объектов на медицинских изображениях.",
    "Сверточные сети классифицируют камеры и распознают изображения.",
    "Сегментация изображений и видео используется для распознавания объектов.",
    "OpenCV ускоряет обработку сверточных изображений и распознавание объектов."
    "YOLO используется для быстрой детекции объектов в реальном времени.",
    "Компьютерное зрение автоматизирует сортировку товаров на складах.",
    "Компьютерное зрение используется для задач распознавания лиц и эмоций.",
    "Обработка изображений способно анализировать спутниковые снимки.",
    "Компьютерное зрение используется для контроля качества продукции.",
    "Сверточные сети анализируют текстуры и формы объектов.",
    "Глубокое обучение применяет сверточные сети для анализа изображений.",
    "Компьютерное зрение делает возможным распознавание медицинских изображений.",
    "Компьютерное зрение помогает классифицировать объекты на изображениях.",
    "Сверточные нейронные сети обеспечивают распознавание объектов на изображениях.",
    "Методы сверточного анализа применяются для обработки изображений и распознавания объектов.",
    "Компьютерное зрение с способно классифицировать объекты на изображениях и видео.",

    # Временные ряды
    "Временные ряды анализируют зависимости данных от времени.",
    "Сезонные тренды временных рядов помогают выявлять закономерности.",
    "Прогнозирование временных рядов используется для долгосрочных прогнозов.",
    "Анализ временных данных позволяет находить аномалии и тренды.",
    "Сглаживание временных данных уменьшает шум в трендах.",
    "Декомпозиция временных рядов выделяет сезонность, тренды и шумы.",
    "Определение трендов во временных данных помогает управлять рисками.",
    "Сезонность временных рядов улучшает точность прогнозирования.",
    "Временные ряды применяются в экономике для анализа продаж.",
    "Кластеры временных данных помогают сегментировать потребителей.",
    "Аномалии в временных рядах позволяют выявить сбои в системах.",
    "Прогнозирование временных данных помогает управлять запасами.",
    "ARIMA-модели применяются для анализа сезонности временных данных.",
    "LSTM-сети используются для долгосрочного анализа временных рядов.",
    "Анализ временных данных помогает прогнозировать спрос на рынке.",
    "Скользящее среднее используется для устранения случайных колебаний.",
    "Долгосрочные тренды временных рядов помогают понять изменения рынка.",
    "Прогнозирование временных рядов помогает в управлении запасами.",
    "Трансформеры анализируют сложные временные данные и прогнозируют тренды.",
    "Сезонные изменения во временных рядах уточняют прогнозы.",
    "Анализ временных данных помогает предсказывать изменения погоды.",
    "Распознавание трендов улучшает управление энергопотреблением.",
    "Анализ временных рядов позволяет определять тренды и сезонность.",
    "Сезонность временных рядов позволяет предсказать цену.",
    "Выявление трендов в временных рядах используется в прогнозах.",
]

ЛЕММАТИЗАЦИЯ ТРЕНИРОВОЧНЫХ ТЕКСТОВ

In [None]:
# Разбиваем текст на слова, приводим их к начальной форме, удаляем стоп-слова
processed_docs = preprocess_and_display(documents, morph)

Документ 1: NLP активно используется для автоматического анализа текста.
После предобработки: ['nlp', 'активно', 'использоваться', 'автоматический', 'анализ', 'текст']

Документ 2: Модели GPT используют NLP для создания реалистичных текстовых диалогов.
После предобработки: ['модель', 'gpt', 'использовать', 'nlp', 'создание', 'реалистичный', 'текстовый', 'диалог']

Документ 3: Задачи NLP выделяют ключевые слова и идеи из текста.
После предобработки: ['задача', 'nlp', 'выделять', 'ключевой', 'слово', 'идея', 'текст']

Документ 4: Генеративные модели на основе GPT создают текст с заданным контекстом.
После предобработки: ['генеративный', 'модель', 'основа', 'gpt', 'создавать', 'текст', 'задать', 'контекст']

Документ 5: Семантический анализ текста улучшает поиск информации.
После предобработки: ['семантический', 'анализ', 'текст', 'улучшать', 'поиск', 'информация']



[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


СОЗДАНИЕ И ФИЛЬТРАЦИЯ СЛОВАРЯ

In [None]:
# Параметры фильтрации
no_below = 2  # Удаляем слова, которые появляются менее чем в 2 документах.
no_above = 0.8  # Удаляем слова, которые появляются более чем в 80% документов.

# processed_docs — список документов.
dictionary, removed_words = filter_and_display_dictionary(processed_docs, no_below=no_below, no_above=no_above)

# Результаты функции
# dictionary — это словарь, содержащий оставшиеся слова после фильтрации.
# removed_words — это множество слов, которые были удалены в процессе фильтрации.

Удаленные слова при фильтрации:
arima, gan, lstm, opencv, vec, word, yolo, автоматизация, автоматический,
автомобиль, автономный, безопасность, быстрый, векторный, видеопоток, включать,
возможный, выявить, выявлять, генеративный, главный, дата, дать, декомпозиция,
делать, диалог, дорожный, зависимость, задать, закономерность, знак, имя,
использование, использовать, исследование, качественный, классифицировать,
кластер, ключевой, колебание, контекст, контроль, маркетинговый, массив,
машинный, метод, наблюдение, находить, обеспечивать, огромный, определение,
определять, организация, оригинальность, основа, отзыв, отслеживание, перевод,
плагиат, повышать, погода, поиск, понимание, понять, потребитель, предсказать,
предсказывать, представление, преобразовать, применять, продажа, продукция,
работа, распознавать, реалистичный, реальный, риск, сбой, сглаживание,
сегментировать, семантический, синтаксический, склад, скользящий, слово,
сложный, случайный, смысл, событие, сортировка, спрос, спут

ПРЕОБРАЗОВАНИЕ ЛЕММАТИЗИРОВАННЫХ ТЕКСТОВ В ФОРМАТ "МЕШОК СЛОВ" (BAG OF WORDS)

In [None]:
# В функцию передаются:
# 1. processed_docs — лемматизированные тексты: каждый документ представлен списком слов.
# 2. dictionary — словарь, который связывает слова с их уникальными идентификаторами (ID).

# Вызов функции
corpus = create_corpus(processed_docs, dictionary)

# Результат:
# corpus — это список документов в формате "мешок слов".
# Каждый документ представлен как список пар (ID слова в словаре; Количество встреч в конкретном документе).

Корпус текстов (первые 5 документов):
Документ 1: [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)]
Документ 2: [(0, 1), (5, 1), (6, 1), (7, 1), (8, 1)]
Документ 3: [(0, 1), (4, 1), (9, 1), (10, 1), (11, 1)]
Документ 4: [(4, 1), (5, 1), (6, 1), (12, 1)]
Документ 5: [(2, 1), (4, 1), (13, 1), (14, 1)]


СОЗДАНИЕ И ОБУЧЕНИЕ ТЕМАТИЧЕСКОЙ МОДЕЛИ С НУЛЯ ПО АЛГОРИТМУ LDA

In [None]:
lda_model = LdaModel(
    corpus=corpus,           # Корпус, представленный в формате "мешка слов" (BoW)
    id2word=dictionary,      # Словарь, связывающий ID слов с их текстовыми представлениями
    num_topics=3,            # Количество тем, которые модель должна выделить (мы ранее определили 3 темы)
    passes=20,               # Количество проходов по всему корпусу (эпох) для обучения модели
    iterations=50,           # Максимальное количество итераций для одного документа
    random_state=42          # Фиксированный случайный сид для воспроизводимости результатов
)

СОЗДАЕМ МЕТКИ ДЛЯ ТЕМ

In [None]:
topic_labels = {
    0: "Обработка текста (НЛП)",
    1: "Временные ряды",
    2: "Компьютерное зрение",
}

# Вызов функции для вывода тем
print_topics_with_labels(lda_model, topic_labels)


Темы, обнаруженные моделью LDA (с подписями):
Обработка текста (НЛП): 0.154*"текст" + 0.097*"nlp" + 0.059*"gpt" + 0.049*"анализ" + 0.040*"обработка" + 0.040*"семантика" + 0.034*"выделять" + 0.034*"улучшать" + 0.034*"морфология" + 0.024*"модель"
Временные ряды: 0.144*"временной" + 0.089*"ряд" + 0.064*"тренд" + 0.063*"использоваться" + 0.058*"данные" + 0.052*"анализ" + 0.052*"помогать" + 0.032*"сезонность" + 0.027*"прогнозирование" + 0.021*"объект"
Компьютерное зрение: 0.094*"изображение" + 0.079*"объект" + 0.071*"распознавание" + 0.071*"компьютерный" + 0.071*"зрение" + 0.063*"сверточный" + 0.056*"анализировать" + 0.039*"сеть" + 0.033*"способный" + 0.031*"применяться"


АНАЛИЗ ТРЕНИРОВОЧНЫХ ДОКУМЕНТОВ ПО ТЕМЕ ВРЕМЕННЫЕ РЯДЫ

In [None]:
time_series_accuracy = analyze_topic_accuracy(
    documents=documents,
    corpus=corpus,
    lda_model=lda_model,
    topic_labels=topic_labels,
    topic_index=1,             # Индекс темы Временные ряды
    start_idx=50,              # Начало блока для Временных рядов
    end_idx=74                 # Конец блока для Временных рядов
)

Анализ документов в теме 'Временные ряды':

Документ 51:
Текст: Сезонные тренды временных рядов помогают выявлять закономерности.
Предсказанная тема: Временные ряды
Ожидалась тема: Временные ряды
Результат: ✅ Правильно
---
Документ 52:
Текст: Прогнозирование временных рядов используется для долгосрочных прогнозов.
Предсказанная тема: Временные ряды
Ожидалась тема: Временные ряды
Результат: ✅ Правильно
---
Документ 53:
Текст: Анализ временных данных позволяет находить аномалии и тренды.
Предсказанная тема: Временные ряды
Ожидалась тема: Временные ряды
Результат: ✅ Правильно
---
Документ 54:
Текст: Сглаживание временных данных уменьшает шум в трендах.
Предсказанная тема: Временные ряды
Ожидалась тема: Временные ряды
Результат: ✅ Правильно
---
Документ 55:
Текст: Декомпозиция временных рядов выделяет сезонность, тренды и шумы.
Предсказанная тема: Временные ряды
Ожидалась тема: Временные ряды
Результат: ✅ Правильно
---
Документ 56:
Текст: Определение трендов во временных данных помогает уп

АНАЛИЗ ТРЕНИРОВОЧНЫХ ДОКУМЕНТОВ ПО ТЕМЕ НЛП

In [None]:
nlp_accuracy = analyze_topic_accuracy(
    documents=documents,       # Все документы
    corpus=corpus,             # Корпус в формате BoW
    lda_model=lda_model,       # Обученная модель
    topic_labels=topic_labels, # Словарь с названиями тем
    topic_index=0,             # Индекс темы НЛП
    start_idx=0,               # Начало блока для НЛП
    end_idx=24                 # Конец блока для НЛП
)

Анализ документов в теме 'Обработка текста (НЛП)':

Документ 1:
Текст: NLP активно используется для автоматического анализа текста.
Предсказанная тема: Обработка текста (НЛП)
Ожидалась тема: Обработка текста (НЛП)
Результат: ✅ Правильно
---
Документ 2:
Текст: Модели GPT используют NLP для создания реалистичных текстовых диалогов.
Предсказанная тема: Обработка текста (НЛП)
Ожидалась тема: Обработка текста (НЛП)
Результат: ✅ Правильно
---
Документ 3:
Текст: Задачи NLP выделяют ключевые слова и идеи из текста.
Предсказанная тема: Обработка текста (НЛП)
Ожидалась тема: Обработка текста (НЛП)
Результат: ✅ Правильно
---
Документ 4:
Текст: Генеративные модели на основе GPT создают текст с заданным контекстом.
Предсказанная тема: Обработка текста (НЛП)
Ожидалась тема: Обработка текста (НЛП)
Результат: ✅ Правильно
---
Документ 5:
Текст: Семантический анализ текста улучшает поиск информации.
Предсказанная тема: Обработка текста (НЛП)
Ожидалась тема: Обработка текста (НЛП)
Результат: ✅ Правильно


АНАЛИЗ ТРЕНИРОВОЧНЫХ ДОКУМЕНТОВ ПО ТЕМЕ КОМПЬЮТЕРНОЕ ЗРЕНИЕ

In [None]:
cv_accuracy = analyze_topic_accuracy(
    documents=documents,
    corpus=corpus,
    lda_model=lda_model,
    topic_labels=topic_labels,
    topic_index=2,             # Индекс темы 'Компьютерное зрение'
    start_idx=25,              # Начало блока для Компьютерного зрения
    end_idx=49                 # Конец блока для Компьютерного зрения
)

Анализ документов в теме 'Компьютерное зрение':

Документ 26:
Текст: Сверточные нейронные сети используются для классификации изображений.
Предсказанная тема: Компьютерное зрение
Ожидалась тема: Компьютерное зрение
Результат: ✅ Правильно
---
Документ 27:
Текст: С использованием сегментации выделяют объекты на изображениях.
Предсказанная тема: Компьютерное зрение
Ожидалась тема: Компьютерное зрение
Результат: ✅ Правильно
---
Документ 28:
Текст: Распознавание лиц применяется в системах безопасности.
Предсказанная тема: Компьютерное зрение
Ожидалась тема: Компьютерное зрение
Результат: ✅ Правильно
---
Документ 29:
Текст: Компьютерное зрение анализирует дорожные знаки для автономных автомобилей.
Предсказанная тема: Компьютерное зрение
Ожидалась тема: Компьютерное зрение
Результат: ✅ Правильно
---
Документ 30:
Текст: Компьютерное зрение анализирует видеопоток для распознавания объектов и событий.
Предсказанная тема: Компьютерное зрение
Ожидалась тема: Компьютерное зрение
Результат: ✅ Правил

СУММАРНАЯ ТОЧНОСТЬ НА ТРЕНИРОВОЧНЫХ ДАННЫХ:

In [None]:
print(f"Точность для темы 'Временные ряды': {time_series_accuracy:.2f}%")
print(f"Точность для темы 'Обработка текста (НЛП)': {nlp_accuracy:.2f}%")
print(f"Точность для темы 'Компьютерное зрение': {cv_accuracy:.2f}%")

Точность для темы 'Временные ряды': 100.00%
Точность для темы 'Обработка текста (НЛП)': 95.83%
Точность для темы 'Компьютерное зрение': 91.67%


**ТЕСТИРОВАНИЕ НА НОВЫХ ПРИМЕРАХ**

ПРИМЕР 1

In [None]:
new_texts = [
    "Обработка текста с использованием токенизации и лемматизации.",  # Обработка текста (НЛП)
    "Компьютерное зрение применяется для распознавания объектов на изображениях.",  # Компьютерное зрение
    "Временные ряды используются для предсказания цен на рынке.",  # Временные ряды
]

# Классифицируем новые тексты
classification_results = classify_new_texts(new_texts, lda_model, dictionary, topic_labels, morph)

# Вывод результатов
display_classification_results(classification_results)


Текст: "Обработка текста с использованием токенизации и лемматизации."
Наиболее вероятная тема: Обработка текста (НЛП) (вероятность 0.75)
Распределение по темам: [('Обработка текста (НЛП)', 0.75148934), ('Компьютерное зрение', 0.13638328), ('Временные ряды', 0.112127356)]

Текст: "Компьютерное зрение применяется для распознавания объектов на изображениях."
Наиболее вероятная тема: Компьютерное зрение (вероятность 0.82)
Распределение по темам: [('Компьютерное зрение', 0.8173534), ('Обработка текста (НЛП)', 0.115242906), ('Временные ряды', 0.06740365)]

Текст: "Временные ряды используются для предсказания цен на рынке."
Наиболее вероятная тема: Временные ряды (вероятность 0.85)
Распределение по темам: [('Временные ряды', 0.85056484), ('Компьютерное зрение', 0.07822501), ('Обработка текста (НЛП)', 0.07121015)]


ПРИМЕР 2

In [None]:
new_texts = [
    "GPT помогает улучшить анализ текста, сохраняя его семантику и структуру.",  # Обработка текста (НЛП)
    "Компьютерное зрение выделяет ключевые объекты на изображениях для анализа дорожных знаков.",  # Компьютерное зрение
    "Модели временных рядов используются для прогнозирования объема продаж в розничной торговле.",  # Временные ряды
]

# Классифицируем новые тексты (передаем все необходимые аргументы)
classification_results = classify_new_texts(new_texts, lda_model, dictionary, topic_labels, morph)

# Вывод результатов
display_classification_results(classification_results)


Текст: "GPT помогает улучшить анализ текста, сохраняя его семантику и структуру."
Наиболее вероятная тема: Обработка текста (НЛП) (вероятность 0.87)
Распределение по темам: [('Обработка текста (НЛП)', 0.8714711), ('Временные ряды', 0.07256771), ('Компьютерное зрение', 0.05596123)]

Текст: "Компьютерное зрение выделяет ключевые объекты на изображениях для анализа дорожных знаков."
Наиболее вероятная тема: Компьютерное зрение (вероятность 0.53)
Распределение по темам: [('Компьютерное зрение', 0.5286371), ('Временные ряды', 0.2699403), ('Обработка текста (НЛП)', 0.20142262)]

Текст: "Модели временных рядов используются для прогнозирования объема продаж в розничной торговле."
Наиболее вероятная тема: Временные ряды (вероятность 0.88)
Распределение по темам: [('Временные ряды', 0.8796726), ('Компьютерное зрение', 0.062238578), ('Обработка текста (НЛП)', 0.05808883)]


ПРИМЕР 3

In [None]:
new_texts = [
    "Sentiment Analysis помогает определить эмоциональный тон текста, например, позитивный или негативный.",  # Обработка текста (НЛП)
    "Компьютерное зрение используется для автоматического обнаружения лиц на изображениях.",  # Компьютерное зрение
    "Анализ временных рядов помогает предсказывать погодные изменения.",  # Временные ряды
]

# Классифицируем новые тексты (передаем все необходимые аргументы)
classification_results = classify_new_texts(new_texts, lda_model, dictionary, topic_labels, morph)

# Вывод результатов
display_classification_results(classification_results)


Текст: "Sentiment Analysis помогает определить эмоциональный тон текста, например, позитивный или негативный."
Наиболее вероятная тема: Обработка текста (НЛП) (вероятность 0.55)
Распределение по темам: [('Обработка текста (НЛП)', 0.5545923), ('Временные ряды', 0.33374146), ('Компьютерное зрение', 0.111666225)]

Текст: "Компьютерное зрение используется для автоматического обнаружения лиц на изображениях."
Наиболее вероятная тема: Компьютерное зрение (вероятность 0.89)
Распределение по темам: [('Компьютерное зрение', 0.88573664), ('Временные ряды', 0.05780022), ('Обработка текста (НЛП)', 0.056463156)]

Текст: "Анализ временных рядов помогает предсказывать погодные изменения."
Наиболее вероятная тема: Временные ряды (вероятность 0.89)
Распределение по темам: [('Временные ряды', 0.8858671), ('Обработка текста (НЛП)', 0.057786513), ('Компьютерное зрение', 0.056346346)]


РЕЗУЛЬТАТЫ:

По итогам обучения тематической модели LDA с нюля, проведена успешная классифицаяи текстов по трем заданным темам: **Обработка текста (НЛП)**, **Компьютерное зрение**, и **Временные ряды**. Результаты подтверждают эффективность модели при определении тематической принадлежности текстов, что делает её использование актуальным при анализе и классификации текстовой информации.



## **3. Суммаризация текста с T5**

Суммаризация текста — это процесс автоматического сокращения длинного текста до краткого содержания с сохранением основных мыслей и ключевых идей. Текущая задача решается с помощью модели ruT5-large, разработанной SberDevices для обработки текстов на русском языке.

Основные этапы работы:
1. **Подготовка текста**  
   Текст очищается от лишних символов, приводится к удобному формату для обработки моделью. Это позволяет обеспечить качество и корректность работы.

2. **Генерация суммаризации**  
   Модель анализирует входной текст и создает краткое содержание. В процессе учитываются заданные параметры, такие как минимальная и максимальная длина текста, контроль повторений и случайности.

3. **Форматирование результата**  
   Краткий текст форматируется и представляется в удобном виде, сохраняя только ключевые идеи исходного материала.

Преимущества подхода:
- **Экономия времени**: Быстрая обработка больших текстов (с GPU).
- **Ясность**: Только самое важное, без лишних деталей.
- **Адаптивность**: Возможность настройки параметров генерации под разные задачи.

Суммаризация помогает упростить восприятие сложной информации, делая её доступной и понятной.



In [None]:
#@title Загрузка и установка библиотек
from IPython.display import clear_output
import time
!pip install transformers sentencepiece
from transformers import T5Tokenizer, T5ForConditionalGeneration, pipeline
import torch
clear_output()

In [None]:
#@title Сервисные функции
def summarize_texts(
    texts,
    min_length,
    max_length,
    no_repeat_ngram_size,
    num_beams,
    repetition_penalty,
    do_sample,
    temperature
):
    """
    Генерация суммаризации для нескольких текстов с использованием модели ruT5.
    Параметры:
    - texts: словарь текстов {название: текст}.
    - min_length: минимальная длина генерируемого текста.
    - max_length: максимальная длина генерируемого текста.
    - no_repeat_ngram_size: исключение повторов длиной N слов.
    - num_beams: количество лучей для поиска лучшего результата.
    - repetition_penalty: штраф за повторение текста.
    - length_penalty: баланс между длиной и качеством текста.
    - temperature: контроль случайности текста (работает только при do_sample=True).
    """
    for title, text in texts.items():
        input_ids = tokenizer(text, return_tensors='pt').input_ids
        outputs = model.generate(
            input_ids,
            min_length=min_length,
            max_length=max_length,
            no_repeat_ngram_size=no_repeat_ngram_size,
            num_beams=num_beams,
            early_stopping=True,
            repetition_penalty=repetition_penalty,
            length_penalty=1,
            temperature=temperature,  # Контроль случайности
            do_sample=do_sample  # Включение случайной выборки (обязательно для temperature)
        )
        summary = tokenizer.decode(outputs[0], skip_special_tokens=True)
        print(f"Тема: {title}")
        print(f"Суммаризация:\n{format_output_by_words(summary)}\n")


def format_output_by_words(text, line_length=80):
    """
    Форматирование текста с ограничением длины строки по словам.
    :param text: текст для форматирования.
    :param line_length: максимальная длина строки.
    :return: отформатированный текст.
    """
    words = text.split()  # Разделяем текст на слова
    lines = []
    current_line = []

    for word in words:
        # Если текущая строка превышает лимит, переносим на новую
        if sum(len(w) for w in current_line) + len(current_line) + len(word) > line_length:
            lines.append(" ".join(current_line))
            current_line = [word]
        else:
            current_line.append(word)

    # Добавляем оставшиеся слова
    if current_line:
        lines.append(" ".join(current_line))

    return "\n".join(lines)

def initialize_model(model_name='ai-forever/ruT5-large'):
    """
    Инициализация модели и токенизатора.

    Параметры:
    - model_name (str): Название предобученной модели.

    Возвращает:
    - tokenizer: Загруженный токенизатор.
    - model: Загруженная модель.
    - device: Устройство (CPU/GPU), на котором выполняется модель.
    """
    # Определяем устройство (GPU, если доступно, иначе CPU)
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    # Загружаем токенизатор и модель
    tokenizer = T5Tokenizer.from_pretrained(model_name)
    model = T5ForConditionalGeneration.from_pretrained(model_name).to(device).eval()

    return tokenizer, model, device

def summarize_texts_gpu(
    texts,
    tokenizer,
    model,
    device,
    min_length,
    max_length,
    no_repeat_ngram_size,
    num_beams,
    repetition_penalty,
    do_sample,
    temperature
):
    """
    Генерация суммаризации текстов с использованием модели ruT5 на GPU (если доступно).
    Включен расчет времени выполнения.

    Параметры:
    - texts (dict): Словарь текстов {название: текст}.
    - tokenizer: Токенизатор модели.
    - model: Загруженная модель.
    - device: Устройство (CPU/GPU), на котором выполняется модель.
    - Остальные параметры: Настройки генерации текста.
    """
    start_time = time.time()  # Засекаем время выполнения

    for title, text in texts.items():
        # Токенизируем текст и переносим его на устройство
        input_ids = tokenizer(text, return_tensors='pt').input_ids.to(device)

        # Генерация суммаризации
        outputs = model.generate(
            input_ids=input_ids,
            min_length=min_length,
            max_length=max_length,
            no_repeat_ngram_size=no_repeat_ngram_size,
            num_beams=num_beams,
            repetition_penalty=repetition_penalty,
            length_penalty=1,
            temperature=temperature,
            do_sample=do_sample
        )

        # Декодируем вывод модели
        summary = tokenizer.decode(outputs[0], skip_special_tokens=True)

        # Печатаем результат
        print(f"Тема: {title}")
        print(f"Суммаризация:\n{summary}\n")

    end_time = time.time()  # Конец времени выполнения
    execution_time = end_time - start_time
    print(f"Время выполнения: {execution_time:.2f} секунд")

ЗАГРУЖАЕМ ТОКЕНИЗАТОР И ПРЕДОБУЧЕННУЮ МОДЕЛЬ

In [None]:
# Задаем название модели
model_name = 'ai-forever/ruT5-large'  # Предобученная модель T5 для русского языка.

# Загружаем токенизатор
tokenizer = T5Tokenizer.from_pretrained(model_name)  # Токенизатор используется для преобразования текста в числовые векторы (токены), понятные модели.

# Загружаем предобученную модель
model = T5ForConditionalGeneration.from_pretrained(model_name).eval() # `T5ForConditionalGeneration` используется для выполнения задач преобразования текста: суммаризация, перевод, генерация текста и др.

ОПРЕДЕЛЯЕМ ТЕКСТЫ ДЛЯ СУММАРИЗАЦИИ

In [None]:
TEXT_SUN = """
Солнце — это звезда, расположенная в центре нашей Солнечной системы. Оно является источником света и тепла, необходимого для поддержания жизни на Земле. Солнце состоит в основном из водорода и гелия, и его масса составляет около 99,86% от всей массы Солнечной системы.

Энергия Солнца образуется в результате термоядерных реакций в его ядре, где водород превращается в гелий. Этот процесс высвобождает огромное количество энергии, которая излучается в виде света и тепла. Свет от Солнца достигает Земли примерно за 8 минут.

Солнце оказывает большое влияние на климат, погоду и сезонные циклы на Земле. Его магнитное поле создаёт солнечный ветер, который взаимодействует с атмосферой планеты и вызывает явления, такие как северное сияние.

Эта звезда является объектом интенсивных исследований, направленных на понимание её структуры и процессов, происходящих внутри. Солнце имеет огромное значение для астрономии и науки в целом, так как помогает исследовать основы звёздной эволюции.
"""

TEXT_FOOTBALL = """
Футбол — это самый популярный вид спорта в мире. Он появился в XIX веке в Англии. В 1904 году была создана Международная федерация футбола (ФИФА). Она регулирует правила игры и организует международные турниры.

Футбол играют две команды по 11 человек. Цель игры — забить мяч в ворота соперника. Игроки используют ноги, голову и тело, но не руки. Поле для игры прямоугольное, с травяным или искусственным покрытием.

Самый престижный турнир — чемпионат мира. Он проводится каждые четыре года. На этот турнир смотрят миллионы зрителей по всему миру. Победители чемпионата становятся героями и легендами.

Футбол популярен во всех странах. Его любят за простые правила и доступность. Эта игра объединяет людей разного возраста и национальности. Футбол часто называют «спортом номер один» за его массовость и влияние.
"""


TEXT_SBER = """
Сбер — это крупнейший банк России и один из ведущих финансовых институтов в мире. Основанный в 1841 году, Сбер стал символом стабильности и инноваций в российской банковской системе, предоставляя широкий спектр услуг для частных лиц, бизнеса и государственных организаций.

Компания активно развивает цифровые технологии и предлагает своим клиентам удобные онлайн-решения через платформу «СберБанк Онлайн», которая включает функции для управления финансами, оплаты услуг и совершения переводов. Сбер также запустил собственный голосовой помощник «Салют» и платформу искусственного интеллекта для анализа данных.

Сбер выходит за рамки традиционного банковского дела, предлагая услуги в области телемедицины, образовательных технологий, облачных решений и электронной коммерции. Одним из ключевых направлений является развитие экосистемы, объединяющей различные сервисы для повседневной жизни.

Сбер продолжает вносить значительный вклад в экономическое развитие России, инвестируя в инновационные проекты, поддерживая малый бизнес и создавая продукты, которые делают жизнь миллионов людей проще и удобнее.
"""

СОЗДАЕМ СЛОВАРЬ ТЕКСТОВ

In [None]:
TEXTS = {"Солнце": TEXT_SUN, "Футбол": TEXT_FOOTBALL, "Сбер": TEXT_SBER}

ПАРАМЕТРЫ ГЕНЕРАЦИИ СУММАРИЗИРОВАННОГО ТЕКСТА

1. **`MIN_LENGTH`** — Минимальная длина генерируемого текста
   - Определяет минимальное количество токенов (слов или частей слов), которые модель должна выдать в сгенерированном тексте.

2. **`MAX_LENGTH`** — Максимальная длина генерируемого текста
   - Устанавливает максимальное количество токенов для выхода.

3. **`NO_REPEAT_NGRAM_SIZE`** — Исключение повторений
   - Определяет длину фраз (n-грамм), которые не должны повторяться в тексте.
   - Например, если `NO_REPEAT_NGRAM_SIZE=2`, модель избегает повторения одинаковых пар слов (двухсловных фраз).

4. **`NUM_BEAMS`** — Количество лучей для поиска лучшего результата (Beam Search)
   - Указывает, сколько вариантов продолжения текста модель должна рассмотреть параллельно.

5. **`REPETITION_PENALTY`** — Штраф за повторение
   - Применяет штраф к вероятностям слов, которые уже были использованы в тексте.

6. **`TEMPERATURE`** — Контроль случайности текста
   - Регулирует степень случайности выбора слов при генерации.

   - **Важно:** этот параметр используется только при `do_sample=True`. Если `do_sample=False`, настройка `TEMPERATURE` игнорируется.


ПРИМЕР 1

In [None]:
summarize_texts(
    TEXTS,
    min_length=20,           # Минимальная длина генерируемого текста
    max_length=100,          # Максимальная длина генерируемого текста
    no_repeat_ngram_size=2,  # Исключаем повторение фраз длиной 2 слова
    num_beams=4,             # Количество лучей для поиска лучшего результата
    repetition_penalty=1.2,  # Штраф за повторение
    do_sample=True,          # Включение возможности использовать температуру
    temperature=0.2          # Параметр случайности ответа
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей солнечной системы. Солнечная
система состоит из Солнца и его спутников. Солнце является источником энергии,
необходимой для поддержания жизни на Земле.

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две
команды по 11 человек. Цель игры — забить мяч в ворота соперника. В игре
используются мячи.

Тема: Сбер
Суммаризация:
Сбербанк сегодня является одним из крупнейших банков России. Компания также
предоставляет услуги в области цифровых технологий.СберБанк Онлайн — это один из
ведущих финансовых институтов в России, который предоставляет широкий спектр
услуг для частных лиц и бизнеса.



ПРИМЕР 2 (Увеличим температуру: TEMPERATURE = 5.0)

In [None]:
summarize_texts(
    TEXTS,
    min_length=20,           # Минимальная длина генерируемого текста
    max_length=100,          # Максимальная длина генерируемого текста
    no_repeat_ngram_size=2,  # Исключаем повторение фраз длиной 2 слова
    num_beams=4,             # Количество лучей для поиска лучшего результата
    repetition_penalty=1.2,  # Штраф за повторение
    do_sample=True,          # Включение возможности использовать температуру
    temperature=5.0          # Параметр случайности ответа
)

Тема: Солнце
Суммаризация:
: Астронезия Солнце Солнце Земля Возбуждённого Солнца почти полностью
отсутствует на Земле сегодня. "Соло" Солнце — это... -.

Тема: Футбол
Суммаризация:
В мире: футбол есть в любой стране Это: Всемирная футбольная академия (ИКАО),
которую недавно создали в Англии (США). Игра в футбол — мужская разновидность,
один из самых сложных вид футбола.

Тема: Сбер
Суммаризация:
Открыт 22 мая 2020 года В 2014 была представлена платформа мобильного телефона в
сотрудничестве с Every4May Group, разработанная с учетом последних тенденций
финансового мира России. Благодаря цифровой платформе компания поддерживает
корпоративный портал oom.by и многие другие сервисы для общения внутри
себяс.«Сбер» Источник



ПРИМЕР 3 (Уменьшим длину текста: MAX_LENGTH = 16)

In [None]:
summarize_texts(
    TEXTS,
    min_length=1,           # Минимальная длина генерируемого текста
    max_length=16,          # Максимальная длина генерируемого текста
    no_repeat_ngram_size=2,  # Исключаем повторение фраз длиной 2 слова
    num_beams=4,             # Количество лучей для поиска лучшего результата
    repetition_penalty=1.2,  # Штраф за повторение
    do_sample=True,          # Включение возможности использовать температуру
    temperature=0.2          # Параметр случайности ответа
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей Солнечной системы.

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире.

Тема: Сбер
Суммаризация:
Сбербанк сегодня является одним из крупнейших банков России.



ПРИМЕР 4 (Уменьшим количество лучей: NUM_BEAMS = 1)

In [None]:
summarize_texts(
    TEXTS,
    min_length=20,            # Минимальная длина генерируемого текста
    max_length=100,           # Максимальная длина генерируемого текста
    no_repeat_ngram_size=2,  # Исключаем повторение фраз длиной 2 слова
    num_beams=1,             # Количество лучей для поиска лучшего результата
    repetition_penalty=1.2,  # Штраф за повторение
    do_sample=True,          # Включение возможности использовать температуру
    temperature=0.2          # Параметр случайности ответа
)



Тема: Солнце
Суммаризация:
Солнце является одним из самых ярких и мощных звёзд. Оно обладает массой в 4,5
миллиарда тонн Солнечная система состоит из солнечного ветра и его магнитного
поля.

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта. В футбол играют две команды
по 11 человек, которые представляются как одна команда. Правила игры: ФИФА

Тема: Сбер
Суммаризация:
Сбербанк — это современный и инновационный банк, который предлагает широкий
спектр услуг в области финансов. Компания также предоставляет услуги для бизнеса
через платформу «СберБанк Онлайн». . »» : Сберегательный сервис для детей
”Сохранить моё имя, email и адрес сайта



ПРИМЕР 5 (Уберм штраф за повторы слова: REPETITION_PENALTY = 1.0 )

In [None]:
summarize_texts(
    TEXTS,
    min_length=20,            # Минимальная длина генерируемого текста
    max_length=100,           # Максимальная длина генерируемого текста
    no_repeat_ngram_size=2,  # Исключаем повторение фраз длиной 2 слова
    num_beams=4,             # Количество лучей для поиска лучшего результата
    repetition_penalty=1.0,  # Штраф за повторение
    do_sample=True,          # Включение возможности использовать температуру
    temperature=0.2          # Параметр случайности ответа
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей Солнечной системы. Оно
является одним из самых ярких и ярких звёзд... Солнечная система состоит из
Солнца...

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две
команды по 11 человек. Цель игры — забить мяч в ворота соперника. В игру играют
11 игроков.

Тема: Сбер
Суммаризация:
Сбербанк сегодня является одним из крупнейших банков России. Компания также
предоставляет услуги в области цифровых технологий.СберБанк Онлайн — это один из
ведущих финансовых институтов в России и один их лидеров на российском рынке.



**ОЦЕНИМ ПРОИЗВОДИТЕЛЬНОСТЬ МОДЕЛИ (СРАВНИМ РАБОТУ CPU С GPU)**

In [None]:
# Инициализация модели для работы с GPU
tokenizer, model, device = initialize_model()

ПРИМЕР 1 (**CPU** NUM_BEAMS = 1)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=1,
    repetition_penalty=1.2,
    do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце является одним из самых ярких и мощных источников света. Оно обладает огромной массой, которая составляет около 99,86% от массы нашей планеты.. Солнечная системаСолнце

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта. В футбол играют две команды по 11 человек. В игре используются мячи, которые забиваются в ворота соперника. .

Тема: Сбер
Суммаризация:
Сбербанк — это современный банк, который объединяет в себе все лучшие практики и инновации. Компания также предоставляет услуги по переводу денежных средствСберБанк ОнлайнСберегательный фонд «Семья»

Время выполнения: 22.42 секунд


ПРИМЕР 2 (**CPU** NUM_BEAMS = 4)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=4,
    repetition_penalty=1.2,
    do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей солнечной системы. Солнечная система состоит из Солнца и его спутников. Солнце является источником энергии, необходимой для поддержания жизни на Земле..

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две команды по 11 человек. Цель игры — забить мяч в ворота соперника. В игре используются мячи.

Тема: Сбер
Суммаризация:
Сбербанк сегодня является одним из крупнейших банков России. Компания также предоставляет услуги в области цифровых технологий.СберБанк Онлайн — это один из ведущих финансовых институтов в России, который предоставляет широкий спектр услуг для частных лиц, бизнеса и государственных организаций.

Время выполнения: 55.55 секунд


ПРИМЕР 3 (**CPU** NUM_BEAMS = 10)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=10,
    repetition_penalty=1.2,
    do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей Солнечной системы. Оно является источником энергии, необходимой для поддержания жизни на Земле... Солнечная система.

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две команды по 11 человек. Цель игры — забить мяч в ворота соперника. Игроками в футболе являются мужчины и женщины...

Тема: Сбер
Суммаризация:
Сегодня Сбербанк является одним из крупнейших финансовых институтов в России. В настоящее время компания работает над развитием цифровых сервисов, таких как мобильная версия «СберБанк Онлайн». Источник: https://www.sberbank.ru

Время выполнения: 84.54 секунд


ПРИМЕР 4 (**CPU** NUM_BEAMS = 20)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=20,
    repetition_penalty=1.2,
    do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей Солнечной системы. Оно является источником энергии, необходимой для поддержания жизни на Земле... Солнечная система.

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две команды по 11 человек. Цель игры — забить мяч в ворота соперника. Игроками в футболе являются мужчины и женщины...

Тема: Сбер
Суммаризация:
Сегодня Сбербанк является одним из крупнейших финансовых институтов в России. В настоящее время компания работает над развитием цифровых сервисов, таких как мобильная версия «СберБанк Онлайн». Источник: https://www.sberbank.ru

Время выполнения: 130.94 секунд


ПРИМЕР 5 (**GPU** NUM_BEAMS = 1)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=1,
    repetition_penalty=1.2,
    do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце является одним из самых ярких и мощных источников энергии. Свет от Солнца достигает Земли за 8 минут, а его магнитное поле — всего лишь за 2 минуты. ....

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта. В футбол играют две команды по 11 человек. Правила игры: мячи, которые забиваются в ворота соперника .

Тема: Сбер
Суммаризация:
Сбербанка Компания также активно развивает сервис «СберБанк Онлайн», который включает в себя функции для анализа данных и управления данными.  Сберегай деньги С С С С помощью платформы «Salam» вы можете: О компании О нас Введите свой комментарий Все права защищены.

Время выполнения: 5.70 секунд


ПРИМЕР 6 (**GPU** NUM_BEAMS = 4)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=4,
    repetition_penalty=1.2,
    do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей солнечной системы. Солнечная система состоит из Солнца и его спутников. Солнце является источником энергии, необходимой для поддержания жизни на Земле..

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две команды по 11 человек. Цель игры — забить мяч в ворота соперника. В игре используются мячи.

Тема: Сбер
Суммаризация:
Сбербанк сегодня является одним из крупнейших банков России. Компания также предоставляет услуги в области цифровых технологий.СберБанк Онлайн — это один из ведущих финансовых институтов в России, который предоставляет широкий спектр услуг для частных лиц, бизнеса и государственных организаций.

Время выполнения: 7.09 секунд


ПРИМЕР 7 (**GPU** NUM_BEAMS = 10)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=10,
    repetition_penalty=1.2,
    do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей Солнечной системы. Оно является источником энергии, необходимой для поддержания жизни на Земле... Солнечная система.

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две команды по 11 человек. Цель игры — забить мяч в ворота соперника. Игроками в футболе являются мужчины и женщины...

Тема: Сбер
Суммаризация:
Сегодня Сбербанк является одним из крупнейших финансовых институтов в России. В настоящее время компания работает над развитием цифровых сервисов, таких как мобильная версия «СберБанк Онлайн». Источник: https://www.sberbank.ru

Время выполнения: 9.66 секунд


ПРИМЕР 8 (**GPU** NUM_BEAMS = 20)

In [None]:
# Вызов функции для суммаризации
summarize_texts_gpu(
    texts=TEXTS,
    tokenizer=tokenizer,
    model=model,
    device=device,
    min_length=20,
    max_length=200,
    no_repeat_ngram_size=2,
    num_beams=20,
    repetition_penalty=1.2,
     do_sample=True,
    temperature=0.2
)

Тема: Солнце
Суммаризация:
Солнце — это звезда, расположенная в центре нашей Солнечной системы. Оно является источником энергии, необходимой для поддержания жизни на Земле... Солнечная система.

Тема: Футбол
Суммаризация:
Футбол — это один из самых популярных видов спорта в мире. В футбол играют две команды по 11 человек. Цель игры — забить мяч в ворота соперника. Игроками в футболе являются мужчины и женщины...

Тема: Сбер
Суммаризация:
Сегодня Сбербанк является одним из крупнейших финансовых институтов в России. В настоящее время компания работает над развитием цифровых сервисов, таких как мобильная версия «СберБанк Онлайн». Источник: https://www.sberbank.ru

Время выполнения: 10.53 секунд


РЕЗУЛЬТАТЫ:

По итогам экспериментов видно, что используемая в примерах модель ruT5-large в целом справляется с задачей суммаризации текста на тестовых наборах, вместе с тем, качество создаваемого материала зависит как от самих текстов, так и от настройки параметров. Эксперимент по производительности показал наличие существенных временных затрат при увеличении количества лучей, вместе с тем качество модели улучшилось не существенно, в свою очередь использование GPU на порядок повышает скорость работы модели.

## **4.1. Генерация текста с помощью самописного трансформера (времена года)**

Генерация текста с помощью самописного трансформера — это процесс создания нового текста на основе входных данных, таких как продолжение текста. В данном проекте используется обученная модель самописного трансформера, включающая энкодер и декодер, реализованный с использованием механизма внимания (Attention).

**Этапы:**

1. **Подготовка данных**: Тексты проходят очистку и токенизацию, что позволяет подготовить их для подачи в модель.
2. **Генерация**: Модель генерирует текст на основе входных данных, продолжая текст. Трансформер использует позиционные эмбеддинги и механизм внимания для эффективного понимания контекста и генерации логичных и информативных выходных данных.
3. **Результат**: Полученный текст является отражением ключевых идей исходного материала.


In [None]:
#@title Загрузка и установка библиотек
import tensorflow as tf
import numpy as np
import unicodedata
import re
import time
import matplotlib.pyplot as plt

In [None]:
#@title Сервисные функции
def normalize_string(text):
    """Нормализует строку для обучения модели"""

    # Добавляем пробел перед знаками препинания
    text = re.sub(r'([!.?])', r' \1', text)

    # Разрешаем латиницу, кириллицу (включая ё/Ё и й/Й), цифры и знаки препинания
    text = re.sub(r'[^a-zA-Zа-яА-ЯёЁйЙ0-9,.!?]+', r' ', text)

    # Заменяем множественные пробелы на один
    text = re.sub(r'\s+', r' ', text)

    # Возвращаем нормализованную строку
    return text.strip()

def positional_embedding(pos, hidden_dim):
    PE = np.zeros((1, hidden_dim))
    for i in range(hidden_dim):
        if i % 2 == 0:
            PE[:, i] = np.sin(pos / 10000 ** (i / hidden_dim))
        else:
            PE[:, i] = np.cos(pos / 10000 ** ((i - 1) / hidden_dim))
    return PE

def generate_positional_embeddings(max_length, hidden_dim):
    """
    Генерация позиционных эмбеддингов для последовательности длиной max_length.

    Parameters:
    - max_length: максимальная длина последовательности (например, количество слов в предложении)
    - hidden_dim: размерность эмбеддингов (например, количество нейронов в слое)

    Returns:
    - Тензор TensorFlow с позиционными эмбеддингами.
    """
    pes = []  # список для позиционных эмбеддингов
    for i in range(max_length):
        pes.append(positional_embedding(i, hidden_dim))  # генерируем позиционные эмбеддинги для каждого индекса
    pes = np.concatenate(pes, axis=0)  # объединяем все позиционные эмбеддинги в одну матрицу
    pes = tf.constant(pes, dtype=tf.float32)  # превращаем в тензор TensorFlow для дальнейшего использования
    return pes

def visualize_positional_embeddings(pes):
    """
    Визуализирует позиционные эмбеддинги в виде тепловой карты.

    :param pes: Тензор позиционных эмбеддингов размерности (max_length, hidden_dim)
    """
    plt.figure(figsize=(10, 10))
    plt.imshow(pes.numpy(), aspect='auto', cmap='viridis')  # используем viridis для цветовой карты
    plt.colorbar()  # добавляем цветовую шкалу
    plt.title("Позиционные эмбеддинги")
    plt.xlabel("Размерность эмбеддинга")
    plt.ylabel("Позиция в последовательности")
    plt.show()

# Многоголовое внимание
class MultiHeadAttention(tf.keras.Model):
    def __init__(self, hidden_dim, h):
        super(MultiHeadAttention, self).__init__()
        self.query_size = hidden_dim // h
        self.key_size = hidden_dim // h
        self.value_size = hidden_dim // h
        self.h = h
        self.wq = [tf.keras.layers.Dense(self.query_size) for _ in range(h)]
        self.wk = [tf.keras.layers.Dense(self.key_size) for _ in range(h)]
        self.wv = [tf.keras.layers.Dense(self.value_size) for _ in range(h)]
        self.wo = tf.keras.layers.Dense(hidden_dim)

    def call(self, decoder_output, encoder_output):
        # Тензор на выходе энкодера имеет форму (batch, decoder_len, hidden_dim)
        # Тензор на выходе декодера имеет форму  (batch, encoder_len, hidden_dim)
        heads = []
        for i in range(self.h):
            score = tf.matmul(self.wq[i](decoder_output), self.wk[i](encoder_output), transpose_b=True) / tf.math.sqrt(tf.dtypes.cast(self.key_size, tf.float32))
            # (batch, decoder_len, encoder_len)
            a = tf.nn.softmax(score, axis=2)
            #(batch, decoder_len, encoder_len)
            head = tf.matmul(a, self.wv[i](encoder_output))
            #Тензор на выходе из одной "головы" (batch, decoder_len, value_size)
            heads.append(head)
        heads = tf.concat(heads, axis=2)
        heads = self.wo(heads)
        return heads

# Кодирование
class Encoder(tf.keras.Model):
    def __init__(self, vocab_size, hidden_dim, num_layers, h):
        super(Encoder, self).__init__()
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        self.h = h
        self.embedding = tf.keras.layers.Embedding(vocab_size, hidden_dim)
        self.attention = [MultiHeadAttention(hidden_dim, h) for _ in range(num_layers)]

        self.attention_norm = [tf.keras.layers.LayerNormalization() for _ in range(num_layers)]

        self.dense_1 = [tf.keras.layers.Dense(512, activation='relu') for _ in range(num_layers)]
        self.dense_2 = [tf.keras.layers.Dense(hidden_dim) for _ in range(num_layers)]
        self.ffn_norm = [tf.keras.layers.LayerNormalization() for _ in range(num_layers)]

    def call(self, sequence):
        sub_in = []
        for i in range(sequence.shape[1]):
            embed = self.embedding(tf.expand_dims(sequence[:, i], axis=1))
            sub_in.append(embed + pes[i, :])

        sub_in = tf.concat(sub_in, axis=1)

        for i in range(self.num_layers):
            sub_out = []
            for j in range(sub_in.shape[1]):
                attention = self.attention[i](
                    tf.expand_dims(sub_in[:, j, :], axis=1), sub_in)

                sub_out.append(attention)

            sub_out = tf.concat(sub_out, axis=1)
            sub_out = sub_in + sub_out
            sub_out = self.attention_norm[i](sub_out)

            ffn_in = sub_out

            ffn_out = self.dense_2[i](self.dense_1[i](ffn_in))
            ffn_out = ffn_in + ffn_out
            ffn_out = self.ffn_norm[i](ffn_out)

            sub_in = ffn_out

        return ffn_out

# Декодирование
class Decoder(tf.keras.Model):
    def __init__(self, vocab_size, hidden_dim, num_layers, h):
        super(Decoder, self).__init__()
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        self.h = h
        self.embedding = tf.keras.layers.Embedding(vocab_size, hidden_dim)
        self.attention_bot = [MultiHeadAttention(hidden_dim, h) for _ in range(num_layers)]
        self.attention_bot_norm = [tf.keras.layers.BatchNormalization() for _ in range(num_layers)]
        self.attention_mid = [MultiHeadAttention(hidden_dim, h) for _ in range(num_layers)]
        self.attention_mid_norm = [tf.keras.layers.BatchNormalization() for _ in range(num_layers)]

        self.dense_1 = [tf.keras.layers.Dense(512, activation='relu') for _ in range(num_layers)]
        self.dense_2 = [tf.keras.layers.Dense(hidden_dim) for _ in range(num_layers)]
        self.ffn_norm = [tf.keras.layers.BatchNormalization() for _ in range(num_layers)]

        self.dense = tf.keras.layers.Dense(vocab_size)

    def call(self, sequence, encoder_output):
        # Эмбеддинги
        embed_out = []
        for i in range(sequence.shape[1]):
            embed = self.embedding(tf.expand_dims(sequence[:, i], axis=1))
            embed_out.append(embed + pes[i, :])

        embed_out = tf.concat(embed_out, axis=1)


        bot_sub_in = embed_out

        for i in range(self.num_layers):
            # Нижний блок внимания
            bot_sub_out = []

            for j in range(bot_sub_in.shape[1]):
                values = bot_sub_in[:, :j, :]
                attention = self.attention_bot[i](
                    tf.expand_dims(bot_sub_in[:, j, :], axis=1), values)

                bot_sub_out.append(attention)
            bot_sub_out = tf.concat(bot_sub_out, axis=1)
            bot_sub_out = bot_sub_in + bot_sub_out
            bot_sub_out = self.attention_bot_norm[i](bot_sub_out)

            # Средний блок внимания
            mid_sub_in = bot_sub_out

            mid_sub_out = []
            for j in range(mid_sub_in.shape[1]):
                attention = self.attention_mid[i](
                    tf.expand_dims(mid_sub_in[:, j, :], axis=1), encoder_output)

                mid_sub_out.append(attention)

            mid_sub_out = tf.concat(mid_sub_out, axis=1)
            mid_sub_out = mid_sub_out + mid_sub_in
            mid_sub_out = self.attention_mid_norm[i](mid_sub_out)

            # Полносвязный слой
            ffn_in = mid_sub_out

            ffn_out = self.dense_2[i](self.dense_1[i](ffn_in))
            ffn_out = ffn_out + ffn_in
            ffn_out = self.ffn_norm[i](ffn_out)

            bot_sub_in = ffn_out

        logits = self.dense(ffn_out)

        return logits

def loss_func(targets, logits):
    mask = tf.math.logical_not(tf.math.equal(targets, 0))
    mask = tf.cast(mask, dtype=tf.int64)
    loss = crossentropy(targets, logits, sample_weight=mask)

    return loss

@tf.function
def train_step(source_seq, target_seq_in, target_seq_out):
    with tf.GradientTape() as tape:
        encoder_output = encoder(source_seq)

        decoder_output = decoder(target_seq_in, encoder_output)

        loss = loss_func(target_seq_out, decoder_output)

    variables = encoder.trainable_variables + decoder.trainable_variables
    gradients = tape.gradient(loss, variables)
    optimizer.apply_gradients(zip(gradients, variables))

    return loss

# Обертка для цикла тренировки
def train_model(dataset, NUM_EPOCHS, train_step, predict=None):
    """
    Функция для тренировки модели.

    :param dataset: tf.data.Dataset, набор данных для тренировки
    :param NUM_EPOCHS: int, количество эпох для тренировки
    :param train_step: функция для выполнения шага тренировки
    :param predict: функция для предсказаний, будет вызываться каждые 10 эпох
    """
    start_time = time.time()

    for e in range(NUM_EPOCHS):
        # Для каждого батча в датасете
        for batch, (source_seq, target_seq_in, target_seq_out) in enumerate(dataset.take(-1)):
            loss = train_step(source_seq, target_seq_in, target_seq_out)

        # Печать потерь для каждой эпохи
        print(f'Epoch {e + 1} Loss {loss.numpy():.4f}')

        # Каждые 10 эпох выводим информацию о времени и делаем предсказание
        if (e + 1) % 10 == 0:
            end_time = time.time()
            print(f'Среднее время: {(end_time - start_time) / (e + 1):.2f}s')

            # Если передана функция предсказания, вызываем её
            if predict:
                try:
                    predict()  # предполагается, что эта функция сделает предсказания и их вывод
                except Exception as e:
                    print(f'Ошибка в предсказаниях: {e}')
                    continue

def predict(test_source_text=None):
    if test_source_text is None:
        test_source_text = raw_data_in[np.random.choice(len(raw_data_in))]
    print(test_source_text)
    test_source_seq = input_tokenizer.texts_to_sequences([test_source_text])
    print(test_source_seq)

    en_output = encoder(tf.constant(test_source_seq))

    de_input = tf.constant([[output_tokenizer.word_index['<start>']]], dtype=tf.int64)

    out_words = []

    while True:
        de_output = decoder(de_input, en_output)
        new_word = tf.expand_dims(tf.argmax(de_output, -1)[:, -1], axis=1)
        out_words.append(output_tokenizer.index_word[new_word.numpy()[0][0]])

        de_input = tf.concat((de_input, new_word), axis=-1)

        if out_words[-1] == '<end>' or len(out_words) >= 14:
            break

    print(' '.join(out_words))

def tokenize_and_pad_sequences(raw_data_in):
    """
    Токенизирует входные данные (вопросы), преобразует их в последовательности чисел,
    выполняет паддинг и печатает только первые 10 строк для наглядности.

    Args:
        raw_data_in (list of str): Список текстов (вопросов) для токенизации.

    Returns:
        tuple:
            - data_in (numpy.ndarray): Полные токенизированные и паддинговые данные.
            - input_tokenizer (Tokenizer): Объект токенизатора с обученным словарём.
    """
    # Создаём токенизатор для входных данных (вопросы)
    input_tokenizer = tf.keras.preprocessing.text.Tokenizer(filters='')

    # Обучаем токенизатор на текстах, чтобы создать словарь
    input_tokenizer.fit_on_texts(raw_data_in)

    # Преобразуем тексты в последовательности чисел
    data_in = input_tokenizer.texts_to_sequences(raw_data_in)

    # Выполняем паддинг, добавляя нули в конец (padding='post')
    data_in = tf.keras.preprocessing.sequence.pad_sequences(data_in, padding='post')

    # Печатаем первые 10 строк токенизированных и паддинговых данных
    print("\nПервые 10 токенизированных и паддинговых данных (вопросы):")
    print(data_in[:10])

    return data_in, input_tokenizer

def tokenize_and_pad_output_sequences(raw_data_out_in, raw_data_out_out):
    """
    Токенизирует выходные данные (ответы) с маркерами <start> и <end>,
    преобразует их в последовательности чисел и выполняет паддинг.

    Args:
        raw_data_out_in (list of str): Список ответов с маркером <start>.
        raw_data_out_out (list of str): Список ответов с маркером <end>.

    Returns:
        tuple:
            - data_out_in (numpy.ndarray): Токенизированные и дополненные данные с <start>.
            - data_out_out (numpy.ndarray): Токенизированные и дополненные данные с <end>.
            - output_tokenizer (Tokenizer): Объект токенизатора с обученным словарём.
    """
    # Создаём токенизатор для выходных данных
    output_tokenizer = tf.keras.preprocessing.text.Tokenizer(filters='')

    # Обучаем токенизатор на всех ответах (с <start> и <end>)
    output_tokenizer.fit_on_texts(raw_data_out_in + raw_data_out_out)

    # Преобразуем ответы с <start> в последовательности чисел
    data_out_in = output_tokenizer.texts_to_sequences(raw_data_out_in)
    data_out_in = tf.keras.preprocessing.sequence.pad_sequences(data_out_in, padding='post')

    # Преобразуем ответы с <end> в последовательности чисел
    data_out_out = output_tokenizer.texts_to_sequences(raw_data_out_out)
    data_out_out = tf.keras.preprocessing.sequence.pad_sequences(data_out_out, padding='post')

    # Печатаем первые 10 строк для наглядности
    print("\nТокенизированные и паддинговые данные (ответы с <start>):")
    print(data_out_in[:10])
    print("Токенизированные и паддинговые данные (ответы с <end>):")
    print(data_out_out[:10])

    return data_out_in, data_out_out, output_tokenizer

def prepare_and_print_dataset(data_in, data_out_in, data_out_out, batch_size, shuffle_buffer_size):
    """
    Создаёт и подготавливает датасет для обучения:
    - Перемешивает данные.
    - Группирует их в батчи.
    - Печатает содержимое одного батча.

    Args:
        data_in (numpy.ndarray): Вопросы (входные данные).
        data_out_in (numpy.ndarray): Ответы с маркером <start> (вход декодера).
        data_out_out (numpy.ndarray): Ответы с маркером <end> (цель декодера).
        batch_size (int): Количество примеров в одном батче.
        shuffle_buffer_size (int): Количество данных для перемешивания.

    Returns:
        tf.data.Dataset: Подготовленный датасет.
    """
    # Создаём датасет из входных (вопросы) и выходных (ответы) данных
    dataset = tf.data.Dataset.from_tensor_slices((data_in, data_out_in, data_out_out))

    # Перемешиваем данные и группируем их в батчи
    dataset = dataset.shuffle(shuffle_buffer_size).batch(batch_size)

    # Печать содержимого одного батча
    print("\nПример батча из данных:")
    for batch, (source_seq, target_seq_in, target_seq_out) in enumerate(dataset.take(1)):
        print(f"Batch {batch + 1} - Вопросы:")  # Вопросы в текущем батче
        print(source_seq.numpy())  # Токенизированные вопросы
        print(f"Batch {batch + 1} - Ответы с <start>:")  # Ответы с токеном <start>
        print(target_seq_in.numpy())  # Токенизированные ответы, подаваемые на вход декодеру
        print(f"Batch {batch + 1} - Ответы с <end>:")  # Ответы с токеном <end>
        print(target_seq_out.numpy())  # Токенизированные ответы, используемые как цель

    return dataset

def process_raw_data(raw_data, normalize_string):
    """
    Обрабатывает сырые данные: разделяет на вопросы и ответы, нормализует их и добавляет маркеры.

    :param raw_data: Список кортежей (вопрос, ответ).
    :param normalize_string: Функция для нормализации строки.
    :return: Кортеж из трех списков: нормализованные вопросы, ответы с <start>, ответы с <end>.
    """
    # Разбиваем список кортежей raw_data на два отдельных списка
    raw_data_in, raw_data_out = zip(*raw_data)

    # Преобразуем их из кортежей в списки для дальнейшей обработки
    raw_data_in, raw_data_out = list(raw_data_in), list(raw_data_out)

    # Применяем нормализацию для каждого вопроса в данных
    raw_data_in = [normalize_string(data) for data in raw_data_in]

    # Формируем данные для вывода: добавляем маркер <start> перед каждым ответом
    raw_data_out_in = ['<start> ' + normalize_string(data) for data in raw_data_out]

    # Формируем данные для вывода: добавляем маркер <end> после каждого ответа
    raw_data_out_out = [normalize_string(data) + ' <end>' for data in raw_data_out]

    # Печать данных после нормализации
    print("\nНормализованные данные (вопросы):")
    print(raw_data_in)
    print("Нормализованные данные (ответы с <start>):")
    print(raw_data_out_in)
    print("Нормализованные данные (ответы с <end>):")
    print(raw_data_out_out)

    return raw_data_in, raw_data_out_in, raw_data_out_out

def build_and_prepare_model(data_in, data_out_in, data_out_out,
                            input_tokenizer, output_tokenizer,
                            hidden_dim, batch_size, shuffle_buffer_size,
                            num_heads, num_layers, max_length):
    """
    Полная обработка данных, настройка датасета, создание энкодера, декодера и параметров обучения.

    :param data_in: Токенизированные и дополненные входные данные (вопросы).
    :param data_out_in: Токенизированные и дополненные ответы с <start> (вход декодера).
    :param data_out_out: Токенизированные и дополненные ответы с <end> (цель декодера).
    :param input_tokenizer: Токенизатор для входных данных.
    :param output_tokenizer: Токенизатор для выходных данных.
    :param hidden_dim: Размерность скрытых слоев и эмбеддингов.
    :param batch_size: Размер батча.
    :param shuffle_buffer_size: Размер буфера для перемешивания данных.
    :param num_heads: Количество голов внимания.
    :param num_layers: Количество слоев энкодера/декодера.
    :param max_length: Максимальная длина последовательности для позиционных эмбеддингов.
    :return: Датасет, энкодер, декодер, функция потерь, оптимизатор, pes.
    """
    # Подготовка датасета
    dataset = prepare_and_print_dataset(data_in, data_out_in, data_out_out, batch_size, shuffle_buffer_size)

    # Получение размеров словарей
    vocab_size_in = len(input_tokenizer.word_index) + 1
    vocab_size_out = len(output_tokenizer.word_index) + 1

    # Генерация позиционных эмбеддингов (используются энкодером и декодером)
    pes = generate_positional_embeddings(max_length, hidden_dim)

    # Создание энкодера
    encoder = Encoder(vocab_size_in, hidden_dim, num_layers, num_heads)

    # Создание декодера
    decoder = Decoder(vocab_size_out, hidden_dim, num_layers, num_heads)

    # Функция потерь
    crossentropy = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

    # Оптимизатор
    optimizer = tf.keras.optimizers.Adam()

    # Возвращение pes вместе с остальными результатами
    return dataset, encoder, decoder, crossentropy, optimizer, pes

ЗАГРУЖАЕМ ТРЕНИРОВОЧНЫЙ ДАТАСЕТ (120 ПРИМЕРОВ ПО 30 НА КАЖДОЕ ВРЕМЯ ГОДА)

In [None]:
#@title ДАТАСЕТ (СПИСОК КОРТЕЖЕЙ)
raw_data = [
    ("Когда обычно тепло?", "Тепло обычно летом."),
    ("Когда на улице грязно?", "Грязно на улице осенью."),
    ("Когда на улице холодно?", "Холодно на улице зимой."),
    ("Когда часто идут дожди?", "Дожди часто идут весной и осенью."),
    ("Когда можно кататься на коньках?", "Можно кататься на коньках зимой."),
    ("Когда будет снег?", "Снег будет зимой."),
    ("Когда сильные ветра?", "Сильные ветра обычно зимой и осенью."),
    ("Когда возможен гололёд?", "Гололёд возможен зимой."),
    ("Когда мороз на улице?", "Мороз бывает зимой."),
    ("Когда нужно одевать теплую одежду?", "Зимой нужно одевать тёплую одежду."),
    ("Когда будет метель?", "Метель будет зимой."),
    ("Когда дни короткие?", "Дни короткие зимой."),
    ("Когда цветут цветы?", "Цветы цветут весной."),
    ("Когда можно загорать?", "Можно загорать летом."),
    ("Когда бывает дождь?", "Дождь бывает весной и осенью."),
    ("Когда вода тёплая?", "Вода тёплая летом."),
    ("Когда много зелени?", "Много зелени летом."),
    ("Когда снегопады?", "Снегопады зимой."),
    ("Когда можно плавать?", "Можно плавать летом."),
    ("Когда листья опадают?", "Листья опадают осенью."),
    ("Когда много луж?", "Много луж осенью."),
    ("Когда бывает иней?", "Иней бывает зимой."),
    ("Когда бывает туман?", "Туман бывает осенью."),
    ("Когда собирают урожай?", "Урожай собирают осенью."),
    ("Когда ночи холодные?", "Ночи холодные зимой."),
    ("Когда листья желтеют?", "Листья желтеют осенью."),
    ("Когда светит солнце?", "Солнце светит летом."),
    ("Когда длинные дни?", "Дни длинные летом."),
    ("Когда можно кататься на велосипеде?", "Можно кататься на велосипеде летом."),
    ("Когда пение птиц слышно?", "Пение птиц слышно весной и летом."),
    ("Когда бывают сильные дожди?", "Сильные дожди бывают весной."),
    ("Когда на улице прохладно?", "Прохладно на улице осенью и зимой."),
    ("Когда нет снега?", "Нет снега летом."),
    ("Когда можно увидеть радугу?", "Радугу можно увидеть после дождя."),
    ("Когда на улице сухо?", "На улице сухо летом."),
    ("Когда деревья цветут?", "Деревья цветут весной."),
    ("Когда птицы улетают?", "Птицы улетают осенью."),
    ("Когда на улице красиво?", "Красиво на улице летом."),
    ("Когда на улице туман?", "Туман бывает осенью и зимой."),
    ("Когда бывают ливни?", "Ливни бывают летом."),
    ("Когда погода пасмурная?", "Пасмурно обычно осенью."),
    ("Когда нужно носить шапку?", "Шапку нужно носить зимой."),
    ("Когда на улице грязно?", "Грязно на улице весной и осенью."),
    ("Когда мороз по утрам?", "Мороз бывает зимой утром."),
    ("Когда можно гулять без куртки?", "Можно гулять без куртки летом."),
    ("Когда тепло утром?", "Тепло утром летом."),
    ("Когда светит яркое солнце?", "Яркое солнце летом."),
    ("Когда идут частые дожди?", "Частые дожди идут весной."),
    ("Когда на улице холодно?", "Холодно на улице зимой."),
    ("Когда растут грибы?", "Грибы растут осенью."),
    ("Когда можно встретить бабочек?", "Бабочки появляются летом."),
    ("Когда можно пить горячий чай?", "Горячий чай пьют зимой."),
    ("Когда много снега?", "Много снега зимой."),
    ("Когда можно увидеть звезды?", "Звезды видны зимой и летом."),
    ("Когда падает первый снег?", "Первый снег падает осенью или зимой."),
    ("Когда можно кататься на санках?", "Можно кататься на санках зимой."),
    ("Когда приходит весна?", "Весна приходит в марте."),
    ("Когда распускаются почки?", "Почки распускаются весной."),
    ("Когда листья становятся зелёными?", "Листья становятся зелёными весной."),
    ("Когда уходит снег?", "Снег уходит весной."),
    ("Когда можно встретить снеговика?", "Снеговика можно встретить зимой."),
    ("Когда бывают сильные морозы?", "Сильные морозы бывают зимой."),
    ("Когда на улице тепло, но дождь?", "Тепло и дождливо весной."),
    ("Когда прохладно на улице?", "Прохладно на улице осенью."),
    ("Когда часто идут дожди?", "Дожди часто идут весной."),
    ("Когда можно увидеть первое солнце?", "Первое солнце появляется весной."),
    ("Когда трава начинает расти?", "Трава начинает расти весной."),
    ("Когда на улице много людей?", "Много людей летом на улице."),
    ("Когда собирают ягоды?", "Ягоды собирают летом."),
    ("Когда есть много свежих овощей?", "Свежие овощи есть летом."),
    ("Когда нужно носить перчатки?", "Перчатки нужны зимой."),
    ("Когда на улице снежно?", "Снежно на улице зимой."),
    ("Когда идут проливные дожди?", "Проливные дожди бывают летом."),
    ("Когда начинается осень?", "Осень начинается в сентябре."),
    ("Когда можно увидеть первые заморозки?", "Первые заморозки бывают осенью."),
    ("Когда травка зеленеет?", "Травка зеленеет весной."),
    ("Когда на улице тепло ночью?", "Тепло ночью летом."),
    ("Когда можно кататься на лыжах?", "Можно кататься на лыжах зимой."),
    ("Когда прохладно по ночам?", "Прохладно по ночам осенью и зимой."),
    ("Когда особенно жарко?", "Особенно жарко летом."),
    ("Когда на улице свежий воздух?", "Свежий воздух весной и летом."),
    ("Когда начинают созревать плоды?", "Плоды созревают летом."),
    ("Когда бывают кратковременные дожди?", "Кратковременные дожди бывают летом."),
    ("Когда на улице много птиц?", "Много птиц весной и летом."),
    ("Когда небо ясное?", "Небо ясное летом."),
    ("Когда идут метели?", "Метель бывает зимой."),
    ("Когда температура падает ниже нуля?", "Температура падает ниже нуля зимой."),
    ("Когда ночи самые тёмные?", "Ночи самые тёмные зимой."),
    ("Когда начинает холодать?", "Холодать начинает осенью."),
    ("Когда воздух холодный?", "Воздух холодный зимой и осенью."),
    ("Когда на улице много облаков?", "Много облаков осенью."),
    ("Когда начинается тёплая погода?", "Тёплая погода начинается весной."),
    ("Когда становится особенно сыро?", "Сыро становится осенью."),
    ("Когда можно увидеть цветные листья?", "Цветные листья осенью."),
    ("Когда в лесу много грибов?", "В лесу много грибов осенью."),
    ("Когда на улице много снега?", "Много снега зимой."),
    ("Когда наступает сезон отпусков?", "Сезон отпусков летом."),
    ("Когда на улице особенно яркое солнце?", "Яркое солнце летом."),
    ("Когда можно увидеть иней на деревьях?", "Иней на деревьях зимой."),
    ("Когда начинается дождливый сезон?", "Дождливый сезон начинается весной."),
    ("Когда можно кататься на санках и лыжах?", "Можно кататься на санках и лыжах зимой."),
    ("Когда на улице много цветов?", "Много цветов весной и летом."),
    ("Когда в воздухе много пыльцы?", "Много пыльцы весной."),
    ("Когда бывает холодный ветер?", "Холодный ветер бывает зимой и осенью."),
    ("Когда на улице особенно жарко?", "Особенно жарко летом."),
    ("Когда можно увидеть радугу после дождя?", "Радугу можно увидеть после дождя летом."),
    ("Когда листья становятся жёлтыми?", "Листья становятся жёлтыми осенью."),
    ("Когда наступает осень?", "Осень наступает в сентябре."),
    ("Когда идёт дождь, а потом светит солнце?", "Дождь с солнцем бывает летом."),
    ("Когда на улице очень жарко?", "Очень жарко летом."),
    ("Когда можно услышать гром?", "Гром слышен летом."),
    ("Когда бывает снегопад?", "Снегопад бывает зимой."),
    ("Когда часто идут туманы?", "Туманы бывают осенью."),
    ("Когда птицы возвращаются с юга?", "Птицы возвращаются с юга весной."),
    ("Когда на улице много снега?", "Много снега зимой."),
    ("Когда можно загорать?", "Загорать можно летом."),
    ("Когда на улице особенно тепло?", "Особенно тепло летом."),
    ("Когда можно увидеть цветущие деревья?", "Цветущие деревья можно увидеть весной."),
    ("Когда можно кататься на велосипеде?", "На велосипеде можно кататься летом."),
    ("Когда на улице мороз?", "Мороз на улице зимой."),
]

НОРМАЛИЗУЕМ ДАННЫЕ ДАТАСЕТА

In [None]:
# - raw_data: сырые данные (список кортежей)
# - normalize_string: функция нормализации, применяется ко всем строкам
# - raw_data_in: список нормализованных вопросов
# - raw_data_out_in: список нормализованных ответов с маркером <start> в начале
# - raw_data_out_out: список нормализованных ответов с маркером <end> в конце
raw_data_in, raw_data_out_in, raw_data_out_out = process_raw_data(raw_data, normalize_string)


Нормализованные данные (вопросы):
['Когда обычно тепло ?', 'Когда на улице грязно ?', 'Когда на улице холодно ?', 'Когда часто идут дожди ?', 'Когда можно кататься на коньках ?', 'Когда будет снег ?', 'Когда сильные ветра ?', 'Когда возможен гололёд ?', 'Когда мороз на улице ?', 'Когда нужно одевать теплую одежду ?', 'Когда будет метель ?', 'Когда дни короткие ?', 'Когда цветут цветы ?', 'Когда можно загорать ?', 'Когда бывает дождь ?', 'Когда вода тёплая ?', 'Когда много зелени ?', 'Когда снегопады ?', 'Когда можно плавать ?', 'Когда листья опадают ?', 'Когда много луж ?', 'Когда бывает иней ?', 'Когда бывает туман ?', 'Когда собирают урожай ?', 'Когда ночи холодные ?', 'Когда листья желтеют ?', 'Когда светит солнце ?', 'Когда длинные дни ?', 'Когда можно кататься на велосипеде ?', 'Когда пение птиц слышно ?', 'Когда бывают сильные дожди ?', 'Когда на улице прохладно ?', 'Когда нет снега ?', 'Когда можно увидеть радугу ?', 'Когда на улице сухо ?', 'Когда деревья цветут ?', 'Когда пти

ТОКЕНИЗИРУЕМ ВОПРОСЫ (ИСПОЛЬЗУЕМ ПАДДИНГ ДЛЯ ФОРМИРОВАНИЯ ФИКСИРОВАННОЙ ДЛИНЫ ВОПРОСОВ)

In [None]:
# raw_data_in: список текстов (вопросов), которые будут токенизироваться.
# data_in: массив токенизированных и дополненных (паддинговых) данных.
# input_tokenizer: токенизатор, обученный на всех вопросах.
data_in, input_tokenizer = tokenize_and_pad_sequences(raw_data_in)


Первые 10 токенизированных и паддинговых данных (вопросы):
[[ 1 60 15  2  0  0  0  0]
 [ 1  3  4 27  2  0  0  0]
 [ 1  3  4 28  2  0  0  0]
 [ 1 18  8  9  2  0  0  0]
 [ 1  5 10  3 61  2  0  0]
 [ 1 29 19  2  0  0  0  0]
 [ 1 20 62  2  0  0  0  0]
 [ 1 63 64  2  0  0  0  0]
 [ 1 21  3  4  2  0  0  0]
 [ 1 22 65 66 67  2  0  0]]


ТОКЕНЕЗИРУЕМ ОТВЕТЫ

In [None]:
# Токенизация и паддинг выходных данных:
# - raw_data_out_in: ответы с маркером <start> для входов модели.
# - raw_data_out_out: ответы с маркером <end> для целевых значений модели.
# - data_out_in: токенизированные и дополненные последовательности из raw_data_out_in.
# - data_out_out: токенизированные и дополненные последовательности из raw_data_out_out.
# - output_tokenizer: токенизатор, обученный на всех ответах.
data_out_in, data_out_out, output_tokenizer = tokenize_and_pad_output_sequences(raw_data_out_in, raw_data_out_out)


Токенизированные и паддинговые данные (ответы с <start>):
[[ 2 17 22  4  1  0  0  0  0]
 [ 2 32  8 11  6  1  0  0  0]
 [ 2 33  8 11  5  1  0  0  0]
 [ 2 15 34 23  7  9  6  1  0]
 [ 2 10 16  8 67  5  1  0  0]
 [ 2 24 35  5  1  0  0  0  0]
 [ 2 25 68 22  5  9  6  1  0]
 [ 2 69 70  5  1  0  0  0  0]
 [ 2 26 13  5  1  0  0  0  0]
 [ 2  5 36 71 72 73  1  0  0]]
Токенизированные и паддинговые данные (ответы с <end>):
[[17 22  4  1  3  0  0  0  0]
 [32  8 11  6  1  3  0  0  0]
 [33  8 11  5  1  3  0  0  0]
 [15 34 23  7  9  6  1  3  0]
 [10 16  8 67  5  1  3  0  0]
 [24 35  5  1  3  0  0  0  0]
 [25 68 22  5  9  6  1  3  0]
 [69 70  5  1  3  0  0  0  0]
 [26 13  5  1  3  0  0  0  0]
 [ 5 36 71 72 73  1  3  0  0]]


ПОДГОТАВЛИВАЕМ ДАННЫЕ К ПОДАЧЕ В МОДЕЛЬ

In [None]:
# Вызов функции с параметрами
dataset, encoder, decoder, crossentropy, optimizer, pes = build_and_prepare_model(
    data_in=data_in,                       # Токенизированные и дополненные входные данные (вопросы)
    data_out_in=data_out_in,               # Токенизированные и дополненные ответы с <start> (вход декодера)
    data_out_out=data_out_out,             # Токенизированные и дополненные ответы с <end> (цель декодера)
    input_tokenizer=input_tokenizer,       # Токенизатор для входных данных
    output_tokenizer=output_tokenizer,     # Токенизатор для выходных данных
    hidden_dim=128,                        # Размерность скрытых слоев и эмбеддингов (число нейронов в каждом слое модели)
    batch_size=8,                          # Размер батча (количество примеров, обрабатываемых за один шаг)
    shuffle_buffer_size=120,               # Размер буфера для перемешивания данных (чем больше, тем сильнее перемешивание)
    num_heads=8,                           # Количество голов внимания (параллельные механизмы self-attention)
    num_layers=1,                          # Количество слоев в энкодере и декодере
    max_length=10                          # Максимальная длина последовательности для позиционных эмбеддингов
)


Пример батча из данных:
Batch 1 - Вопросы:
[[  1  29  19   2   0   0   0   0]
 [  1  22  65  66  67   2   0   0]
 [  1   3   4  28   2   0   0   0]
 [  1  22  45  89   2   0   0   0]
 [  1   8  95   9   2   0   0   0]
 [  1   3   4  24   2   0   0   0]
 [  1 136 137   2   0   0   0   0]
 [  1  23  13   2   0   0   0   0]]
Batch 1 - Ответы с <start>:
[[  2  24  35   5   1   0   0   0   0]
 [  2   5  36  71  72  73   1   0   0]
 [  2  33   8  11   5   1   0   0   0]
 [  2  95  36  96   5   1   0   0   0]
 [  2 100  15  23   7   1   0   0   0]
 [  2  27   8  11   6   9   5   1   0]
 [  2 147 148   4   1   0   0   0   0]
 [  2  19  85   4   1   0   0   0   0]]
Batch 1 - Ответы с <end>:
[[ 24  35   5   1   3   0   0   0   0]
 [  5  36  71  72  73   1   3   0   0]
 [ 33   8  11   5   1   3   0   0   0]
 [ 95  36  96   5   1   3   0   0   0]
 [100  15  23   7   1   3   0   0   0]
 [ 27   8  11   6   9   5   1   3   0]
 [147 148   4   1   3   0   0   0   0]
 [ 19  85   4   1   3   0   0   0  

ЗАДАЕМ КОЛИЧЕСТВО ЭПОХ И ОБУЧАЕМ МОДЕЛЬ

In [None]:
NUM_EPOCHS = 100

# Аргументы функции:
# - dataset: набор данных для обучения, разбитый на батчи.
# - NUM_EPOCHS: количество эпох, на протяжении которых модель будет обучаться.
# - train_step: функция, выполняющая одну итерацию обучения, включая расчёт потерь и обновление параметров.
# - predict: опциональная функция, вызываемая каждые 10 эпох, чтобы проверить, как модель генерирует ответы.
train_model(dataset, NUM_EPOCHS, train_step, predict=predict)

Epoch 1 Loss 2.7001
Epoch 2 Loss 1.9582
Epoch 3 Loss 1.6725
Epoch 4 Loss 1.5929
Epoch 5 Loss 1.5259
Epoch 6 Loss 1.7934
Epoch 7 Loss 1.7119
Epoch 8 Loss 1.6456
Epoch 9 Loss 2.0515
Epoch 10 Loss 1.5273
Среднее время: 5.75s
Когда бывает снегопад ?
[[1, 11, 169, 2]]
можно дожди на летом . <end>
Epoch 11 Loss 1.4430
Epoch 12 Loss 1.2220
Epoch 13 Loss 1.3864
Epoch 14 Loss 0.8529
Epoch 15 Loss 0.9204
Epoch 16 Loss 0.8118
Epoch 17 Loss 0.5446
Epoch 18 Loss 0.2351
Epoch 19 Loss 0.3565
Epoch 20 Loss 0.2791
Среднее время: 3.24s
Когда трава начинает расти ?
[[1, 115, 52, 116, 2]]
трава начинает расти весной . <end>
Epoch 21 Loss 0.1763
Epoch 22 Loss 0.1002
Epoch 23 Loss 0.2278
Epoch 24 Loss 0.0229
Epoch 25 Loss 0.0711
Epoch 26 Loss 0.0176
Epoch 27 Loss 0.0758
Epoch 28 Loss 0.0363
Epoch 29 Loss 0.0237
Epoch 30 Loss 0.1589
Среднее время: 2.44s
Когда в воздухе много пыльцы ?
[[1, 57, 156, 6, 157, 2]]
много пыльцы осенью . <end>
Epoch 31 Loss 0.1630
Epoch 32 Loss 0.0163
Epoch 33 Loss 0.1681
Epoch 34 

ПРИМЕР 1

In [None]:
test_sent = 'Когда в Москве очень жарко?'
test_sequence = normalize_string(test_sent)
predict(test_sequence)

Когда в Москве очень жарко ?
[[1, 57, 166, 26, 2]]
очень жарко летом . <end>


ПРИМЕР 2

In [None]:
test_sent = 'Когда обычно цветут цветы?'
test_sequence = normalize_string(test_sent)
predict(test_sequence)

Когда обычно цветут цветы ?
[[1, 60, 31, 70, 2]]
цветы цветут весной . <end>


ПРИМЕР 3

In [None]:
test_sent = 'Когда нужно одевать перчатки и шапку?'
test_sequence = normalize_string(test_sent)
predict(test_sequence)

Когда нужно одевать перчатки и шапку ?
[[1, 22, 65, 122, 154, 89, 2]]
зимой нужно одевать тёплую одежду . <end>


ПРИМЕР 4

In [None]:
test_sent = 'В какое время года птицы улетают?'
test_sequence = normalize_string(test_sent)
predict(test_sequence)

В какое время года птицы улетают ?
[[57, 43, 85, 2]]
птицы улетают осенью . <end>


ПРИМЕР 5

In [None]:
test_sent = 'Когда пасмурно за окном?'
test_sequence = normalize_string(test_sent)
predict(test_sequence)

Когда пасмурно за окном ?
[[1, 2]]
пасмурно обычно осенью . <end>


РЕЗУЛЬТАТЫ:

По итогам тестовых ответом можно сделать вывод, что модель в целом уловила суть, поданную в небольшом наборе текстов по временам года.

## **4.2. Генерация текста с помощью самописного трансформера (школа английского Skyeng)**

Генерация текста с помощью самописного трансформера — это процесс автоматического создания текстов на основе входных данных, таких как продолжение вопроса ученика, ответ на запрос или пример текста для обучения. В данном проекте используется обученная модель трансформера, специально адаптированная под задачи школы английского Skyeng. Она включает энкодер и декодер, построенные на механизме внимания (Attention).

### **Этапы работы модели**

1. **Подготовка данных**:
   - Для обучения модели был использован датасет, содержащий **1000 вопросов и ответов**. Эти вопросы охватывают ключевые темы, актуальные для школы английского Skyeng, включая:
     - Курсы для начинающих, продолжающих, и продвинутых.
     - Подготовку к ЕГЭ и собеседованиям.
     - Английский для детей, менеджеров, финансистов и путешествий.
   - Данные прошли процесс очистки и токенизации, где текст был преобразован в числовые последовательности, понятные модели.

2. **Генерация текста**:
   - На вход модель получает обработанный текст, например, вопрос ученика или фрагмент учебного задания.
   - Механизм внимания (Attention) помогает модели выделить ключевые части текста и учитывать их значимость для контекста.
   - Используются позиционные эмбеддинги, которые позволяют модели учитывать порядок слов для создания грамматически корректных и осмысленных предложений.

3. **Результат**:
   - На выходе модель генерирует текст, который:
     - Логически продолжает вопрос ученика.
     - Создаёт персонализированные ответы, адаптированные под уровни учеников.
     - Формирует примеры заданий для самостоятельной работы или использования преподавателями.


In [None]:
#@title Загрузка и установка библиотек
import tensorflow as tf
import numpy as np
import unicodedata
import re
import time
import matplotlib.pyplot as plt

In [None]:
#@title Сервисные функции
def normalize_string(text):
    """Нормализует строку для обучения модели"""

    # Добавляем пробел перед знаками препинания
    text = re.sub(r'([!.?])', r' \1', text)

    # Разрешаем латиницу, кириллицу (включая ё/Ё и й/Й), цифры и знаки препинания
    text = re.sub(r'[^a-zA-Zа-яА-ЯёЁйЙ0-9,.!?]+', r' ', text)

    # Заменяем множественные пробелы на один
    text = re.sub(r'\s+', r' ', text)

    # Возвращаем нормализованную строку
    return text.strip()

def positional_embedding(pos, hidden_dim):
    PE = np.zeros((1, hidden_dim))
    for i in range(hidden_dim):
        if i % 2 == 0:
            PE[:, i] = np.sin(pos / 10000 ** (i / hidden_dim))
        else:
            PE[:, i] = np.cos(pos / 10000 ** ((i - 1) / hidden_dim))
    return PE

def generate_positional_embeddings(max_length, hidden_dim):
    """
    Генерация позиционных эмбеддингов для последовательности длиной max_length.

    Parameters:
    - max_length: максимальная длина последовательности (например, количество слов в предложении)
    - hidden_dim: размерность эмбеддингов (например, количество нейронов в слое)

    Returns:
    - Тензор TensorFlow с позиционными эмбеддингами.
    """
    pes = []  # список для позиционных эмбеддингов
    for i in range(max_length):
        pes.append(positional_embedding(i, hidden_dim))  # генерируем позиционные эмбеддинги для каждого индекса
    pes = np.concatenate(pes, axis=0)  # объединяем все позиционные эмбеддинги в одну матрицу
    pes = tf.constant(pes, dtype=tf.float32)  # превращаем в тензор TensorFlow для дальнейшего использования
    return pes

def visualize_positional_embeddings(pes):
    """
    Визуализирует позиционные эмбеддинги в виде тепловой карты.

    :param pes: Тензор позиционных эмбеддингов размерности (max_length, hidden_dim)
    """
    plt.figure(figsize=(10, 10))
    plt.imshow(pes.numpy(), aspect='auto', cmap='viridis')  # используем viridis для цветовой карты
    plt.colorbar()  # добавляем цветовую шкалу
    plt.title("Позиционные эмбеддинги")
    plt.xlabel("Размерность эмбеддинга")
    plt.ylabel("Позиция в последовательности")
    plt.show()

# Многоголовое внимание
class MultiHeadAttention(tf.keras.Model):
    def __init__(self, hidden_dim, h):
        super(MultiHeadAttention, self).__init__()
        self.query_size = hidden_dim // h
        self.key_size = hidden_dim // h
        self.value_size = hidden_dim // h
        self.h = h
        self.wq = [tf.keras.layers.Dense(self.query_size) for _ in range(h)]
        self.wk = [tf.keras.layers.Dense(self.key_size) for _ in range(h)]
        self.wv = [tf.keras.layers.Dense(self.value_size) for _ in range(h)]
        self.wo = tf.keras.layers.Dense(hidden_dim)

    def call(self, decoder_output, encoder_output):
        # Тензор на выходе энкодера имеет форму (batch, decoder_len, hidden_dim)
        # Тензор на выходе декодера имеет форму  (batch, encoder_len, hidden_dim)
        heads = []
        for i in range(self.h):
            score = tf.matmul(self.wq[i](decoder_output), self.wk[i](encoder_output), transpose_b=True) / tf.math.sqrt(tf.dtypes.cast(self.key_size, tf.float32))
            # (batch, decoder_len, encoder_len)
            a = tf.nn.softmax(score, axis=2)
            #(batch, decoder_len, encoder_len)
            head = tf.matmul(a, self.wv[i](encoder_output))
            #Тензор на выходе из одной "головы" (batch, decoder_len, value_size)
            heads.append(head)
        heads = tf.concat(heads, axis=2)
        heads = self.wo(heads)
        return heads

# Кодирование
class Encoder(tf.keras.Model):
    def __init__(self, vocab_size, hidden_dim, num_layers, h):
        super(Encoder, self).__init__()
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        self.h = h
        self.embedding = tf.keras.layers.Embedding(vocab_size, hidden_dim)
        self.attention = [MultiHeadAttention(hidden_dim, h) for _ in range(num_layers)]

        self.attention_norm = [tf.keras.layers.LayerNormalization() for _ in range(num_layers)]

        self.dense_1 = [tf.keras.layers.Dense(512, activation='relu') for _ in range(num_layers)]
        self.dense_2 = [tf.keras.layers.Dense(hidden_dim) for _ in range(num_layers)]
        self.ffn_norm = [tf.keras.layers.LayerNormalization() for _ in range(num_layers)]

    def call(self, sequence):
        sub_in = []
        for i in range(sequence.shape[1]):
            embed = self.embedding(tf.expand_dims(sequence[:, i], axis=1))
            sub_in.append(embed + pes[i, :])

        sub_in = tf.concat(sub_in, axis=1)

        for i in range(self.num_layers):
            sub_out = []
            for j in range(sub_in.shape[1]):
                attention = self.attention[i](
                    tf.expand_dims(sub_in[:, j, :], axis=1), sub_in)

                sub_out.append(attention)

            sub_out = tf.concat(sub_out, axis=1)
            sub_out = sub_in + sub_out
            sub_out = self.attention_norm[i](sub_out)

            ffn_in = sub_out

            ffn_out = self.dense_2[i](self.dense_1[i](ffn_in))
            ffn_out = ffn_in + ffn_out
            ffn_out = self.ffn_norm[i](ffn_out)

            sub_in = ffn_out

        return ffn_out

# Декодирование
class Decoder(tf.keras.Model):
    def __init__(self, vocab_size, hidden_dim, num_layers, h):
        super(Decoder, self).__init__()
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        self.h = h
        self.embedding = tf.keras.layers.Embedding(vocab_size, hidden_dim)
        self.attention_bot = [MultiHeadAttention(hidden_dim, h) for _ in range(num_layers)]
        self.attention_bot_norm = [tf.keras.layers.BatchNormalization() for _ in range(num_layers)]
        self.attention_mid = [MultiHeadAttention(hidden_dim, h) for _ in range(num_layers)]
        self.attention_mid_norm = [tf.keras.layers.BatchNormalization() for _ in range(num_layers)]

        self.dense_1 = [tf.keras.layers.Dense(512, activation='relu') for _ in range(num_layers)]
        self.dense_2 = [tf.keras.layers.Dense(hidden_dim) for _ in range(num_layers)]
        self.ffn_norm = [tf.keras.layers.BatchNormalization() for _ in range(num_layers)]

        self.dense = tf.keras.layers.Dense(vocab_size)

    def call(self, sequence, encoder_output):
        # Эмбеддинги
        embed_out = []
        for i in range(sequence.shape[1]):
            embed = self.embedding(tf.expand_dims(sequence[:, i], axis=1))
            embed_out.append(embed + pes[i, :])

        embed_out = tf.concat(embed_out, axis=1)


        bot_sub_in = embed_out

        for i in range(self.num_layers):
            # Нижний блок внимания
            bot_sub_out = []

            for j in range(bot_sub_in.shape[1]):
                values = bot_sub_in[:, :j, :]
                attention = self.attention_bot[i](
                    tf.expand_dims(bot_sub_in[:, j, :], axis=1), values)

                bot_sub_out.append(attention)
            bot_sub_out = tf.concat(bot_sub_out, axis=1)
            bot_sub_out = bot_sub_in + bot_sub_out
            bot_sub_out = self.attention_bot_norm[i](bot_sub_out)

            # Средний блок внимания
            mid_sub_in = bot_sub_out

            mid_sub_out = []
            for j in range(mid_sub_in.shape[1]):
                attention = self.attention_mid[i](
                    tf.expand_dims(mid_sub_in[:, j, :], axis=1), encoder_output)

                mid_sub_out.append(attention)

            mid_sub_out = tf.concat(mid_sub_out, axis=1)
            mid_sub_out = mid_sub_out + mid_sub_in
            mid_sub_out = self.attention_mid_norm[i](mid_sub_out)

            # Полносвязный слой
            ffn_in = mid_sub_out

            ffn_out = self.dense_2[i](self.dense_1[i](ffn_in))
            ffn_out = ffn_out + ffn_in
            ffn_out = self.ffn_norm[i](ffn_out)

            bot_sub_in = ffn_out

        logits = self.dense(ffn_out)

        return logits

def loss_func(targets, logits):
    mask = tf.math.logical_not(tf.math.equal(targets, 0))
    mask = tf.cast(mask, dtype=tf.int64)
    loss = crossentropy(targets, logits, sample_weight=mask)

    return loss

@tf.function
def train_step(source_seq, target_seq_in, target_seq_out):
    with tf.GradientTape() as tape:
        encoder_output = encoder(source_seq)

        decoder_output = decoder(target_seq_in, encoder_output)

        loss = loss_func(target_seq_out, decoder_output)

    variables = encoder.trainable_variables + decoder.trainable_variables
    gradients = tape.gradient(loss, variables)
    optimizer.apply_gradients(zip(gradients, variables))

    return loss

# Обертка для цикла тренировки
def train_model(dataset, NUM_EPOCHS, train_step, predict=None):
    """
    Функция для тренировки модели.

    :param dataset: tf.data.Dataset, набор данных для тренировки
    :param NUM_EPOCHS: int, количество эпох для тренировки
    :param train_step: функция для выполнения шага тренировки
    :param predict: функция для предсказаний, будет вызываться каждые 10 эпох
    """
    start_time = time.time()

    for e in range(NUM_EPOCHS):
        # Для каждого батча в датасете
        for batch, (source_seq, target_seq_in, target_seq_out) in enumerate(dataset.take(-1)):
            loss = train_step(source_seq, target_seq_in, target_seq_out)

        # Печать потерь для каждой эпохи
        print(f'Epoch {e + 1} Loss {loss.numpy():.6f}')

        # Каждые 10 эпох выводим информацию о времени и делаем предсказание
        if (e + 1) % 10 == 0:
            end_time = time.time()
            print(f'Среднее время: {(end_time - start_time) / (e + 1):.2f}s')

            # Если передана функция предсказания, вызываем её
            if predict:
                try:
                    predict()  # предполагается, что эта функция сделает предсказания и их вывод
                except Exception as e:
                    print(f'Ошибка в предсказаниях: {e}')
                    continue

def predict(test_source_text=None):
    if test_source_text is None:
        test_source_text = raw_data_in[np.random.choice(len(raw_data_in))]
    print(f"Входной текст: {test_source_text}")
    test_source_seq = input_tokenizer.texts_to_sequences([test_source_text])
    print(f"Секвенция: {test_source_seq}")

    # Пропускаем через энкодер
    en_output = encoder(tf.constant(test_source_seq))

    # Инициализация декодера
    de_input = tf.constant([[output_tokenizer.word_index['<start>']]], dtype=tf.int64)

    out_words = []

    while True:
        # Прогнозируем следующее слово
        de_output = decoder(de_input, en_output)
        new_word = tf.expand_dims(tf.argmax(de_output, -1)[:, -1], axis=1)
        out_words.append(output_tokenizer.index_word[new_word.numpy()[0][0]])

        # Обновляем вход декодера
        de_input = tf.concat((de_input, new_word), axis=-1)

        # Прерываем цикл, если предсказано <end> или превышена длина
        if out_words[-1] == '<end>' or len(out_words) >= 14:
            break

    # Исключаем '<end>' из финального вывода
    if out_words[-1] == '<end>':
        out_words = out_words[:-1]

    print(f"Ответ: {' '.join(out_words)}")
    return out_words

def test_model(test_questions, normalize_function, predict_function):
    """
    Выполняет тестирование модели на списке вопросов.

    Args:
        test_questions (list): Список строк с тестовыми вопросами.
        normalize_function (callable): Функция для нормализации текста.
        predict_function (callable): Функция для предсказания.

    Returns:
        list: Список кортежей (вопрос, ответ).
    """
    results = []  # Список для сохранения результатов
    for question in test_questions:
        test_sequence = normalize_function(question)  # Нормализуем строку
        result = predict_function(test_sequence)  # Предсказываем результат
        if result is None:
            result_text = "Нет результата"  # Обработчик для None
        else:
            result_text = " ".join(result)  # Преобразуем список в строку
        # Сохраняем результат
        results.append((question, result_text))

        print()  # Пустая строка для разделения

    return results

def tokenize_and_pad_sequences(raw_data_in):
    """
    Токенизирует входные данные (вопросы), преобразует их в последовательности чисел,
    выполняет паддинг и печатает только первые 10 строк для наглядности.

    Args:
        raw_data_in (list of str): Список текстов (вопросов) для токенизации.

    Returns:
        tuple:
            - data_in (numpy.ndarray): Полные токенизированные и паддинговые данные.
            - input_tokenizer (Tokenizer): Объект токенизатора с обученным словарём.
    """
    # Создаём токенизатор для входных данных (вопросы)
    input_tokenizer = tf.keras.preprocessing.text.Tokenizer(filters='')

    # Обучаем токенизатор на текстах, чтобы создать словарь
    input_tokenizer.fit_on_texts(raw_data_in)

    # Преобразуем тексты в последовательности чисел
    data_in = input_tokenizer.texts_to_sequences(raw_data_in)

    # Выполняем паддинг, добавляя нули в конец (padding='post')
    data_in = tf.keras.preprocessing.sequence.pad_sequences(data_in, padding='post')

    # Печатаем первые 10 строк токенизированных и паддинговых данных
    print("\nПервые 10 токенизированных и паддинговых данных (вопросы):")
    print(data_in[:10])

    return data_in, input_tokenizer

def tokenize_and_pad_output_sequences(raw_data_out_in, raw_data_out_out):
    """
    Токенизирует выходные данные (ответы) с маркерами <start> и <end>,
    преобразует их в последовательности чисел и выполняет паддинг.

    Args:
        raw_data_out_in (list of str): Список ответов с маркером <start>.
        raw_data_out_out (list of str): Список ответов с маркером <end>.

    Returns:
        tuple:
            - data_out_in (numpy.ndarray): Токенизированные и дополненные данные с <start>.
            - data_out_out (numpy.ndarray): Токенизированные и дополненные данные с <end>.
            - output_tokenizer (Tokenizer): Объект токенизатора с обученным словарём.
    """
    # Создаём токенизатор для выходных данных
    output_tokenizer = tf.keras.preprocessing.text.Tokenizer(filters='')

    # Обучаем токенизатор на всех ответах (с <start> и <end>)
    output_tokenizer.fit_on_texts(raw_data_out_in + raw_data_out_out)

    # Преобразуем ответы с <start> в последовательности чисел
    data_out_in = output_tokenizer.texts_to_sequences(raw_data_out_in)
    data_out_in = tf.keras.preprocessing.sequence.pad_sequences(data_out_in, padding='post')

    # Преобразуем ответы с <end> в последовательности чисел
    data_out_out = output_tokenizer.texts_to_sequences(raw_data_out_out)
    data_out_out = tf.keras.preprocessing.sequence.pad_sequences(data_out_out, padding='post')

    # Печатаем первые 10 строк для наглядности
    print("\nТокенизированные и паддинговые данные (ответы с <start>):")
    print(data_out_in[:10])
    print("Токенизированные и паддинговые данные (ответы с <end>):")
    print(data_out_out[:10])

    return data_out_in, data_out_out, output_tokenizer

def prepare_and_print_dataset(data_in, data_out_in, data_out_out, batch_size, shuffle_buffer_size):
    """
    Создаёт и подготавливает датасет для обучения:
    - Перемешивает данные.
    - Группирует их в батчи.
    - Печатает содержимое одного батча.

    Args:
        data_in (numpy.ndarray): Вопросы (входные данные).
        data_out_in (numpy.ndarray): Ответы с маркером <start> (вход декодера).
        data_out_out (numpy.ndarray): Ответы с маркером <end> (цель декодера).
        batch_size (int): Количество примеров в одном батче.
        shuffle_buffer_size (int): Количество данных для перемешивания.

    Returns:
        tf.data.Dataset: Подготовленный датасет.
    """
    # Создаём датасет из входных (вопросы) и выходных (ответы) данных
    dataset = tf.data.Dataset.from_tensor_slices((data_in, data_out_in, data_out_out))

    # Перемешиваем данные и группируем их в батчи
    dataset = dataset.shuffle(shuffle_buffer_size).batch(batch_size)

    # Печать содержимого одного батча
    print("\nПример батча из данных:")
    for batch, (source_seq, target_seq_in, target_seq_out) in enumerate(dataset.take(1)):
        print(f"Batch {batch + 1} - Вопросы:")  # Вопросы в текущем батче
        print(source_seq.numpy())  # Токенизированные вопросы
        print(f"Batch {batch + 1} - Ответы с <start>:")  # Ответы с токеном <start>
        print(target_seq_in.numpy())  # Токенизированные ответы, подаваемые на вход декодеру
        print(f"Batch {batch + 1} - Ответы с <end>:")  # Ответы с токеном <end>
        print(target_seq_out.numpy())  # Токенизированные ответы, используемые как цель

    return dataset

def process_raw_data(raw_data, normalize_string):
    """
    Обрабатывает сырые данные: разделяет на вопросы и ответы, нормализует их и добавляет маркеры.

    :param raw_data: Список кортежей (вопрос, ответ).
    :param normalize_string: Функция для нормализации строки.
    :return: Кортеж из трех списков: нормализованные вопросы, ответы с <start>, ответы с <end>.
    """
    # Разбиваем список кортежей raw_data на два отдельных списка
    raw_data_in, raw_data_out = zip(*raw_data)

    # Преобразуем их из кортежей в списки для дальнейшей обработки
    raw_data_in, raw_data_out = list(raw_data_in), list(raw_data_out)

    # Применяем нормализацию для каждого вопроса в данных
    raw_data_in = [normalize_string(data) for data in raw_data_in]

    # Формируем данные для вывода: добавляем маркер <start> перед каждым ответом
    raw_data_out_in = ['<start> ' + normalize_string(data) for data in raw_data_out]

    # Формируем данные для вывода: добавляем маркер <end> после каждого ответа
    raw_data_out_out = [normalize_string(data) + ' <end>' for data in raw_data_out]

    # Печать данных после нормализации
    print("\nНормализованные данные (вопросы):")
    print(raw_data_in)
    print("Нормализованные данные (ответы с <start>):")
    print(raw_data_out_in)
    print("Нормализованные данные (ответы с <end>):")
    print(raw_data_out_out)

    return raw_data_in, raw_data_out_in, raw_data_out_out

def build_and_prepare_model(data_in, data_out_in, data_out_out,
                            input_tokenizer, output_tokenizer,
                            hidden_dim, batch_size, shuffle_buffer_size,
                            num_heads, num_layers, max_length):
    """
    Полная обработка данных, настройка датасета, создание энкодера, декодера и параметров обучения.

    :param data_in: Токенизированные и дополненные входные данные (вопросы).
    :param data_out_in: Токенизированные и дополненные ответы с <start> (вход декодера).
    :param data_out_out: Токенизированные и дополненные ответы с <end> (цель декодера).
    :param input_tokenizer: Токенизатор для входных данных.
    :param output_tokenizer: Токенизатор для выходных данных.
    :param hidden_dim: Размерность скрытых слоев и эмбеддингов.
    :param batch_size: Размер батча.
    :param shuffle_buffer_size: Размер буфера для перемешивания данных.
    :param num_heads: Количество голов внимания.
    :param num_layers: Количество слоев энкодера/декодера.
    :param max_length: Максимальная длина последовательности для позиционных эмбеддингов.
    :return: Датасет, энкодер, декодер, функция потерь, оптимизатор, pes.
    """
    # Подготовка датасета
    dataset = prepare_and_print_dataset(data_in, data_out_in, data_out_out, batch_size, shuffle_buffer_size)

    # Получение размеров словарей
    vocab_size_in = len(input_tokenizer.word_index) + 1
    vocab_size_out = len(output_tokenizer.word_index) + 1

    # Генерация позиционных эмбеддингов (используются энкодером и декодером)
    pes = generate_positional_embeddings(max_length, hidden_dim)

    # Создание энкодера
    encoder = Encoder(vocab_size_in, hidden_dim, num_layers, num_heads)

    # Создание декодера
    decoder = Decoder(vocab_size_out, hidden_dim, num_layers, num_heads)

    # Функция потерь
    crossentropy = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

    # Оптимизатор
    optimizer = tf.keras.optimizers.Adam()

    # Возвращение pes вместе с остальными результатами
    return dataset, encoder, decoder, crossentropy, optimizer, pes

ЗАГРУЖАЕМ ТРЕНИРОВОЧНЫЕ ТЕКСТЫ

In [None]:
#@title ДАТАСЕТ (СПИСОК КОРТЕЖЕЙ)
raw_data = [
    ("Какой уровень английского можно изучать?", "Любой уровень: Beginner до Advanced."),
    ("Что нужно для начала занятий?", "Микрофон, камера и доступ к сайту."),
    ("Можно ли менять преподавателя?", "Да, преподавателя можно сменить в любой момент."),
    ("Как часто можно заниматься?", "Можно заниматься так часто, как хотите."),
    ("Можно ли обучаться без преподавателя?", "Да, доступно самостоятельное обучение."),
    ("Сколько длится пробный урок?", "Он длится 30 минут."),
    ("Сколько длится обычный урок?", "Уроки длятся 50 минут."),
    ("Как подобрать преподавателя?", "Мы подберём преподавателя под ваши цели."),
    ("Есть ли занятия для детей?", "Да, доступны курсы для детей."),
    ("Когда можно отменить урок?", "Отмените за 8 часов до начала."),
    ("Какой формат уроков предлагается?", "Индивидуальные занятия и разговорные клубы."),
    ("Есть ли курсы для собеседования?", "Да, есть курс для подготовки к собеседованию."),
    ("Можно ли заниматься с носителем языка?", "Да, есть преподаватели-носители языка."),
    ("Какая стоимость уроков?", "Уроки стоят от 950 ₽."),
    ("Как проходит пробный урок?", "Определяем уровень и показываем платформу."),
    ("Какие есть уровни обучения?", "От Beginner до Advanced."),
    ("Есть ли курсы для переезда?", "Да, есть курс для переезда."),
    ("Могу ли я заниматься из дома?", "Да, занятия проходят онлайн."),
    ("Как происходит обучение на платформе?", "Через видеосвязь и интерактивные задания."),
    ("Как узнать свой уровень?", "Уровень определит методист на пробном уроке."),
    ("Что входит в стоимость курсов?", "Учебные материалы и подбор преподавателя."),
    ("Можно ли заниматься в приложении?", "Да, занятия доступны через мобильное приложение."),
    ("Какие форматы обучения доступны?", "Индивидуальные уроки и самостоятельная практика."),
    ("Какие темы изучаются на курсах?", "Темы для работы, путешествий и повседневной жизни."),
    ("Есть ли домашние задания?", "Да, задания назначает преподаватель."),
    ("Как отслеживать свой прогресс?", "Через статистику в личном кабинете."),
    ("Можно ли перенести урок?", "Да, уроки можно перенести."),
    ("Какие курсы есть для детей?", "Курсы для детей всех возрастов."),
    ("Как проходят разговорные клубы?", "В группах или один на один."),
    ("Есть ли подготовка к экзаменам?", "Да, есть курсы подготовки к IELTS и ЕГЭ."),
    ("Как оплатить занятия?", "Оплата производится онлайн."),
    ("Можно ли прервать занятия?", "Да, можно сделать перерыв в обучении."),
    ("Есть ли бонусы за оплату?", "Да, дополнительные уроки и клуб в подарок."),
    ("Какие курсы доступны для IT-специалистов?", "Курс английского для IT."),
    ("Как выбрать тему для занятий?", "Выбирайте из предложенных или предложите свою."),
    ("Есть ли русскоязычные преподаватели?", "Да, русскоязычные преподаватели доступны."),
    ("Можно ли обучаться без канцелярии?", "Да, достаточно компьютера."),
    ("Есть ли гибкий график?", "Да, занятия подстраиваются под ваше расписание."),
    ("Как проходит вводный урок?", "Выбор курса и знакомство с платформой."),
    ("Какие есть дополнительные ресурсы?", "Разговорные клубы и тренажёры слов."),
    ("Могу ли я заниматься ночью?", "Да, уроки доступны круглосуточно."),
    ("Можно ли вернуть деньги за курс?", "Да, по условиям договора."),
    ("Какие есть курсы для путешествий?", "Английский для путешествий."),
    ("Есть ли скидки на курсы?", "Да, на сайте указаны акции."),
    ("Можно ли учить лексику самостоятельно?", "Да, через тренажёр слов."),
    ("Есть ли видеозаписи уроков?", "Нет, но доступны материалы занятий."),
    ("Какие методики обучения используются?", "Коммуникативная методика."),
    ("Что делать, если пропустил урок?", "Перенесите его на удобное время."),
    ("Есть ли индивидуальные планы?", "Да, план составляется под ваши цели."),
    ("Как быстро можно выучить английский?", "Скорость зависит от вашего темпа."),
    ("Можно ли обучаться в группе?", "Групповые занятия доступны в разговорных клубах."),
    ("Какой минимальный возраст для обучения?", "Обучение доступно с любого возраста."),
    ("Есть ли курсы для финансистов?", "Да, курс для финансистов."),
    ("Как связаться с поддержкой?", "Через чат в личном кабинете."),
    ("Что включает платформа?", "Видеосвязь, тренажёры и задания."),
    ("Как проверить домашнее задание?", "Система проверяет автоматически."),
    ("Есть ли подготовка к собеседованиям?", "Да, курс для подготовки к собеседованиям."),
    ("Какие курсы есть для маркетологов?", "Курс английского для маркетологов."),
    ("Есть ли доступ к прошедшим урокам?", "Да, материалы доступны в личном кабинете."),
    ("Как выбрать преподавателя?", "С помощью рекомендаций школы."),
    ("Какие есть разговорные клубы?", "Клубы с носителями языка."),
    ("Есть ли курсы для фармацевтов?", "Да, курс для фармацевтов."),
    ("Как отменить урок без потери оплаты?", "Отмените за 8 часов до начала."),
    ("Какие есть уровни CEFR?", "От A1 до C2."),
    ("Могу ли я заниматься с планшета?", "Да, занятия доступны на планшете."),
    ("Какая стоимость курсов с носителем?", "Уроки от 3 247 ₽."),
    ("Есть ли курс для руководителей?", "Да, курс для менеджеров."),
    ("Как проходят упражнения на платформе?", "Всё интерактивно и проверяется сразу."),
    ("Как улучшить говорение?", "Участвуйте в разговорных клубах."),
    ("Какие курсы есть для бизнеса?", "Деловой английский."),
    ("Можно ли использовать платформу бесплатно?", "Только на пробном уроке."),
    ("Как начать заниматься?", "Оставьте заявку на сайте."),
    ("Есть ли уроки для подготовки к IELTS?", "Да, курс подготовки к IELTS."),
    ("Какие материалы доступны в приложении?", "Задания, тренажёр слов и домашка."),
    ("Какую методику вы используете?", "Коммуникативную с интерактивными упражнениями."),
    ("Что делать, если не понимаю преподавателя?", "Смените преподавателя."),
    ("Какие темы обсуждаются на уроках?", "Актуальные темы для повседневной жизни."),
    ("Какой формат доступен для детей?", "Индивидуальные занятия."),
    ("Какие цели можно достичь на курсе?", "Разговорный английский, экзамены, собеседования."),
    ("Как связаться с методистом?", "Через заявку на сайте."),
    ("Есть ли курсы для Advanced уровня?", "Да, курсы для Advanced уровня."),
    ("Какие бонусы у премиум-курса?", "Индивидуальный план и премиум-клуб."),
    ("Как найти мотивацию?", "Следите за прогрессом в личном кабинете."),
    ("Что делать, если я занят?", "Обучайтесь в удобное время."),
    ("Как выбрать тему занятия?", "Согласуйте с преподавателем."),
    ("Какие есть форматы общения?", "Видеосвязь и текстовый чат."),
    ("Есть ли уроки для программистов?", "Да, курс для IT-специалистов."),
    ("Какие инструменты доступны в платформе?", "Тренажёр слов, задания, статистика."),
    ("Как начать пользоваться приложением?", "Скачайте и войдите в личный кабинет."),
    ("Какой минимальный уровень для собеседования?", "Уровень Intermediate."),
    ("Можно ли изучать грамматику отдельно?", "Да, упражнения на грамматику доступны."),
    ("Есть ли преподаватели с акцентом?", "Да, из разных стран."),
    ("Какая поддержка доступна ученикам?", "Поддержка доступна через чат."),
    ("Как часто обновляются курсы?", "Курсы регулярно обновляются."),
    ("Есть ли уроки для взрослых?", "Да, для всех возрастов."),
    ("Можно ли совмещать форматы?", "Да, уроки и самостоятельные занятия."),
    ("Какой курс выбрать для начала с нуля?", "Выберите курс Beginner с нуля."),
    ("Как записаться на курс с нуля?", "Оставьте заявку на сайте."),
    ("Какие цены на курс с нуля?", "Цены начинаются от 950 ₽ за урок."),
    ("Можно ли учить английский с нуля?", "Да, обучение начинается с нуля."),
    ("Как проходит обучение с нуля?", "Через онлайн-уроки и интерактивные задания."),
    ("Есть ли пробный урок для курса с нуля?", "Да, пробный урок бесплатный."),
    ("Сколько длится курс с нуля?", "Курс включает 44 урока."),
    ("Как оплатить курс с нуля?", "Оплата доступна онлайн."),
    ("Можно ли перенести урок с нуля?", "Да, урок можно перенести."),
    ("Какие темы изучаются на курсе с нуля?", "Темы: семья, работа, путешествия."),
    ("Какой уровень после курса с нуля?", "После курса уровень Elementary."),
    ("Можно ли заниматься ночью с нуля?", "Да, уроки доступны круглосуточно."),
    ("Какие цены на урок с нуля?", "Цена от 950 ₽ до 1890 ₽."),
    ("Можно ли учиться с телефона с нуля?", "Да, обучение доступно с телефона."),
    ("Какие бонусы при оплате курса с нуля?", "Дополнительные уроки и разговорный клуб."),
    ("Какой график занятий с нуля?", "График подстраивается под вас."),
    ("Можно ли сделать перерыв в курсе с нуля?", "Да, можно оформить перерыв."),
    ("Как долго длится один урок с нуля?", "Урок длится 50 минут."),
    ("Что нужно для уроков с нуля?", "Компьютер, микрофон и интернет."),
    ("Какой минимальный возраст для курса с нуля?", "Курс доступен с любого возраста."),
    ("Сколько уроков в пакете с нуля?", "Пакеты включают от 4 до 128 уроков."),
    ("Есть ли индивидуальные занятия с нуля?", "Да, обучение индивидуальное."),
    ("Какой формат обучения с нуля?", "Индивидуальные уроки и разговорные клубы."),
    ("Можно ли выбрать преподавателя для курса с нуля?", "Да, преподавателя выбираете вы."),
    ("Сколько стоит пакет из 16 уроков с нуля?", "Цена от 1 490 ₽ за урок."),
    ("Как отменить урок с нуля?", "Отмените за 8 часов до начала."),
    ("Какие есть темы на курсе с нуля?", "Темы: семья, работа, хобби."),
    ("Какая методика используется на курсе с нуля?", "Коммуникативная методика."),
    ("Можно ли заниматься вечером с нуля?", "Да, занятия доступны вечером."),
    ("Какая стоимость пакета на 8 уроков с нуля?", "Цена от 1 590 ₽ за урок."),
    ("Какой уровень языка нужен для курса с нуля?", "Уровень Beginner или отсутствие опыта."),
    ("Можно ли заниматься самостоятельно с нуля?", "Да, доступен тренажёр слов."),
    ("Какие ресурсы входят в курс с нуля?", "Видеоуроки, тренажёр и задания."),
    ("Есть ли курс для семьи с нуля?", "Да, темы про семью изучаются."),
    ("Можно ли учиться детям с нуля?", "Да, есть курс для детей."),
    ("Какая стоимость пакета на 32 урока с нуля?", "Цена от 1 240 ₽ за урок."),
    ("Можно ли переносить уроки с нуля?", "Да, уроки можно переносить."),
    ("Какие цели достигаются на курсе с нуля?", "Свободное общение и понимание речи."),
    ("Сколько стоит урок с премиум-преподавателем с нуля?", "Цена от 1 290 ₽ за урок."),
    ("Как начать заниматься на курсе с нуля?", "Оставьте заявку на сайте."),
    ("Можно ли обучаться за границей с нуля?", "Да, уроки онлайн из любой точки."),
    ("Какие дополнительные материалы на курсе с нуля?", "Домашние задания и тренажёры."),
    ("Можно ли оплачивать частями курс с нуля?", "Да, доступна оплата частями."),
    ("Какие темы есть в модуле Travel с нуля?", "Темы: города, страны, путешествия."),
    ("Как выбрать преподавателя для курса с нуля?", "Используйте рекомендации школы."),
    ("Какие отзывы о курсе с нуля?", "Ученики довольны прогрессом."),
    ("Есть ли скидки на курс с нуля?", "Да, смотрите акционные предложения."),
    ("Можно ли вернуть деньги за курс с нуля?", "Да, по условиям договора."),
    ("Какие профессии обсуждаются на курсе с нуля?", "Темы: работа и повседневные дела."),
    ("Какой пакет выбрать для старта с нуля?", "Рекомендуем пакет на 16 уроков."),
    ("Сколько стоит курс для путешествий с нуля?", "Цена от 950 ₽ за урок."),
    ("Какие темы в модуле Family с нуля?", "Темы: семья, привычки, характер."),
    ("Можно ли заниматься утром с нуля?", "Да, занятия доступны утром."),
    ("Как продлить курс с нуля?", "Оформите новый пакет уроков."),
    ("Какие акценты преподавателей на курсе с нуля?", "Преподаватели из разных стран."),
    ("Можно ли поменять расписание на курсе с нуля?", "Да, график можно менять."),
    ("Какая стоимость урока с носителем с нуля?", "Цена от 3 247 ₽ за урок."),
    ("Какие уровни можно достичь с нуля?", "Уровни: Elementary и выше."),
    ("Можно ли участвовать в разговорных клубах с нуля?", "Да, доступен разговорный клуб."),
    ("Какие темы в модуле Hobby с нуля?", "Темы: еда, покупки, шопинг."),
    ("Как пройти первый урок с нуля?", "Просто оставьте заявку."),
    ("Можно ли заниматься вечером на курсе с нуля?", "Да, занятия вечером доступны."),
    ("Какая цена за 4 урока с нуля?", "Цена от 1 890 ₽ за урок."),
    ("Есть ли подготовка к экзаменам с нуля?", "Да, подготовка к IELTS доступна."),
    ("Какие темы в модуле Plans с нуля?", "Темы: планы, отдых, поездки."),
    ("Можно ли учить грамматику с нуля?", "Да, грамматика включена."),
    ("Сколько стоит пакет на 96 уроков с нуля?", "Цена от 990 ₽ за урок."),
    ("Можно ли заниматься на планшете с нуля?", "Да, занятия доступны на планшете."),
    ("Как узнать свой прогресс с нуля?", "Через личный кабинет."),
    ("Какая продолжительность пакета на 64 урока с нуля?", "Около 5 месяцев обучения."),
    ("Какие темы в модуле Life с нуля?", "Темы: дни недели, праздники."),
    ("Можно ли перенести отпуск на курсе с нуля?", "Да, расписание можно заморозить."),
    ("Какие темы в модуле Job с нуля?", "Темы: профессии, домашние дела."),
    ("Сколько стоит обучение с премиум-курсом с нуля?", "Цена от 1 290 ₽ за урок."),
    ("Можно ли пройти курс быстрее с нуля?", "Зависит от вашего графика."),
    ("Какая стоимость курса на 128 уроков с нуля?", "Цена от 950 ₽ за урок."),
    ("Можно ли отменить урок в день с нуля?", "Нет, отмените за 8 часов."),
    ("Какие темы в модуле Friends с нуля?", "Темы: друзья, чувства, эмоции."),
    ("Можно ли делать домашку в приложении с нуля?", "Да, задания доступны в приложении."),
    ("Какая продолжительность курса на 44 урока с нуля?", "Около 3 месяцев обучения."),
    ("Можно ли изучать английский вдвоём с нуля?", "Да, возможны парные занятия."),
    ("Какая стоимость курса на 32 урока с нуля?", "Цена от 1 240 ₽ за урок."),
    ("Какие темы в модуле Meet You с нуля?", "Темы: страны, знакомство, имена."),
    ("Можно ли подключиться из другой страны с нуля?", "Да, обучение доступно онлайн."),
    ("Какова цена уроков по акции с нуля?", "Цена уточняется на сайте."),
    ("Какой курс подходит для начинающих?", "Курс Beginner идеально подходит для начинающих."),
    ("Как записаться на курс для начинающих?", "Оставьте заявку на сайте."),
    ("Какие цены на курс для начинающих?", "Цены начинаются от 950 ₽ за урок."),
    ("Можно ли начать с нуля для начинающих?", "Да, курс подходит для начинающих."),
    ("Какая продолжительность курса для начинающих?", "Курс включает 48 уроков."),
    ("Есть ли пробный урок для начинающих?", "Да, пробный урок бесплатный."),
    ("Можно ли перенести урок для начинающих?", "Да, урок можно перенести."),
    ("Какие темы изучаются для начинающих?", "Темы: семья, еда, покупки."),
    ("Какой уровень после курса для начинающих?", "После курса уровень Elementary."),
    ("Сколько стоит урок для начинающих?", "Цена от 950 ₽ до 1890 ₽."),
    ("Можно ли учиться онлайн для начинающих?", "Да, обучение полностью онлайн."),
    ("Какие бонусы для начинающих при оплате?", "Дополнительные уроки и клуб."),
    ("Какой график занятий для начинающих?", "График подстраивается под вас."),
    ("Можно ли сделать перерыв для начинающих?", "Да, перерыв доступен."),
    ("Сколько длится урок для начинающих?", "Один урок длится 50 минут."),
    ("Что нужно для уроков для начинающих?", "Компьютер, интернет и микрофон."),
    ("Какие уровни изучают для начинающих?", "Уровни Beginner и Elementary."),
    ("Сколько стоит пакет на 16 уроков для начинающих?", "Цена от 1 490 ₽ за урок."),
    ("Какие темы изучают для начинающих?", "Темы: рутина, свободное время."),
    ("Есть ли индивидуальные уроки для начинающих?", "Да, обучение индивидуальное."),
    ("Как выбрать преподавателя для начинающих?", "Мы поможем выбрать преподавателя."),
    ("Какие пакеты доступны для начинающих?", "Пакеты от 4 до 128 уроков."),
    ("Сколько стоит пакет на 32 урока для начинающих?", "Цена от 1 240 ₽ за урок."),
    ("Можно ли заниматься вечером для начинающих?", "Да, занятия доступны вечером."),
    ("Как оплатить курс для начинающих?", "Оплата доступна онлайн."),
    ("Какая цена на пакет 96 уроков для начинающих?", "Цена от 990 ₽ за урок."),
    ("Какие модули в курсе для начинающих?", "Модули: люди, еда, покупки."),
    ("Как начать занятия для начинающих?", "Просто оставьте заявку."),
    ("Можно ли перенести занятие для начинающих?", "Да, можно перенести урок."),
    ("Какой формат обучения для начинающих?", "Онлайн-уроки и интерактивные задания."),
    ("Есть ли скидки для начинающих?", "Да, акции указаны на сайте."),
    ("Какая методика используется для начинающих?", "Коммуникативная методика."),
    ("Можно ли учиться утром для начинающих?", "Да, уроки доступны утром."),
    ("Какие темы в модуле еда для начинающих?", "Темы: рецепты, рестораны."),
    ("Как записаться на пробный урок для начинающих?", "Оставьте заявку на сайте."),
    ("Какие темы в модуле люди для начинающих?", "Темы: семья, знакомства."),
    ("Какая цена на пакет 64 урока для начинающих?", "Цена от 1 090 ₽ за урок."),
    ("Можно ли отменить урок для начинающих?", "Да, за 8 часов до начала."),
    ("Какие бонусы при покупке пакета для начинающих?", "Дополнительные уроки бесплатно."),
    ("Сколько стоит премиум-курс для начинающих?", "Цена от 1 290 ₽ за урок."),
    ("Какие темы обсуждаются для начинающих?", "Темы: работа, отдых, покупки."),
    ("Можно ли учиться на планшете для начинающих?", "Да, планшет подходит."),
    ("Сколько длится пакет на 128 уроков для начинающих?", "Около 6 месяцев."),
    ("Какие темы в модуле покупки для начинающих?", "Темы: магазины, цены."),
    ("Какие цели достигаются для начинающих?", "Навыки общения и письма."),
    ("Как проверить прогресс для начинающих?", "Через личный кабинет."),
    ("Сколько стоит пакет 8 уроков для начинающих?", "Цена от 1 590 ₽ за урок."),
    ("Можно ли заниматься вдвоем для начинающих?", "Да, доступны парные занятия."),
    ("Какой результат курса для начинающих?", "Общение на уровне Elementary."),
    ("Какая цена на 4 урока для начинающих?", "Цена от 1 890 ₽ за урок."),
    ("Как перенести отпуск для начинающих?", "Оформите через личный кабинет."),
    ("Какие темы в модуле город для начинающих?", "Темы: транспорт, ориентирование."),
    ("Можно ли получить бонусы для начинающих?", "Да, дополнительные уроки."),
    ("Какие темы в модуле здоровье для начинающих?", "Темы: врачи, симптомы."),
    ("Как учить грамматику для начинающих?", "Через интерактивные задания."),
    ("Какая стоимость пакета на 48 уроков для начинающих?", "Цена уточняется на сайте."),
    ("Есть ли разговорный клуб для начинающих?", "Да, клуб доступен."),
    ("Можно ли учиться ночью для начинающих?", "Да, уроки круглосуточно."),
    ("Какая продолжительность курса для начинающих?", "Около 3 месяцев."),
    ("Как выбрать пакет для начинающих?", "Выберите подходящий по цене."),
    ("Какие темы в модуле отдых для начинающих?", "Темы: хобби, спорт."),
    ("Как оплатить частями курс для начинающих?", "Оплата частями доступна."),
    ("Какие темы в модуле отпуск для начинающих?", "Темы: путешествия, отдых."),
    ("Можно ли изучать лексику для начинающих?", "Да, через тренажёр."),
    ("Какие темы в модуле покупки для начинающих?", "Темы: скидки, подарки."),
    ("Какие цены на премиум-уроки для начинающих?", "Цена от 1 290 ₽ за урок."),
    ("Какой минимальный возраст для курса для начинающих?", "Курс доступен всем возрастам."),
    ("Какие темы в модуле погода для начинающих?", "Темы: прогнозы, эмоции."),
    ("Можно ли учиться на смартфоне для начинающих?", "Да, доступно обучение."),
    ("Какие акценты у преподавателей для начинающих?", "Преподаватели из разных стран."),
    ("Какой пакет лучше для начинающих?", "Рекомендуем пакет 16 уроков."),
    ("Какие темы в модуле семья для начинающих?", "Темы: привычки, характер."),
    ("Можно ли изменить расписание для начинающих?", "Да, график изменяется."),
    ("Какая цена на пакет 32 урока для начинающих?", "Цена от 1 240 ₽ за урок."),
    ("Какие темы в модуле природа для начинающих?", "Темы: животные, климат."),
    ("Можно ли учиться за границей для начинающих?", "Да, онлайн-обучение доступно."),
    ("Какая продолжительность пакета 96 уроков для начинающих?", "Около 5 месяцев."),
    ("Какие темы в модуле прошлое для начинающих?", "Темы: истории, биографии."),
    ("Какие темы в модуле стиль для начинающих?", "Темы: мода, одежда."),
    ("Какая цена на премиум-курс для начинающих?", "Цена от 1 850 ₽ за урок."),
    ("Можно ли изучать глаголы для начинающих?", "Да, глаголы включены."),
    ("Какая продолжительность пакета 64 урока для начинающих?", "Около 4 месяцев."),
    ("Какие темы в модуле питание для начинающих?", "Темы: рестораны, диеты."),
    ("Как оплачивать пакет уроков для начинающих?", "Оплата производится онлайн."),
    ("Можно ли получить скидку для начинающих?", "Да, смотрите акции."),
    ("Какие цели достигаются на курсе для начинающих?", "Понимание речи и письма."),
    ("Как заниматься вечером для начинающих?", "Запишитесь на вечерние уроки."),
    ("Какая стоимость пакета 128 уроков для начинающих?", "Цена от 950 ₽ за урок."),
    ("Какие темы в модуле погода для начинающих?", "Темы: прогнозы, снег."),
    ("Как оценить прогресс для начинающих?", "Через статистику на платформе."),
    ("Какая цена курса для продолжающих?", "Цена от 950 ₽ за урок."),
    ("Как записаться на курс для продолжающих?", "Оставьте заявку на сайте."),
    ("Сколько уроков в курсе для продолжающих?", "Курс включает 60 уроков."),
    ("Можно ли перенести урок для продолжающих?", "Да, уроки можно переносить."),
    ("Какие темы изучаются для продолжающих?", "Темы: работа, увлечения, экология."),
    ("Какая цена пакета 16 уроков для продолжающих?", "Цена от 1 490 ₽ за урок."),
    ("Какая методика курса для продолжающих?", "Используется коммуникативная методика."),
    ("Можно ли учиться вечером для продолжающих?", "Да, уроки доступны вечером."),
    ("Как оплатить курс для продолжающих?", "Оплата доступна онлайн."),
    ("Какие бонусы на курсе для продолжающих?", "Дополнительные уроки и клуб."),
    ("Сколько стоит 4 урока для продолжающих?", "Цена от 1 890 ₽ за урок."),
    ("Какой уровень после курса для продолжающих?", "Уровень Pre-Intermediate."),
    ("Можно ли заниматься онлайн для продолжающих?", "Да, обучение полностью онлайн."),
    ("Какая цена пакета 64 урока для продолжающих?", "Цена от 1 090 ₽ за урок."),
    ("Какие модули в курсе для продолжающих?", "Модули: спорт, экология, работа."),
    ("Сколько длится один урок для продолжающих?", "Урок длится 50 минут."),
    ("Какие темы в модуле культура для продолжающих?", "Темы: искусство, традиции."),
    ("Сколько стоит 96 уроков для продолжающих?", "Цена от 990 ₽ за урок."),
    ("Можно ли учиться ночью для продолжающих?", "Да, занятия доступны круглосуточно."),
    ("Какая стоимость пакета 128 уроков для продолжающих?", "Цена от 950 ₽ за урок."),
    ("Можно ли выбрать преподавателя для продолжающих?", "Да, преподавателя выбираете вы."),
    ("Какие цели достигаются для продолжающих?", "Улучшение аудирования и речи."),
    ("Как записаться на пробный урок для продолжающих?", "Оставьте заявку на сайте."),
    ("Какая продолжительность курса для продолжающих?", "Курс длится около 4 месяцев."),
    ("Сколько стоит 8 уроков для продолжающих?", "Цена от 1 590 ₽ за урок."),
    ("Какие темы в модуле экология для продолжающих?", "Темы: природа, устойчивость."),
    ("Как проверить прогресс для продолжающих?", "Через личный кабинет."),
    ("Можно ли изучать грамматику для продолжающих?", "Да, грамматика включена."),
    ("Какие темы в модуле психология для продолжающих?", "Темы: эмоции, мотивация."),
    ("Какая цена пакета 32 урока для продолжающих?", "Цена от 1 240 ₽ за урок."),
    ("Какие бонусы при оплате курса для продолжающих?", "Дополнительные уроки бесплатно."),
    ("Можно ли заниматься вдвоем для продолжающих?", "Да, парные уроки доступны."),
    ("Какая методика подходит для продолжающих?", "Методика: разговорная практика."),
    ("Какие темы в модуле спорт для продолжающих?", "Темы: виды спорта, фитнес."),
    ("Сколько длится курс для продолжающих?", "Примерно 5 месяцев."),
    ("Какая стоимость премиум-курса для продолжающих?", "Цена от 1 290 ₽ за урок."),
    ("Какие акценты у преподавателей для продолжающих?", "Преподаватели из разных стран."),
    ("Можно ли заниматься утром для продолжающих?", "Да, уроки доступны утром."),
    ("Какие темы в модуле работа для продолжающих?", "Темы: карьера, офис."),
    ("Какой результат курса для продолжающих?", "Улучшение уровня до Pre-Intermediate."),
    ("Какие темы в модуле еда для продолжающих?", "Темы: рестораны, кулинария."),
    ("Сколько стоит пакет 48 уроков для продолжающих?", "Цена уточняется на сайте."),
    ("Как оплатить частями курс для продолжающих?", "Оплата частями доступна."),
    ("Какие темы в модуле путешествия для продолжающих?", "Темы: транспорт, отдых."),
    ("Как заниматься в мобильном приложении для продолжающих?", "Занятия доступны в приложении."),
    ("Какая стоимость пакета 96 уроков для продолжающих?", "Цена от 990 ₽ за урок."),
    ("Какие темы обсуждаются для продолжающих?", "Темы: увлечения, экология."),
    ("Можно ли изменить расписание для продолжающих?", "Да, график изменяется."),
    ("Какие дополнительные ресурсы для продолжающих?", "Тренажёры и задания."),
    ("Как получить бонусы для продолжающих?", "Оформите пакет уроков."),
    ("Какие темы в модуле город для продолжающих?", "Темы: транспорт, ориентирование."),
    ("Какие цели курса для продолжающих?", "Развитие аудирования и письма."),
    ("Сколько стоит премиум-пакет для продолжающих?", "Цена от 1 850 ₽ за урок."),
    ("Можно ли учиться на планшете для продолжающих?", "Да, планшет подходит."),
    ("Какие темы в модуле стиль для продолжающих?", "Темы: одежда, мода."),
    ("Как проверить прогресс на платформе для продолжающих?", "Через личный кабинет."),
    ("Сколько длится пакет 128 уроков для продолжающих?", "Около 6 месяцев."),
    ("Какая цена пакета 64 урока для продолжающих?", "Цена от 1 090 ₽ за урок."),
    ("Какие темы в модуле здоровье для продолжающих?", "Темы: врачи, симптомы."),
    ("Можно ли заниматься самостоятельно для продолжающих?", "Да, самостоятельные задания доступны."),
    ("Какие темы в модуле семья для продолжающих?", "Темы: привычки, отношения."),
    ("Какая стоимость пакета 16 уроков для продолжающих?", "Цена от 1 490 ₽ за урок."),
    ("Какие темы в модуле отдых для продолжающих?", "Темы: хобби, отпуск."),
    ("Как начать занятия для продолжающих?", "Оставьте заявку на сайте."),
    ("Сколько стоит 32 урока для продолжающих?", "Цена от 1 240 ₽ за урок."),
    ("Какие темы обсуждают в клубе для продолжающих?", "Темы: работа, культура."),
    ("Можно ли отменить урок для продолжающих?", "Да, за 8 часов до начала."),
    ("Какие цели курса Pre-Intermediate для продолжающих?", "Навыки общения и письма."),
    ("Какие темы в модуле погода для продолжающих?", "Темы: климат, прогноз."),
    ("Какие бонусы при оплате пакета для продолжающих?", "Бесплатные уроки и клуб."),
    ("Можно ли учиться за границей для продолжающих?", "Да, обучение онлайн."),
    ("Какая стоимость премиум-урока для продолжающих?", "Цена от 2 350 ₽ за урок."),
    ("Какие темы в модуле искусство для продолжающих?", "Темы: музеи, творчество."),
    ("Какие темы в модуле покупки для продолжающих?", "Темы: магазины, скидки."),
    ("Как получить скидку для продолжающих?", "Смотрите акции на сайте."),
    ("Какие темы в модуле путешествия для продолжающих?", "Темы: транспорт, отели."),
    ("Какие темы в модуле друзья для продолжающих?", "Темы: общение, хобби."),
    ("Какая продолжительность курса для продолжающих?", "Около 5 месяцев."),
    ("Какие темы изучают для продолжающих?", "Темы: экология, отдых."),
    ("Сколько стоит пакет 32 уроков для продолжающих?", "Цена от 1 240 ₽ за урок."),
    ("Какие дополнительные функции доступны для продолжающих?", "Задания и тренажёры."),
    ("Можно ли обучаться ночью для продолжающих?", "Да, уроки круглосуточно."),
    ("Какая стоимость пакета 48 уроков для продолжающих?", "Цена уточняется на сайте."),
    ("Какие модули в курсе для продолжающих?", "Модули: здоровье, стиль."),
    ("Сколько стоит премиум-курс для продолжающих?", "Цена от 1 990 ₽ за урок."),
    ("Какие темы в модуле семьи для продолжающих?", "Темы: отношения, привычки."),
    ("Какая стоимость премиум-урока для продолжающих?", "Цена от 2 350 ₽ за урок."),
    ("Какая цена курса Intermediate?", "Цена от 950 ₽ за урок."),
    ("Сколько длится курс Intermediate?", "Курс включает 60 уроков."),
    ("Как записаться на курс Intermediate?", "Оставьте заявку на сайте."),
    ("Можно ли перенести урок Intermediate?", "Да, уроки можно переносить."),
    ("Какие темы изучаются на Intermediate?", "Темы: семья, работа, отдых."),
    ("Какая цена пакета 16 уроков Intermediate?", "Цена от 1 490 ₽ за урок."),
    ("Какая методика курса Intermediate?", "Методика: разговорная практика."),
    ("Можно ли учиться онлайн на Intermediate?", "Да, обучение полностью онлайн."),
    ("Какие бонусы для курса Intermediate?", "Дополнительные уроки и клуб."),
    ("Сколько стоит пакет 4 урока Intermediate?", "Цена от 1 890 ₽ за урок."),
    ("Какой уровень после курса Intermediate?", "Уровень Intermediate."),
    ("Сколько стоит 64 урока Intermediate?", "Цена от 1 090 ₽ за урок."),
    ("Какие модули в курсе Intermediate?", "Модули: здоровье, работа, отдых."),
    ("Сколько длится один урок Intermediate?", "Урок длится 50 минут."),
    ("Какая стоимость 96 уроков Intermediate?", "Цена от 990 ₽ за урок."),
    ("Можно ли учиться вечером на Intermediate?", "Да, уроки доступны вечером."),
    ("Какие темы в модуле семья Intermediate?", "Темы: отношения, привычки."),
    ("Как оплатить курс Intermediate?", "Оплата доступна онлайн."),
    ("Какие цели достигаются на Intermediate?", "Навыки общения и письма."),
    ("Можно ли выбрать преподавателя Intermediate?", "Да, преподавателя выбираете вы."),
    ("Сколько стоит пакет 128 уроков Intermediate?", "Цена от 950 ₽ за урок."),
    ("Какая продолжительность курса Intermediate?", "Примерно 5 месяцев."),
    ("Какие темы обсуждаются на Intermediate?", "Темы: экология, отдых."),
    ("Можно ли заниматься ночью на Intermediate?", "Да, занятия круглосуточно."),
    ("Какие темы в модуле здоровье Intermediate?", "Темы: врачи, симптомы."),
    ("Какая цена пакета 32 уроков Intermediate?", "Цена от 1 240 ₽ за урок."),
    ("Какие бонусы при оплате курса Intermediate?", "Бесплатные уроки и клуб."),
    ("Можно ли учиться вдвоем на Intermediate?", "Да, доступны парные уроки."),
    ("Какие темы в модуле работа Intermediate?", "Темы: карьера, офис."),
    ("Какие акценты у преподавателей Intermediate?", "Преподаватели из разных стран."),
    ("Сколько стоит премиум-курс Intermediate?", "Цена от 1 290 ₽ за урок."),
    ("Как проверить прогресс на Intermediate?", "Через личный кабинет."),
    ("Какая стоимость премиум-урока Intermediate?", "Цена от 2 350 ₽ за урок."),
    ("Какие темы в модуле отдых Intermediate?", "Темы: хобби, отпуск."),
    ("Можно ли изменить расписание на Intermediate?", "Да, график изменяется."),
    ("Как оплатить частями курс Intermediate?", "Оплата частями доступна."),
    ("Какая методика подходит для Intermediate?", "Методика: разговорная практика."),
    ("Какие темы в модуле экология Intermediate?", "Темы: природа, устойчивость."),
    ("Сколько стоит пакет 48 уроков Intermediate?", "Цена уточняется на сайте."),
    ("Какая стоимость пакета 16 уроков Intermediate?", "Цена от 1 490 ₽ за урок."),
    ("Какие цели курса Intermediate?", "Улучшение аудирования и письма."),
    ("Какие темы обсуждают в клубе Intermediate?", "Темы: работа, культура."),
    ("Какие темы в модуле стиль Intermediate?", "Темы: одежда, мода."),
    ("Можно ли отменить урок Intermediate?", "Да, за 8 часов до начала."),
    ("Какие цели достигаются на Intermediate?", "Свободное общение и чтение."),
    ("Какие темы в модуле семья Intermediate?", "Темы: отношения, традиции."),
    ("Какая цена пакета 64 уроков Intermediate?", "Цена от 1 090 ₽ за урок."),
    ("Какие темы в модуле покупки Intermediate?", "Темы: магазины, скидки."),
    ("Сколько длится пакет 128 уроков Intermediate?", "Около 6 месяцев."),
    ("Какая стоимость пакета 96 уроков Intermediate?", "Цена от 990 ₽ за урок."),
    ("Какие темы в модуле город Intermediate?", "Темы: транспорт, ориентирование."),
    ("Какие темы изучают на Intermediate?", "Темы: экология, отдых."),
    ("Сколько стоит 32 урока Intermediate?", "Цена от 1 240 ₽ за урок."),
    ("Какой формат обучения на Intermediate?", "Индивидуальные уроки и клуб."),
    ("Какие темы в модуле здоровье Intermediate?", "Темы: врачи, здоровье."),
    ("Какие модули в курсе Intermediate?", "Модули: семья, стиль."),
    ("Сколько стоит пакет 8 уроков Intermediate?", "Цена от 1 590 ₽ за урок."),
    ("Какие темы обсуждаются в модуле семья Intermediate?", "Темы: отношения, привычки."),
    ("Какие темы в модуле экология Intermediate?", "Темы: природа, климат."),
    ("Сколько стоит премиум-пакет Intermediate?", "Цена от 2 690 ₽ за урок."),
    ("Какие темы изучают в модуле работа Intermediate?", "Темы: карьера, офис."),
    ("Какая цена пакета 48 уроков Intermediate?", "Цена уточняется на сайте."),
    ("Какие темы в модуле отдых Intermediate?", "Темы: хобби, отпуск."),
    ("Как записаться на курс Intermediate?", "Оставьте заявку на сайте."),
    ("Сколько стоит премиум-курс Intermediate?", "Цена от 1 850 ₽ за урок."),
    ("Какая продолжительность курса Intermediate?", "Примерно 5 месяцев."),
    ("Какие темы обсуждаются в клубе Intermediate?", "Темы: работа, экология."),
    ("Какая цена пакета 96 уроков Intermediate?", "Цена от 990 ₽ за урок."),
    ("Какие цели курса Intermediate?", "Навыки общения и письма."),
    ("Какие темы в модуле здоровье Intermediate?", "Темы: врачи, симптомы."),
    ("Какая стоимость 16 уроков Intermediate?", "Цена от 1 490 ₽ за урок."),
    ("Какие модули в курсе Intermediate?", "Модули: стиль, семья."),
    ("Сколько стоит премиум-урок Intermediate?", "Цена от 2 350 ₽ за урок."),
    ("Какие темы обсуждают в модуле отдых Intermediate?", "Темы: хобби, отпуск."),
    ("Сколько длится пакет 64 уроков Intermediate?", "Примерно 4 месяца."),
    ("Какие темы обсуждают на Intermediate?", "Темы: культура, работа."),
    ("Как оплатить частями курс Intermediate?", "Оплата частями доступна."),
    ("Какие темы обсуждают в модуле семья Intermediate?", "Темы: отношения, привычки."),
    ("Какие темы в модуле стиль Intermediate?", "Темы: одежда, мода."),
    ("Какие темы в модуле покупки Intermediate?", "Темы: магазины, цены."),
    ("Какой результат курса Intermediate?", "Уровень Intermediate."),
    ("Какие темы в модуле работа Intermediate?", "Темы: карьера, офис."),
    ("Какая стоимость 128 уроков Intermediate?", "Цена от 950 ₽ за урок."),
    ("Какие темы в модуле экология Intermediate?", "Темы: природа, устойчивость."),
    ("Какие темы обсуждаются в клубе Intermediate?", "Темы: экология, отдых."),
    ("Сколько стоит пакет 8 уроков Intermediate?", "Цена от 1 590 ₽ за урок."),
    ("Какие темы изучают в модуле отдых Intermediate?", "Темы: хобби, отпуск."),
    ("Какая цена курса продвинутый уровень?", "Цена от 950 ₽ за урок."),
    ("Сколько длится курс продвинутый уровень?", "Курс включает 52 урока."),
    ("Как записаться на курс продвинутый уровень?", "Оставьте заявку на сайте."),
    ("Можно ли перенести урок продвинутый уровень?", "Да, уроки можно переносить."),
    ("Какие темы изучаются на продвинутый уровень?", "Темы: коммуникация, еда, медицина."),
    ("Какая цена пакета 16 уроков продвинутый?", "Цена от 1 490 ₽ за урок."),
    ("Какая методика курса продвинутый уровень?", "Методика: разговорная практика."),
    ("Можно ли учиться онлайн на продвинутый уровень?", "Да, обучение полностью онлайн."),
    ("Какие бонусы для курса продвинутый уровень?", "Дополнительные уроки и клуб."),
    ("Сколько стоит пакет 4 урока продвинутый?", "Цена от 1 890 ₽ за урок."),
    ("Какой уровень после курса продвинутый?", "Уровень Upper-Intermediate."),
    ("Сколько стоит 64 урока продвинутый уровень?", "Цена от 1 090 ₽ за урок."),
    ("Какие модули в курсе продвинутый уровень?", "Модули: стиль, рассказы, еда."),
    ("Сколько длится один урок продвинутый уровень?", "Урок длится 50 минут."),
    ("Какая стоимость 96 уроков продвинутый уровень?", "Цена от 990 ₽ за урок."),
    ("Можно ли учиться вечером на продвинутый уровень?", "Да, уроки доступны вечером."),
    ("Какие темы в модуле еда продвинутый уровень?", "Темы: культура еды."),
    ("Как оплатить курс продвинутый уровень?", "Оплата доступна онлайн."),
    ("Какие цели достигаются на продвинутый уровень?", "Навыки общения и письма."),
    ("Можно ли выбрать преподавателя продвинутый?", "Да, преподавателя выбираете вы."),
    ("Сколько стоит пакет 128 уроков продвинутый?", "Цена от 950 ₽ за урок."),
    ("Какая продолжительность курса продвинутый уровень?", "Примерно 6 месяцев."),
    ("Какие темы обсуждаются на продвинутый уровень?", "Темы: путешествия, технологии."),
    ("Можно ли заниматься ночью на продвинутый уровень?", "Да, занятия круглосуточно."),
    ("Какие темы в модуле культура продвинутый уровень?", "Темы: традиции, привычки."),
    ("Какая цена пакета 32 уроков продвинутый?", "Цена от 1 240 ₽ за урок."),
    ("Какие бонусы при оплате курса продвинутый?", "Бесплатные уроки и клуб."),
    ("Можно ли учиться вдвоем на продвинутый уровень?", "Да, доступны парные уроки."),
    ("Какие темы в модуле стиль продвинутый?", "Темы: типы личности."),
    ("Какие акценты у преподавателей продвинутый уровень?", "Преподаватели из разных стран."),
    ("Сколько стоит премиум-курс продвинутый уровень?", "Цена от 1 290 ₽ за урок."),
    ("Как проверить прогресс на продвинутый уровень?", "Через личный кабинет."),
    ("Какая стоимость премиум-урока продвинутый?", "Цена от 2 350 ₽ за урок."),
    ("Какие темы в модуле отдых продвинутый уровень?", "Темы: хобби, отпуск."),
    ("Можно ли изменить расписание на продвинутый уровень?", "Да, график изменяется."),
    ("Как оплатить частями курс продвинутый уровень?", "Оплата частями доступна."),
    ("Какая методика подходит для продвинутый уровень?", "Методика: разговорная практика."),
    ("Какие темы в модуле рассказы продвинутый?", "Темы: рассказы, истории."),
    ("Сколько стоит пакет 48 уроков продвинутый уровень?", "Цена уточняется на сайте."),
    ("Какая стоимость пакета 16 уроков продвинутый?", "Цена от 1 490 ₽ за урок."),
    ("Какие цели курса продвинутый уровень?", "Улучшение аудирования и письма."),
    ("Какие темы обсуждаются в клубе продвинутый?", "Темы: медицина, экология."),
    ("Какие темы в модуле стиль продвинутый уровень?", "Темы: типы личности."),
    ("Можно ли отменить урок продвинутый уровень?", "Да, за 8 часов до начала."),
    ("Какие цели достигаются на продвинутый уровень?", "Свободное общение и чтение."),
    ("Какие темы в модуле рассказы продвинутый?", "Темы: истории, рассказы."),
    ("Какая цена пакета 64 уроков продвинутый?", "Цена от 1 090 ₽ за урок."),
    ("Какие темы в модуле еда продвинутый?", "Темы: культура питания."),
    ("Сколько длится пакет 128 уроков продвинутый?", "Около 6 месяцев."),
    ("Какая стоимость пакета 96 уроков продвинутый?", "Цена от 990 ₽ за урок."),
    ("Какие темы в модуле город продвинутый уровень?", "Темы: транспорт, ориентирование."),
    ("Какие темы изучают на продвинутый уровень?", "Темы: путешествия, медицина."),
    ("Сколько стоит 32 урока продвинутый уровень?", "Цена от 1 240 ₽ за урок."),
    ("Какой формат обучения на продвинутый уровень?", "Индивидуальные уроки и клуб."),
    ("Какие темы в модуле здоровье продвинутый?", "Темы: врачи, здоровье."),
    ("Какие модули в курсе продвинутый уровень?", "Модули: рассказы, стиль."),
    ("Сколько стоит пакет 8 уроков продвинутый уровень?", "Цена от 1 590 ₽ за урок."),
    ("Какие темы обсуждаются в модуле рассказы продвинутый?", "Темы: истории, диалоги."),
    ("Какие темы в модуле отдых продвинутый уровень?", "Темы: хобби, отпуск."),
    ("Как записаться на курс продвинутый уровень?", "Оставьте заявку на сайте."),
    ("Сколько стоит премиум-курс продвинутый уровень?", "Цена от 1 850 ₽ за урок."),
    ("Какая продолжительность курса продвинутый уровень?", "Примерно 6 месяцев."),
    ("Какие темы обсуждаются в клубе продвинутый уровень?", "Темы: работа, экология."),
    ("Какая цена пакета 96 уроков продвинутый уровень?", "Цена от 990 ₽ за урок."),
    ("Какие цели курса продвинутый уровень?", "Навыки общения и письма."),
    ("Какие темы в модуле медицина продвинутый уровень?", "Темы: врачи, болезни."),
    ("Какая стоимость 16 уроков продвинутый уровень?", "Цена от 1 490 ₽ за урок."),
    ("Какие модули в курсе продвинутый уровень?", "Модули: стиль, рассказы."),
    ("Сколько стоит премиум-урок продвинутый уровень?", "Цена от 2 350 ₽ за урок."),
    ("Какие темы обсуждают в модуле отдых продвинутый уровень?", "Темы: отпуск, хобби."),
    ("Сколько длится пакет 64 уроков продвинутый уровень?", "Примерно 4 месяца."),
    ("Какие темы обсуждают на продвинутый уровень?", "Темы: культура, технологии."),
    ("Как оплатить частями курс продвинутый уровень?", "Оплата частями доступна."),
    ("Какие темы обсуждают в модуле медицина продвинутый уровень?", "Темы: болезни, здоровье."),
    ("Какие темы в модуле культура продвинутый уровень?", "Темы: традиции, привычки."),
    ("Какие темы в модуле рассказы продвинутый?", "Темы: диалоги, сюжеты."),
    ("Какие темы в модуле покупки продвинутый уровень?", "Темы: магазины, цены."),
    ("Какой результат курса продвинутый уровень?", "Уровень Upper-Intermediate."),
    ("Какие темы в модуле работа продвинутый уровень?", "Темы: карьера, офис."),
    ("Какая стоимость 128 уроков продвинутый уровень?", "Цена от 950 ₽ за урок."),
    ("Какие темы в модуле экология продвинутый уровень?", "Темы: природа, климат."),
    ("Какие темы обсуждаются в клубе продвинутый уровень?", "Темы: экология, отдых."),
    ("Сколько стоит пакет 8 уроков продвинутый уровень?", "Цена от 1 590 ₽ за урок."),
    ("Какие темы изучают в модуле отдых продвинутый уровень?", "Темы: отпуск, досуг."),
    ("Какие курсы бесплатные?", "Марафоны и уроки доступны бесплатно."),
    ("Как записаться на бесплатные уроки?", "Оставьте заявку на сайте."),
    ("Сколько длится бесплатный марафон?", "Марафон длится 15 дней."),
    ("Можно ли учиться бесплатно с нуля?", "Да, обучение доступно бесплатно."),
    ("Как получить бесплатный план обучения?", "Пройдите тест и получите план."),
    ("Какие навыки развивают на бесплатных курсах?", "Чтение, письмо, говорение, аудирование."),
    ("Сколько стоит тест на уровень бесплатно?", "Тест совершенно бесплатный."),
    ("Какие задания есть в бесплатных курсах?", "Видеопрактика и тренировки слов."),
    ("Как долго учат грамматику бесплатно?", "10 дней бесплатных занятий."),
    ("Можно ли получить бесплатные подарки?", "Да, участвуйте в тестах и марафонах."),
    ("Как записаться на бесплатный марафон?", "Просто оставьте заявку онлайн."),
    ("Какие темы изучают бесплатно?", "Темы: общение, хобби, грамматика."),
    ("Сколько минут длится бесплатный урок?", "Уроки длятся около 15 минут."),
    ("Можно ли учить детей бесплатно?", "Да, бесплатные курсы доступны детям."),
    ("Как найти материалы для бесплатного обучения?", "Загрузите PDF или используйте тренажёр."),
    ("Можно ли отменить бесплатный урок?", "Нет, уроки фиксированы."),
    ("Как начать бесплатный курс?", "Пройдите тест и начните обучение."),
    ("Какие бонусы в бесплатных курсах?", "Бесплатные материалы и тренировки."),
    ("Можно ли заниматься ночью бесплатно?", "Да, занятия доступны круглосуточно."),
    ("Какие тесты бесплатные?", "Тесты на уровень и словарный запас."),
    ("Какой уровень можно достичь бесплатно?", "Уровень зависит от ваших усилий."),
    ("Какие видео доступны бесплатно?", "Видео разных жанров с заданиями."),
    ("Сколько стоит PDF-план бесплатно?", "План доступен бесплатно."),
    ("Можно ли учить произношение бесплатно?", "Да, тренировки произношения включены."),
    ("Какие темы в бесплатных видео?", "Темы: кино, культура, путешествия."),
    ("Можно ли учиться без преподавателя бесплатно?", "Да, материалы подходят для самостоятельного обучения."),
    ("Как участвовать в бесплатных вебинарах?", "Зарегистрируйтесь на сайте."),
    ("Сколько времени занимает тест бесплатно?", "Тест занимает около 8 минут."),
    ("Какие цели достигаются бесплатно?", "Улучшение навыков общения."),
    ("Можно ли получить подарки бесплатно?", "Да, участвуйте в опросах."),
    ("Как выбрать бесплатный курс?", "Изучите доступные материалы на сайте."),
    ("Какие тренажёры доступны бесплатно?", "Тренажёры слов и ситуации."),
    ("Можно ли учиться на планшете бесплатно?", "Да, обучение доступно на планшете."),
    ("Сколько длится марафон грамматики бесплатно?", "10 дней занятий."),
    ("Какие тесты для детей бесплатные?", "Тесты на уровень английского."),
    ("Как получить гайд бесплатно?", "Скачайте на сайте Skyeng."),
    ("Какие аудиокниги доступны бесплатно?", "Книги на языке оригинала."),
    ("Можно ли заниматься утром бесплатно?", "Да, занятия доступны утром."),
    ("Какие марафоны бесплатные?", "Марафон леньтенсива и грамматики."),
    ("Сколько стоит участие в марафоне бесплатно?", "Марафон совершенно бесплатный."),
    ("Можно ли смотреть сериалы бесплатно?", "Да, с PDF-планом."),
    ("Какие занятия подходят бесплатно для начинающих?", "Марафон и Easy English."),
    ("Можно ли учиться на телефоне бесплатно?", "Да, обучение доступно на телефоне."),
    ("Какие темы в бесплатных уроках?", "Темы: путешествия, работа."),
    ("Сколько раз можно пройти тест бесплатно?", "Без ограничений."),
    ("Какие задания в бесплатных курсах?", "Упражнения для всех навыков."),
    ("Можно ли смотреть видео ночью бесплатно?", "Да, занятия доступны круглосуточно."),
    ("Какие PDF-документы бесплатные?", "Планы по фильмам и сериалам."),
    ("Как участвовать в марафоне бесплатно?", "Оставьте заявку на сайте."),
    ("Какие тренировки включены бесплатно?", "Тренировки слов и грамматики."),
    ("Как скачать бесплатные материалы?", "Найдите их в личном кабинете."),
    ("Какие вебинары бесплатные?", "Подготовка к собеседованию."),
    ("Сколько длится бесплатный марафон для детей?", "15 дней занятий."),
    ("Какие упражнения для самостоятельных занятий бесплатно?", "Чтение, письмо, аудирование."),
    ("Можно ли учиться бесплатно взрослым?", "Да, курсы доступны для взрослых."),
    ("Какие курсы подходят бесплатно для детей?", "Тесты и марафоны."),
    ("Как получить тест на словарный запас бесплатно?", "Пройдите тест на сайте."),
    ("Можно ли изучать грамматику бесплатно?", "Да, занятия включают грамматику."),
    ("Какие темы в бесплатных PDF?", "Темы: фильмы, книги, сериалы."),
    ("Как проверить свой уровень бесплатно?", "Пройдите тест на сайте."),
    ("Какие бонусы в бесплатных материалах?", "Полезные гайды и тренировки."),
    ("Можно ли учить лексику бесплатно?", "Да, тренажёр слов включён."),
    ("Как начать леньтенсив бесплатно?", "Пройдите регистрацию."),
    ("Сколько стоит обучение самостоятельно бесплатно?", "Обучение совершенно бесплатное."),
    ("Какие задания для аудирования доступны бесплатно?", "Слушайте книги и видео."),
    ("Можно ли пройти курс Easy English бесплатно?", "Да, курс бесплатный."),
    ("Какой уровень достигается на марафоне бесплатно?", "Начальный или средний."),
    ("Какие упражнения для говорения бесплатно?", "Диалоги и голосовые тренировки."),
    ("Можно ли изучать культуру бесплатно?", "Да, уроки включают культуру."),
    ("Какие навыки развиваются на курсах бесплатно?", "Чтение, говорение, письмо."),
    ("Как скачать гайд бесплатно?", "Загрузите PDF на сайте."),
    ("Какие тесты для взрослых бесплатные?", "Тесты на уровень и словарный запас."),
    ("Можно ли смотреть видео с заданиями бесплатно?", "Да, уроки включают видео."),
    ("Какие задания для детей доступны бесплатно?", "Упражнения на уровень английского."),
    ("Как записаться на Easy English бесплатно?", "Просто пройдите регистрацию."),
    ("Какие темы изучают на бесплатных курсах?", "Темы: кино, путешествия."),
    ("Какой формат обучения бесплатно?", "Самостоятельные занятия."),
    ("Какие материалы для обучения доступны бесплатно?", "PDF-планы и видео."),
    ("Можно ли учиться вечером бесплатно?", "Да, обучение доступно вечером."),
    ("Какие подарки доступны бесплатно?", "Подарки за тесты и опросы."),
    ("Как выбрать курс бесплатно?", "Смотрите раздел бесплатных материалов."),
    ("Какие темы для детей в бесплатных курсах?", "Темы: профессии, игры."),
    ("Как улучшить навыки письма бесплатно?", "Практикуйтесь с заданиями."),
    ("Какие навыки тренируют на марафоне бесплатно?", "Навыки общения и грамматики."),
    ("Можно ли пройти курсы для взрослых бесплатно?", "Да, доступно обучение."),
    ("Какие задания для чтения доступны бесплатно?", "Статьи и книги."),
    ("Какой результат дают бесплатные уроки?", "Улучшение уровня языка."),
    ("Можно ли учить произношение бесплатно?", "Да, с голосовыми заданиями."),
    ("Какие уроки доступны для глухих?", "Уроки с жестовым переводом."),
    ("Как записаться на курс для глухих?", "Оставьте заявку на сайте."),
    ("Сколько уроков для глухих в курсе?", "Курс включает 20 уроков."),
    ("Можно ли учиться для глухих самостоятельно?", "Да, обучение полностью самостоятельно."),
    ("Какие навыки развиваются для глухих?", "Чтение, письмо, базовая лексика."),
    ("Как узнать расписание уроков для глухих?", "Уроки открываются каждые 2,5 недели."),
    ("Какой уровень достигается для глухих?", "Достигается уровень Low Beginner."),
    ("Можно ли учить английский для глухих онлайн?", "Да, уроки доступны онлайн."),
    ("Какие тесты доступны для глухих?", "Тесты для закрепления материала."),
    ("Как проходят уроки для глухих?", "С жестовым переводом и адаптацией."),
    ("Можно ли изучать грамматику для глухих?", "Да, курс включает грамматику."),
    ("Сколько времени занимает курс для глухих?", "Курс проходит до конца лета."),
    ("Как получить материалы для глухих?", "Материалы отправляются по имейлу."),
    ("Какие темы изучаются для глухих?", "Темы: повседневная жизнь, основы."),
    ("Можно ли учить лексику для глухих?", "Да, лексика включена."),
    ("Как проходят тесты для глухих?", "Всё доступно онлайн."),
    ("Какие упражнения для глухих в курсе?", "Адаптированные задания."),
    ("Можно ли заниматься для глухих вечером?", "Да, время занятий выбираете сами."),
    ("Какие навыки тренируются для глухих?", "Базовые навыки английского."),
    ("Какой формат уроков для глухих?", "Видеоуроки с жестовым переводом."),
    ("Какие бонусы для глухих доступны?", "Постепенное открытие уроков."),
    ("Можно ли пройти курс для глухих бесплатно?", "Да, курс полностью бесплатный."),
    ("Какие темы включены для глухих?", "Темы: основы языка, общение."),
    ("Как участвовать в тестах для глухих?", "Тесты доступны после уроков."),
    ("Можно ли учить произношение для глухих?", "Да, упражнения включены."),
    ("Какой результат после курса для глухих?", "Уровень Low Beginner."),
    ("Какие материалы для глухих отправляются?", "Напоминания и уроки."),
    ("Как развить навыки для глухих?", "Учитесь с видеозаданиями."),
    ("Какие упражнения для глухих доступны?", "Практика чтения и письма."),
    ("Как поддерживать прогресс для глухих?", "Проходите тесты и задания."),
    ("Какие курсы подходят для детей?", "Курсы от 4 лет и старше."),
    ("Сколько стоят уроки для детей?", "Цены от 950 ₽ за урок."),
    ("Как записаться на курс для детей?", "Оставьте заявку на сайте."),
    ("Какие форматы обучения для детей?", "Стандарт, премиум и с носителем."),
    ("Можно ли учить английский детям онлайн?", "Да, обучение доступно онлайн."),
    ("Сколько длится урок для детей?", "Урок длится 50 минут."),
    ("Как проверить успехи ребенка на курсах?", "Используйте личный кабинет."),
    ("Какие уровни доступны для детей?", "Starter, Beginner, Elementary."),
    ("Как проходят занятия для детей?", "Занятия индивидуальные с преподавателем."),
    ("Какие темы изучают дети на курсах?", "Темы: дом, каникулы, животные."),
    ("Можно ли учиться детям с носителем?", "Да, занятия с носителем доступны."),
    ("Какие программы для дошкольников детей?", "Игры, песни, сюжетные уроки."),
    ("Можно ли отменить урок для детей?", "Да, отмена за 4 часа до начала."),
    ("Какой минимальный возраст для курсов детей?", "Курсы доступны с 4 лет."),
    ("Какие навыки развиваются у детей на курсах?", "Чтение, письмо, говорение."),
    ("Как готовят детей к экзаменам?", "Следуют рекомендациям ФИПИ."),
    ("Какие бонусы для детей на курсах?", "Игровые домашки и кружки."),
    ("Можно ли детям учиться на планшете?", "Нет, нужен компьютер."),
    ("Какая цена урока для детей с носителем?", "Цена от 3 247 ₽ за урок."),
    ("Сколько стоят премиум-курсы для детей?", "Цены от 1 290 ₽ за урок."),
    ("Как проходит подготовка детей к ЕГЭ?", "С персональной стратегией."),
    ("Какие темы изучают дети младших классов?", "Темы: креативность, эмоции, разговорная речь."),
    ("Можно ли ребенку учиться на даче?", "Да, с компьютером и интернетом."),
    ("Какие материалы входят в курсы для детей?", "Все учебные материалы включены."),
    ("Как проходят уроки с носителем для детей?", "60% времени говорит ребенок."),
    ("Какие цели у курсов для детей?", "Улучшение оценок и сдача экзаменов."),
    ("Как развить английский ребенку в 1 классе?", "Играми и упражнениями."),
    ("Какие программы есть для детей подростков?", "Квесты и интерактивные задания."),
    ("Можно ли ребенку учить лексику онлайн?", "Да, лексика включена."),
    ("Какие форматы занятий подходят для детей?", "Стандарт, премиум и нейтив."),
    ("Сколько стоят курсы английского для детей?", "От 950 ₽ за урок."),
    ("Какие уровни доступны для ребенка?", "От Starter до Intermediate."),
    ("Как проходит обучение детей за границей?", "Онлайн, нужен только интернет."),
    ("Какие квесты доступны для подростков детей?", "Квесты на школьные темы."),
    ("Можно ли ребенку заниматься с инопланетянином Эл?", "Да, это герой курса."),
    ("Какие кружки доступны детям на курсах?", "Кружки по предметам."),
    ("Какой результат дают курсы английского детям?", "Свободная речь и хорошие оценки."),
    ("Какие перерывы делают дети на занятиях?", "Разминки для отдыха."),
    ("Какую подготовку проходят дети к ОГЭ?", "Освежают знания без стресса."),
    ("Можно ли ребенку учиться вечером онлайн?", "Да, уроки доступны вечером."),
    ("Как ребенку подготовиться к экзаменам?", "С преподавателем по индивидуальной программе."),
    ("Какие уровни изучают дети дошкольного возраста?", "Только разговорная речь."),
    ("Какие материалы используют дети на уроках?", "Игры, песни, видео."),
    ("Можно ли ребенку заниматься на отдыхе?", "Да, нужен интернет и компьютер."),
    ("Сколько стоит курс для подростков детей?", "От 950 ₽ за урок."),
    ("Какой формат занятий подходит для детей?", "Индивидуальные уроки."),
    ("Какие темы обсуждают дети старших классов?", "Экзамены, вуз, карьера."),
    ("Какой минимальный возраст у детей для курсов?", "Курсы доступны с 4 лет."),
    ("Какие упражнения выполняют дети на курсах?", "Игровые домашки и интерактив."),
    ("Какие преимущества у курсов для детей?", "Индивидуальная программа."),
    ("Можно ли отменить урок для ребенка?", "Да, за 4 часа до начала."),
    ("Какие домашки ждут детей на курсах?", "Игровые и креативные."),
    ("Как ребенку освоить разговорный английский?", "Через песни, игры и видео."),
    ("Сколько стоят занятия для ребенка с носителем?", "Цены от 3 247 ₽ за урок."),
    ("Какие уровни изучают дети подростки?", "От Beginner до Intermediate."),
    ("Как проходит изучение грамматики детьми?", "Через упражнения и интерактив."),
    ("Какие темы подходят детям для изучения?", "Поп-культура, игры, каникулы."),
    ("Можно ли ребенку заниматься с нейтив-преподавателем?", "Да, уроки доступны."),
    ("Какая стоимость уроков для детей?", "От 950 ₽ за урок."),
    ("Какие навыки развивают дети на курсах?", "Чтение, письмо, говорение."),
    ("Сколько стоит премиум-курс для ребенка?", "От 1 290 ₽ за урок."),
    ("Какие программы есть для детей?", "Starter, Elementary, Pre-Intermediate."),
    ("Как проходят уроки английского детям?", "С преподавателем индивидуально."),
    ("Какие темы обсуждают дети младших классов?", "Разговорная речь, эмоции."),
    ("Как ребенку заниматься английским на даче?", "Нужен компьютер и интернет."),
    ("Какие задания выполняют дети на курсе?", "Игровые квесты и домашки."),
    ("Какие темы изучают дети 5–8 классов?", "Тренды, мечты, поп-культура."),
    ("Как помогает курс детям готовиться к ЕГЭ?", "Индивидуальный план и опытные учителя."),
    ("Какие перерывы делают дети на занятиях?", "Перерывы на разминку."),
    ("Как ребенку подготовиться к ОГЭ без стресса?", "С преподавателем и рекомендациями."),
    ("Какие уроки доступны для дошкольников детей?", "Игры, видео, песни."),
    ("Сколько стоят занятия для детей 10–11 классов?", "Цены от 1 290 ₽ за урок."),
    ("Как выбрать курс английского для ребенка?", "Оставьте заявку на сайте."),
    ("Какие материалы получают дети на курсах?", "Все материалы включены."),
    ("Как проходит подготовка детей к экзаменам?", "С учителями с опытом подготовки."),
    ("Какие темы изучают дети на курсах?", "Дом, каникулы, животные."),
    ("Можно ли учить английский ребенку онлайн?", "Да, занятия доступны онлайн."),
    ("Какие кружки доступны детям на курсах?", "Кружки по интересам."),
    ("Какие уровни доступны детям дошкольникам?", "Уровень Starter."),
    ("Как проходят уроки детям старших классов?", "С преподавателем индивидуально."),
    ("Сколько стоят курсы английского детям?", "Цены от 950 ₽ за урок."),
    ("Какие темы изучают дети подростки?", "Поп-культура, тренды, мечты."),
    ("Как подготовить ребенка к экзаменам?", "С индивидуальной программой."),
    ("Какие уроки подходят для детей подростков?", "Квесты и интерактив."),
    ("Как ребенок осваивает грамматику на курсах?", "Через упражнения и задания."),
    ("Какие уровни английского для детей доступны?", "От Starter до Intermediate."),
    ("Какая цена подготовки к ЕГЭ?", "Цены от 1 090 ₽ за урок."),
    ("Сколько стоит подготовка к ЕГЭ из 32 уроков?", "Цена от 1 490 ₽ за урок."),
    ("Как записаться на подготовку к ЕГЭ?", "Оставьте заявку на сайте."),
    ("Сколько уроков в подготовке к ЕГЭ?", "Курс включает 72 урока."),
    ("Какая продолжительность урока по подготовке к ЕГЭ?", "Урок длится 100 минут."),
    ("Какие навыки развиваются на подготовке к ЕГЭ?", "Аудирование, чтение, письмо, говорение."),
    ("Можно ли пройти первый урок подготовки к ЕГЭ бесплатно?", "Да, пробный урок бесплатный."),
    ("Как готовят к экзамену на подготовке к ЕГЭ?", "Упражнения и задания на платформе."),
    ("Какие темы изучают на подготовке к ЕГЭ?", "Темы: семья, друзья, покупки."),
    ("Можно ли готовиться к ЕГЭ онлайн?", "Да, занятия полностью онлайн."),
    ("Какие тесты включены в подготовку к ЕГЭ?", "12 проверочных тестов."),
    ("Как снять стресс на подготовке к ЕГЭ?", "С преподавателем и тестами."),
    ("Какая стоимость подготовки к ЕГЭ из 16 уроков?", "Цена от 1 890 ₽ за урок."),
    ("Как разбирают сложные темы на подготовке к ЕГЭ?", "На примерах и упражнениях."),
    ("Можно ли заниматься ночью на подготовке к ЕГЭ?", "Да, занятия доступны круглосуточно."),
    ("Какие цели у курса подготовки к ЕГЭ?", "Высокие баллы и уверенность."),
    ("Сколько стоит подготовка к ЕГЭ из 64 уроков?", "Цена от 1 390 ₽ за урок."),
    ("Как узнать формат экзамена на подготовке к ЕГЭ?", "На уроках разбирают структуру."),
    ("Какие материалы нужны для подготовки к ЕГЭ?", "Платформа предоставляет все материалы."),
    ("Как проходит тестирование на подготовке к ЕГЭ?", "Через платформу онлайн."),
    ("Какая стоимость подготовки к ЕГЭ из 96 уроков?", "Цена от 1 190 ₽ за урок."),
    ("Можно ли учиться на планшете для подготовки к ЕГЭ?", "Да, планшет подходит."),
    ("Какие задания выполняют на подготовке к ЕГЭ?", "Экзаменационные задания и упражнения."),
    ("Какая цена подготовки к ЕГЭ из 4 уроков?", "Цена от 2 490 ₽ за урок."),
    ("Как выбрать программу подготовки к ЕГЭ?", "Проверьте уровень языка."),
    ("Можно ли готовиться к ЕГЭ на даче?", "Да, нужен только интернет."),
    ("Какие модули в подготовке к ЕГЭ?", "12 тематических модулей."),
    ("Какие упражнения для говорения на подготовке к ЕГЭ?", "Диалоги и интонация."),
    ("Сколько длится подготовка к ЕГЭ?", "От 4 до 128 уроков."),
    ("Какой результат дают уроки подготовки к ЕГЭ?", "Уверенность и высокие баллы."),
    ("Какие темы для чтения на подготовке к ЕГЭ?", "Тексты про семью, школу."),
    ("Можно ли бесплатно попробовать подготовку к ЕГЭ?", "Да, пробный урок бесплатный."),
    ("Какая стоимость подготовки к ЕГЭ из 128 уроков?", "Цена от 1 090 ₽ за урок."),
    ("Какие задания для письма на подготовке к ЕГЭ?", "Эссе и короткие ответы."),
    ("Как проходит разбор ошибок на подготовке к ЕГЭ?", "Преподаватель объясняет и исправляет."),
    ("Какие инструменты используют на подготовке к ЕГЭ?", "Интерактивная платформа и тесты."),
    ("Можно ли заниматься днем на подготовке к ЕГЭ?", "Да, занятия доступны днём."),
    ("Какие бонусы на подготовке к ЕГЭ?", "Дополнительные материалы и тесты."),
    ("Сколько стоит подготовка к ЕГЭ из 8 уроков?", "Цена от 2 190 ₽ за урок."),
    ("Как проходят уроки подготовки к ЕГЭ онлайн?", "Индивидуально с преподавателем."),
    ("Какие темы обсуждают на подготовке к ЕГЭ?", "Темы: покупки, школа, семья."),
    ("Какая методика используется на подготовке к ЕГЭ?", "ФИПИ и интерактив."),
    ("Можно ли готовиться к ЕГЭ с нуля?", "Да, курс адаптируется."),
    ("Как узнать слабые стороны на подготовке к ЕГЭ?", "Проходите тестирование."),
    ("Какая цена подготовки к ЕГЭ из 96 уроков?", "Цена от 1 190 ₽ за урок."),
    ("Какие тесты сдают на подготовке к ЕГЭ?", "Тесты всех разделов."),
    ("Сколько стоит подготовка к ЕГЭ из 64 уроков?", "Цена от 1 390 ₽ за урок."),
    ("Какие темы для аудирования на подготовке к ЕГЭ?", "Разговоры на ежедневные темы."),
    ("Можно ли получить материалы на подготовке к ЕГЭ?", "Да, они включены."),
    ("Какие навыки развиваются на подготовке к ЕГЭ?", "Письмо, говорение, чтение."),
    ("Как снять страх перед экзаменом на ЕГЭ?", "Разбирайте задания с преподавателем."),
    ("Какая цена подготовки к ЕГЭ из 32 уроков?", "Цена от 1 490 ₽ за урок."),
    ("Как проходит разбор ошибок на подготовке к ЕГЭ?", "Индивидуально с преподавателем."),
    ("Можно ли учиться вечером на подготовке к ЕГЭ?", "Да, вечерние уроки доступны."),
    ("Какая цена подготовки к ЕГЭ из 4 уроков?", "Цена от 2 490 ₽ за урок."),
    ("Какие инструменты для подготовки к ЕГЭ?", "Интерактивная платформа и материалы."),
    ("Можно ли начать подготовку к ЕГЭ онлайн?", "Да, занятия полностью онлайн."),
    ("Какие темы для грамматики на подготовке к ЕГЭ?", "Времена и формы глаголов."),
    ("Как проходит диагностика на подготовке к ЕГЭ?", "Проводится тестирование."),
    ("Сколько стоит подготовка к ЕГЭ из 128 уроков?", "Цена от 1 090 ₽ за урок."),
    ("Какая стоимость подготовки к ЕГЭ из 16 уроков?", "Цена от 1 890 ₽ за урок."),
    ("Какие материалы включены на подготовке к ЕГЭ?", "Уроки, тесты, платформы."),
    ("Как настроить программу на подготовке к ЕГЭ?", "Индивидуально с преподавателем."),
    ("Можно ли переносить уроки на подготовке к ЕГЭ?", "Да, за 4 часа до начала."),
    ("Какие задания для чтения на подготовке к ЕГЭ?", "Тексты и вопросы."),
    ("Какие навыки прокачивают на подготовке к ЕГЭ?", "Аудирование и говорение."),
    ("Какие бонусы предлагают на подготовке к ЕГЭ?", "Пробные уроки и тесты."),
    ("Как разбирают ошибки на подготовке к ЕГЭ?", "Преподаватель помогает индивидуально."),
    ("Какая цена подготовки к ЕГЭ из 64 уроков?", "Цена от 1 390 ₽ за урок."),
    ("Можно ли готовиться к ЕГЭ на даче?", "Да, нужен интернет."),
    ("Какие темы для письма на подготовке к ЕГЭ?", "Эссе и ответы."),
    ("Как долго длится подготовка к ЕГЭ?", "От 4 до 128 уроков."),
    ("Какие темы охватывает подготовка к ЕГЭ?", "Все темы экзамена."),
    ("Какие уроки самые важные на подготовке к ЕГЭ?", "Говорение и письмо."),
    ("Какая методика подготовки к ЕГЭ?", "Методики ФИПИ."),
    ("Как проходят тесты на подготовке к ЕГЭ?", "Онлайн через платформу."),
    ("Какие задания дают на подготовке к ЕГЭ?", "Экзаменационные задания."),
    ("Какие навыки проверяют на подготовке к ЕГЭ?", "Чтение, письмо, говорение."),
    ("Какая цена подготовки к ЕГЭ из 8 уроков?", "Цена от 2 190 ₽ за урок."),
    ("Можно ли заниматься утром на подготовке к ЕГЭ?", "Да, утренние уроки доступны."),
    ("Какие темы обсуждают на подготовке к ЕГЭ?", "Темы: семья, школа."),
    ("Какие задания для аудирования на подготовке к ЕГЭ?", "Разговоры и тексты."),
    ("Как записаться на подготовку к ЕГЭ?", "Оставьте заявку на сайте."),
    ("Сколько стоит курс подготовки к ЕГЭ?", "Цены от 1 090 ₽ за урок."),
    ("Какая цена курсов для менеджеров?", "Цена от 950 ₽ за урок."),
    ("Сколько стоит курс для менеджеров из 32 уроков?", "Цена от 1 240 ₽ за урок."),
    ("Как записаться на курс для менеджеров?", "Оставьте заявку на сайте."),
    ("Сколько уроков в курсе для менеджеров?", "Курс включает 20 уроков."),
    ("Какие темы изучают для менеджеров?", "Темы: лидерство, управление, проекты."),
    ("Какая продолжительность урока для менеджеров?", "Урок длится 50 минут."),
    ("Какие навыки развивают на курсе для менеджеров?", "Переписка, презентации, переговоры."),
    ("Можно ли пройти пробный урок для менеджеров?", "Да, пробный урок бесплатный."),
    ("Как проходит обучение для менеджеров?", "Занятия один на один с преподавателем."),
    ("Какие стили лидерства изучают для менеджеров?", "Обсуждают разные подходы."),
    ("Какая стоимость курсов для менеджеров из 16 уроков?", "Цена от 1 490 ₽ за урок."),
    ("Можно ли учиться онлайн для менеджеров?", "Да, занятия полностью онлайн."),
    ("Какие задания выполняют для менеджеров?", "Упражнения по лексике и письму."),
    ("Какие материалы используют на курсе для менеджеров?", "Все материалы входят в стоимость."),
    ("Какие бонусы для курсов для менеджеров?", "Дополнительные уроки и разговорные клубы."),
    ("Как улучшить навыки переписки для менеджеров?", "Через практику на уроках."),
    ("Можно ли перенести урок для менеджеров?", "Да, за 4 часа до начала."),
    ("Какая цена курсов для менеджеров из 64 уроков?", "Цена от 1 550 ₽ за урок."),
    ("Какие темы обсуждают для менеджеров?", "Лидерство, управление, планирование."),
    ("Как подготовиться к презентации для менеджеров?", "Упражнения и практика на платформе."),
    ("Какие проекты обсуждают на курсе для менеджеров?", "Общие и международные проекты."),
    ("Какая стоимость премиум-курса для менеджеров?", "Цена от 1 290 ₽ за урок."),
    ("Как проходит обучение на платформе для менеджеров?", "Интерактивные упражнения и видео."),
    ("Сколько стоят 8 уроков для менеджеров?", "Цена от 1 590 ₽ за урок."),
    ("Какие модули включены в курс для менеджеров?", "Пять тематических модулей."),
    ("Какие качества лидера обсуждают для менеджеров?", "Гибкость, ответственность, креативность."),
    ("Какие уровни английского для менеджеров доступны?", "От среднего до продвинутого."),
    ("Как развить навыки управления для менеджеров?", "Через тематические уроки."),
    ("Какие задания выполняют для переговоров менеджеров?", "Диалоги и обсуждения."),
    ("Как учат менеджеров проводить презентации?", "Через практические задания."),
    ("Какая цена курсов для менеджеров из 96 уроков?", "Цена от 1 350 ₽ за урок."),
    ("Можно ли учиться вечером для менеджеров?", "Да, занятия доступны вечером."),
    ("Какие темы обсуждают на уроках для менеджеров?", "Лидерство, культура, управление."),
    ("Какие инструменты используют для менеджеров?", "Интерактивная платформа и материалы."),
    ("Можно ли работать в группах для менеджеров?", "Нет, занятия индивидуальные."),
    ("Какие проекты планируют для менеджеров?", "Реальные кейсы и задачи."),
    ("Как снимают языковой барьер для менеджеров?", "Через разговорную практику."),
    ("Какая цена курсов для менеджеров из 4 уроков?", "Цена от 2 690 ₽ за урок."),
    ("Какие качества лидера развивают на курсе менеджеров?", "Коммуникабельность, ответственность."),
    ("Как записаться на премиум-курс для менеджеров?", "Оставьте заявку на сайте."),
    ("Какие темы обсуждают в модуле управления для менеджеров?", "Ресурсы, цели, стратегии."),
    ("Можно ли учиться на планшете для менеджеров?", "Да, планшет подходит."),
    ("Какие уроки для HR-менеджеров доступны?", "Темы: лидерство, управление."),
    ("Как проводят тестирование на курсе для менеджеров?", "Через платформу."),
    ("Какие бонусы доступны для менеджеров?", "Дополнительные материалы и клубы."),
    ("Какая цена курсов для менеджеров из 128 уроков?", "Цена от 950 ₽ за урок."),
    ("Какие задания выполняют для менеджеров на уроках?", "Презентации и деловая переписка."),
    ("Как изучают стили управления для менеджеров?", "Через обсуждения и кейсы."),
    ("Какая цена курсов для финансистов?", "Цена от 950 ₽ за урок."),
    ("Сколько стоит курс для финансистов из 32 уроков?", "Цена от 1 240 ₽ за урок."),
    ("Как записаться на курс для финансистов?", "Оставьте заявку на сайте."),
    ("Сколько уроков в курсе для финансистов?", "Курс включает 12 уроков."),
    ("Какие темы изучают для финансистов?", "Темы: карьера, бухгалтерия, аудит."),
    ("Какая продолжительность урока для финансистов?", "Урок длится 50 минут."),
    ("Какие навыки развивают на курсе для финансистов?", "Резюме, собеседования, терминология."),
    ("Можно ли пройти пробный урок для финансистов?", "Да, пробный урок бесплатный."),
    ("Как проходит обучение для финансистов?", "Занятия индивидуально с преподавателем."),
    ("Какие термины изучают для финансистов?", "Финансовая и бухгалтерская лексика."),
    ("Какая стоимость курсов для финансистов из 16 уроков?", "Цена от 1 490 ₽ за урок."),
    ("Можно ли учиться онлайн для финансистов?", "Да, занятия полностью онлайн."),
    ("Какие задания выполняют для финансистов?", "Резюме, письма, кейсы."),
    ("Какие материалы используют на курсе для финансистов?", "Все материалы включены."),
    ("Какие бонусы для курсов для финансистов?", "Дополнительные уроки и клубы."),
    ("Как улучшить навыки аудита для финансистов?", "Практика на уроках."),
    ("Можно ли перенести урок для финансистов?", "Да, за 4 часа до начала."),
    ("Какая цена курсов для финансистов из 64 уроков?", "Цена от 1 550 ₽ за урок."),
    ("Какие темы обсуждают для финансистов?", "Карьера, учет, аудит."),
    ("Как подготовиться к собеседованию для финансистов?", "С помощью практических заданий."),
    ("Какие проекты обсуждают на курсе для финансистов?", "Реальные кейсы и задачи."),
    ("Какая стоимость премиум-курса для финансистов?", "Цена от 1 290 ₽ за урок."),
    ("Как проходит обучение на платформе для финансистов?", "Интерактивные задания и упражнения."),
    ("Сколько стоят 8 уроков для финансистов?", "Цена от 1 590 ₽ за урок."),
    ("Какие модули включены в курс для финансистов?", "Три тематических модуля."),
    ("Какие документы учат читать финансисты?", "Финансовые отчеты и статьи."),
    ("Какие уровни английского для финансистов доступны?", "От среднего до продвинутого."),
    ("Как развить навыки переговоров для финансистов?", "Через ролевые игры."),
    ("Какие задания выполняют для собеседований финансистов?", "Интервью и обсуждения."),
    ("Как учат финансистов писать резюме?", "Через практические задания."),
    ("Какая цена курсов для финансистов из 96 уроков?", "Цена от 1 350 ₽ за урок."),
    ("Можно ли учиться вечером для финансистов?", "Да, занятия доступны вечером."),
    ("Какие темы обсуждают на уроках для финансистов?", "Карьера, учет, аудит."),
    ("Какие инструменты используют для финансистов?", "Платформа и кейсы."),
    ("Можно ли работать в группах для финансистов?", "Нет, занятия индивидуальные."),
    ("Какие отчеты анализируют для финансистов?", "Бухгалтерские и аудиторские."),
    ("Как снимают языковой барьер для финансистов?", "Через разговорную практику."),
    ("Какая цена курсов для финансистов из 4 уроков?", "Цена от 2 690 ₽ за урок."),
    ("Какие темы бухгалтерии изучают для финансистов?", "Терминология и учет."),
    ("Как записаться на премиум-курс для финансистов?", "Оставьте заявку на сайте."),
    ("Какие темы обсуждают в модуле аудита для финансистов?", "Методы и практики."),
    ("Можно ли учиться на планшете для финансистов?", "Да, планшет подходит."),
    ("Какие уроки для бухгалтеров доступны?", "Темы: учет, документы."),
    ("Как проводят тестирование на курсе для финансистов?", "Через платформу."),
    ("Какие бонусы доступны для финансистов?", "Дополнительные уроки и клубы."),
    ("Какая цена курсов для финансистов из 128 уроков?", "Цена от 950 ₽ за урок."),
    ("Какие задания выполняют для финансистов на уроках?", "Кейсы и деловая переписка."),
    ("Как изучают аудиторскую лексику для финансистов?", "Через кейсы и обсуждения."),
    ("Какая цена курса для собеседований?", "Цена от 950 ₽ за урок."),
    ("Сколько стоит курс для собеседований из 4 уроков?", "Цена от 1 890 ₽ за урок."),
    ("Как записаться на курс для собеседований?", "Оставьте заявку на сайте."),
    ("Сколько уроков в курсе для собеседований?", "Курс включает 6 уроков."),
    ("Какие темы изучают для собеседований?", "Темы: small talk, вопросы."),
    ("Какая продолжительность урока для собеседований?", "Урок длится 50 минут."),
    ("Какие навыки развивают на курсе для собеседований?", "Говорение, ответы, завершение."),
    ("Можно ли пройти пробный урок для собеседований?", "Да, пробный урок бесплатный."),
    ("Как проходит обучение для собеседований?", "Занятия индивидуально с преподавателем."),
    ("Какие вопросы разбирают для собеседований?", "Типичные, поведенческие, сложные."),
    ("Какая стоимость курсов для собеседований из 16 уроков?", "Цена от 1 490 ₽ за урок."),
    ("Можно ли учиться онлайн для собеседований?", "Да, занятия полностью онлайн."),
    ("Какие задания выполняют для собеседований?", "Ответы и вопросы."),
    ("Какие материалы используют на курсе для собеседований?", "Все материалы включены."),
    ("Какие бонусы для курсов для собеседований?", "Дополнительные уроки и клубы."),
    ("Как улучшить навыки small talk для собеседований?", "Через практику на уроках."),
    ("Можно ли перенести урок для собеседований?", "Да, за 4 часа до начала."),
    ("Какая цена курсов для собеседований из 64 уроков?", "Цена от 1 550 ₽ за урок."),
    ("Какие темы обсуждают для собеседований?", "Работа, вопросы, завершение."),
    ("Как подготовиться к сложным вопросам для собеседований?", "Через упражнения на платформе."),
    ("Какие документы обсуждают на курсе для собеседований?", "Резюме и письма."),
    ("Какая стоимость премиум-курса для собеседований?", "Цена от 1 290 ₽ за урок."),
    ("Как проходит обучение на платформе для собеседований?", "Интерактивные задания и упражнения."),
    ("Сколько стоят 8 уроков для собеседований?", "Цена от 2 350 ₽ за урок."),
    ("Какие модули включены в курс для собеседований?", "Один тематический модуль."),
    ("Какие ошибки обсуждают для собеседований?", "Типичные и частые ошибки."),
    ("Какие уровни английского для собеседований доступны?", "От среднего до продвинутого."),
    ("Как развить навыки завершения собеседования?", "Через ролевые игры."),
    ("Какие задания выполняют для типичных вопросов?", "Ответы и объяснения."),
    ("Как учат писать сопроводительное письмо для собеседований?", "Через практические задания."),
    ("Какая цена курсов для собеседований из 96 уроков?", "Цена от 1 350 ₽ за урок."),
    ("Можно ли учиться вечером для собеседований?", "Да, занятия доступны вечером."),
    ("Какие темы обсуждают на уроках для собеседований?", "Работа, small talk."),
    ("Какие инструменты используют для собеседований?", "Платформа и материалы."),
    ("Можно ли работать в группах для собеседований?", "Нет, занятия индивидуальные."),
    ("Какие кейсы анализируют для собеседований?", "Реальные примеры."),
    ("Как снимают языковой барьер для собеседований?", "Через разговорную практику."),
    ("Какая цена курсов для собеседований из 4 уроков?", "Цена от 2 690 ₽ за урок."),
    ("Какие вопросы поведенческие изучают для собеседований?", "Примеры и объяснения."),
    ("Как записаться на премиум-курс для собеседований?", "Оставьте заявку на сайте."),
    ("Какие темы small talk обсуждают для собеседований?", "Приветствия и начало."),
    ("Можно ли учиться на планшете для собеседований?", "Да, планшет подходит."),
    ("Какие уроки для сложных вопросов доступны?", "Тематические уроки."),
    ("Как проводят тестирование на курсе для собеседований?", "Через платформу."),
    ("Какие бонусы доступны для собеседований?", "Дополнительные уроки и клубы."),
    ("Какая цена курсов для собеседований из 128 уроков?", "Цена от 950 ₽ за урок."),
    ("Какие задания выполняют для собеседований на уроках?", "Типичные вопросы."),
    ("Как изучают завершение интервью для собеседований?", "Через практические кейсы."),
    ("Какая цена курса для путешествий?", "Цена от 950 ₽ за урок."),
    ("Сколько стоит курс для путешествий из 4 уроков?", "Цена от 1 890 ₽ за урок."),
    ("Как записаться на курс для путешествий?", "Оставьте заявку на сайте."),
    ("Сколько уроков в курсе для путешествий?", "Курс включает 23 урока."),
    ("Какие темы изучают для путешествий?", "Темы: аэропорт, отели, проблемы."),
    ("Какая продолжительность урока для путешествий?", "Урок длится 50 минут."),
    ("Какие навыки развивают на курсе для путешествий?", "Бронирование, аренда, покупки."),
    ("Можно ли пройти пробный урок для путешествий?", "Да, пробный урок бесплатный."),
    ("Как проходит обучение для путешествий?", "Занятия индивидуально с преподавателем."),
    ("Какие фразы изучают для путешествий?", "Базовые фразы для общения."),
    ("Какая стоимость курсов для путешествий из 16 уроков?", "Цена от 1 490 ₽ за урок."),
    ("Можно ли учиться онлайн для путешествий?", "Да, занятия полностью онлайн."),
    ("Какие задания выполняют для путешествий?", "Заполнение анкет и диалоги."),
    ("Какие материалы используют на курсе для путешествий?", "Все материалы включены."),
    ("Какие бонусы для курсов для путешествий?", "Дополнительные уроки и клубы."),
    ("Как улучшить навыки бронирования для путешествий?", "Через практику на уроках."),
    ("Можно ли перенести урок для путешествий?", "Да, за 4 часа до начала."),
    ("Какая цена курсов для путешествий из 64 уроков?", "Цена от 1 550 ₽ за урок."),
    ("Какие темы обсуждают для путешествий?", "Покупки, отели, маршруты."),
    ("Как подготовиться к аэропорту для путешествий?", "С помощью упражнений."),
    ("Какие документы учат заполнять для путешествий?", "Анкеты на визу."),
    ("Какая стоимость премиум-курса для путешествий?", "Цена от 1 290 ₽ за урок."),
    ("Как проходит обучение на платформе для путешествий?", "Интерактивные задания и упражнения."),
    ("Сколько стоят 8 уроков для путешествий?", "Цена от 2 350 ₽ за урок."),
    ("Какие модули включены в курс для путешествий?", "Четыре тематических модуля."),
    ("Какие ошибки обсуждают для путешествий?", "Типичные ошибки туристов."),
    ("Какие уровни английского для путешествий доступны?", "От начального до среднего."),
    ("Как развить навыки ориентирования для путешествий?", "Через практические задания."),
    ("Какие задания выполняют для бронирования жилья?", "Диалоги и практические задачи."),
    ("Как учат общению в отеле для путешествий?", "Через ролевые игры."),
    ("Какая цена курсов для путешествий из 96 уроков?", "Цена от 1 350 ₽ за урок."),
    ("Можно ли учиться вечером для путешествий?", "Да, занятия доступны вечером."),
    ("Какие темы обсуждают на уроках для путешествий?", "Транспорт, покупки, отели."),
    ("Какие инструменты используют для путешествий?", "Платформа и материалы."),
    ("Можно ли работать в группах для путешествий?", "Нет, занятия индивидуальные."),
    ("Какие ситуации разбирают для путешествий?", "Проблемы и их решения."),
    ("Как снимают языковой барьер для путешествий?", "Через разговорную практику."),
    ("Какая цена курсов для путешествий из 32 уроков?", "Цена от 1 850 ₽ за урок."),
    ("Какие вопросы обсуждают для путешествий?", "Визы, транспорт, отели."),
    ("Как записаться на премиум-курс для путешествий?", "Оставьте заявку на сайте.")
]

НОРМАЛИЗУЕМ ДАННЫЕ ДАТАСЕТА

In [None]:
# - raw_data: сырые данные (список кортежей)
# - normalize_string: функция нормализации, применяется ко всем строкам
# - raw_data_in: список нормализованных вопросов
# - raw_data_out_in: список нормализованных ответов с маркером <start> в начале
# - raw_data_out_out: список нормализованных ответов с маркером <end> в конце
raw_data_in, raw_data_out_in, raw_data_out_out = process_raw_data(raw_data, normalize_string)


Нормализованные данные (вопросы):
['Какой уровень английского можно изучать ?', 'Что нужно для начала занятий ?', 'Можно ли менять преподавателя ?', 'Как часто можно заниматься ?', 'Можно ли обучаться без преподавателя ?', 'Как длится пробный урок ?', 'Сколько длится обычный урок ?', 'Как подобрать преподавателя ?', 'Есть ли занятия для детей ?', 'Как отменить урок ?', 'Какой формат уроков предлагается ?', 'Есть ли курсы для собеседования ?', 'Можно ли заниматься с носителем языка ?', 'Какая стоимость уроков ?', 'Как проходит пробный урок ?', 'Какие есть уровни обучения ?', 'Есть ли курсы для переезда ?', 'Могу ли я заниматься из дома ?', 'Как происходит обучение на платформе ?', 'Как узнать свой уровень ?', 'Что входит в стоимость курсов ?', 'Можно ли заниматься в приложении ?', 'Какие форматы обучения доступны ?', 'Какие темы изучаются на курсах ?', 'Есть ли домашние задания ?', 'Как отслеживать свой прогресс ?', 'Можно ли перенести урок ?', 'Какие курсы есть для детей ?', 'Как прох

ТОКЕНИЗИРУЕМ ВОПРОСЫ (ИСПОЛЬЗУЕМ ПАДДИНГ ДЛЯ ФОРМИРОВАНИЯ ФИКСИРОВАННОЙ ДЛИНЫ ВОПРОСОВ)

In [None]:
# raw_data_in: список текстов (вопросов), которые будут токенизироваться.
# data_in: массив токенизированных и дополненных (паддинговых) данных.
# input_tokenizer: объект токенизатора с обученным словарём.
data_in, input_tokenizer = tokenize_and_pad_sequences(raw_data_in)


Токенизированные и паддинговые данные (вопросы):
[[ 40  22  88   7 105   1   0   0   0   0]
 [110 190   2 220 120   1   0   0   0   0]
 [  7   5 280  84   1   0   0   0   0   0]
 [  6 221   7  42   1   0   0   0   0   0]
 [  7   5 148 149  84   1   0   0   0   0]
 [  6  53  96  28   1   0   0   0   0   0]
 [ 14  53 281  28   1   0   0   0   0   0]
 [  6 282  84   1   0   0   0   0   0   0]
 [ 35   5  89   2  33   1   0   0   0   0]
 [  6  90  28   1   0   0   0   0   0   0]]


ТОКЕНЕЗИРУЕМ ОТВЕТЫ (+ ИСПОЛЬЗУЕМ ПАДДИНГ ДЛЯ ФОРМИРОВАНИЯ ФИКСИРОВАННОЙ ДЛИНЫ ОТВЕТОВ)

In [None]:
# Токенизация и паддинг выходных данных:
# - raw_data_out_in: ответы с маркером <start> для входов модели.
# - raw_data_out_out: ответы с маркером <end> для целевых значений модели.
# - data_out_in: токенизированные и дополненные последовательности из raw_data_out_in.
# - data_out_out: токенизированные и дополненные последовательности из raw_data_out_out.
# - output_tokenizer: токенизатор, обученный на всех ответах.
data_out_in, data_out_out, output_tokenizer = tokenize_and_pad_output_sequences(raw_data_out_in, raw_data_out_out)


Токенизированные и паддинговые данные (ответы с <start>):
[[  2 210  28  67  20 211   1   0   0   0]
 [  2 407 408   8 409 100 410   1   0   0]
 [  2   4  68  40 411  30 210 412   1   0]
 [  2  40 413 414 415 416 417   1   0   0]
 [  2   4  47 418  27   1   0   0   0   0]
 [  2 419  41 420  37   1   0   0   0   0]
 [  2  13 276  60  37   1   0   0   0   0]
 [  2 277 421  68 135 278 279   1   0   0]
 [  2   4  14  65  26 212   1   0   0   0]
 [  2 159   7  69  85  20  42   1   0   0]]
Токенизированные и паддинговые данные (ответы с <end>):
[[210  28  67  20 211   1   3   0   0   0]
 [407 408   8 409 100 410   1   3   0   0]
 [  4  68  40 411  30 210 412   1   3   0]
 [ 40 413 414 415 416 417   1   3   0   0]
 [  4  47 418  27   1   3   0   0   0   0]
 [419  41 420  37   1   3   0   0   0   0]
 [ 13 276  60  37   1   3   0   0   0   0]
 [277 421  68 135 278 279   1   3   0   0]
 [  4  14  65  26 212   1   3   0   0   0]
 [159   7  69  85  20  42   1   3   0   0]]


ПОДГОТАВЛИВАЕМ ДАННЫЕ К ПОДАЧЕ В МОДЕЛЬ

In [None]:
# Вызов функции с параметрами
dataset, encoder, decoder, crossentropy, optimizer, pes = build_and_prepare_model(
    data_in=data_in,                       # Токенизированные и дополненные входные данные (вопросы)
    data_out_in=data_out_in,               # Токенизированные и дополненные ответы с <start> (вход декодера)
    data_out_out=data_out_out,             # Токенизированные и дополненные ответы с <end> (цель декодера)
    input_tokenizer=input_tokenizer,       # Токенизатор для входных данных
    output_tokenizer=output_tokenizer,     # Токенизатор для выходных данных
    hidden_dim=128,                        # Размерность скрытых слоев и эмбеддингов (число нейронов в каждом слое модели)
    batch_size=8,                          # Размер батча (количество примеров, обрабатываемых за один шаг)
    shuffle_buffer_size=1000,              # Размер буфера для перемешивания данных (чем больше, тем сильнее перемешивание)
    num_heads=8,                           # Количество голов внимания (параллельные механизмы self-attention)
    num_layers=1,                          # Количество слоев в энкодере и декодере
    max_length=10                          # Максимальная длина последовательности для позиционных эмбеддингов
)


Пример батча из данных:
Batch 1 - Вопросы:
[[ 40 133 153   2  26  12  16   1   0   0]
 [  6 229  12 306   1   0   0   0   0   0]
 [ 35   5 296 193   1   0   0   0   0   0]
 [  7   5  42  12 121 222   1   0   0   0]
 [ 14  53 281  28   1   0   0   0   0   0]
 [  7   5 148   9 305   1   0   0   0   0]
 [  3   8  82   4  99   1   0   0   0   0]
 [ 35   5  58   2 334 335   1   0   0   0]]
Batch 1 - Ответы с <start>:
[[  2  19 105  18 301 302   1   0   0   0]
 [  2  16 217  30 138 139   1   0   0   0]
 [  2   4  15 448 135 449 292   1   0   0]
 [  2   4 136 101 422 161   1   0   0   0]
 [  2  13 276  60  37   1   0   0   0   0]
 [  2 459  15  14  30 299 300   1   0   0]
 [  2 481  10  26 286 287   1   0   0   0]
 [  2   4  65  26 211 222   1   0   0   0]]
Batch 1 - Ответы с <end>:
[[ 19 105  18 301 302   1   3   0   0   0]
 [ 16 217  30 138 139   1   3   0   0   0]
 [  4  15 448 135 449 292   1   3   0   0]
 [  4 136 101 422 161   1   3   0   0   0]
 [ 13 276  60  37   1   3   0   0   0   

ЗАДАЕМ КОЛИЧЕСТВО ЭПОХ И ВЫЗЫВАЕМ ФУНКЦИЮ ОБУЧЕНИЯ МОДЕЛИ

In [None]:
NUM_EPOCHS = 125  # Количество эпох обучения.

# Аргументы функции:
# - dataset: набор данных для обучения, разбитый на батчи.
# - NUM_EPOCHS: количество эпох, на протяжении которых модель будет обучаться.
# - train_step: функция, выполняющая одну итерацию обучения, включая расчёт потерь и обновление параметров.
# - predict: опциональная функция, вызываемая каждые 10 эпох, чтобы проверить, как модель генерирует ответы.
train_model(dataset, NUM_EPOCHS, train_step, predict=predict)

Epoch 1 Loss 1.822879
Epoch 2 Loss 2.558281
Epoch 3 Loss 2.326532
Epoch 4 Loss 0.081648
Epoch 5 Loss 0.194735
Epoch 6 Loss 1.822561
Epoch 7 Loss 1.155496
Epoch 8 Loss 0.988546
Epoch 9 Loss 0.595758
Epoch 10 Loss 0.001668
Среднее время: 33.43s
Как проходят уроки для глухих ?
[[6, 91, 56, 2, 50, 1]]
с преподавателем индивидуально . <end>
Epoch 11 Loss 1.098267
Epoch 12 Loss 0.597309
Epoch 13 Loss 0.925488
Epoch 14 Loss 0.251388
Epoch 15 Loss 0.645234
Epoch 16 Loss 0.158115
Epoch 17 Loss 0.025160
Epoch 18 Loss 0.136128
Epoch 19 Loss 0.123331
Epoch 20 Loss 0.014063
Среднее время: 24.69s
Какие цели курса Intermediate ?
[[3, 61, 26, 17, 1]]
свободное общение и чтение . <end>
Epoch 21 Loss 0.287480
Epoch 22 Loss 0.885069
Epoch 23 Loss 0.004824
Epoch 24 Loss 0.011500
Epoch 25 Loss 0.006215
Epoch 26 Loss 0.013058
Epoch 27 Loss 0.016638
Epoch 28 Loss 0.125324
Epoch 29 Loss 0.001914
Epoch 30 Loss 0.208968
Среднее время: 21.81s
Какая стоимость подготовки к ЕГЭ из 16 уроков ?
[[10, 36, 57, 13, 20, 

ТЕСТИРУЕМ МОДЕЛЬ

In [None]:
test_questions = [
    "Какой сейчас формат уроков для глухих?",
    "Как записаться на курс для начинающих?",
    "Возможно ли оплатить курсы частями?",
    "Сколько стоит премиум-курс для ребенка?",
    "Как записаться на подготовку к ЕГЭ?",
    "Какие навыки развивают менеджеры на курсе?",
    "Как учат писать резюме для финансистов?",
    "Какие задания выполняют для собеседований?",
    "Как подготовиться к аэропорту для путешествий?",
    "Какие бонусы доступны для менеджеров?",
    "Как узнать слабые стороны для подготовки к ЕГЭ?",
    "Какая цена курсов для менеджеров?",
    "Возможно ли перенести урок?",
    "Сколько стоят 4 урока курса Intermediate?",
    "Какие материалы используют для детей на курсах?",
    "Как пройти тестирование для подготовки к ЕГЭ?",
    "Какие проекты планируют для менеджеров?",
    "Какие ошибки обсуждают на курсе для путешествий",
    "Какие темы обсуждают для путешествий?",
    "Как учат финансистов писать сопроводительное письмо?",
    "Можно ли пройти пробный урок на курсе для собеседований?",
    "Какие уровни доступны для детей?",
    "Есть ли возможность учить английский для глухих онлайн?",
    "Какие модули включены в подготовку к ЕГЭ?",
    "Что включает в себя платформа школы?"
]

test_results = test_model(test_questions, normalize_string, predict)

Входной текст: Какой сейчас формат уроков для глухих ?
Секвенция: [[40, 97, 11, 2, 50, 1]]
Ответ: видеоуроки с жестовым переводом .

Входной текст: Как записаться на курс для начинающих ?
Секвенция: [[6, 54, 4, 23, 2, 15, 1]]
Ответ: оставьте заявку на сайте .

Входной текст: Возможно ли оплатить курсы частями ?
Секвенция: [[5, 85, 58, 126, 1]]
Ответ: да, доступны оплата частями .

Входной текст: Сколько стоит премиум курс для ребенка ?
Секвенция: [[14, 25, 46, 23, 2, 130, 1]]
Ответ: от 1 290 за урок .

Входной текст: Как записаться на подготовку к ЕГЭ ?
Секвенция: [[6, 54, 4, 146, 13, 20, 1]]
Ответ: оставьте заявку на сайте .

Входной текст: Какие навыки развивают менеджеры на курсе ?
Секвенция: [[3, 52, 128, 4, 29, 1]]
Ответ: переписка, презентации, переговоры .

Входной текст: Как учат писать резюме для финансистов ?
Секвенция: [[6, 129, 274, 483, 2, 31, 1]]
Ответ: через практические задания .

Входной текст: Какие задания выполняют для собеседований ?
Секвенция: [[3, 55, 77, 2, 32, 

РЕЗУЛЬТАТЫ

Использование датасета из 1000 вопросов и ответов позволило модели достаточно неплохо научиться понимать широкий спектр запросов, связанных с обучением в школе английского языка Skyeng. Вместе с тем, для повышения качества и возможностей модели возможны многие дополнительные улучшения, такие как увеличение тренировочной базы данных, усложнение структуры модели или применение уже предобученной модели в структуре трансформера.