# 1. Введение и постановка задачи
## 1.1 Введение

Современные образовательные веб-платформы всё чаще используют интеллектуальные системы поддержки пользователей, позволяющие ускорить поиск информации и повысить качество усвоения учебного материала. Особенно актуально применение таких систем в технических дисциплинах, включая теорию графов и методы машинного обучения, где обучающимся требуется оперативный доступ к точным и формально корректным теоретическим объяснениям.

Сайт Wise Task представляет собой учебную платформу, предназначенную для практики по теории графов и смежным разделам математики.

Для повышения удобства работы с учебным контентом целесообразно использовать интеллектуального чат-помощника, способного отвечать на вопросы пользователей на основе строго ограниченного корпуса учебных материалов. В рамках данного проекта для реализации такого помощника применяется подход Retrieval-Augmented Generation (RAG) с использованием векторной базы данных QdrantDB и языковой модели Qwen.

## 1.2 Постановка задачи

Целью работы является разработка чат-помощника для сайта Wise Task, предназначенного для предоставления точных и обоснованных ответов по теории графов и другим учебным материалам, загруженным в систему.

Для достижения поставленной цели необходимо решить следующие задачи:

разработать архитектуру чат-помощника на основе подхода Retrieval-Augmented Generation;

подготовить и загрузить учебные материалы по теории графов и машинному обучению во векторную базу данных;

реализовать механизм семантического поиска релевантных фрагментов теории по пользовательскому запросу;

интегрировать языковую модель Qwen для генерации ответов с использованием найденного контекста;

обеспечить формирование ответов исключительно на основе загруженных в систему данных;

реализовать пользовательский интерфейс чат-помощника для взаимодействия с посетителями сайта Wise Task;

провести тестирование корректности и полноты ответов системы.

Результатом работы должен стать чат-помощник, повышающий эффективность работы пользователей с учебными материалами сайта Wise Task и способствующий более глубокому пониманию теории графов и методов машинного обучения.

# Решение

## Описание выбранного решения

В качестве решения поставленной задачи был выбран подход _RAG_ (_Retrieval Augmented Generation_ — генерация с дополненной выборкой), который соединяет языковую модель с внешней базой знаний. Таким образом ИИ-помощник находит релевантные документы, ранжирует их и генерирует ответ на вопрос пользователя исходя из собственных знаний с опорой на найденные документы.

Для реализации данного подхода были написаны следующие компоненты пайплайна:
- Векторная база знаний с релевантными документами
- Ретривер -- часть, отвечающая за извлечение релевантной информации из базы знаний исходя из запроса пользователя
- Генератор -- часть, отвечающая за управление процессом генерации ответа языковой моделью
- Языковая модель, формирующая ответы на запросы пользователя на основании входных данных из других компонент пайплайна

Таким образом RAG-пайплайн включает в себя следующие шаги:
1. **Индексация** — разрезание документов на чанки, преобразование их в векторное представление и сохранение в базе.
2. **Поиск** — определение нужных чанков по запросу пользователя.
3. **Подготовка** задания — формирование промта, соединяя запрос пользователя с найденными чанками, чтобы языковая модель получила контекст для генерации ответа.
4. **Генерация** — создание ответ с помощью языковой модели.
5. **Проверка** — контроль качества ответа, проверка его точности и отсутствия галлюцинаций. По необходимости можно добавить ссылки на источники данных.

Также исходя из задачи, технических возможностей и архитектуры приложения _Wise Task_ был выбран микросервисный подход в архитектуре созданного приложения с разбиением RAG-пайплайна на микросервисы.

В итоге, с учетом описанного выше, получилось реализовать микросервисное приложение состоящее из следующих логических частей:
1. **Qdrant DB** -- векторная база знаний с релевантными документами про теорию графов и приложение _Wise Task_
2. **Qdrant Indexer** -- сервис, который преобразует имеющиеся документы в чанки и выполняет их загрузку в **Qdrant DB**
3. **Qdrant Ingest** -- сервис поиска релевантных документов в **Qdrant DB**
4. **Core Service** -- сервис-оркестратор, управляет потоком данных в системе, взаимодействует с другими сервисами и базами данных, собирая все необходимое для ответа пользователю и обработки обратной связи от него
5. **PostgreSQL Feedbacks** -- база данных для сбора обратной связи от пользователя о качестве ответа ИИ-помощника
6. **llama_cpp** -- сервис на базе библиотеки llama.cpp с развернутой языковой моделью и сервером для приема запросов на генерацию
7. **LLM Service** -- сервис для управления процессом генерации(построение промтов, настройка параметров, оценка метриками, оркестрация запросов на генерацию)

### Обоснование выбора

В качестве вариантов решения рассматривались следующие подходы:

- Fine-tuning
- RAG
- LLM с длинным контекстом
- Классический поиск

Подход RAG был выбран так как он:
- Доступ к актуальным данным без переобучения, так как оно является довольно дорогим и долгим с технической точки зрения. А эффективность такого подхода может варьироваться
- Существенно сниженный риск галлюцинаций благодаря использованию проверенных источников, что особенно важно так как одним из основных требований к ответу является соответствие проверенным источникам.

Минусы подхода RAG:
- Качество ответа напрямую зависит от полноты, актуальности и релевантности извлечённых данных. При недостаточной подготовке данных возможно снижение точности.
- Нужна подготовка данных для организации поискового индекса.

Fine-tuning не был выбран из-за следующих факторов:
- Долгое и ресурсоёмкое обучение, требует высокой экспертизы
- Быстрое устаревание модели при изменении данных

LLM с длинным контекстом не была выбрана из-за следующих факторов:
- При большом объёме информации на входе не гарантируется точность ответа или то, что модель не запутается в фактах.
- Длинный контекст также требует значительных ресурсов.

Классический поиск не был выбран из-за следующих факторов:
- Пользователь вручную обрабатывает результаты, что не подходит исходя из требований к ИИ-помощнику и исключает возможность объяснения непонятных пользователю тем.

### Реализация Retriever’а

В рамках проекта был реализован специализированный retriever, основанный на гибридном поиске, объединяющем семантический векторный поиск и классические методы информационного поиска. Данный подход позволяет компенсировать ограничения каждого из методов по отдельности и повысить общее качество извлечения релевантных фрагментов.

Retriever реализован в виде отдельного сервиса и инкапсулирован в классе Searcher, отвечающем за полный цикл обработки пользовательского запроса — от его векторизации до финального ранжирования результатов.

Векторный поиск

В качестве основы семантического поиска используется векторная база данных QdrantDB. Для каждого пользовательского запроса выполняются следующие действия:

Запрос преобразуется в векторное представление с помощью модели эмбеддингов
sentence-transformers/paraphrase-multilingual-mpnet-base-v2,
что обеспечивает поддержку многоязычных запросов, включая русский язык.

Полученный embedding используется для поиска ближайших векторов в коллекции Qdrant с применением точного поиска (exact search).

В результате возвращается расширенный список кандидатов (с запасом), который далее используется для дополнительного ранжирования.

Использование точного поиска оправдано сравнительно умеренным объёмом данных и позволяет получить максимально корректную оценку семантической близости.

Лексический поиск на основе BM25

Для повышения качества извлечения релевантных фрагментов дополнительно используется BM25-поиск, реализованный поверх предварительно сохранённого индекса. Индекс загружается при инициализации retriever’а и используется для вычисления лексической релевантности запроса.

Особенности реализации:

используется токенизация с нормализацией и очисткой текста;

BM25-оценки нормализуются относительно максимального значения;

при отсутствии индекса система автоматически переходит в режим чисто векторного поиска.

Таким образом обеспечивается устойчивость системы к неполноте данных и деградации отдельных компонентов.

Гибридное ранжирование результатов

Для объединения результатов векторного и BM25-поиска используется взвешенная гибридная метрика:

score hybrid = α⋅score vector +(1−α)⋅score_BM25

Такой подход позволяет учитывать как смысловую близость запроса и документа, так и наличие точных совпадений терминов.

Правила дополнительного скоринга

После вычисления гибридной оценки применяется набор эвристических правил, направленных на повышение качества итогового ранжирования:

учитывается наличие ключевых слов запроса в заголовке документа;

повышается вес фрагментов, содержащих маркеры формальных элементов
(например: определение, теорема, лемма, алгоритм);

понижается вес секций справочного характера
(литература, источники, см. также);

применяется штраф для фрагментов с высокой плотностью ссылок;

учитывается наличие точных подстрочных совпадений и n-грамм (bi- и tri-грамм).

Дополнительно реализована проверка наличия пересечений слов запроса с текстом фрагмента — при полном отсутствии таких пересечений итоговая оценка существенно понижается.

Итоговый алгоритм работы Retriever’а

В общем виде алгоритм работы retriever’а можно описать следующим образом:

Векторизация пользовательского запроса.

Получение кандидатов с помощью семантического поиска в QdrantDB.

Вычисление BM25-оценок для всего корпуса документов.

Объединение оценок в гибридную метрику.

Применение набора эвристических правил скоринга.

Сортировка результатов по итоговой оценке.

Возврат топ-k наиболее релевантных фрагментов.

Такой многоэтапный процесс извлечения позволяет существенно повысить точность контекста, передаваемого языковой модели, и снизить вероятность генерации некорректных или нерелевантных ответов.

### LLM Service

Данный сервис занимается подготовкой к генерации и управляет ее процессом.

Путь запроса на генерацию состоит из следующих этапов:
1. Поступление запроса на генерацию из Core Service`а, который включает вопрос и заданное количество контекстов.
2. Выполняется определения типа вопроса с помощью классификатора.
3. На основании типа вопроса строится промт включающий вопрос, пришедшие контексты и инструкции для модели.
4. На основании типа вопроса задаются параметры генерации.
5. Промт и параметры посылаются на llama_cpp.
6. Модель генерирует ответ и отправляет результат.
7. Выполняется постобработка ответа.
8. Ответ отдается назад Core Service`у, который передает его наверх пользователю.

#### llama.cpp

В качестве языковой модели, используемой для генерации, была выбрана модель Qwen2.5:3B-Instruct, так как лучше всего показала себя в сравнении с другими исследуемыми моделями, что было выяснено экспериментальным путем. На сервере будет разворачиваться модель с большим количеством параметров.

В качестве способа взаимодействия с моделью была выбрана библиотека llama.cpp, так как исходя из технических возможностей и требований к итоговому продукту был сделан упор на автономность и отказ от внешних зависимостей на сторонних сервисах предоставляющих API-ключи для взаимодействия с моделью и их ограничениях. Данная библиотека в свою очередь предоставляет возможность разворачивать модели локально с большим контролем процесса генерации. Также изначально рассматривался аналог -- фреймворк Ollama, но был осуществлен переход на llama.cpp для более точной настройки под конкретное железо и увеличения производительности и скорости генерации.

#### Классификация вопросов

Исходя из предметной области и ТЗ было выделено три типа приходящих вопросов:
- Definition: вопрос, требующий ответа в виде точной формулировки(определение, теорема, лемма и т.д.)
- Explanation: вопрос, требующий развернутого ответа с объяснением
- Wise Task: вопрос про использование Wise Task

Саму классификацию выполняет класс QueryClassifier, который определяет тип с помощью заранее заданных регулярных выражений. Если ни одно из регулярных выражений не подошло, присваивается тип Explanation, как наиболее общий.

In [1]:
import re
from logger import get_logger
from patterns import Pattern


class QueryClassifier:
    """Classifier for query type detection"""

    def __init__(self):
        """
        Initialize the QueryClassifier.

        Sets up the logger for the classifier.
        """
        self.logger = get_logger(__name__)

    def classify(self, question: str):
        """
        Detects query type based on predefined patterns in the question.

        Analyzes the input question using regular expression patterns to determine
        if it is seeking a 'definition' or an 'explanation'. Defaults to 'explanation'
        if no patterns match.

        Args:
            question (str): The input question to classify.

        Returns:
            Literal['definition', 'explanation']: The detected query type.
        """
        question_lower = question.lower().strip()
        self.logger.debug(f'Classifying question: "{question}"')

        for pattern in Pattern.wisetask_patterns:
            if re.search(pattern, question_lower):
                self.logger.debug(f'Question classified as WISE_TASK: "{question}"')
                return 'wise_task'

        for pattern in Pattern.definition_patterns:
            if re.search(pattern, question_lower):
                self.logger.debug(f'Question classified as DEFINITION: "{question}"')
                return 'definition'

        for pattern in Pattern.explanation_patterns:
            if re.search(pattern, question_lower):
                self.logger.debug(f'Question classified as EXPLANATION: "{question}"')
                return 'explanation'

        self.logger.debug(f'Question classified as EXPLANATION (default): "{question}"')
        return 'explanation'

ModuleNotFoundError: No module named 'logger'

#### Промт-инжиниринг

Для каждого типа вопроса был составлен промт, чтобы точнее проинструктировать модель и получть более релевантный ответ.

Промт для вопросов типа Wise Task:
Ответь на вопрос по тренажеру Wise Task, используй контекст для ответа

Промт для вопросов типа Explanation:
Ответь на вопрос и кратко объясни тему. Для ответа используй контекст.

Промт для вопросов типа Definition:
Ответь кратко на вопрос, используй контекст для ответа.

#### Параметры генерации

Были заданы следующие параметры генерации для вопросов типа Definition и Wise Task:

In [None]:
temp = 0.3
top_p = 0.5
top_k = 20
repeat_penalty = 1.05
num_predict = 96

Были заданы следующие параметры генерации для вопросов типа Explanation:

In [None]:
temp = 0.5
top_p = 0.7
top_k = 40
repeat_penalty = 1.05
num_predict = 320

Также для каждого из типов вопросов были выбраны заданы следующие параметры:

In [None]:
seed = 42
num_ctx = 4096

#### Параметры запуска модели. Оптимизация скорости и качества генерации.

Для оптимизации скорости генерации ответов и их качества, были настроены следующие параметры модели:

Производительность модели
- mlock
- flash-attn
- parallel N
- cont-batching

Кэширование запросов
- slot-prompt-similarity
- cache-ram

Улучшение качества ответов в RAG
- no-context-shift

Приведенные выше параметры использовались при локальном тестировании и настройки модели, при развертывании на сервере будут внесены следующие изменения("+" - параметр добавлен, "-" - параметр убран):

- gpu-layers +
- ubatch-size +
- mlock -

### Исследование решения

#### Метрики для оценки качества ответов модели

##### ROUGE-K (K = 1, 2)

ROUGE — это набор метрик для оценки качества текста, которые сравнивают машинный результат с эталонным текстом. ROUGE фокусируется на recall — то есть насколько много информации из эталона содержится в машинном результате.

- ROUGE-1 считает совпадения отдельных слов (unigrams) между кандидатом и эталоном.
- ROUGE-2 Считает совпадения пар последовательно идущих слов (bigrams).

In [None]:
from rouge_score import rouge_scorer


def calculate_rouge_scores(reference, candidate):
    """
    Calculate ROUGE scores for summarization evaluation

    Args:
        reference: Reference summary text
        candidate: Generated summary text

    Returns:
        Dictionary with ROUGE-1, ROUGE-2, and ROUGE-L scores
    """
    scorer = rouge_scorer.RougeScorer(
        ['rouge1', 'rouge2'],
        use_stemmer=True
    )

    # Calculate scores
    scores = scorer.score(reference, candidate)

    # Extract F1 scores for each metric
    results = {
        'rouge1_f1': scores['rouge1'].fmeasure,
        'rouge2_f1': scores['rouge2'].fmeasure,
    }

    return results

##### BLEU Score

BLEU — это метрика оценки качества машинного перевода, которая основывается на сравнении отдельных слов и их сочетаний в переводе и эталонном тексте. Сначала считается, сколько таких совпадений есть в переводе, и это число делится на общее количество слов и сочетаний в самом переводе — получая так называемую точность. Чтобы не завышать оценку для слишком коротких или неполных переводов, к результату применяется поправка — штраф за краткость.

In [None]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction


def calculate_bleu_score(reference, candidate):
    """
    Calculate BLEU score for translation evaluation

    Args:
        reference: List of reference sentences (tokenized)
        candidate: Generated sentence (tokenized)

    Returns:
        BLEU score between 0 and 1
    """
    # Apply smoothing to handle zero n-gram matches
    smoothing = SmoothingFunction().method4

    # Calculate BLEU with 1-4 gram precision
    bleu_score = sentence_bleu(
        [reference],
        candidate,
        smoothing_function=smoothing
    )

    return bleu_score

##### BERT Score

BERTScore — метрика оценки качества текста, которая использует предобученные языковые модели, такие как BERT, для более точного сравнения кандидат-текста с эталонным.

In [None]:
from bert_score import score


def calculate_bertscore(references, candidates, model_type='distilbert-base-uncased'):
    """
    Calculate BERTScore for semantic similarity evaluation

    Args:
        references: List of reference texts
        candidates: List of generated texts
        model_type: BERT model for embedding computation

    Returns:
        Precision, Recall, and F1 BERTScores
    """

    P, R, F1 = score(
        candidates,
        references,
        model_type=model_type,
        verbose=False
    )

    results = {
        'precision': P.tolist(),
        'recall': R.tolist(),
        'f1': F1.tolist()
    }

    return results

## Метрики и оценка качества работы Retriever’а

Качество работы retriever’а напрямую влияет на итоговую точность ответов чат-помощника, поскольку языковая модель использует исключительно извлечённый контекст. В связи с этим для оценки эффективности retriever’а были рассмотрены как **количественные метрики информационного поиска**, так и **качественные пользовательские оценки**.



### Количественные метрики релевантности

Для оценки качества извлечения релевантных фрагментов использовались стандартные метрики, применяемые в задачах информационного поиска.

#### Recall@k

Метрика **Recall@k** показывает, присутствует ли хотя бы один релевантный фрагмент среди первых *k* результатов поиска.

$$
Recall@k = \frac{\text{количество запросов с релевантным документом в топ-}k}
{\text{общее количество запросов}}
$$

Данная метрика особенно важна в контексте RAG-систем, поскольку отсутствие релевантного контекста делает невозможной генерацию корректного ответа.



#### Precision@k

Метрика **Precision@k** отражает долю релевантных фрагментов среди первых *k* результатов.

$$
Precision@k = \frac{\text{количество релевантных фрагментов в топ-}k}{k}
$$


#### Mean Reciprocal Rank (MRR)

Метрика **MRR** оценивает позицию первого релевантного фрагмента в результатах поиска.

$$
MRR = \frac{1}{N} \sum_{i=1}^{N} \frac{1}{rank_i}
$$

где $rank_i$ — позиция первого релевантного результата для *i*-го запроса.


### Оценка гибридного поиска

Отдельно анализировалось влияние гибридного подхода (векторный поиск + BM25) на качество извлечения. Для этого проводилось сравнение следующих режимов работы retriever’а:

- только векторный поиск;
- только BM25;
- гибридный поиск с различными значениями параметра $\alpha$.


Сравнение выполнялось по метрикам **Recall@k** и **MRR**, что позволило эмпирически подобрать оптимальное значение параметра \(\alpha\).



### Оценка скорости выполнения

Для оценки производительности retriever’а измерялись следующие показатели:

- время векторизации запроса;
- время поиска в QdrantDB;
- время гибридного ранжирования;
- общее время ответа retriever’а.

В качестве основных метрик использовались:
- среднее время отклика;
- 95-й перцентиль времени ответа (p95 latency).


### Выводы по результатам оценки

Результаты экспериментов показали, что использование **гибридного retriever’а** обеспечивает более высокие значения **Recall@k** и **MRR** по сравнению с использованием только векторного или только лексического поиска. Также было отмечено снижение количества нерелевантных фрагментов, передаваемых языковой модели, что положительно влияет на качество финальных ответов чат-помощника.


# Список литературы

1. https://yandex.cloud/ru/blog/posts/2025/05/retrieval-augmented-generation-basics?ysclid=mgg2z2jjuq477389471&utm_referrer=https%3A%2F%2Fyandex.ru%2F&utm_referrer=https%3A%2F%2Fyndx.auth.yandex.cloud%2F&utm_referrer=https%3A%2F%2Fyndx.auth.yandex.cloud%2F
2. https://habr.com/ru/articles/870174/
3. https://pixelfed.nbics.net/books/u-12-ollama/page/parametry-llama-cli
4. https://dev.to/rmaurodev/running-llamacpp-in-docker-on-raspberry-pi-4g29
5. https://llmstudio.ru/blog/bleu-rouge-bert-score?ysclid=mippcykuk7543577973
6. https://yandex.cloud/ru/blog/posts/2025/05/retrieval-augmented-generation-basics?ysclid=mgg2z2jjuq477389471&utm_referrer=https%3A%2F%2Fyandex.ru%2F&utm_referrer=https%3A%2F%2Fyndx.auth.yandex.cloud%2F&utm_referrer=https%3A%2F%2Fyndx.auth.yandex.cloud%2F
7. https://yandex.cloud/ru/blog/posts/2025/03/fine-tuning?utm_referrer=https%3A%2F%2Fyandex.cloud%2Fru%2Fblog%2Fposts%2F2025%2F05%2Fretrieval-augmented-generation-basics%3Fysclid%3Dmgg2z2jjuq477389471%26utm_referrer%3Dhttps%253A%252F%252Fyandex.ru%252F&utm_referrer=https%3A%2F%2Fyndx.auth.yandex.cloud%2F
8. https://docs.claude.com/en/docs/build-with-claude/prompt-engineering/use-xml-tags
9. https://www.promptingguide.ai/techniques

# Заключение

В рамках данной работы была поставлена и решена задача разработки интеллектуального чат-помощника для учебного сайта **Wise Task**.

Основной целью являлось создание системы, способной предоставлять точные, контекстно обоснованные и проверяемые ответы на основе заранее подготовленного корпуса учебных материалов.

Для достижения поставленной цели был выбран подход **Retrieval-Augmented Generation (RAG)**, сочетающий методы информационного поиска и генеративные возможности языковых моделей. Данный подход позволил обеспечить доступ к актуальным знаниям без необходимости переобучения модели, а также существенно снизить риск генерации недостоверной информации за счёт использования внешней базы знаний.

В ходе работы была реализована микросервисная архитектура, включающая векторную базу данных, подсистему извлечения релевантного контекста (retriever) и сервис генерации ответов на базе языковой модели. Такое разделение ответственности позволило повысить масштабируемость системы, упростить экспериментирование с отдельными компонентами и обеспечить гибкость при дальнейшем развитии проекта.

Полученные метрики решений подтверждают, что использование RAG-подхода является обоснованным и эффективным решением для построения чат-помощников в образовательных системах. Разработанная система может быть использована как основа для дальнейших исследований и расширений, включая увеличение объёма базы знаний, улучшение механизмов оценки качества ответов и адаптацию под индивидуальные потребности пользователей.
