# INTENT CLASSIFICATION

## Описание задачи
Наши студенты задают множество вопросов в общем чате на совершенно различные темы: от общих тем и вопросов оплаты курсов, до трудоустройства и даже вопросов, не относящихся к области деятельности платформы. Для ускорения обработки запросов и снижения нагрузки на поддержку было принято решение создать Telegram-бота для автоматизации ответов и эскалации сложных запросов к живым операторам.

## Классификация интентов
Классификация интентов (намерений) пользователя является ключевым элементом в создании эффективных систем интерактивного взаимодействия, таких как чат-боты, виртуальные ассистенты и системы рекомендаций. Ваша задача — разработать систему, которая позволяла бы в режиме реального времени классифицировать интенты пользователей с высокой точностью, минуя задержки и затраты, связанные с применением больших языковых моделей (LLM).

## Семантический маршрутизатор
Вам поручена разработка семантического маршрутизатора – инструмента, который использует заранее определенные шаблоны и ключевые слова для поиска наиболее подходящего ответа/действия на основе их смыслового (семантического) содержания.

При получении запроса пользователя маршрутизатор анализирует его на смысловое соответствие заранее определенным категориям, таким как “вопросы по оплате”, “технические вопросы”, “трудоустройство” и т.д., Затем, в качестве интента пользователя, возвращается наиболее близкая по смыслу категория и в зависимости от этой категории запрос может быть обработан по-разным сценариям:

Обращение к базе знаний: Маршрутизатор может обратиться к базе знаний и, используя RAG, предоставить пользователю релевантную информацию. Это обеспечивает быстрый доступ к актуальным данным и позволяет пользователю самостоятельно найти ответ на свой вопрос.
Ответ в личные сообщения: Если запрос касается конкретной инструкции или руководства, маршрутизатор отправляет пользователю ссылку на соответствующий документ в личные сообщения.
Перенаправление на сервис: В случаях, когда запрос связан с навигацией по обучающим курсам или другим ресурсам на платформе, маршрутизатор перенаправляет пользователя на сервис с подсказками.
Игнорирование некоторых запросов: Для запросов, которые не требуют ответа или относятся к не поддерживаемым темам, маршрутизатор может автоматически игнорировать их, не перегружая систему и техническую поддержку.
Таким образом, маршрутизатор значительно ускоряет время реакции на запросы пользователей и снижает нагрузку на техническую поддержку, обеспечивая эффективное и точное направление запросов к соответствующим источникам информации или специалистам.

Семантическая маршрутизация
Вспомним пару определений...

Энкодер (Sentence Encoder) – это модель машинного обучения, которая преобразует тексты в числовые векторы, "кодирующие" смысл текстов (желающим, предлагаем, решить задачу на эмбеддинги товаров, чтобы лучше разобраться, что такое эмбеддинги, какие они бывают и с чем их едят). В результате, каждый запрос пользователя становится точкой в неком многомерном пространстве эмбеддингов.

Эмбеддинги (Embeddings) – собственно, числовые векторы, полученные из текстовых предложений с помощью энкодера предложений. Эти векторы представляют собой компактные числовые представления исходных текстов. Рассчитанное косинусное сходство между эмбеддингами позволяет нам легко определять и сравнивать смысловую близость текстов.

Косинусная близость (Cosine Similarity) – это степень сходства между двумя векторами, основанная на угле между ними в многомерном пространстве. Чем меньше угол между векторами, тем более похожими мы считаем два вектора (независимо от длины каждого).

Маршрут (Route) – категория запросов пользователей, объединённых общим "намерением" (интентом) и которую мы обрабатываем по одной и той же логике. Иначе говоря, запросы на каждый интент обрабатываются по-своему, вызывают свою функцию.

Что такое семантический маршрутизатор?
Семантический маршрутизатор — это специальный инструмент, который помогает понять, что хочет пользователь, когда он задаёт вопрос или делает запрос. Он работает, сравнивая смысл вопроса с заранее заданными категориями.

Как это работает?
Когда пользователь отправляет запрос, он преобразуется в эмбеддинг — уникальное числовое представление смысла запроса. Затем этот эмбеддинг сравнивается с эмбеддингами всех возможных категорий интентов. Для этого используется косинусное сходство, которое измеряет, насколько близко расположены эти эмбеддинги в многомерном пространстве. Побеждает та категория, у которой сходство максимально.

Пример для лучшего понимания
Представьте, что у вас есть множество ключей и замков. Каждый ключ — это запрос пользователя, преобразованный в уникальную форму (эмбеддинг), а каждый замок — это категория интентов с набором выражений. Семантический маршрутизатор работает как мастер-ключ, который подбирает замок, наиболее подходящий под форму ключа. Таким образом, он определяет, к какой категории отнести запрос.

Процесс работы
1. Определение маршрутов
Сначала мы создаем все возможные маршруты в системе. Каждый маршрут — это определённая категория вопросов, которые могут задать пользователи. В каждой категории есть примеры вопросов, которые туда относятся.

Примеры выражений маршрута Tech Support:

Что делать, если не приходит подтверждение на email?
Как устранить проблемы с воспроизведением видео?
Почему не отображаются прогресс и оценки?
Почему мой аккаунт не активирован?

2. Создание числовых представлений для маршрутов
Каждый вопрос из категорий переводится в числовую форму (эмбеддинг) с помощью специальной программы, называемой энкодер предложений.
3. Создание числового представления для запроса пользователя
Когда пользователь задает вопрос, этот вопрос тоже переводится в числовую форму с помощью того же энкодера.

4. Сравнение и выбор маршрута
Числовое представление вопроса пользователя сравнивается с представлениями всех маршрутов. Находим маршрут, который больше всего похож на вопрос пользователя. Если ни один маршрут не подходит достаточно хорошо, мы отмечаем запрос как "неизвестный интент".



# Задание
1. Создайте функцию для подключения энкодера
Напишите функцию init_sentence_encoder, которая подключит предварительно обученную модель SentenceTransformer из каталога моделей Hugging Face. Мы будем использовать уменьшенную версию BERT для русского языка — cointegrated/rubert-tiny2."

In [11]:
from sentence_transformers import SentenceTransformer

def init_sentence_encoder(model_name: str = 'cointegrated/rubert-tiny2') -> SentenceTransformer:
    """
    Initialize a SentenceTransformer model for encoding sentences.

    Parameters:
        model_name (str): The name of the model to load. Default is 'cointegrated/rubert-tiny2'.
            Model names can be found at the Hugging Face model hub: https://huggingface.co/models

    Returns:
        SentenceTransformer: An initialized SentenceTransformer model.

    Raises:
        ValueError: If the model name is empty.
        RuntimeError: If the model fails to load.
    """
    if not model_name:
        raise ValueError("Model name is empty")
    try:
        model = SentenceTransformer(model_name)
    except Exception as e:
        raise RuntimeError(f"Failed to load the model '{model_name}': {e}")
    return model

2. Создайте класс для маршрутов
Теперь создайте класс Route, который будет описывать определённое намерение пользователя и содержать список фраз, связанных с этим намерением.

При создании маршрута нужно будет рассчитать эмбеддинги для всех фраз, используя энкодер предложений, который вы сделали на первом шаге. Для удобства сохраните эти эмбеддинги как torch.Tensor (см. документацию метода encode).

Наименование маршрута и списки фраз не могут быть пустыми (см. приложенный шаблон).

In [12]:
from typing import List
import torch
from sentence_transformers import SentenceTransformer


In [13]:
class Route:
    """
    A class representing a route, which consists of a name and a list of sentences.

    Attributes:
        name (str): The name of the route.
        sentences (List[str]): A list of sentences representing the route.
        embeddings (torch.Tensor): Embeddings of the sentences generated by the SentenceTransformer.
    """
    def __init__(self, name: str, sentences: List[str]):
        """
        Initialize a Route instance.

        Parameters:
            name (str): The name of the route.
            sentences (List[str]): A list of sentences for the route.

        Raises:
            ValueError: If the route name is empty or the sentences list is empty or contains empty sentences.
            RuntimeError: If there is an error encoding the sentences.
        """
        if not name:
            raise ValueError("Route name cannot be empty.")
        if not sentences:
            raise ValueError("Sentences list cannot be empty.")
        if any(not sentence for sentence in sentences):
            raise ValueError("Sentences list cannot contain empty sentences.")
        
        self.name = name
        self.sentences = sentences
        model = init_sentence_encoder()
        try:
            self.embeddings = torch.tensor(model.encode(sentences))
        except Exception as e:
            raise RuntimeError(f"Error encoding sentences: {e}")


3. Создайте класс для семантического маршрутизатора
Теперь подготовим класс SemanticRouter. Этот класс будет содержать все ваши маршруты и помогать определять намерения пользователя по его запросу.

Запрос пользователя будет переводиться в эмбеддинг с помощью модели энкодера предложений. Затем мы будем сравнивать этот эмбеддинг с эмбеддингами всех маршрутов, чтобы найти тот, который больше всего похож на запрос.

Для сравнения используйте косинусное сходство — есть специальный метод для его расчёта между двумя тензорами (torch.Tensor) в модуле util.

Если запрос пользователя не достаточно похож на фразы в маршрутах, верните None - мы не можем уверенно сопоставить запрос с каким-либо из известных намерений.

In [14]:
class SemanticRouter:
    """
    A class representing a semantic router for classifying user intents.
    """
    def __init__(self, routes: List[Route]):
        """
        Initialize a SemanticRouter instance.

        Parameters:
            routes (List[Route]): A list of Route objects.
        """
        self.routes = routes

    def classify_intent(self, user_input: str, similarity_threshold: float = 0.8) -> str:
        """
        Classify the intent of a user input by comparing it to predefined routes.

        Parameters:
            user_input (str): The user's input to classify.
            similarity_threshold (float): The threshold for similarity to consider a match. Default is 0.8.

        Returns:
            str: The name of the best matching route if the similarity exceeds the threshold, otherwise None.
        """
        model = init_sentence_encoder()
        try:
            user_embedding = torch.tensor(model.encode([user_input]))
        except Exception as e:
            raise RuntimeError(f"Error encoding sentences: {e}")
 
        best_match = None
        highest_similarity = 0.0

        for route in self.routes:
            similarities = torch.nn.functional.cosine_similarity(user_embedding, route.embeddings)
            max_similarity = similarities.max().item()  

            if max_similarity > highest_similarity and max_similarity >= similarity_threshold:
                highest_similarity = max_similarity
                best_match = route.name

        return best_match
        

In [15]:
sentence_encoder = init_sentence_encoder()

b2c_support = Route(
    name="b2c_support",
    sentences=[
        "Какие способы оплаты вы принимаете?",
        "Как использовать промокод при оплате?",
        "Можно ли оплатить курс в рассрочку?",
        "Почему мне дважды списали деньги за курс?"
    ],
)

tech_support = Route(
    name="tech_support",
    sentences=[
        "Что делать, если не приходит подтверждение на email?",
        "Как устранить проблемы с воспроизведением видео?",
        "Почему не отображаются прогресс и оценки?",
        "Почему мой аккаунт не активирован?"
    ],
)

router = SemanticRouter([b2c_support, tech_support])

print(router.classify_intent('Как изменить способ оплаты?'))

model.safetensors:  45%|####4     | 52.4M/118M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/401 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/1.08M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.74M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

b2c_support


In [None]:
from typing import List
from sentence_transformers import SentenceTransformer, util


def init_sentence_encoder(model_name: str = 'cointegrated/rubert-tiny2') -> SentenceTransformer:
    """
    Initialize a SentenceTransformer model for encoding sentences.

    Parameters:
        model_name (str): The name of the model to load. Default is 'cointegrated/rubert-tiny2'.
            Model names can be found at the Hugging Face model hub: https://huggingface.co/models

    Returns:
        SentenceTransformer: An initialized SentenceTransformer model.

    Raises:
        ValueError: If the model name is empty.
        RuntimeError: If the model fails to load.
    """
    if not model_name.strip():
        raise ValueError('Model name cannot be empty.')

    try:
        model = SentenceTransformer(model_name)
    except Exception as e:
        raise RuntimeError(f"Failed to load '{model_name}'. Error: {e}")

    return model

sentence_encoder = init_sentence_encoder()


class Route:
    """
    A class representing a route, which consists of a name and a list of sentences.

    Attributes:
        name (str): The name of the route.
        sentences (List[str]): A list of sentences representing the route.
        embeddings (torch.Tensor): Embeddings of the sentences generated by the SentenceTransformer.
    """
    def __init__(self, name: str, sentences: List[str]):
        """
        Initialize a Route instance.

        Parameters:
            name (str): The name of the route.
            sentences (List[str]): A list of sentences for the route.

        Raises:
            ValueError: If the route name is empty or the sentences list is empty or contains empty sentences.
            RuntimeError: If there is an error encoding the sentences.
        """
        if not name.strip():
            raise ValueError('Route name cannot be empty.')

        if not sentences:
            raise ValueError("Route sentences list cannot be empty.")

        empty_sentences = all(phrase.strip() != '' for phrase in sentences)
        if not empty_sentences:
            raise ValueError("Route sentence cannot be empty.")

        self.name = name
        self.sentences = sentences

        try:
            self.embeddings = sentence_encoder.encode(sentences, convert_to_tensor=True)
        except Exception as e:
            raise RuntimeError(f"Error encoding route sentences: {e}")


class SemanticRouter:
    """
    A class representing a semantic router for classifying user intents.
    """
    def __init__(self, routes: List[Route]):
        """
        Initialize a SemanticRouter instance.

        Parameters:
            routes (List[Route]): A list of Route objects.
        """
        self.routes = routes

    def classify_intent(self, user_input: str, similarity_threshold: float = 0.8) -> str:
        """
        Classify the intent of a user input by comparing it to predefined routes.

        Parameters:
            user_input (str): The user's input to classify.
            similarity_threshold (float): The threshold for similarity to consider a match. Default is 0.8.

        Returns:
            str: The name of the best matching route if the similarity exceeds the threshold, otherwise None.
        """
        # Encode the user input into an embedding vector
        user_embedding = sentence_encoder.encode(user_input, convert_to_tensor=True)

        max_similarity = -1
        best_route = None

        # Iterate through all routes to find the highest similarity
        for route in self.routes:
            similarity = util.pytorch_cos_sim(user_embedding, route.embeddings)
            max_route_similarity = similarity.max().item()

            if max_route_similarity > max_similarity:
                max_similarity = max_route_similarity
                best_route = route

        # Check if the best route found exceeds the similarity threshold
        if best_route and max_similarity >= similarity_threshold:
            return best_route.name

         # Return None if no matching route is found
        return None
