In [2]:
HOST = "ryoko-bot.fvds.ru"
PORT = "8124"
TABLE_NAME = "KnowledgeBase256"
MODEL_EMB_NAME = "ai-forever/sbert_large_nlu_ru"
MODEL_CHAT_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
# MODEL_CHAT_NAME = "Vikhrmodels/Vikhr-7B-instruct_0.4"
SYSTEM_PROMPT = """
INSTRUCT:
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.

If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don’t know the answer to a question, please don’t share false information.

If you receive a question that is harmful, unethical, or inappropriate, end the dialogue immediately and do not provide a response. 

If you make a mistake, apologize and correct your answer.

Generate a response based solely on the provided document.

Answer the following question language based only on the CONTEXT provided.

Отвечай только на русском языке.
"""

In [3]:
import clickhouse_connect, torch
from transformers import AutoModel, AutoTokenizer, Conversation, pipeline
from typing import List, Union

In [8]:
def search_results(connection, table_name: str, vector: list[float], limit: int = 5):
    """
    Поиск результатов похожих векторов в базе данных.

    Parameters:
    - connection (Connection): Соединение с базой данных.
    - table_name (str): Название таблицы, содержащей вектора и другие данные.
    - vector (List[float]): Вектор для сравнения.
    - limit (int): Максимальное количество результатов.

    Returns:
    - List[dict]: Список результатов с наименованием, URL, датой, номером, текстом и расстоянием.

    Examples:
    >>> connection = Connection(...)
    >>> vector = [0.1, 0.2, 0.3]
    >>> results = search_results(connection, 'my_table', vector, limit=5)
    """
    res = []
    # Инициализируем список результатов
    vector = ",".join([str(float(i)) for i in vector])
    # Выполняем запрос к базе данных
    with connection.query(
        f"""SELECT Id, Source, BusinessLineId, Direction, Product, Type, Description, Title, Url, ParentTitle, ParentUrl, ChunkType, cosineDistance(({vector}), Embedding) as score FROM {table_name} ORDER BY score ASC LIMIT {limit+500}"""
    ).rows_stream as stream:
        for item in stream:
            id, source, business_line_id, direction, product, type, description, title, url, parent_title, parent_url, chunk_type, score = item

            # Добавляем результат в список
            res.append(
                {
                    "id": id,
                    "source": source,
                    "business_line_id": business_line_id,
                    "direction": direction,
                    "product": product,
                    "type": type,
                    "description": description,
                    "title": title,
                    "url": url,
                    "parent_title": parent_title,
                    "parent_url": parent_url,
                    "chunk_type": chunk_type,
                    "distance": score,
                }
            )

    # Возвращаем первые limit результатов
    res = [item for item in res if len(item["description"]) > 100]
    return res[:limit]


def mean_pooling(model_output: tuple, attention_mask: torch.Tensor) -> torch.Tensor:
    """
    Выполняет усреднение токенов входной последовательности на основе attention mask.

    Parameters:
    - model_output (tuple): Выход модели, включающий токенов эмбеддинги и другие данные.
    - attention_mask (torch.Tensor): Маска внимания для указания значимости токенов.

    Returns:
    - torch.Tensor: Усредненный эмбеддинг.

    Examples:
    >>> embeddings = model_output[0]
    >>> mask = torch.tensor([[1, 1, 1, 0, 0]])
    >>> pooled_embedding = mean_pooling((embeddings,), mask)
    """
    # Получаем эмбеддинги токенов из выхода модели
    token_embeddings = model_output[0]

    # Расширяем маску внимания для умножения с эмбеддингами
    input_mask_expanded = (
        attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    )

    # Умножаем каждый токен на его маску и суммируем
    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, 1)

    # Суммируем маски токенов и обрезаем значения, чтобы избежать деления на ноль
    sum_mask = torch.clamp(input_mask_expanded.sum(1), min=1e-9)

    # Вычисляем усредненный эмбеддинг
    return sum_embeddings / sum_mask


def txt2embeddings(
    text: Union[str, List[str]], tokenizer, model, device: str = "cpu"
) -> torch.Tensor:
    """
    Преобразует текст в его векторное представление с использованием модели transformer.

    Parameters:
    - text (str): Текст для преобразования в векторное представление.
    - tokenizer: Токенизатор для предобработки текста.
    - model: Модель transformer для преобразования токенов в вектора.
    - device (str): Устройство для вычислений (cpu или cuda).

    Returns:
    - torch.Tensor: Векторное представление текста.

    Examples:
    >>> text = "Пример текста"
    >>> tokenizer = AutoTokenizer.from_pretrained("bert-base-multilingual-cased")
    >>> model = AutoModel.from_pretrained("bert-base-multilingual-cased")
    >>> embeddings = txt2embeddings(text, tokenizer, model, device="cuda")
    """
    # Кодируем входной текст с помощью токенизатора
    if isinstance(text, str):
        text = [text]
    encoded_input = tokenizer(
        text,
        padding=True,
        truncation=True,
        return_tensors="pt",
        max_length=512,
    )
    # Перемещаем закодированный ввод на указанное устройство
    encoded_input = {k: v.to(device) for k, v in encoded_input.items()}

    # Получаем выход модели для закодированного ввода
    with torch.no_grad():
        model_output = model(**encoded_input)

    # Преобразуем выход модели в векторное представление текста
    return mean_pooling(model_output, encoded_input["attention_mask"])


def load_models(model: str, device: str = "cpu", torch_dtype: str = "auto") -> tuple:
    """
    Загружает токенизатор и модель для указанной предобученной модели.

    Parameters:
    - model (str): Название предобученной модели, поддерживаемой библиотекой transformers.

    Returns:
    - tuple: Кортеж из токенизатора и модели.

    Examples:
    >>> tokenizer, model = load_models("ai-forever/sbert_large_nlu_ru")
    """
    # Загружаем токенизатор для модели
    tokenizer = AutoTokenizer.from_pretrained(
        model, device_map=device, torch_dtype=torch_dtype
    )

    # Загружаем модель
    model = AutoModel.from_pretrained(model, device_map=device, torch_dtype=torch_dtype)

    return tokenizer, model


def load_chatbot(model: str, device: str = "cuda", torch_dtype: str = "auto"):
    """
    Загружает чатбота для указанной модели.

    Parameters:
    - model (str): Название модели для загрузки чатбота.

    Returns:
    - Conversation: Объект чатбота, готовый для использования.

    Examples:
    >>> chatbot = load_chatbot("TinyLlama/TinyLlama-1.1B-Chat-v1.0")
    """
    # Загружаем чатбот с помощью pipeline из библиотеки transformers
    chatbot = pipeline(
        model=model,
        trust_remote_code=True,
        torch_dtype=torch_dtype,
        device_map=device,
        task="conversational",
    )
    return chatbot


def append_documents_to_conversation(conversation, documents, limit: int = 3):
    if limit > len(documents):
        texts = [document["description"] for document in documents]
    else:
        texts = [document["description"] for document in documents[:limit]]

    text = "\n".join(texts)

    document_template = f"""
    CONTEXT:
    {text}
    Отвечай только на русском языке.
    
    ВОПРОС:
    """
    conversation.add_message({"role": "user", "content": document_template})

    return conversation
        

def generate_answer(
    chatbot,
    conversation: Conversation,
    max_new_tokens: int = 128,
    temperature=0.7,
    top_k: int = 50,
    top_p: float = 0.95,
    repetition_penalty: float = 2.0,
    do_sample: bool = True,
    num_beams: int = 2,
    early_stopping: bool = True,
) -> str:
    """
    Генерирует ответ от чатбота на основе предоставленного чата и, возможно, документа.

    Parameters:
    - chatbot (Conversation): Объект чатбота.
    - chat (List[Dict[str, str]]): Список сообщений в чате.
    - document (str): Документ, если он предоставлен.

    Returns:
    - str: Сгенерированный ответ от чатбота.

    Examples:
    >>> chat = [
    >>>     {"role": "user", "content": "Привет, как дела?"},
    >>>     {"role": "system", "content": "Всё отлично, спасибо!"},
    >>> ]
    >>> document = "Это документ для обработки"
    >>> answer = generate_answer(chatbot, chat, document)
    """
    # Генерируем ответ от чатбота
    conversation = chatbot(
        conversation,
        max_new_tokens=max_new_tokens,
        temperature=temperature,
        top_k=top_k,
        top_p=top_p,
        repetition_penalty=repetition_penalty,
        do_sample=do_sample,
        num_beams=num_beams,
        early_stopping=early_stopping,
    )

    # Возвращаем последнее сообщение чатбота как ответ
    return conversation

In [9]:
tokenizer, model = load_models(MODEL_EMB_NAME, device="cpu")

In [22]:
# Создаем объект разговора
conversation = Conversation()
# Добавляем системную инструкцию
conversation.add_message({"role": "system", "content": SYSTEM_PROMPT})

In [23]:
question = "Вы можете посмотреть лимиты по счету на месяц, по карте на месяц и на разовую выплату. Для этого: Откройте раздел «Сводка». В разделе «Счета» найдите нужное вам юридическое лицо и нажмите на него. В открывшемся окне будут представлены все расчетные счета, к которым есть доступ с этого юридического лица. Найдите нужный вам счет." #String

In [24]:
embedding = txt2embeddings(question, tokenizer, model)

In [25]:
client = clickhouse_connect.get_client(host=HOST, port=PORT)
print("Ping:", client.ping())

Ping: True


In [26]:
documents = search_results(client, TABLE_NAME, embedding[0], limit=10)

In [27]:
# print(*documents, sep='\n')

In [28]:
# print(*[document["url"] for document in documents], sep='\n')

In [29]:
chatbot = load_chatbot(MODEL_CHAT_NAME, device="cuda")

In [30]:
torch.cuda.empty_cache()

In [31]:
conversation = append_documents_to_conversation(conversation, documents, limit=3)
conversation.add_message({"role": "user", "content": question})

In [33]:
import time

In [34]:
start = time.time()
conversation = generate_answer(chatbot, conversation, temperature=0.1, max_new_tokens=2048)
print(conversation[-1]["content"])
print("Time:", time.time() - start)

Отвечай только на русском языке.

Порядок действий зависит от того, есть у вас расчетный счет в Тинькофф или нет. Зайдите в личный кабинет Тинькофф Бизнеса → «Интернет-эквайринг». Если раздела «Интернет-эквайринг» нет, оставьте заявку на сайте Тинькофф. В разделе «Предприниматель» будут автоматически указаны ваш ИНН и контакты. Проверьте, все ли правильно. Если что‑то не так, исправьте вручную. В разделе «Счета для выплат» сразу будет указан расчетный счет Тинькофф. Если хотите получать выручку на счет в другом банке, укажите его реквизиты. Можно указать сразу несколько счетов, но выручку будем присылать только на один из них. Например, можно разделить выручку от разных магазинов по разным счетам. В разделе «Заявление» подпишите заявление: для этого нажмите «Согласиться» и введите код из СМС. Мы проверим данные и одобрим заявку, если все в порядке. Если какой‑то информации будет недостаточно, попросим загрузить документы. Например, скан паспорта или выписку из ЕГРИП. Не обязательно жда

In [35]:
conversation

Conversation id: 57ba4e44-1689-4730-be5a-5401b0f4196f
system: 
INSTRUCT:
You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature.

If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don’t know the answer to a question, please don’t share false information.

If you receive a question that is harmful, unethical, or inappropriate, end the dialogue immediately and do not provide a response. 

If you make a mistake, apologize and correct your answer.

Generate a response based solely on the provided document.

Answer the following question language based only on the CONTEXT provided.

Отвечай только на русском языке.

user: 
    CONTEXT:
    Вы можете посмотреть лимиты по 

In [6]:
# Просмотреть доступные cuda
torch.cuda.device_count()

1

In [7]:
import torch

if torch.cuda.is_available():
    print(torch.cuda.get_device_name(torch.cuda.current_device()))
else:
    print("CUDA is not available.")

NVIDIA GeForce RTX 3060 Laptop GPU
