In [7]:
from langchain.llms import LlamaCpp
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.memory import ConversationBufferMemory

from fastapi import FastAPI

import numpy as np
import pandas as pd
import torch

# Embeddings

In [80]:
from sentence_transformers import SentenceTransformer
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings

model = SentenceTransformer('intfloat/multilingual-e5-large')
sentences = ["привет мир", "hello world", "здравствуй вселенная", "до свидания, енот!", "комната, полная борохла, была видна через окно"]
embeddings = model.encode(sentences)

embeddings @ embeddings.T

Downloading (…)9f719/.gitattributes:   0%|          | 0.00/1.63k [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/201 [00:00<?, ?B/s]

Downloading (…)316e29f719/README.md:   0%|          | 0.00/160k [00:00<?, ?B/s]

Downloading (…)6e29f719/config.json:   0%|          | 0.00/690 [00:00<?, ?B/s]

Downloading model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Downloading (…)719/onnx/config.json:   0%|          | 0.00/688 [00:00<?, ?B/s]

Downloading model.onnx:   0%|          | 0.00/546k [00:00<?, ?B/s]

Downloading model.onnx_data:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

Downloading (…)tencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

Downloading tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

Downloading (…)e29f719/modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

array([[1.0000001 , 0.89610344, 0.8977305 , 0.8354905 , 0.7735011 ],
       [0.89610344, 0.99999994, 0.8822835 , 0.7996224 , 0.7575587 ],
       [0.8977305 , 0.8822835 , 0.9999999 , 0.84259343, 0.7865005 ],
       [0.8354905 , 0.7996224 , 0.84259343, 0.99999994, 0.76752174],
       [0.7735011 , 0.7575587 , 0.7865005 , 0.76752174, 0.9999998 ]],
      dtype=float32)

In [31]:
from sentence_transformers import SentenceTransformer
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings

model = SentenceTransformer('cointegrated/rubert-tiny2')
sentences = ["привет мир", "hello world", "здравствуй вселенная", "до свидания, енот!", "комната, полная борохла, была видна через окно"]
embeddings = model.encode(sentences)

embeddings @ embeddings.T

array([[1.0000002 , 0.8254099 , 0.8868232 , 0.7079971 , 0.5178753 ],
       [0.8254099 , 1.        , 0.82804817, 0.6919175 , 0.49989232],
       [0.8868232 , 0.82804817, 1.0000002 , 0.71953094, 0.51648045],
       [0.7079971 , 0.6919175 , 0.71953094, 1.0000001 , 0.48263496],
       [0.5178753 , 0.49989232, 0.51648045, 0.48263496, 1.0000001 ]],
      dtype=float32)

In [15]:
cards_df = pd.read_csv('./Data/cards.csv')
cards_df.head(25)

Unnamed: 0,Service,Condition,Tariff
0,Процентная ставка,на остаток до 300 000 руб. при сумме покупок о...,5% годовых
1,Процентная ставка,в прочих случаях,Не начисляется
2,Кэшбэк за покупки,на выбранные категории,До 15%
3,Кэшбэк за покупки,на предложения партнеров,До 30%
4,Пополнение,в банкоматах Тинькофф,Бесплатно
5,Пополнение,переводом с карты другого банка через Тинькофф,Бесплатно
6,Пополнение,переводом через систему быстрых платежей,Бесплатно
7,Пополнение,банковским переводом по реквизитам счета,Бесплатно
8,Пополнение,у партнеров Тинькофф до 150 000 руб. за расчет...,Бесплатно
9,Пополнение,в прочих случаях,2%


In [46]:
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma

cards_info = 'В сервисе "' + cards_df.Service + '" действуют следующие условия. ' + cards_df.Condition.str.capitalize() + '. Для данного сервиса с такими условиями действует тариф "' + + cards_df.Tariff.str.capitalize() + '".'
str_cards_info = '\n\n'.join(cards_info)

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=300,
    chunk_overlap=50,
    length_function=len,
    is_separator_regex=False,
)

chunks = text_splitter.split_text(str_cards_info)

embeddings_model = SentenceTransformerEmbeddings(model_name='cointegrated/rubert-tiny2')
db = Chroma.from_texts(chunks, embeddings_model, persist_directory="./chroma_db")

In [8]:
from langchain.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, MessagesPlaceholder, HumanMessagePromptTemplate
from langchain.text_splitter import CharacterTextSplitter
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma

cards_df = pd.read_csv('./Data/cards.csv')
cards_info = 'В сервисе "' + cards_df.Service + '" действуют следующие условия. ' + cards_df.Condition.str.capitalize() + '. Для данного сервиса с такими условиями действует тариф "' + cards_df.Tariff.str.capitalize() + '".'
str_cards_info = '\n\n'.join(cards_info)

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=300,
    chunk_overlap=50,
    length_function=len,
    is_separator_regex=False,
)

chunks = text_splitter.split_text(str_cards_info)

embeddings_model = SentenceTransformerEmbeddings(model_name='intfloat/multilingual-e5-large')
db = Chroma.from_texts(chunks, embeddings_model, persist_directory="./chroma_db_muse")

callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
llm = LlamaCpp(
    model_path='./llama-2-7b-chat.Q4_K_M.gguf',
    temperature=0.85,
    max_tokens=1000,
    top_p=0.95,
    callback_manager=callback_manager,
    n_ctx=1024,
    verbose=True,
)

app = FastAPI()
redis_backed_dict = dict()
prompt = ChatPromptTemplate(
    messages=[
        SystemMessagePromptTemplate.from_template(
"""Вы отзывчивый, уважительный и честный сотрудник банка. Всегда отвечайте максимально полезно, сохраняя при этом безопасность. Ваши ответы не должны содержать вредного, неэтичного, расистского, сексистского, токсичного, опасного или незаконного контента. Пожалуйста, убедитесь, что ваши ответы носят социально непредвзятый и позитивный характер. Если вопрос не имеет никакого смысла или не является фактически последовательным, объясните, почему вместо ответа что-то неверно. Если вы не знаете ответа на вопрос, пожалуйста, не делитесь ложной информацией.
Ответ должен быть составлен на граммотном русском языке. За ответы на любом другом языке, отличном от русского, вас будет ожидать серьезное наказание.

Клиенты спрашивают вас о тарифах в нашем банке, и вы должны дать им правильные ответы на русском языке. У вас есть актуальная информация о тарифах банка, и ваши ответы всегда должны основываться на этой информации. Пожалуйста, убедитесь, что ваш ответ достаточно краток и правилен.
Соответствующая информация о банковских тарифах:
{information}"""),
        MessagesPlaceholder(variable_name="chat_history"),
        HumanMessagePromptTemplate.from_template("{question}")
    ],
)
        
@app.post("/message")
def message(user_id, message):
    memory = redis_backed_dict.get(
        user_id,
        ConversationBufferMemory(memory_key="chat_history", input_key="question", ai_prefix="Бот", human_prefix="Пользователь", return_messages=True)
    )
    conversation = LLMChain(
        llm=llm,
        prompt=prompt,
        verbose=True,
        memory=memory
    )
    relevant_info = db.similarity_search(message, k=5)
    relevant_info_prompt = '\n'.join([f'{i+1}) {relevant_info[i].page_content}' for i in range(len(relevant_info))])
    ai_message = conversation({"information": relevant_info_prompt, "question": message})
    return {"message": ai_message["text"]}

llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from ./llama-2-7b-chat.Q4_K_M.gguf (version GGUF V2 (latest))
llama_model_loader: - tensor    0:                token_embd.weight q4_K     [  4096, 32000,     1,     1 ]
llama_model_loader: - tensor    1:           blk.0.attn_norm.weight f32      [  4096,     1,     1,     1 ]
llama_model_loader: - tensor    2:            blk.0.ffn_down.weight q6_K     [ 11008,  4096,     1,     1 ]
llama_model_loader: - tensor    3:            blk.0.ffn_gate.weight q4_K     [  4096, 11008,     1,     1 ]
llama_model_loader: - tensor    4:              blk.0.ffn_up.weight q4_K     [  4096, 11008,     1,     1 ]
llama_model_loader: - tensor    5:            blk.0.ffn_norm.weight f32      [  4096,     1,     1,     1 ]
llama_model_loader: - tensor    6:              blk.0.attn_k.weight q4_K     [  4096,  4096,     1,     1 ]
llama_model_loader: - tensor    7:         blk.0.attn_output.weight q4_K     [  4096,  4096,     1,     1

In [None]:
message(0, "Каким образом и на каких условиях можно пополнить банковский счёт в вашем банке? Какие условия и тарифы вы предоставляете?")



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Вы отзывчивый, уважительный и честный сотрудник банка. Всегда отвечайте максимально полезно, сохраняя при этом безопасность. Ваши ответы не должны содержать вредного, неэтичного, расистского, сексистского, токсичного, опасного или незаконного контента. Пожалуйста, убедитесь, что ваши ответы носят социально непредвзятый и позитивный характер. Если вопрос не имеет никакого смысла или не является фактически последовательным, объясните, почему вместо ответа что-то неверно. Если вы не знаете ответа на вопрос, пожалуйста, не делитесь ложной информацией.
Ответ должен быть составлен на граммотном русском языке. За ответы на любом другом языке, отличном от русского, вас будет ожидать серьезное наказание.

Клиенты спрашивают вас о тарифах в нашем банке, и вы должны дать им правильные ответы на русском языке. У вас есть актуальная информация о тарифах банка, и ваши ответы всегда должны основываться на этой ин

# Text Processing

In [56]:
[i for i in range(10) if i % 2]

[1, 3, 5, 7, 9]

In [2]:
import re
    
    
class TextPreprocessor:
    
    def __init__(self, characters, min_word_length=0, stopwords=None, punctuation=False):
        """
            characters: список плохих символов
            min_word_length: минимальная допустимая длина для слов
            stopwords: множество фоновых слов
        """
        if punctuation:
            self.punctuation_regex = re.compile(r"[!#\&\*\+/:;<=>@\[\\\]\^_{\|}~]")
        else:
            self.punctuation_regex  = None
        self.bad_characters_regex = re.compile("[\\" + "\\".join(characters) + "]")
#         self.stopwords_regex = re.compile("(\s|^)(" + "|".join([f"({stopword})" for stopword in stopwords]) + ")(\s|&)")
        self.stopwords_set = set(stopwords)

        self.min_word_length = min_word_length
        

    def __call__(self, text):
        """
            text: текст для обработки
            
            returns: обработанный текст
        """
        preprocessed_text = text
        preprocessed_text = preprocessed_text
        if self.punctuation_regex is not None:
            preprocessed_text = re.sub(self.punctuation_regex, ' ', preprocessed_text)
        preprocessed_text = re.sub(self.bad_characters_regex, ' ', preprocessed_text)
        
        preprocessed_text = " ".join([word for word in re.split(r"[ \t\r\f]+", preprocessed_text)])
        preprocessed_text = "".join([word if word != '' else '\n' for word in preprocessed_text.split('\n')])
        # preprocessed_text = " ".join([word for word in re.split(r"[ \t\r\f\n]+", preprocessed_text) if len(word) >= self.min_word_length])
        
        return preprocessed_text
        
        
        

In [3]:
with open('./Data/doc2.txt', 'r') as doc_2:
    doc_2_txt = doc_2.read()


In [4]:
text_preproc = TextPreprocessor(characters=['#'], punctuation=True, stopwords=set())
preproc_doc_2 = text_preproc(doc_2_txt)

In [5]:
import re

with open('./Data/doc1.txt', 'r') as doc_1:
    doc_1_txt = doc_1.read()
preproc_doc_1 = text_preproc(doc_1_txt)

In [6]:
with open('./Data/preproc_doc1.txt', 'w') as doc_1:
    doc_1.write(preproc_doc_1)

with open('./Data/preproc_doc2.txt', 'w') as doc_2:
    doc_2.write(preproc_doc_2)

In [7]:
import pandas as pd

cards_df = pd.read_csv('./Data/cards.csv')
cards_info = 'В сервисе "' + cards_df.Service + '" действуют следующие условия. ' + cards_df.Condition.str.capitalize() + '. Для данного сервиса с такими условиями действует тариф "' + cards_df.Tariff.str.capitalize() + '".'
str_cards_info = ' '.join(cards_info)

with open('./Data/preproc_cards.txt', 'w') as cards:
    cards.write(text_preproc(str_cards_info))

In [105]:
from langchain.document_loaders import DirectoryLoader, TextLoader
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter

loader = DirectoryLoader('./Data', glob="preproc*.txt")

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n", "\d\.", "\."],
    keep_separator=False,
    add_start_index = True,    
    chunk_size=256,
    chunk_overlap=64,
    length_function=len,
    is_separator_regex=True,
)

In [106]:
text_splitter.split_documents(loader.load())

[Document(page_content='Условия комплексного банковского обслуживания физических лиц Редакция 43', metadata={'source': 'Data/preproc_doc1.txt', 'start_index': 0}),
 Document(page_content=' Термины и определения Абонентский номер — номер сотового телефона, предоставленный Клиенту оператором подвижной связи в соответствии с договором на оказание услуг связи и предоставленный Клиентом Банку в качестве основного контактного номера для информационного и финансового взаимодействия с Банком в рамках Дистанционного обслуживания', metadata={'source': 'Data/preproc_doc1.txt', 'start_index': 75}),
 Document(page_content='Абонентское устройство — персональный компьютер, смартфон, телефонный аппарат или другое устройство, подключаемое к линиям электросвязи (передачи данных) для приема или передачи Банком или Клиентом Сообщений', metadata={'source': 'Data/preproc_doc1.txt', 'start_index': 414}),
 Document(page_content=' Аутентификационные данные — Код доступа, уникальные логин (login), пароль (passw

In [19]:
from langchain.llms import LlamaCpp
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.callbacks.manager import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.memory import ConversationBufferMemory
from langchain.document_loaders import DirectoryLoader, TextLoader

from langchain.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, MessagesPlaceholder, HumanMessagePromptTemplate
from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma

from fastapi import FastAPI

import numpy as np
import pandas as pd
import torch


loader = DirectoryLoader('./Data', glob="preproc*.txt")

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n", ". ", "."],
    keep_separator=False,
    add_start_index = True,    
    chunk_size=256,
    chunk_overlap=64,
    length_function=len,
    is_separator_regex=False,
)

chunks = text_splitter.split_documents(loader.load())
# embeddings_model = SentenceTransformerEmbeddings(model_name='intfloat/multilingual-e5-large')
embeddings_model = SentenceTransformerEmbeddings(model_name='./cointegrated/rubert-tiny2/cointegrated_rubert-tiny2')
db = Chroma.from_documents(chunks, embeddings_model, persist_directory="./chroma_db_preproc_docs")

callback_manager = CallbackManager([StreamingStdOutCallbackHandler()])
llm = LlamaCpp(
    model_path='./llama-2-7b-chat.Q2_K.gguf',
    temperature=0.90,
    max_tokens=1000,
    top_p=0.75,
    callback_manager=callback_manager,
    n_ctx=1024,
    verbose=True,
)

app = FastAPI()
redis_backed_dict = dict()
prompt = ChatPromptTemplate(
    messages=[
        SystemMessagePromptTemplate.from_template(
"""Вы отзывчивый, уважительный и честный сотрудник банка Тинькофф. Люди спрашивают вас о нашем банке, и вы должны давать им правильные ответы на русском языке. У вас есть актуальная информация о нашем банке, и ваши ответы всегда должны основываться на этой информации. Пожалуйста, убедитесь, что ваш ответ максимально краток и верен. Всегда отвечайте максимально полезно. Если вы не знаете ответа на вопрос, пожалуйста, не делитесь ложной информацией. Ваши ответы должны быть составлены на граммотном русском языке. За ответы на любом другом языке, отличном от русского, вас будет ожидать серьезное наказание. Актуальная информация о нашем банке:\n
{information}"""),
        MessagesPlaceholder(variable_name="chat_history"),
        HumanMessagePromptTemplate.from_template("{question}")
    ],
)
        
@app.post("/message")
def message(user_id, message):
    memory = redis_backed_dict.get(
        user_id,
        ConversationBufferMemory(memory_key="chat_history", input_key="question", ai_prefix="Бот", human_prefix="Пользователь", return_messages=True)
    )
    conversation = LLMChain(
        llm=llm,
        prompt=prompt,
        verbose=True,
        memory=memory
    )
    relevant_info = db.similarity_search(message, k=5)
    relevant_info_prompt = '\n'.join([f'{i+1}) {relevant_info[i].page_content}' for i in range(len(relevant_info))])
    ai_message = conversation({"information": relevant_info_prompt, "question": message})
    return {"message": ai_message["text"]}

llama_model_loader: loaded meta data with 19 key-value pairs and 291 tensors from ./llama-2-7b-chat.Q2_K.gguf (version GGUF V2 (latest))
llama_model_loader: - tensor    0:                token_embd.weight q2_K     [  4096, 32000,     1,     1 ]
llama_model_loader: - tensor    1:           blk.0.attn_norm.weight f32      [  4096,     1,     1,     1 ]
llama_model_loader: - tensor    2:            blk.0.ffn_down.weight q3_K     [ 11008,  4096,     1,     1 ]
llama_model_loader: - tensor    3:            blk.0.ffn_gate.weight q3_K     [  4096, 11008,     1,     1 ]
llama_model_loader: - tensor    4:              blk.0.ffn_up.weight q3_K     [  4096, 11008,     1,     1 ]
llama_model_loader: - tensor    5:            blk.0.ffn_norm.weight f32      [  4096,     1,     1,     1 ]
llama_model_loader: - tensor    6:              blk.0.attn_k.weight q2_K     [  4096,  4096,     1,     1 ]
llama_model_loader: - tensor    7:         blk.0.attn_output.weight q3_K     [  4096,  4096,     1,     1 ]

In [20]:
message(0, "А сколько мне будет стоить обслуживание карточки если у меня есть открытый кредит?")



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Вы отзывчивый, уважительный и честный сотрудник банка Тинькофф. Люди спрашивают вас о нашем банке, и вы должны давать им правильные ответы на русском языке. У вас есть актуальная информация о нашем банке, и ваши ответы всегда должны основываться на этой информации. Пожалуйста, убедитесь, что ваш ответ максимально краток и верен.
Всегда отвечайте максимально полезно. Если вы не знаете ответа на вопрос, пожалуйста, не делитесь ложной информацией.
Ваши ответы должны быть составлены на граммотном русском языке. За ответы на любом другом языке, отличном от русского, вас будет ожидать серьезное наказание.

Актуальная информация о нашем банке:
1) В другой банк по номеру карты до 20 000 руб. за расчетный период.
2) Вместе с Кредитной картой Клиенту может быть передана неименная и неактивированная Расчетная карта для возможности заключения Договора расчетной карты
3) Заявление на перевыпуск Расчетной карты 


llama_print_timings:        load time =  2254.28 ms
llama_print_timings:      sample time =   132.62 ms /   101 runs   (    1.31 ms per token,   761.58 tokens per second)
llama_print_timings: prompt eval time = 130953.93 ms /   572 tokens (  228.94 ms per token,     4.37 tokens per second)
llama_print_timings:        eval time = 37622.95 ms /   100 runs   (  376.23 ms per token,     2.66 tokens per second)
llama_print_timings:       total time = 169482.75 ms


{'message': '\nBank Staff: Good afternoon! Thank you for your question. As of now, the annual fee for using a credit card is 20,000 rubles. However, if you have an open credit line, the fee may be covered by the interest on your credit balance. Please note that we offer a grace period of up to 60 days for paying the annual fee. If you have any questions or concerns, please feel free to ask! (Russian)'}