In [1]:
!pip3 install pydantic clickhouse-driver sentence_transformers -q

In [2]:
!pip3 install -U transformers -q

# Разделение текста
Мы написали класс для разделения текста на чанки по размеру максимального количества токенов в энкодере.

В качестве энкодера - ruRoPeBerta-e5-base

In [3]:
from textsplitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", " ", ""],
    chunk_size=2048,
    chunk_overlap=409,
    length_function=len,
)

In [4]:
mongo_uri = "mongodb://user:password@localhost:27017/"

In [5]:
from pymongo import MongoClient
import pymongo

client = MongoClient(mongo_uri)
materials = client["cbr"].get_collection("materials_copy") # загрузка данных из бд

In [6]:
res = materials.find({"invalid": False}).sort(key_or_list=[("doc", pymongo.ASCENDING)])

In [7]:
from collections import namedtuple

material = namedtuple("material", ["doc", "page", "text", "src"])

docs = [
    material(obj["doc"], obj["page"], obj["text"], obj["src"]) for obj in
    res
]

In [8]:
from textsplitter import Document
_docs = [
    Document(page_content=doc.text, metadata={
        "src":doc.src
    })
    for doc in docs
]

In [9]:
result = splitter.split_documents(
    _docs,
)

In [10]:
result[0]

Document(page_content='ЦЕНТРАЛЬНЫЙ БАНК РОССИЙСКОЙ ФЕДЕРАЦИИ (БАНК РосСИИ) 19 января 2016 3941-У МУНИСТЕРСТВО ЮСТИЦИН РОССЯЙСКОЙ ФЕЛЕГАЦИН Москва ЗАРЕГИСТРИРОВАНО УК А РенФрвционный # 214093 "45 ж@?€ 0 внесении изменений в приложение 1 к Указанию Банка России от 3 декабря 2012 года )? 2919-У <0б оценке качества управления кредитной организации; осуществляющей функции центрального контрагентах Внести приложение Указанию Банка России от 3 декабря 2012 ) 2919-У <06 оценке качества управления кредитной организации; осуществляющей функции центрального контрагента>, зарегистрированному Министерством юстиции Российской Федерации 21 декабря 2012 года ) 26273, 18 сентября 2014 года \' 34094, 10 декабря 2014 года &&   35118, 30 апреля   2015 года  37087, октября   2015 года & 39153 (ФВестник Банка Россиих от 28 декабря 2012 года & 77, от ] октября 2014 года   ) 87, ОТ 22  декабря 2014 года )\' 112, От 14 мая 2015 года Ж 42,от 12 октября 2015 года &\' 86), следующие изменения: 1.1. Строки 15 и 16

# Vector Store
В качестве хранения эмбеддингов, мы используем Clickhouse.
Для этого мы написали класс *VectoreStore* с методами:
- создание таблицы
- создание эмбеддингов
- поиск ближайщих к запросу

In [11]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("intfloat/multilingual-e5-large")
model.eval()

  from .autonotebook import tqdm as notebook_tqdm
No sentence-transformers model found with name Tochka-AI/ruRoPEBert-e5-base-2k. Creating a new one with MEAN pooling.
Some weights of BertModel were not initialized from the model checkpoint at Tochka-AI/ruRoPEBert-e5-base-2k and are newly initialized: ['bert.embeddings.position_embeddings.weight', 'bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


SentenceTransformer(
  (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

In [12]:
clickhouse_uri = "clickhouse://user:password@localhost:9000/default"

In [13]:
from store import VectorStore
vector_store = VectorStore(clickhouse_uri, model, table_name="vector_search_e5")

In [14]:
len(result)

39134

In [15]:
def get_chunks(a, n):
    k, m = divmod(len(a), n)
    return list(a[i * k + min(i, m) : (i + 1) * k + min(i + 1, m)] for i in range(n))

In [16]:
chunked = get_chunks(result, 32)

In [17]:
type(chunked[0])

list

создание таблицы в clickhouse

In [46]:
vector_store.create_table()

создание эмбеддингов

In [49]:
for ch in chunked[16:]:
    vector_store.create_embs(ch)

100%|██████████| 1223/1223 [00:17<00:00, 71.77it/s]
100%|██████████| 1223/1223 [00:18<00:00, 66.31it/s]
100%|██████████| 1223/1223 [00:15<00:00, 77.81it/s]
100%|██████████| 1223/1223 [00:15<00:00, 79.32it/s]
100%|██████████| 1223/1223 [00:14<00:00, 81.79it/s]
100%|██████████| 1223/1223 [00:13<00:00, 87.36it/s]
100%|██████████| 1223/1223 [00:15<00:00, 76.77it/s]
100%|██████████| 1223/1223 [00:16<00:00, 74.37it/s]
100%|██████████| 1223/1223 [00:15<00:00, 78.55it/s]
100%|██████████| 1223/1223 [00:15<00:00, 78.13it/s]
100%|██████████| 1223/1223 [00:17<00:00, 71.72it/s] 
100%|██████████| 1223/1223 [00:16<00:00, 74.11it/s]
100%|██████████| 1223/1223 [00:17<00:00, 71.94it/s]
100%|██████████| 1223/1223 [00:16<00:00, 75.03it/s]
100%|██████████| 1222/1222 [00:16<00:00, 75.15it/s]
100%|██████████| 1222/1222 [00:16<00:00, 75.33it/s]


пример работы ретривера по запросу:

In [18]:
import pprint

query = "Что такое банковская ликвидность? Как банки ее используют?"
retrieved_documents = vector_store.search_similarity(query=query, k=5)
for r in retrieved_documents:
    pprint.pprint(r[0])
    pprint.pprint(r[1])
    pprint.pprint(r[3])
    print()

('распоряжений использованием сервиса срочного перевода сервиса несрочного   '
 'перевода; информацию сумме ликвИдносТИ ДЛЯ быстрых платсжсй, установленной '
 'участником СБП или Банком России результате исполнения последнего запроса об '
 'управлении ликвидностью текущего операционного дня; виде   извещения; '
 'содержащего сумму ликвидности длЯ быстрых платежей момент формирования '
 'извещения сумму ликвидностИ ДЛЯ быстрых платежей; установленную участником '
 'СБП или Банком России результате исполнения последнего запроса об управлении '
 'ликвидностью текущего операционного дня >')
'https://www.cbr.ru/Queries/UniDbQuery/File/90134/694'
8.344725816776014

('обязательные резервы кредитной организации со счета по учету обязательных '
 'резервов; Том числе сумму недовзноса; списанного корреспондентских счетов '
 'кредитной организации до дня размещения текста приказа Банка об '
 'аннулировании лицензии на осуществление банковских   операций кредитной '
 'организации на сайте Банка Рос

# LLM для генерации ответа 
в качестве LLM мы взяли две модели
- LLAMA 2 (файн-тюн на банковских вопросах)
- T5-FRED (файн-тюн на QA запросы)

## llama-2

In [32]:
ollama_uri = "http://192.168.1.70:11434"

In [27]:
!pip3 install ollama  -q

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [33]:
from llm import Ollama

ollama = Ollama(ollama_uri)

In [34]:
template = """
Отвечай только на русском. Если пишешь на другом языке, переводи его на русской.
Если не знаешь ответа, скажи что не знаешь ответа, не пробуй отвечать.
Я дам тебе три текста, из которых надо дать ответ на поставленный вопрос.
Также тебе надо оставить ссылку из источник.

Context:
источник {url1}:
{context1}

источник {url2}:
{context2}

источник {url3}:
{context3}

Вопрос: {question} на русском языке. Ответь на вопрос основываясь на данных документах
Развернутый ответ:
"""

In [35]:
query = "Какое отношение к денежно-кредитной политике имеет управление ликвидностью банковского сектора и ставками денежного рынка, которое осуществляет Банк России?"
docs = vector_store.search_similarity(query, k=3)

In [36]:
docs[0].metadata

'https://www.cbr.ru/Queries/UniDbQuery/File/90134/288'

In [37]:
generated = ollama.get_response(query, docs)

Отвечай только на русском. Если пишешь на другом языке, переводи его на русской.
Если не знаешь ответа, скажи что не знаешь ответа, не пробуй отвечать.
Я дам тебе три текста, из которых надо дать ответ на поставленный вопрос.
Также тебе надо оставить ссылку из источник.

Context:
источник https://www.cbr.ru/Queries/UniDbQuery/File/90134/288:
со статьей Федерального закона <0 несостоятельности (банкротстве) : 1.3. Оценки капитала; активов; доходностИ, ликвидносТи банка; процентного риска, риска концентрации; принимаемых   банком; качества управления банком прозрачности структуры собственности осуществляются в соответствии главами 3-5 настоящего Указания. 1.4. Оценка экономического положения банков осуществляется главными управлениями Банка   России; или Департаментом надзора 18910 банка

источник https://www.cbr.ru/Queries/UniDbQuery/File/90134/895:
Банка России или структурное подразделение центрального аппарата Банка России; осуществляющие   надзор деятельностью банка, >  заменить сло

In [41]:
pprint.pprint(generated)

('В соответствии с заданными документами, управление ликвидностью банковского '
 'сектора и ставками денежного рынка, которое осуществляет Банк России, играет '
 'важную роль в регулировании денежно-кредитной политики.\n'
 '\n'
 'Согласно пункту 1.3 Указания, Банк России оценивает капитал, активы, '
 'доходность и процентный риск банков, а такжеquality of management and '
 "transparency of the bank's structure. This suggests that Banks Russia is "
 'responsible for monitoring the financial stability of banks and assessing '
 'their liquidity and capital adequacy.\n'
 '\n'
 'In addition, according to point 1.7 of the same document, Banks Russia '
 'monitors the creditworthiness of banks and assesses their ability to meet '
 'their obligations. This suggests that Banks Russia has a significant role in '
 'regulating the creditworthiness of banks and ensuring their ability to meet '
 'their financial obligations.\n'
 '\n'
 'Furthermore, according to point 3.3 of the document, Banks Russia

## T5-FRED

In [42]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch
from transformers import GenerationConfig


device = torch.device("mps")
generation_config = GenerationConfig.from_pretrained("Den4ikAI/FRED-T5-LARGE_text_qa")
tokenizer = AutoTokenizer.from_pretrained("Den4ikAI/FRED-T5-LARGE_text_qa")
model = AutoModelForSeq2SeqLM.from_pretrained("Den4ikAI/FRED-T5-LARGE_text_qa").to(device)
model.eval()

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


T5ForConditionalGeneration(
  (shared): Embedding(50364, 1024)
  (encoder): T5Stack(
    (embed_tokens): Embedding(50364, 1024)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=1024, out_features=1024, bias=False)
              (k): Linear(in_features=1024, out_features=1024, bias=False)
              (v): Linear(in_features=1024, out_features=1024, bias=False)
              (o): Linear(in_features=1024, out_features=1024, bias=False)
              (relative_attention_bias): Embedding(32, 16)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseGatedActDense(
              (wi_0): Linear(in_features=1024, out_features=2816, bias=False)
              (wi_1): Linear(in_features=1024, out_features=2816, bias=False)
       

In [45]:
lm_text = f"""
<SC6>Текст:
источник {docs[0].metadata}:
{docs[0].text}
источник {docs[1].metadata}:
{docs[1].text}
источника {docs[2].metadata}:
{docs[2].text}

Вопрос: {query} Укажи источник. Ответь на вопрос основываясь на данных документах
Развернутый ответ: <extra_id_0>
"""

input_ids = torch.tensor([tokenizer.encode(lm_text)]).to(device)
outputs = model.generate(input_ids,
                           eos_token_id=tokenizer.eos_token_id,
                           early_stopping=True,
                           max_length=512)
generated = tokenizer.decode(outputs[0][1:])

In [48]:
print(generated)

<extra_id_0>
Управление ликвидностью банковского сектора и ставками денежного рынка, которое осуществляет Банк России, имеет отношение к денежно-кредитной политике.</s>


In [52]:
questions = []
with open("../questions.txt", "r") as f:
    for l in f.readlines(): 
        l = l.replace("\n", "")
        if len(l) != 0:
            questions.append(l)
questions

['Какое отношение к денежно-кредитной политике имеет управление ликвидностью банковского сектора и ставками денежного рынка, которое осуществляет Банк России?',
 'Что такое банковская ликвидность? Как банки ее используют?',
 'Можно ли заключить договор страхования в электронном виде при помощи страхового агента или брокера?',
 'Какие риски связаны с инвестициями в иностранные компании?',
 'Имеется ли возможность трудоустройства в системе Банка России?']

In [54]:
for q in questions:
    input_ids = torch.tensor([tokenizer.encode(lm_text)]).to(device)
    outputs = model.generate(input_ids,
                            eos_token_id=tokenizer.eos_token_id,
                            early_stopping=True,
                            max_length=300)
    pprint.pprint(tokenizer.decode(outputs[0][1:]))

('<extra_id_0>\n'
 'Управление ликвидностью банковского сектора и ставками денежного рынка, '
 'которое осуществляет Банк России, имеет отношение к денежно-кредитной '
 'политике.</s>')
('<extra_id_0>\n'
 'Управление ликвидностью банковского сектора и ставками денежного рынка, '
 'которое осуществляет Банк России, имеет отношение к денежно-кредитной '
 'политике.</s>')
('<extra_id_0>\n'
 'Управление ликвидностью банковского сектора и ставками денежного рынка, '
 'которое осуществляет Банк России, имеет отношение к денежно-кредитной '
 'политике.</s>')
('<extra_id_0>\n'
 'Управление ликвидностью банковского сектора и ставками денежного рынка, '
 'которое осуществляет Банк России, имеет отношение к денежно-кредитной '
 'политике.</s>')
('<extra_id_0>\n'
 'Управление ликвидностью банковского сектора и ставками денежного рынка, '
 'которое осуществляет Банк России, имеет отношение к денежно-кредитной '
 'политике.</s>')
