# RAG Implementation using Llama-2 model

This is a simple RAG implementation using all-mpnet-base-v2 embedding model, chromadb vector database and Llama-2 model.

In [39]:
from sentence_transformers import SentenceTransformer
import chromadb
from transformers import AutoTokenizer, AutoConfig, AutoModelForCausalLM
import torch

In [40]:
!pip3 install chromadb -q

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [41]:
!pip3 install IProgress -q

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [42]:
!pip3 install sentence_transformers -q

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


## Indexing

In [3]:
!pip3 install pymongo -q

In [43]:
def get_overlapped_chunks(textin, chunksize, overlapsize):
    return [
        textin[a : a + chunksize]
        for a in range(0, len(textin), chunksize - overlapsize)
    ]

In [44]:
from pymongo import MongoClient

client = MongoClient("mongodb://LasuriaRobert:HilbertSpace@192.168.1.70:27017/")
db = client["cbr"]

materials = db["materials"]


## Retrieving

In [50]:
res = materials.find().limit(1000)
res

<pymongo.cursor.Cursor at 0x2c159c890>

In [49]:
import chromadb

data = [obj["text"] + "\n" + f"источник: {obj['src']}" for obj in res]

embedding_model = SentenceTransformer("intfloat/multilingual-e5-large", device="mps")
# cache_folder = '/data/base_models'
chunk_embeddings = embedding_model.encode(data)
chroma_client = chromadb.Client()
try:
    collection = chroma_client.create_collection(name="llama2")
except Exception as e:
    print(e)
collection.add(
    embeddings=chunk_embeddings, documents=data, ids=[str(i) for i in range(len(data))]
)

Collection llama2 already exists


ValueError: Expected IDs to be a non-empty list, got []

In [32]:
def retrieve_vector_db(query, n_results=3):
    results = collection.query(
        query_embeddings=embedding_model.encode(query).tolist(), n_results=n_results
    )
    return results["documents"]

ValueError: Expected IDs to be a non-empty list, got []

In [47]:
query = "Инвестиции"
retrieved_results = retrieve_vector_db(query)

InvalidDimensionException: Embedding dimension 1024 does not match collection dimensionality 768

In [48]:
retrieved_results[0]

['3 | ! ; 10 [11 | 12 1 | 1- (~К | 10 ВТО: ЧСЛС\' [ПТШ; ВЖЛЮЧННЫЙ В ВЫЫВЯЮОЩё ГУЛПЫ КЛСИЩРУСМЫёКЖК ШЛеДНМНЯНЫРДЛЯ ЛМЭЦжН (ДСЛЕНОСТЬРУМОМДТ;ЛЯ) [ЛДЛНЪ] (НЛЩЦИЩДМ; {"ИЛЯ]\nисточник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/19',
 'подразделения (структурных подразделений); осуществляющего (осуществляющих) функции корпоративного секретаря, срок до октября 2017 года. Председатель Центрального банка Российской Федерации Э.С: Набиуллина\nисточник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/42',
 'Настоящее Указание вступает силу с0 дня его официального опубликования. Председатель Центрального банка Российской Федерации Э.С: Набиуллина\nисточник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/55']

In [20]:
context = '\n\n'.join(retrieved_results[0])
print(context)

Настоящее Указание вступает в силу по истечении ]0 дней послс дня его официального опубликования: Председатель Центрального банка Российской Федерации Э.С. Набиуллина
источник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/762

Настоящее Указание вступает силу сО ДНЯ его официального опубликования: Председатель Центрального банка Российской Федерации Э.С: Набиуллина
источник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/392

Указанием начиная с отчетности за отчетный период; в котором настоящее Указание вступает в силу: Председатель Центрального банка Российской Федерации ЭС Набиуллина
источник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/3964


## Answer Generation

In [10]:
# def get_llama2_chat_reponse(prompt, max_new_tokens=50):
#     inputs = tokenizer(prompt, return_tensors="pt")
#     outputs = model.generate(**inputs, max_new_tokens=max_new_tokens, temperature= 0.00001)
#     response = tokenizer.decode(outputs[0], skip_special_tokens=True)
#     return response

import requests
import json

def get_llama2_chat_reponse(prompt):
    headers = {
        'Content-Type': 'application/x-www-form-urlencoded',
    }
    data = {"model": "llama2", "prompt": prompt}
    response : requests.Response = requests.post('http://larek.tech:11434/api/generate', headers = headers, data = json.dumps(data))
    if response.status_code != 200:
        return('piskogryz')
    else:
        ans = ''
        for obj in response.content.decode('utf-8').split('\n')[:-1]:
            ans += (json.loads(obj)['response'])
        return(ans)

In [22]:
prompt = f'''
[INST]
Give answer for the question strictly based on the context provided.

Question: {query}

Context : {context}
[/INST]
'''

In [23]:
prompt

'\n[INST]\nGive answer for the question strictly based on the context provided.\n\nQuestion: Что такое центробанк\n\nContext : Настоящее Указание вступает в силу по истечении ]0 дней послс дня его официального опубликования: Председатель Центрального банка Российской Федерации Э.С. Набиуллина\nисточник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/762\n\nНастоящее Указание вступает силу сО ДНЯ его официального опубликования: Председатель Центрального банка Российской Федерации Э.С: Набиуллина\nисточник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/392\n\nУказанием начиная с отчетности за отчетный период; в котором настоящее Указание вступает в силу: Председатель Центрального банка Российской Федерации ЭС Набиуллина\nисточник: https://www.cbr.ru/Queries/UniDbQuery/File/90134/3964\n[/INST]\n'

In [25]:
print(get_llama2_chat_reponse(prompt))

 Based on the context provided, "центробанк" (Central Bank) refers to the Central Bank of Russia. Specifically, it is the State Corporation "Bank of Russia", which is the central bank of the Russian Federation. The Central Bank of Russia is responsible for implementing monetary policy, maintaining the stability of the national currency (the ruble), and overseeing the country's financial system.

The context indicates that the information provided refers to the Central Bank of Russia, specifically the date when the current Central Bank Governor, Elvira Nabiullina, took office. The sources cited are from the Central Bank of Russia's official website, including the dates when the current governor took office and the beginning of the reporting period for which the information is provided.


## RAG

In [11]:
# query = "what are different variants of llama2 model"
# query = "what is RLHF"
query = "Каковы критерии определения достаточности денежных средств на банковском счете плательщика, учитывая остаток средств на начало текущего дня и суммы, необходимые для учета?"

retrieved_results = retrieve_vector_db(query, n_results=5)
context = '\n\n'.join(retrieved_results[0])

prompt = f"""
[INST]
Дай ответ на вопрос, строго базируясь на данном контексте. Ответы должны быть краткими и по-существу.


Question: {query}

Context : {context}
[/INST]
"""

print(prompt)
print(get_llama2_chat_reponse(prompt))


[INST]
Дай ответ на вопрос, строго базируясь на данном контексте. Ответы должны быть краткими и по-существу.


Question: Каковы критерии определения достаточности денежных средств на банковском счете плательщика, учитывая остаток средств на начало текущего дня и суммы, необходимые для учета?

Context : Прямой участник информирует Банк России случаях прекращения соответствия критериям участия косвенного участника платсжной системе Банка России прекращает договор счета, заключенный между Банком России и прямым участником, в части, относящейся к косвенному участнику, в следующие сроки: случае прекращения соответствия критерию, предусмотренному абзацем вторым настоящего пункта; течение 10 рабочих  дней даты получения прямым участником соответствующих сведений; случае прекращения соответствия критерию,   предусмотренному абзацем третьим настоящего пункта; не позднее даты прекращения договора банковского счста; заключенного между прямым участником косвенным участником >- 1.6. Пункт 3.1 посл

In [None]:
# Give answer for the question strictly based on the context provided. Keep answers short and to the point.