## Собираем RAG этап 1_3

### Библиотеки

In [2]:
from necessity import *
from baserag import *
from rag_1_3 import *
import json

# LangSmith
os.environ["LANGCHAIN_PROJECT"] = "Diploma"

## Умная разбивка всех документов на чанки 

In [3]:
file_path = "../generating_answers_to_questions/smart_chunks_100.json"
with open(file_path, "r") as file:
    all_chunks = json.load(file)


# Создаем массив объектов LangChainDocument
documents = []
for i, chunk in enumerate(all_chunks):
    document = Document(page_content=chunk, metadata={"source": "../data/Пользовательское соглашение Тинькофф", 'page': i})
    documents.append(document)

## Собираем базовый RAG

Шаблон промта для всех дальнейших вопросов / контекстов / отвтветов

In [46]:
prompt = ChatPromptTemplate.from_template("""Вы являетесь помощником в выполнении поиска ответов на вопросы. Используйте приведенные ниже фрагменты извлеченного контекста, чтобы ответить на вопрос. Если вы не знаете ответа, просто скажите, что вы не знаете.
        Question: {question} 
        Context: {context} 
        Answer:""")

In [45]:
from langchain_community.llms import GigaChat
llm = GigaChat(model='GigaChat-Plus', verify_ssl_certs=False, scope="GIGACHAT_API_PERS")

In [47]:
rag = BaseRag(
    llm = llm,
    embeddings_model = GigaChatEmbeddings(scope="GIGACHAT_API_PERS", verify_ssl_certs=False),
    prompt = prompt
)

In [48]:
rag.chain(documents)

In [49]:
rag('Что такое "Сертификат качества слитка"')

'Сертификат качества слитка - это документ о качестве драгоценного металла, содержащий сведения о соответствии драгоценного металла стандартам качества, технические характеристики и параметры Слитка, информацию о химическом составе, произведенный/заверенный предприятием-изготовителем Слитка.'

In [50]:
rag('Что такое карта')

'Карта - это банковская карта, выпущенная в рамках Договора расчетной карты (Договора счета) и предназначенная для совершения Клиентом операций за счет остатка денежных средств на Картсчете и/или предоставленного Банком Кредита при недостатке или отсутствии средств на Картсчете.'

## Загрузка Датасета

In [51]:
import pandas as pd

df = pd.read_csv('../dataset.csv')
display(df)

Unnamed: 0,question,contexts,ground_truth
0,Можно ли не расписываться на карте?,['После получения карты поставьте свою подпись...,При отсутствии подписи карта может быть не при...
1,Мой друг попросил меня дать свою карту для опл...,"['Никогда не принимайте рекомендации, советы, ...","Не передавайте карту другим лицам, в т.ч. родс..."
2,Безопасно ли хранить пинкод в заметках в телеф...,['Категорически запрещается записывать ПИН-код...,"Да, однако не указывайте в названии заметки, ч..."
3,Я потеряла карту,[' Вы потеряли карту или ее украли\nПрежде все...,"Если вы не уверены, что карту украли, не спеши..."
4,Почему при использовании карты важно не распис...,"['Проверяйте правильность суммы, указанной на ...",Важно проверять правильность суммы перед подпи...
5,"Что делать, если я потеряла телефон, на которо...","['При утрате Мобильного телефона, используемог...",Если вы потеряли телефон с установленным мобил...
6,Можно ли использовать интернет-кафе и другие о...,['Избегайте осуществления Интернет-операций с ...,"Нет, не рекомендуется использовать интернет-ка..."
7,"Что делать, если я получил SMS-оповещение о оп...","['Если Вы уверены, что операция не могла быть ...","Если вы получили SMS-оповещение о операции, ко..."
8,Как обезопасить себя от съема данных карты в б...,"['Поэтому, при пользовании банкоматом не ленит...",Чтобы обезопасить себя от съема данных карты в...
9,"Правда ли, что при бронировании гостиницы по к...",['При бронировании номера в гостинице по карте...,"Нет, неправда. При бронировании гостиницы по к..."


## Ответы базового RAG на вопросы из датасета

In [52]:
df['answer'] = df['question'].apply(lambda x: rag(x.strip()))

In [54]:
display(df)

Unnamed: 0,question,contexts,ground_truth,answer
0,Можно ли не расписываться на карте?,['После получения карты поставьте свою подпись...,При отсутствии подписи карта может быть не при...,Неизвестно
1,Мой друг попросил меня дать свою карту для опл...,"['Никогда не принимайте рекомендации, советы, ...","Не передавайте карту другим лицам, в т.ч. родс...",Неизвестно
2,Безопасно ли хранить пинкод в заметках в телеф...,['Категорически запрещается записывать ПИН-код...,"Да, однако не указывайте в названии заметки, ч...","Нет, не безопасно хранить пинкод в заметках в ..."
3,Я потеряла карту,[' Вы потеряли карту или ее украли\nПрежде все...,"Если вы не уверены, что карту украли, не спеши...",Если карта была у Вас украдена на территории Р...
4,Почему при использовании карты важно не распис...,"['Проверяйте правильность суммы, указанной на ...",Важно проверять правильность суммы перед подпи...,Я не знаю ответа на этот вопрос.
5,"Что делать, если я потеряла телефон, на которо...","['При утрате Мобильного телефона, используемог...",Если вы потеряли телефон с установленным мобил...,"Если вы потеряли телефон, на котором было уста..."
6,Можно ли использовать интернет-кафе и другие о...,['Избегайте осуществления Интернет-операций с ...,"Нет, не рекомендуется использовать интернет-ка...",Из предоставленного контекста нельзя однозначн...
7,"Что делать, если я получил SMS-оповещение о оп...","['Если Вы уверены, что операция не могла быть ...","Если вы получили SMS-оповещение о операции, ко...",Если вы получили SMS-оповещение о операции по ...
8,Как обезопасить себя от съема данных карты в б...,"['Поэтому, при пользовании банкоматом не ленит...",Чтобы обезопасить себя от съема данных карты в...,Для защиты от съема данных карты в банкомате з...
9,"Правда ли, что при бронировании гостиницы по к...",['При бронировании номера в гостинице по карте...,"Нет, неправда. При бронировании гостиницы по к...","Нет, при бронировании гостиницы по карте не тр..."


In [35]:
df.to_csv('../rag_answer/rag_step_1/rag_step_1_3/rag_1_3_answer_middle.csv', index=False)