### Построение вопрос-ответных систем (ВОС) RAG-архитектуры (Retrieval Augmented Generation) на базе фреймворка Langchain

- Данный Jupyter ноутбук - это адаптированная под YandexGPT версия оригинального langchain ноутбука по [ссылке](https://python.langchain.com/docs/expression_language/cookbook/retrieval)

- Давайте рассмотрим добавление шага извлечения к LLM-промпту

In [5]:
%pip install --upgrade --quiet  langchain yandexcloud==0.255.0 faiss-cpu yandex-chain


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m24.0[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m


In [7]:
from operator import itemgetter

from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnableLambda, RunnablePassthrough

from langchain_community.chat_models import ChatYandexGPT
# from langchain_community.llms import YandexGPT
# from langchain_community.embeddings.yandex import YandexGPTEmbeddings
from yandex_chain import YandexEmbeddings

##### Получаем IAM-токен для работы с YandexGPT

In [1]:
import time
import jwt
import requests
import os
service_account_id = os.environ["SA_ID"]
key_id = os.environ["KEY_ID"]
folder_id = os.environ["YC_FOLDER_ID"]
private_key = "-----BEGIN PRIVATE KEY-----\nДобаляете здесь ваш приватный ключ\n-----END PRIVATE KEY-----\n"
# Получаем IAM-токен
now = int(time.time())
payload = {
        'aud': 'https://iam.api.cloud.yandex.net/iam/v1/tokens',
        'iss': service_account_id,
        'iat': now,
        'exp': now + 360}
# Формирование JWT
encoded_token = jwt.encode(
    payload,
    private_key,
    algorithm='PS256',
    headers={'kid': key_id})
url = 'https://iam.api.cloud.yandex.net/iam/v1/tokens'
x = requests.post(url,  
                  headers={'Content-Type': 'application/json'},
                  json = {'jwt': encoded_token}).json()
token = x['iamToken']

In [10]:
yagpt_embeddings = YandexEmbeddings(folder_id=folder_id, iam_token = token)
yagpt_embeddings.sleep_interval = 0.1 #текущее ограничение эмбеддера 10 RPS, делаем задержку 1/10 секунды, чтобы не выйти за это ограничение

# model_uri = "gpt://"+str(folder_id)+"/yandexgpt-lite/latest"
model_uri = "gpt://"+str(folder_id)+"/yandexgpt/latest"
yagpt_model = ChatYandexGPT(iam_token = token, model_uri=model_uri, temperature = 0.6)

In [13]:
vectorstore = FAISS.from_texts(
    ["Марк работал в супермаркете"], embedding=yagpt_embeddings
)
retriever = vectorstore.as_retriever()

template = """Отвечай на вопрос, основываясь только на следующем контексте:
{context}

Вопрос: {question}
"""
prompt = ChatPromptTemplate.from_template(template)

model = yagpt_model

In [14]:
chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | model
    | StrOutputParser()
)

In [15]:
chain.invoke("Где работал Марк?")

'В супермаркете.'

In [16]:
template = """Отвечай на вопрос, основываясь только на следующем контексте:
{context}

Вопрос: {question}

Отвечай на следующем языке: {language}
"""
prompt = ChatPromptTemplate.from_template(template)

chain = (
    {
        "context": itemgetter("question") | retriever,
        "question": itemgetter("question"),
        "language": itemgetter("language"),
    }
    | prompt
    | model
    | StrOutputParser()
)

In [17]:
chain.invoke({"question": "где работал марк", "language": "english"})

'Mark worked at the supermarket.'

### Conversational Retrieval Chain - вопрос-ответная система с учетом истории общения

- Мы можем легко добавить исторический контекст беседы в общение. В первую очередь это означает добавление в chat_message_history

In [18]:
from langchain_core.messages import AIMessage, HumanMessage, get_buffer_string
from langchain_core.prompts import format_document
from langchain_core.runnables import RunnableParallel

In [27]:
from langchain.prompts.prompt import PromptTemplate

_template = """Учитывая историю общения и текущий вопрос, составь из всего этого отдельный общий вопрос на русском языке.

История общения:
{chat_history}
Текущий вопрос: {question}
Отдельный общий вопрос:"""
CONDENSE_QUESTION_PROMPT = PromptTemplate.from_template(_template)

In [28]:
template = """Отвечай на вопрос, основываясь только на следующем контексте:
{context}

Вопрос: {question}
"""
ANSWER_PROMPT = ChatPromptTemplate.from_template(template)

In [29]:
DEFAULT_DOCUMENT_PROMPT = PromptTemplate.from_template(template="{page_content}")


def _combine_documents(
    docs, document_prompt=DEFAULT_DOCUMENT_PROMPT, document_separator="\n\n"
):
    doc_strings = [format_document(doc, document_prompt) for doc in docs]
    return document_separator.join(doc_strings)

In [30]:
# model_uri = "gpt://"+str(folder_id)+"/yandexgpt-lite/latest"
model_uri = "gpt://"+str(folder_id)+"/yandexgpt/latest"
yagpt_model = ChatYandexGPT(iam_token = token, model_uri=model_uri, temperature = 0)

_inputs = RunnableParallel(
    standalone_question=RunnablePassthrough.assign(
        chat_history=lambda x: get_buffer_string(x["chat_history"])
    )
    | CONDENSE_QUESTION_PROMPT
    | yagpt_model
    | StrOutputParser(),
)
_context = {
    "context": itemgetter("standalone_question") | retriever | _combine_documents,
    "question": lambda x: x["standalone_question"],
}
conversational_qa_chain = _inputs | _context | ANSWER_PROMPT | yagpt_model

In [31]:
conversational_qa_chain.invoke(
    {
        "question": "где работал Марк?",
        "chat_history": [],
    }
)

AIMessage(content='Марк работал в супермаркете.')

In [32]:
conversational_qa_chain.invoke(
    {
        "question": "где он работал?",
        "chat_history": [
            HumanMessage(content="кто написал этот ноутбук?"),
            AIMessage(content="Марк"),
        ],
    }
)

AIMessage(content='В супермаркете.')

### Добавим к поддержке истории общения также ссылки на источники информации

In [33]:
from operator import itemgetter

from langchain.memory import ConversationBufferMemory

In [34]:
memory = ConversationBufferMemory(
    return_messages=True, output_key="answer", input_key="question"
)

In [35]:
# Сначала мы добавляем шаг для загрузки памяти
# Поэтому добавляем ключ "memory" во входящий объект
loaded_memory = RunnablePassthrough.assign(
    chat_history=RunnableLambda(memory.load_memory_variables) | itemgetter("history"),
)

# выбираем какую yandexgpt модель будем использовать, и выставляем ее temperature = 0
# model_uri = "gpt://"+str(folder_id)+"/yandexgpt-lite/latest"
model_uri = "gpt://"+str(folder_id)+"/yandexgpt/latest"
yagpt_model = ChatYandexGPT(iam_token = token, model_uri=model_uri, temperature = 0)

# Теперь определяем standalone_question (композитный вопрос, который учитывает историю общения)
standalone_question = {
    "standalone_question": {
        "question": lambda x: x["question"],
        "chat_history": lambda x: get_buffer_string(x["chat_history"]),
    }
    | CONDENSE_QUESTION_PROMPT
    | yagpt_model
    | StrOutputParser(),
}
# Теперь извлекаем нужные документы
retrieved_documents = {
    "docs": itemgetter("standalone_question") | retriever,
    "question": lambda x: x["standalone_question"],
}
# Конструируем вводные для финального промпта
final_inputs = {
    "context": lambda x: _combine_documents(x["docs"]),
    "question": itemgetter("question"),
}
# Теперь запускаем выдачу ответов
answer = {
    "answer": final_inputs | ANSWER_PROMPT | yagpt_model,
    "docs": itemgetter("docs"),
}
# И собираем все вместе!
final_chain = loaded_memory | standalone_question | retrieved_documents | answer

In [36]:
inputs = {"question": "где работал Марк?"}
result = final_chain.invoke(inputs)
result

{'answer': AIMessage(content='Марк работал в супермаркете.'),
 'docs': [Document(page_content='Марк работал в супермаркете')]}

In [37]:
# Обратите внимание, что память не сохраняется автоматически
# В будущем это будет улучшено
# А пока вам нужно сохранять данные в память самостоятельно
memory.save_context(inputs, {"answer": result["answer"].content})

In [38]:
memory.load_memory_variables({})

{'history': [HumanMessage(content='где работал Марк?'),
  AIMessage(content='Марк работал в супермаркете.')]}

In [39]:
inputs = {"question": "Но где же он на самом деле работал?"}
result = final_chain.invoke(inputs)
result

{'answer': AIMessage(content='В супермаркете.'),
 'docs': [Document(page_content='Марк работал в супермаркете')]}