# Building our First RAG bot - Skill: talk to Search Engine

이제 '내 데이터와 대화'하는 첫 번째 봇을 구축하기 위한 모든 구성 요소를 갖추었습니다. 이 블록은 다음과 같습니다. 

1) 내 데이터를 청크 단위로 잘 인덱싱된 하이브리드(텍스트 및 벡터) 엔진 -> Azure AI Search
2) LLM 앱 빌드를 위한 좋은 LLM 파이썬 프레임워크 -> LangChain
3) 언어를 이해하고 지침을 따르는 고품질 OpenAI GPT 모델 -> GPT3.5 and GPT4
4) 영구 메모리 데이터베이스 -> CosmosDB

한 가지 놓친 것이 있습니다. **Agents**.

이 노트북에서는 에이전트의 개념을 소개하고 이를 사용하여 RAG 봇을 구축해봅니다.

In [None]:
import os
import random
import asyncio
from typing import Dict, List
from concurrent.futures import ThreadPoolExecutor
from typing import Optional, Type

from langchain.agents import AgentExecutor, create_openai_tools_agent
from langchain_openai import AzureChatOpenAI
from langchain_core.runnables import ConfigurableField, ConfigurableFieldSpec
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_core.chat_history import BaseChatMessageHistory
from langchain_community.chat_message_histories import ChatMessageHistory, CosmosDBChatMessageHistory
from langchain.callbacks.manager import AsyncCallbackManagerForToolRun, CallbackManagerForToolRun
from langchain.pydantic_v1 import BaseModel, Field
from langchain.tools import BaseTool, StructuredTool, tool

#custom libraries that we will use later in the app
from common.utils import  GetDocSearchResults_Tool
from common.prompts import AGENT_DOCSEARCH_PROMPT

from IPython.display import Markdown, HTML, display  

def printmd(string):
    display(Markdown(string))

from dotenv import load_dotenv
load_dotenv("credentials.env")


In [None]:
# Set the ENV variables that Langchain needs to connect to Azure OpenAI
os.environ["OPENAI_API_VERSION"] = os.environ["AZURE_OPENAI_API_VERSION"]

## Introducing: Agents

에이전트의 구현은 [MRKL 시스템](https://arxiv.org/abs/2205.00445) 논문('기적'이라는 뜻 😉)과 [ReAct](https://arxiv.org/abs/2210.03629) 논문에서 영감을 얻었습니다.

에이전트는 프롬프트를 이해하고 그에 따라 행동하는 LLM의 능력을 활용할 수 있는 방법입니다. 본질적으로 에이전트는 매우 영리한 최초 프롬프트가 주어진 LLM입니다. 프롬프트는 복잡한 쿼리에 대한 답변 프로세스를 한 번에 하나씩 해결되는 일련의 단계로 세분화하도록 LLM에 지시합니다.

에이전트는 MRKL 백서에서 소개한 '전문가'와 결합하면 정말 멋진 존재가 됩니다. 간단한 예로 에이전트 자체로는 수학적 계산을 안정적으로 수행할 수 있는 고유한 기능이 없을 수 있습니다. 하지만 이 경우 수학적 계산에 능숙한 전문가인 계산기를 도입할 수 있습니다. 이제 계산을 수행해야 할 때 에이전트는 결과 자체를 예측하는 대신 전문가를 호출할 수 있습니다. 이것이 바로 [ChatGPT 플러그인](https://openai.com/blog/chatgpt-plugins)의 개념입니다.

우리의 경우 "데이터와 대화하는 스마트 봇을 어떻게 구축할 것인가"라는 문제를 해결하기 위해서는 특정 데이터 소스를 읽거나 로드하거나 이해하거나 상호 작용하기 위해 '전문가/도구'를 사용해야 한다는 것을 LLM에 지시하는 REACT/MRKL 접근 방식이 필요합니다.

그런 다음 사용자와 상호 작용하고 도구를 사용하여 검색 엔진에서 정보를 가져오는 에이전트를 만들어 보겠습니다.

#### We start first defining the Tool/Expert

In [None]:
index_name = "cogsrch-index-hrdocs"
indexes = [index_name]

tool_for_hrdocs = GetDocSearchResults_Tool(description="It is useful for searching HR information about policies of company", indexes=indexes, k=5, reranker_th=1, sas_token=os.environ['BLOB_SAS_TOKEN'])

In [None]:
index_name = "cogsrch-index-techdocs"
indexes = [index_name]

tool_for_techdocs = GetDocSearchResults_Tool(description="It is useful for searching technical information about Azure Services", indexes=indexes, k=5, reranker_th=1, sas_token=os.environ['BLOB_SAS_TOKEN'])

리트리버 객체를 도구 객체("전문가")로 변환해야 합니다. `utils.py`에서 `GetDocSearchResults_Tool` 도구를 확인하세요.

Declare the tools the agent will use

In [None]:
tools = [tool_for_hrdocs, tool_for_techdocs]

Get the prompt to use `AGENT_DOCSEARCH_PROMPT` - you can modify this in `prompts.py`! Check it out!

In [None]:
prompt = AGENT_DOCSEARCH_PROMPT

Define the LLM to use

In [None]:
COMPLETION_TOKENS = 1500
llm = AzureChatOpenAI(deployment_name=os.environ["GPT35_DEPLOYMENT_NAME"], temperature=0.5, max_tokens=COMPLETION_TOKENS, streaming=True).configurable_alternatives(
    ConfigurableField(id="model"),
    default_key="gpt35",
    gpt4=AzureChatOpenAI(deployment_name=os.environ["GPT4_DEPLOYMENT_NAME"], temperature=0.5, max_tokens=COMPLETION_TOKENS, streaming=True),
)

Construct the OpenAI Tools agent.
> OpenAI API has deprecated functions in favor of tools. The difference between the two is that the tools API allows the model to request that multiple functions be invoked at once, which can reduce response times in some architectures. It’s recommended to use the tools agent for OpenAI models.

In [None]:
agent = create_openai_tools_agent(llm.with_config(configurable={"model": "gpt35"}), tools, prompt)

Create an agent executor by passing in the agent and tools

In [None]:
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

Give it memory - since AgentExecutor is also a Runnable class, we do the same with did on Notebook 5

In [None]:
def get_session_history(session_id: str, user_id: str) -> CosmosDBChatMessageHistory:
    cosmos = CosmosDBChatMessageHistory(
        cosmos_endpoint=os.environ['AZURE_COSMOSDB_ENDPOINT'],
        cosmos_database=os.environ['AZURE_COSMOSDB_NAME'],
        cosmos_container=os.environ['AZURE_COSMOSDB_CONTAINER_NAME'],
        connection_string=os.environ['AZURE_COMOSDB_CONNECTION_STRING'],
        session_id=session_id,
        user_id=user_id
        )

    # prepare the cosmosdb instance
    cosmos.prepare_cosmos()
    return cosmos

CosmosDB에는 두 개의 필드(id와 파티션)가 필요하고, RunnableWithMessageHistory는 기본적으로 하나의 메모리 식별자(session_id)만 사용하므로 `history_factory_config` 파라미터를 사용하고 메모리 클래스에 대한 여러 키를 정의해야 합니다.

In [None]:
userid_spec = ConfigurableFieldSpec(
            id="user_id",
            annotation=str,
            name="User ID",
            description="Unique identifier for the user.",
            default="",
            is_shared=True,
        )
session_id = ConfigurableFieldSpec(
            id="session_id",
            annotation=str,
            name="Session ID",
            description="Unique identifier for the conversation.",
            default="",
            is_shared=True,
        )

In [None]:
agent_with_chat_history = RunnableWithMessageHistory(
    agent_executor,
    get_session_history,
    input_messages_key="question",
    history_messages_key="history",
    history_factory_config=[userid_spec,session_id]
)

In [None]:
# configure the session id and user id
random_session_id = "session"+ str(random.randint(1, 1000))
ramdom_user_id = "user"+ str(random.randint(1, 1000))

config={"configurable": {"session_id": random_session_id, "user_id": ramdom_user_id}}
print(config)

Run the Agent!

In [None]:
%%time
agent_with_chat_history.invoke({"question": "Hi, I'm Pablo Marin. What's yours"}, config=config)

In [None]:
printmd(agent_with_chat_history.invoke(
    {"question": "Can I restore my index or service once it's deleted?"}, 
    config=config)["output"])

In [None]:
try:
    printmd(agent_with_chat_history.invoke(
        {"question": "Interesting, Can I move, backup, and restore indexes?"},
        config=config)["output"])
except Exception as e:
    print(e)

In [None]:
printmd(agent_with_chat_history.invoke({"question": "Thhank you!"}, config=config)["output"])

#### Important: GPT3.5에는 긴 프롬프트와 긴 문맥, 상세한 답변을 추가하기 시작하거나 상담원이 여러 단계의 질문을 여러 번 검색하면 공간이 부족하다는 한계가 있습니다!

몇가지 방법으로 이 문제를 해소할 수는 있습니다. 
- 더 짧은 System 프롬프트
- 청크를 더 작게(기본값인 5000자 미만으로)
- 관련성이 낮은 청크를 가져오기 위해 topK 줄이기

그러나 궁극적으로 모든 것을 GPT3.5(더 저렴하고 빠른 모델)로 작동시키기 위해 품질을 포기해야 합니다.

### Let's add more things we have learned so far: dynamic LLM selection of GPT4 and asyncronous streaming

In [None]:
agent = create_openai_tools_agent(llm.with_config(configurable={"model": "gpt4"}), tools, prompt) # We select now GPT-4
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=False)
agent_with_chat_history = RunnableWithMessageHistory(agent_executor,get_session_history,input_messages_key="question", 
                                                     history_messages_key="history", history_factory_config=[userid_spec,session_id])

이전 노트북에서는 토큰을 스트리밍하기 위해 실행 가능 함수의 `.stream()` 함수를 사용했습니다.  However if you need to stream individual tokens from the agent or surface steps occuring within tools, you would need to use a combination of `Callbacks` and `.astream()` OR the new `astream_events` API (beta).

여기서는 astream_events API를 사용하여 다음 이벤트를 스트리밍해 보겠습니다.

    Agent Start with inputs
    Tool Start with inputs
    Tool End with outputs
    Stream the agent final anwer token by token
    Agent End with outputs

In [None]:
QUESTION = "Tell me more about your last answer, search again multiple times and provide a deeper explanation"

In [None]:
async for event in agent_with_chat_history.astream_events(
    {"question": QUESTION}, config=config, version="v1",
):
    kind = event["event"]
    if kind == "on_chain_start":
        if (
            event["name"] == "AgentExecutor"
        ):  # Was assigned when creating the agent with `.with_config({"run_name": "Agent"})`
            print(
                f"Starting agent: {event['name']}"
            )
    elif kind == "on_chain_end":
        if (
            event["name"] == "AgentExecutor"
        ):  # Was assigned when creating the agent with `.with_config({"run_name": "Agent"})`
            print()
            print("--")
            print(
                f"Done agent: {event['name']}"
            )
    if kind == "on_chat_model_stream":
        content = event["data"]["chunk"].content
        if content:
            # Empty content in the context of OpenAI means
            # that the model is asking for a tool to be invoked.
            # So we only print non-empty content
            print(content, end="")
    elif kind == "on_tool_start":
        print("--")
        print(
            f"Starting tool: {event['name']} with inputs: {event['data'].get('input')}"
        )
    elif kind == "on_tool_end":
        print(f"Done tool: {event['name']}")
        # print(f"Tool output was: {event['data'].get('output')}")
        print("--")

#### Note: 이 마지막 질문을 GPT3.5로 실행하여 LLM의 토큰 공간이 어떻게 부족해지는지 확인해 보세요.

# Summary

We just built our first RAG BOT!.

-  봇을 구축하는 가장 좋은 방법은 **에이전트 + 도구**라는 것을 알게 되었습니다. <br>
- `utils.py`의 `GetDocSearchResults_Tool` 함수를 사용하여 Azure Search 리트리버(검색기)를 도구로 변환했습니다.
- 상담원으로부터 답변을 스트리밍하는 한 가지 방법인 이벤트 API(베타)에 대해 알게 되었습니다.
- 포괄적이고 양질의 답변을 제공하기 위해서는 GPT3.5로는 공간이 부족하다는 사실을 알게 되었습니다. 결국 GPT4가 필요하게 됩니다.


# NEXT
이제 하나의 스킬(문서 검색)을 가진 봇이 생겼으니 더 많은 스킬을 만들어 봅시다! 

다음 노트북에서는 모든 기능을 하나로 묶는 방법에 대해 안내해 드리겠습니다. 

모든 노트북의 기능을 어떻게 활용하고 그에 따라 어떤 요청에도 응답할 수 있는 두뇌 에이전트를 만들 수 있을까요?