# Understanding Memory in LLMs

이전 노트북에서는 OpenAI 모델이 Azure AI 검색 쿼리의 결과를 향상시키는 방법을 성공적으로 살펴봤습니다. 
하지만 LLM과 대화에 참여하는 방법은 아직 발견하지 못했습니다. 예를 들어, [Bing Chat](http://chat.bing.com/)을 사용하면 이전 응답을 이해하고 참조할 수 있기 때문에 이것이 가능합니다.
LLM(대규모 언어 모델)에 메모리가 있다는 일반적인 오해가 있습니다. 이는 사실이 아닙니다. 지식을 보유하고 있기는 하지만 이전에 질문했던 정보를 기억하지는 못합니다.
이 노트북의 목표는 프롬프트와 문맥을 활용하여 LLM에 효과적으로 "메모리를 부여"하는 방법을 설명하는 것입니다.

In [None]:
import os
import random
from langchain_community.chat_message_histories import ChatMessageHistory, CosmosDBChatMessageHistory
from langchain_core.chat_history import BaseChatMessageHistory
from langchain_core.runnables import ConfigurableFieldSpec
from langchain_core.runnables.history import RunnableWithMessageHistory
from langchain_openai import AzureChatOpenAI
from langchain_openai import AzureOpenAIEmbeddings
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_core.output_parsers import StrOutputParser
from operator import itemgetter
from typing import List

from IPython.display import Markdown, HTML, display  

def printmd(string):
    display(Markdown(string))

#custom libraries that we will use later in the app
from common.utils import CustomAzureSearchRetriever, get_answer
from common.prompts import DOCSEARCH_PROMPT

from dotenv import load_dotenv
load_dotenv("credentials.env")

import logging

# Get the root logger
logger = logging.getLogger()
# Set the logging level to a higher level to ignore INFO messages
logger.setLevel(logging.WARNING)

In [None]:
# Set the ENV variables that Langchain needs to connect to Azure OpenAI
os.environ["OPENAI_API_VERSION"] = os.environ["AZURE_OPENAI_API_VERSION"]

### Let's start with the basics
아주 간단한 예제를 사용하여 Azure OpenAI의 GPT 모델에 메모리가 있는지 확인해 보겠습니다. 다시 langchain을 사용하여 코드를 간소화하겠습니다.

In [None]:
QUESTION = "What is our mission?"
FOLLOW_UP_QUESTION = "What was my prior question?"

In [None]:
COMPLETION_TOKENS = 1000
# Create an OpenAI instance
llm = AzureChatOpenAI(deployment_name=os.environ["GPT35_DEPLOYMENT_NAME"], 
                      temperature=0.5, max_tokens=COMPLETION_TOKENS)

In [None]:
# We create a very simple prompt template, just the question as is:
output_parser = StrOutputParser()
prompt = ChatPromptTemplate.from_messages([
    ("system", "You are an assistant that give thorough responses to users."),
    ("user", "{input}")
])

In [None]:
# Let's see what the GPT model responds
chain = prompt | llm | output_parser
response_to_initial_question = chain.invoke({"input": QUESTION})
display(Markdown(response_to_initial_question))

In [None]:
#Now let's ask a follow up question
printmd(chain.invoke({"input": FOLLOW_UP_QUESTION}))

보시다시피 방금 응답한 내용을 기억하지 못하거나 때로는 시스템 프롬프트에 따라 응답하거나 무작위로 응답하기도 합니다. 

이는 LLM에 메모리가 없다는 것을 증명하며, 이와 같이 프롬프트의 일부로 대화 기록으로 메모리를 제공해야 한다는 것을 의미합니다.

In [None]:
hist_prompt = ChatPromptTemplate.from_template(
"""
    {history}
    Human: {question}
    AI:
"""
)
chain = hist_prompt | llm | output_parser

In [None]:
Conversation_history = """
Human: {question}
AI: {response}
""".format(question=QUESTION, response=response_to_initial_question)

In [None]:
printmd(chain.invoke({"history":Conversation_history, "question": FOLLOW_UP_QUESTION}))

**Bingo!**, 이제 LLM을 사용하여 챗봇을 만드는 방법을 알았으므로 대화의 상태/이력을 유지하기 위해 매번 Context로 전달하기만 하면 됩니다.

## Now that we understand the concept of memory via adding history as a context, let's go back to our GPT Smart Search engine

Langchain 웹사이트에서 발췌:
    
메모리 시스템은 읽기와 쓰기라는 두 가지 기본 작업을 지원해야 합니다. 모든 체인은 특정 입력을 기대하는 몇 가지 핵심 실행 로직을 정의한다는 점을 기억하세요. 이러한 입력 중 일부는 사용자가 직접 제공하지만, 일부는 메모리에서 제공될 수도 있습니다. 체인은 주어진 실행에서 메모리 시스템과 두 번 상호 작용합니다.

    초기 사용자 입력을 받은 후 코어 로직을 실행하기 전에 체인은 메모리 시스템에서 읽고 사용자 입력을 보강합니다.
    핵심 로직을 실행한 후 답을 반환하기 전에 체인은 현재 실행의 입력과 출력을 메모리에 기록하여 향후 실행에서 참조할 수 있도록 합니다.
    
따라서 이 프로세스는 응답에 지연을 추가하지만 필요한 지연입니다 :)

![image](https://python.langchain.com/assets/images/memory_diagram-0627c68230aa438f9b5419064d63cbbc.png)

In [None]:
index_name = "cogsrch-index-hrdocs"
indexes = [index_name]

In [None]:
# Initialize our custom retriever 
retriever = CustomAzureSearchRetriever(indexes=indexes, topK=10, reranker_threshold=1)


prompts.py를 자세히 살펴보면 `DOCSEARCH_PROMPT`에 `history`라는 선택적 변수가 있습니다. 이제 이 변수를 사용할 때입니다. 기본적으로 프롬프트에 대화를 삽입하여 LLM이 응답하기 전에 이를 인식할 수 있도록 하는 플레이스 홀더입니다.

**Now let's add memory to it:**

In [None]:
store = {} # Our first memory will be a dictionary in memory

# We have to define a custom function that takes a session_id and looks somewhere
# (in this case in a dictionary in memory) for the conversation
def get_session_history(session_id: str) -> BaseChatMessageHistory:
    if session_id not in store:
        store[session_id] = ChatMessageHistory()
    return store[session_id]


In [None]:
# We use our original chain with the retriever but removing the StrOutputParser
chain = (
    {
        "context": itemgetter("question") | retriever, 
        "question": itemgetter("question"),
        "history": itemgetter("history")
    }
    | DOCSEARCH_PROMPT
    | llm
)

## Then we pass the above chain to another chain that adds memory to it

output_parser = StrOutputParser()

chain_with_history = RunnableWithMessageHistory(
    chain,
    get_session_history,
    input_messages_key="question",
    history_messages_key="history",
) | output_parser

In [None]:
# This is where we configure the session id
config={"configurable": {"session_id": "abc123"}}

print(config)

아래에서 호출에 `history` 변수를 추가하는 것을 확인할 수 있습니다. 이 변수는 프롬프트 내의 채팅 기록을 보관합니다.

In [None]:
printmd(chain_with_history.invoke({"question": QUESTION}, config=config))

In [None]:
# Remembers
printmd(chain_with_history.invoke({"question": FOLLOW_UP_QUESTION},config=config))

In [None]:
# Remembers
printmd(chain_with_history.invoke({"question": "Thank you! Good bye"},config=config))

## Using CosmosDB as persistent memory

이전 셀에서 챗봇에 로컬 RAM 메모리를 추가했습니다. 그러나 이는 영구적인 것이 아니며 앱 사용자의 세션이 종료되면 삭제됩니다. 따라서 분석 및 감사뿐만 아니라 향후에 추천을 제공하려는 경우에도 각 봇 사용자 대화를 영구적으로 저장하기 위해 데이터베이스를 사용해야 합니다. 

여기서는 향후 감사를 위해 대화 내역을 CosmosDB에 저장하겠습니다.

LangChain에서 CosmosDBChatMessageHistory를 사용하는 클래스를 사용하겠습니다.

In [None]:
# Create the function to retrieve the conversation

def get_session_history(session_id: str, user_id: str) -> CosmosDBChatMessageHistory:
    cosmos = CosmosDBChatMessageHistory(
        cosmos_endpoint=os.environ['AZURE_COSMOSDB_ENDPOINT'],
        cosmos_database=os.environ['AZURE_COSMOSDB_NAME'],
        cosmos_container=os.environ['AZURE_COSMOSDB_CONTAINER_NAME'],
        connection_string=os.environ['AZURE_COMOSDB_CONNECTION_STRING'],
        session_id=session_id,
        user_id=user_id
        )

    # prepare the cosmosdb instance
    cosmos.prepare_cosmos()
    return cosmos


In [None]:
chain_with_history = RunnableWithMessageHistory(
    chain,
    get_session_history,
    input_messages_key="question",
    history_messages_key="history",
    history_factory_config=[
        ConfigurableFieldSpec(
            id="user_id",
            annotation=str,
            name="User ID",
            description="Unique identifier for the user.",
            default="",
            is_shared=True,
        ),
        ConfigurableFieldSpec(
            id="session_id",
            annotation=str,
            name="Session ID",
            description="Unique identifier for the conversation.",
            default="",
            is_shared=True,
        ),
    ],
) | output_parser

In [None]:
# This is where we configure the session id and user id
random_session_id = "session"+ str(random.randint(1, 1000))
ramdom_user_id = "user"+ str(random.randint(1, 1000))

config={"configurable": {"session_id": random_session_id, "user_id": ramdom_user_id}}

print(config)

In [None]:
printmd(chain_with_history.invoke({"question": QUESTION}, config=config))

In [None]:
# Remembers
printmd(chain_with_history.invoke({"question": FOLLOW_UP_QUESTION},config=config))

In [None]:
# Remembers
printmd(chain_with_history.invoke(
    {"question": "Can you tell me a one line summary of our conversation?"},
    config=config))

In [None]:
try:
    printmd(chain_with_history.invoke(
    {"question": "Thank you very much!"},
    config=config))
except Exception as e:
    print(e)

In [None]:
printmd(chain_with_history.invoke(
    {"question": "I do have one more question, why did you give me a one line summary?"},
    config=config))

In [None]:
printmd(chain_with_history.invoke(
    {"question": "why not 2?"},
    config=config))

#### Let's check our Azure CosmosDB to see the whole conversation


![CosmosDB Memory](./images/cosmos-chathistory.png)

# Summary
##### 애플리케이션에 메모리를 추가하면 사용자가 대화를 할 수 있지만, 이 기능은 LLM과 함께 제공되는 것이 아니라 질문의 맥락에 따라 메모리를 LLM에 제공해야 합니다.

CosmosDB를 사용해 지속적 메모리를 추가했습니다.

현재 사용하고 있는 체인이 똑똑하지만 그다지 많지는 않다는 것을 알 수 있습니다. 메모리를 추가했지만, 입력에 관계없이 매번 비슷한 문서를 검색합니다. 효율적이지 않은 것 같지만, 어쨌든 데이터 봇과의 첫 번째 RAG 토크가 거의 마무리 단계에 있습니다.


## <u>Important Note</u>:<br>
계속 진행하면서 모든 코드는 GPT-3.5 모델(1106 이상)과 계속 호환되지만, GPT-4로 전환할 것을 적극 권장합니다. 그 이유는 다음과 같습니다.

**GPT-3.5-Turbo**는 7세 어린이에 비유할 수 있습니다. 간결한 지시를 내릴 수는 있지만, 때때로 그 지시를 정확하게 따르는 데 어려움을 겪습니다(너무 신뢰할 수 없음). 또한 제한된 '메모리'(토큰 context)로 인해 지속적인 대화가 어려울 수 있습니다. 반응도 깊지 않고 단순합니다.


**GT-4-Turbo**는 10-12세 아동의 능력을 보여줍니다. 추론 능력이 향상되고, 지시를 일관되게 따르며, 정답률이 더 높습니다. 지시에 대한 기억 유지력(더 큰 context의 크기)이 확장되어 있으며, 지시를 따르는 능력이 뛰어납니다. 답변이 깊고 철저합니다.


# NEXT
이제 챗봇을 구동할 수 있는 스마트 검색 엔진을 만드는 방법을 알게 되었습니다!!! 좋아요!

다음 노트북 6에서는 첫 번째 RAG 봇을 만들어 보겠습니다. 이를 위해 에이전트의 개념을 소개하겠습니다.