# [실습1] Vector DB 캐싱

## 실습 목표
---
Vector DB 인덱싱 시간을 절약하기 위한 캐싱 기법에 대해 자세히 학습합니다.

## 실습 목차
---

1. **Chat History 저장 및 입력:** Chat History를 저장하고 적용하는 기능을 구현합니다.

## 실습 개요
---
본격적으로 챗봇의 기능을 고도화 하기 전, 챗봇의 퀄리티를 높일 수 있는 다양한 방법을 학습합니다.

## 0. 환경 설정
- 필요한 라이브러리를 불러옵니다.

In [1]:
import os
import time

from langchain_community.chat_models import ChatOllama
from langchain_core.messages import HumanMessage, SystemMessage
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

- Ollama를 통해 Mistral 7B 모델을 불러옵니다.

In [4]:
!ollama pull mistral:7b

'ollama'��(��) ���� �Ǵ� �ܺ� ����, ������ �� �ִ� ���α׷�, �Ǵ�
��ġ ������ �ƴմϴ�.


mistral:7b 모델을 사용하는 ChatOllama 객체를 생성합니다.

In [5]:
llm = ChatOllama(model="mistral:7b")
route_llm = ChatOllama(model="mistral:7b", format="json")

  llm = ChatOllama(model="mistral:7b")


간단한 질의응답 Chain을 구성합니다.

In [6]:
messages_with_variables = [
    ("system", "당신은 친절한 AI Assistant 입니다."),
    ("human", "{question}"),
]
parser = StrOutputParser()
prompt = ChatPromptTemplate.from_messages(messages_with_variables)
chain = prompt | llm | parser

## 1. Chat History 저장 및 적용

챗봇은 기본적으로 이전 대화 내용을 기억하지 않습니다. 즉, 유저가 자신의 이름을 말하거나 이전 질문에 이어지는 질문을 해도 챗봇은 이를 기억하지 못하고 대화를 이해할 수 있는 능력이 떨어집니다.

저희가 프로젝트에서 구현하는 챗봇은 이러한 기억 능력이 없어도 필요한 정보를 충분히 Retrieve 할 수 있지만, Chat History를 기억해야 하는 다른 챗봇을 구현할 때는 문제가 될 수 있습니다.

LangChain은 이러한 Chat History를 저장하는 메모리와 관련된 다양한 모듈들을 지원합니다. 이번 실습에서는 LangChain에서 제공하는 다양한 메모리 모듈을 활용하여, LLM이 대화 내용을 기억할 수 있도록 해보겠습니다.

우선 아래의 셀을 실행해보겠습니다.

In [5]:
response = chain.invoke("챗봇을 만드는 순서를 설명해줘")

print(response)

ConnectionError: HTTPConnectionPool(host='localhost', port=11434): Max retries exceeded with url: /api/chat (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x000001EC57065A50>: Failed to establish a new connection: [WinError 10061] 대상 컴퓨터에서 연결을 거부했으므로 연결하지 못했습니다'))

In [None]:
response = chain.invoke(
    "방금 말한 것을 영어로 번역해줘"
)
print(response)

간단한 질문에 잘 대답하는 것을 볼 수 있지만, 답변한 내용에 기반해서 다시 물어보면 뜬금없는 얘기를 하는 것을 볼 수 있습니다. 이는 LangChain에서 LLM은 기본적으로 응답을 하면, 기존 대화 기록을 저장하지 않기 때문입니다.


이번 실습에서는 LangChain에서 제공되는 다양한 Memory 모듈을 활용하여, LLM이 대화 내용을 기억할 수 있도록 해보겠습니다.

## 1-1 ConversationBufferMemory

단순히 이전 대화 내용 전체를 저장하는 메모리입니다


`ConversationBufferMemory`는 단순히 이전 대화 내용 전체를 저장하는 메모리입니다. 이를 사용하여 대화의 맥락을 유지할 수 있습니다.

__메모리 설정하기__


우선 `ConversationBufferMemory` 객체를 `memory` 변수에 할당하여, `memory에` 이전 LLM과의 대화 내용을 계속 저장하겠습니다.

In [None]:
# langchain 라이브러리에서 ConversationBufferMemory와 MessagesPlaceholder 클래스를 가져옵니다.
from langchain.memory import ConversationBufferMemory
from langchain.prompts import MessagesPlaceholder

# memory_key는 메모리에서 대화 기록을 저장할 키 이름을 지정하며, 
# return_messages를 True로 설정하여 대화 기록을 메시지 형태로 반환하도록 합니다.
memory = ConversationBufferMemory(
    memory_key="chat_history",  # 대화 기록을 저장할 키 이름
    return_messages=True,       # 대화 기록을 메시지 리스트로 반환
)

# 메모리 변수들을 초기화합니다.
# 빈 딕셔너리를 전달하여 초기 상태로 설정합니다.
memory.load_memory_variables({})
#.load_memory_variables:메모리에 저장된 변수를 로드하거나 초기화하는 데 사용됩니다.

memory는 `load_memory_variables` 메소드를 사용해서 이전 대화 내용을 확인할 수 있습니다. 기본적으로 처음 memory를 만들면 비어있는 것을 확인할 수 있습니다.

__대화 내용 저장하기__


`save_context` 메소드를 활용하여 LLM과의 대화 내용을 추가해줄 수 있습니다. `save_context` 활용 시 "input"에는 사용자의 입력, "output"에는 LLM의 응답을 기록해줍니다.


In [None]:
memory.save_context( #대화 내용 저장
    {"input": "나는 파이썬으로 프로그래밍을 할 수 있어"}, {"output": "정말 대단해요!"}
)

memory.load_memory_variables({}) #저장 내용 확인

In [None]:
# ConversationBufferMemory 클래스를 사용하여 대화 기록을 저장할 메모리 객체를 생성합니다.
memory = ConversationBufferMemory(
    memory_key="chat_history",  # 대화 기록을 저장할 때 사용할 키 이름을 "chat_history"로 설정합니다.
    return_messages=True,       # 메모리에서 메시지를 반환하도록 설정합니다. (메시지 형태로 반환)
)

# 메모리에서 대화 기록을 불러오는 함수를 정의합니다.
def load_memory(x):
    # load_memory_variables 메서드를 호출하여 메모리 변수를 불러옵니다.
    # 여기서는 빈 딕셔너리를 전달하여 기본 설정을 사용합니다.
    # "chat_history" 키에 해당하는 대화 기록을 반환합니다.
    return memory.load_memory_variables({})["chat_history"]

messages_with_history = [
    ("system", "당신은 친절한 AI Assistant 입니다."),
    # 대화가 진행됨에 따라 "chat_history" 변수에 저장된 메시지들이 이 위치에 자동으로 삽입됩니다.
    MessagesPlaceholder(variable_name="chat_history"),
    ("human", "{question}"),
]
parser = StrOutputParser()
prompt = ChatPromptTemplate.from_messages(messages_with_history)
memory_chain = (
    {"chat_history": load_memory, "question": RunnablePassthrough()}
    | prompt
    | llm
    | parser
)

In [None]:
question = "챗봇을 만드는 순서를 설명해줘"
response = memory_chain.invoke(question)

print(response)

memory.save_context({"input": question}, {"output": response})

In [None]:
response = memory_chain.invoke(
    "방금 말한 것을 영어로 번역해줘"
)
print(response)

이제 메모리가 추가된 체인을 통해, 이전 대화에 대한 정보를 포함한 응답을 얻을 수 있습니다. 메모리가 없을 때는 이전 대화에 대해 물어보면 이상한 말을 하는 것을 볼 수 있었는데, 메모리를 추가하면 제대로 응답하는 모습을 확인할 수 있습니다.

하지만, `ConversationBufferMemory`는 몇 가지 한계점이 있습니다:

- 비용 증가: 모델 자체에는 메모리가 없으므로, 모델을 호출할 때마다 전체 대화 기록을 프롬프트에 함께 보내야 합니다. 이는 비용을 증가시킵니다.
- 집중 분산: 언어 모델이 참조하는 이전의 텍스트가 너무 많아지면, 언어모델은 중요한 부분을 놓칠 수 있습니다.

In [None]:
question = "How can I start the machine?" #질문
response = memory_chain.invoke(question) #답변
memory.save_context({"input": question}, {"output": response}) #메모리에 저장

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "How can I avoid making suddent stops of Parking Machine?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "What are the instructions to proper operation and maintenance?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

print(memory.load_memory_variables({})) 메모리 확인

모든 대화가 계속해서 메모리에 저장되는 모습을 볼 수 있습니다. 이는 대화 내용이 길어질수록 LLM에게 물어보는 비용이 증가하게 되고, 중요한 부분을 놓치게 될 가능성도 커집니다.

## 1-2 ConversationBufferWindowMemory

`ConversationBufferWindowMemory`는 대화의 특정 부분만을 저장하는 메모리입니다. 예를 들어, 최근 5개의 대화만 저장하는 식입니다.


- 모든 대화를 저장하지 않아도 되어 메모리 사용량이 줄어듭니다.
- 하지만 챗봇이 최근 대화에만 집중하게 되며, 이전 대화를 기억하지 못합니다.

In [None]:
from langchain.memory import ConversationBufferWindowMemory

memory = ConversationBufferWindowMemory(
    memory_key="chat_history",
    return_messages=True,
    k=4,
)

def add_message(input, output):
    memory.save_context({"input": input}, {"output": output})

def load_memory(x):
    return memory.load_memory_variables({})["chat_history"]


messages_with_history = [
    ("system", "당신은 친절한 AI Assistant 입니다."),
    MessagesPlaceholder(variable_name="chat_history"),
    ("human", "{question}"),
]
parser = StrOutputParser()
prompt = ChatPromptTemplate.from_messages(messages_with_history)
memory_chain = (
    {"chat_history": load_memory, "question": RunnablePassthrough()}
    | prompt
    | llm
    | parser
)

question = "How can I start the machine?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "How can I avoid making suddent stops of Parking Machine?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "What are the instructions to proper operation and maintenance?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

print(memory.load_memory_variables({}))

위의 코드를 실행하고 모델의 메모리를 살펴보면, 최근 4번의 대화 기록만 남아있는 것을 확인할 수 있습니다.

대화 내용이 길어질 때 메모리 사용량을 줄이고 비용을 절감할 수 있습니다. 하지만 이 방법의 단점은 챗봇이 과거에 나눈 대화를 기억하지 못하게 되는 것입니다.

## 1-3 ConversationSummaryBufferMemory

`ConversationSummaryBufferMemory`는 대화 내용이 길어질 때, 오래된 메시지를 요약하여 메모리에 저장하는 기능을 제공합니다. 이는 오래된 메시지를 단순히 삭제하는 대신 요약하여 보관함으로써, 모델이 가장 최근의 상호작용에 집중하면서도, 이전 대화 내용도 잊지 않도록 합니다.

- 최근 대화 내용에 집중하면서도, 오래된 대화 내용은 요약하여 유지합니다.
- 대화가 길어져도 메모리 사용량을 효과적으로 관리할 수 있습니다.


__작동 방식:__

1. 메시지 수가 한계에 도달: 메모리에 저장된 메시지의 수가 설정된 한계에 도달하면,
2. 오래된 메시지 요약: 오래된 메시지들을 LLM을 호출하여 요약합니다.
3. 요약된 메시지 저장: 요약된 메시지를 메모리에 저장하여, 중요한 내용을 잊지 않도록 합니다.

In [None]:
from langchain.memory import ConversationSummaryBufferMemory

memory = ConversationSummaryBufferMemory(
    memory_key="chat_history",
    llm=llm,
    max_token_limit=400,
    return_messages=True
)

def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

def add_message(input, output):
    memory.save_context({"input": input}, {"output": output})

def load_memory(x):
    return memory.load_memory_variables({})["chat_history"]

messages_with_history = [
    ("system", "당신은 친절한 AI Assistant 입니다."),
    MessagesPlaceholder(variable_name="chat_history"),
    ("human", "{question}"),
]
parser = StrOutputParser()
prompt = ChatPromptTemplate.from_messages(messages_with_history)
memory_chain = (
    {"chat_history": load_memory, "question": RunnablePassthrough()}
    | prompt
    | llm
    | parser
)

question = "How can I start the machine?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "How can I avoid making suddent stops of Parking Machine?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "What are the instructions to proper operation and maintenance?"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

question = "Summarize What you just said in Korean"
response = memory_chain.invoke(question)
memory.save_context({"input": question}, {"output": response})

print(memory.load_memory_variables({}))

위의 코드를 실행하면, ConversationSummaryBufferMemory가 설정한 최대 토큰 한계(400)를 넘어가면서 오래된 대화 내용이 요약된 것을 확인할 수 있습니다. 이를 통해 가장 최근의 대화 내용은 그대로 유지하면서, 오래된 대화 내용도 요약된 형태로 잊혀지지 않고 보존할 수 있습니다.