# Langchain Caching Tutorial

## Caching
- 대화들을 기록해서 토큰 사용을 최소화
- 이미 했던 질문들에 대해선 속도가 향상됨.
- 그럼 유사한 질문은?

### Ref
- https://python.langchain.com/docs/how_to/chat_model_caching/ : chat model용 caching 방법, version3라서 일단 최신꺼 사용
- https://wikidocs.net/233796 : 버전업이 안되긴 했지만, 기본 틀 참조하기 좋음!

### InMemoryCache
- 메모리 내에 데이터를 일시적으로 보관
- 프로그램이 실행되는 동안만 유지되며 종료되면 삭제

In [4]:
# 캐싱 전
%%time
from langchain_ollama import ChatOllama
from langchain_core.globals import set_llm_cache
from langchain_core.caches import InMemoryCache 

set_llm_cache(InMemoryCache())


llm = ChatOllama(
    model="gemma2:2b",
    temperature=0.5
    # other params...
)


llm.invoke("세종대왕 맥북사건 알아?")

CPU times: user 296 ms, sys: 33.5 ms, total: 329 ms
Wall time: 40.2 s


AIMessage(content=' 안녕하세요. 세종대왕과 맥북 사건, 이야기를 나누고 싶으신가요? 😄\n\n세종대왕은 한국의 왕으로, 역사적 인물이기에 많은 관심을 받는 존재죠. 하지만 맥북과 관련된 사건은 정말 흥미로운 일일 것 같아요! 🧐  \n\n**어떤 부분에 대해 이야기를 시작하고 싶으신가요?** \n\n예를 들어, \n* **세종대왕을 중심으로 맥북이라는 제품과 관련된 사건들을 알고 싶다면, 어떤 정보를 원하시나요?** (예: 세종대왕의 시대에 맥북이 존재했는지, 맥북과 관련된 이야기를 찾아보려는 계획 등)\n* **세종대왕을 중심으로 맥북 사건을 해설하고 싶다면 어떤 정보를 원하시나요?** (예: 세종대왕의 시대에 맥북이 존재했는지, 맥북과 관련된 이야기를 찾아보려는 계획 등)\n* **세종대왕과 맥북 사건을 연결해 보는 것에 관심을 가지고 있으시나요?** (예: 세종대왕의 역사와 맥북의 역사를 비교해 볼까?)\n\n어떤 방향으로 이야기를 나누고 싶은지 알려주세요. 😊  더 자세히 설명해 주시면 더욱 흥미로운 대화를 만들 수 있을 것 같아요! \n', response_metadata={'model': 'gemma2:2b', 'created_at': '2024-09-17T13:23:34.743636114Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 40206581977, 'load_duration': 52270788, 'prompt_eval_count': 21, 'prompt_eval_duration': 134761000, 'eval_count': 364, 'eval_duration': 39975257000}, id='run-c50a8dd3-975c-44d9-8ca0-40a68df3eceb-0', usage_metadata={'input_tokens': 21, 'output_tokens': 364, 't

In [12]:
%%time
llm.invoke("세종대왕 맥북사건 알아?")
# 캐싱 후

CPU times: user 1.97 ms, sys: 0 ns, total: 1.97 ms
Wall time: 1.81 ms


AIMessage(content=' 안녕하세요. 세종대왕과 맥북 사건, 이야기를 나누고 싶으신가요? 😄\n\n세종대왕은 한국의 왕으로, 역사적 인물이기에 많은 관심을 받는 존재죠. 하지만 맥북과 관련된 사건은 정말 흥미로운 일일 것 같아요! 🧐  \n\n**어떤 부분에 대해 이야기를 시작하고 싶으신가요?** \n\n예를 들어, \n* **세종대왕을 중심으로 맥북이라는 제품과 관련된 사건들을 알고 싶다면, 어떤 정보를 원하시나요?** (예: 세종대왕의 시대에 맥북이 존재했는지, 맥북과 관련된 이야기를 찾아보려는 계획 등)\n* **세종대왕을 중심으로 맥북 사건을 해설하고 싶다면 어떤 정보를 원하시나요?** (예: 세종대왕의 시대에 맥북이 존재했는지, 맥북과 관련된 이야기를 찾아보려는 계획 등)\n* **세종대왕과 맥북 사건을 연결해 보는 것에 관심을 가지고 있으시나요?** (예: 세종대왕의 역사와 맥북의 역사를 비교해 볼까?)\n\n어떤 방향으로 이야기를 나누고 싶은지 알려주세요. 😊  더 자세히 설명해 주시면 더욱 흥미로운 대화를 만들 수 있을 것 같아요! \n', response_metadata={'model': 'gemma2:2b', 'created_at': '2024-09-17T13:23:34.743636114Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 40206581977, 'load_duration': 52270788, 'prompt_eval_count': 21, 'prompt_eval_duration': 134761000, 'eval_count': 364, 'eval_duration': 39975257000}, id='run-c50a8dd3-975c-44d9-8ca0-40a68df3eceb-0', usage_metadata={'input_tokens': 21, 'output_tokens': 364, 't

캐싱 후에 

확실히 저장해둔 답변으로 그대로 뱉어낸다. 속도도 엄청 빠르고

근데? 이렇게 되면 답변이 너무 고정적이지 않나? 유사한 답변은 또 어떻게 할까?

In [13]:
%%time
llm.invoke("세종대왕 맥북사건에 대해 말해줘")

CPU times: user 145 ms, sys: 17 ms, total: 162 ms
Wall time: 20.5 s


AIMessage(content=' 세종대왕과 맥북 사건은 직접적으로 연관성이 없습니다. 😊\n\n**세종대왕**은 조선시대의 왕으로, 1418년부터 1450년까지 재위를 했던 인물입니다. 그는  뛰어난 정치적 지도력과 학문적 성과를 남겼다는 평가를 받고 있습니다.\n\n**맥북**은 현대 기술의 대표적인 제품으로, Apple에서 개발한 휴대용 Personal Computer (PC)입니다. \n\n이 두 가지 주제는 서로 다른 분야에 속하며, 직접적으로 연결된 사건이 아닙니다. \n\n\n\n혹시 세종대왕과 맥북 관련 질문이 있으신가요?  🤔 \n\n\n* 세종대왕의 업적이나 왕실의 역사에 관한 질문\n* 맥북의 기술이나 사용법에 대한 질문 \n\n\n\n\n더 자세히 알고 싶은 내용을 말해주세요! 😄 \n', response_metadata={'model': 'gemma2:2b', 'created_at': '2024-09-17T13:28:22.033258035Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 20474849403, 'load_duration': 41038282, 'prompt_eval_count': 23, 'prompt_eval_duration': 304674000, 'eval_count': 229, 'eval_duration': 20075077000}, id='run-4277d1c5-308e-474d-875e-6fb69ee9dc44-0', usage_metadata={'input_tokens': 23, 'output_tokens': 229, 'total_tokens': 252})

- 답변이 완벽히 일치하지 않는 이상 결국 새로하게 되네 -> 이러면 캐싱 쓸 이유가 있나?

### SQLite Cache
- 장기간 캐싱 or 프로그램 재시작 후에도 유지 가능

In [18]:
!rm .langchain.db # 파일(db) 삭제

In [22]:
# We can do the same thing with a SQLite cache
from langchain_community.cache import SQLiteCache
import os

# 캐시 디렉토리를 생성합니다.
if not os.path.exists("cache"):
    os.makedirs("cache")

# SQLiteCache를 사용합니다.
set_llm_cache(SQLiteCache(database_path="cache/llm_cache.db"))

In [20]:
%%time
llm.invoke("농담 하나 해줘")

CPU times: user 50.7 ms, sys: 568 µs, total: 51.3 ms
Wall time: 4.22 s


AIMessage(content='왜 곰돌이가 싫은지 모르겠다!  🐻\u200d❄️\n\n(Why do bears dislike a doll? 🐻\u200d❄️) \n\n\n😊  Hope you enjoyed that one! \n', response_metadata={'model': 'gemma2:2b', 'created_at': '2024-09-17T13:40:20.519190571Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 4170390106, 'load_duration': 65760719, 'prompt_eval_count': 14, 'prompt_eval_duration': 106610000, 'eval_count': 46, 'eval_duration': 3949157000}, id='run-33e3e47c-4dd3-498a-8fc1-5c04906f2aba-0', usage_metadata={'input_tokens': 14, 'output_tokens': 46, 'total_tokens': 60})

In [21]:
%%time
llm.invoke("농담 하나 해줘")

CPU times: user 3.01 ms, sys: 1.73 ms, total: 4.74 ms
Wall time: 3.98 ms


AIMessage(content='왜 곰돌이가 싫은지 모르겠다!  🐻\u200d❄️\n\n(Why do bears dislike a doll? 🐻\u200d❄️) \n\n\n😊  Hope you enjoyed that one! \n', response_metadata={'model': 'gemma2:2b', 'created_at': '2024-09-17T13:40:20.519190571Z', 'message': {'role': 'assistant', 'content': ''}, 'done_reason': 'stop', 'done': True, 'total_duration': 4170390106, 'load_duration': 65760719, 'prompt_eval_count': 14, 'prompt_eval_duration': 106610000, 'eval_count': 46, 'eval_duration': 3949157000}, id='run-33e3e47c-4dd3-498a-8fc1-5c04906f2aba-0', usage_metadata={'input_tokens': 14, 'output_tokens': 46, 'total_tokens': 60})

In [None]:
# 종료 후 다시 시작해도 바로 답변이 되는 모습
%%time
llm.invoke("농담 하나 해줘")

- 그럼 답변 속도를 높이는 거를 예상 질문 리스트를 만들어서 캐시로 해도 되겠네?