# 缓存（Cache）
对于大量的重复需求，其实我们可以通过缓存来提高效率，因为某些LLM请求需要花费大量时间进行处理，甚至还会花费你的大量token，也可以在一定程度上解决某些LLM服务限频请求的问题。

- 缓存的命中方式可以使用精准匹配、相似度匹配、语义匹配等

- 缓存的存储方式可以基于内存、SQLite、Redis和自定义的SQLAlchemy

接下来我们逐一介绍各种缓存方式。

In [1]:
# 使用第三方模型
from dotenv import load_dotenv, find_dotenv
import os
_ = load_dotenv(find_dotenv())

from langchain_community.chat_models import ChatSparkLLM

# 科大讯飞 LLM
spark_appid = os.environ['spark_appid']
spark_api_secret = os.environ['spark_api_secret']
spark_api_key = os.environ['spark_api_key']


llm = ChatSparkLLM(
    spark_app_id=spark_appid, spark_api_key=spark_api_key, spark_api_secret=spark_api_secret
)

llm.invoke('你好')

AIMessage(content='你好！有什么我可以帮助你的吗？', response_metadata={'token_usage': {'question_tokens': 1, 'prompt_tokens': 1, 'completion_tokens': 8, 'total_tokens': 9}}, id='run-f3d8d406-3e57-4486-ac32-db2392d318d9-0')

## 1. 内存缓存
内存缓存适合于短暂的缓存需求，当内存达到一定限制时，缓存将被删除。

使用内存缓存的好处是速度非常快，缓存可以在很短时间内访问到。

以下使用了InMemoryCache来实现内存缓存。

In [6]:
import langchain
from langchain.cache import InMemoryCache

# 定义缓存方式
langchain.llm_cache = InMemoryCache()

In [4]:
%time llm.invoke("你好")

CPU times: total: 172 ms
Wall time: 1.42 s


AIMessage(content='你好！有什么我可以帮忙的吗？', response_metadata={'token_usage': {'question_tokens': 1, 'prompt_tokens': 1, 'completion_tokens': 7, 'total_tokens': 8}}, id='run-7022197d-b64e-40d0-847b-0f746022f9c7-0')

In [5]:
%time llm.invoke("你好")

CPU times: total: 0 ns
Wall time: 996 µs


AIMessage(content='你好！有什么我可以帮忙的吗？', response_metadata={'token_usage': {'question_tokens': 1, 'prompt_tokens': 1, 'completion_tokens': 7, 'total_tokens': 8}}, id='run-7022197d-b64e-40d0-847b-0f746022f9c7-0')

> 发现同一个问题，第二次请求模型耗时极少，直接在缓存中查找

## 2. SQLite缓存
当缓存过大时，SQLite是一种更好的缓存选择，对于可能需要延长持久性的缓存数据，SQLite能够提供更好的支持。

以下使用了SQLiteCache来实现SQLite缓存。

In [7]:
from langchain.cache import SQLiteCache

langchain.llm_cache = SQLiteCache(database_path='./langchain.db')

In [8]:
%time llm.invoke("你是谁")

CPU times: total: 172 ms
Wall time: 5.93 s


AIMessage(content='您好，我是讯飞星火认知大模型，由科大讯飞构建的认知智能大模型。\n我旨在通过深度学习和自然语言处理技术，与人类进行流畅的交流、提供信息服务和智能解答，以满足各种领域内的认知智能需求。我的存在不仅体现了人工智能领域的前沿进展，也代表了科技为人类生活带来便利和提升的不懈努力。', response_metadata={'token_usage': {'question_tokens': 2, 'prompt_tokens': 2, 'completion_tokens': 75, 'total_tokens': 77}}, id='run-1c2f3c7f-92c9-48c3-a8ea-fe5232b1528e-0')

In [9]:
%time llm.invoke("你是谁")

CPU times: total: 0 ns
Wall time: 2.02 ms


AIMessage(content='您好，我是讯飞星火认知大模型，由科大讯飞构建的认知智能大模型。\n我旨在通过深度学习和自然语言处理技术，与人类进行流畅的交流、提供信息服务和智能解答，以满足各种领域内的认知智能需求。我的存在不仅体现了人工智能领域的前沿进展，也代表了科技为人类生活带来便利和提升的不懈努力。', response_metadata={'token_usage': {'question_tokens': 2, 'prompt_tokens': 2, 'completion_tokens': 75, 'total_tokens': 77}}, id='run-1c2f3c7f-92c9-48c3-a8ea-fe5232b1528e-0')

## 3.Redis缓存
Redis提供了内存缓存和持久化缓存。Redis的启动非常快速，并且可以存储大量数据。

以下使用了RedisCache来实现Redis缓存。

In [10]:
# We can do the same thing with a Redis cache
# 在运行此示例之前，请确保您的本地Redis实例首先运行
from redis import Redis
from langchain.cache import RedisCache

langchain.llm_cache = RedisCache(redis_=Redis())

ModuleNotFoundError: No module named 'redis'

## 4.基于语义的缓存
基于语义的缓存可以根据已缓存文本的语义与新要缓存的文本语义进行比较，以确定是否缓存数据。

以下使用了RedisSemanticCache来实现基于语义的缓存。

In [None]:
from langchain.embeddings import SentenceTransformerEmbeddings
from langchain.cache import RedisSemanticCache

embeddings = SentenceTransformerEmbeddings(model_name="D:/code/models/M3E/xrunda/m3e-base")

langchain.llm_cache = RedisSemanticCache(
    redis_url='', 
    embedding=embeddings
)

  warn_deprecated(
