## Context Compression

In [7]:
from langchain_ollama import OllamaEmbeddings
from langchain_community.vectorstores.chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor


from llm_client import get_model

1. 通过文档加载器加载文档，并对文档进行分割

In [5]:
loader = WebBaseLoader("https://app.xinhuanet.com/news/article.html?articleId=cf58e389142893239ff9e986e7a3e06a")
docs = loader.load()
spliter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=20)
chunks = spliter.split_documents(docs)
query = "马拉松的经济价值"

2. 声明基于Chroma的向量存储，使用LLAMA构建一个文档压缩器

In [11]:
vs = Chroma.from_documents(chunks, OllamaEmbeddings(model = "llama2-chinese"))

llm = get_model('llama')
compressor = LLMChainExtractor.from_llm(llm)

compression_retriever = ContextualCompressionRetriever(
    base_compressor = compressor,
    base_retriever = vs.as_retriever()
)

3.对上下文进行压缩并输出结果

In [12]:
compression_retriever.get_relevant_documents(query)

[Document(metadata={'description': '中国马拉松产业观察：跑出来的消费转型，赛出来的城市活力----新华网北京1月7日电（侯大伟 李旭）一年消费总规模超133亿元、单个赛事报名人数达450744人……日前刚刚结束的中国马拉松博览会上，多组数据让行业备受鼓舞；近期相关赛事的报名数据更是将以马拉松为代表的中国路跑运动送上热点。45万+的报名人数虽属罕见，但整个2024年，动辄20万+的报名数字在国内头部马拉松赛事中已屡见不鲜。 2014年，《国务院关于加快发展体育产业促进体育消费的若干意见》颁布，自此，以马拉松为代表的中国路跑运动迎来黄金十年，不断倍增的报名人数成为“跑马热”最直观的印证。“周末两眼一睁就是马拉松，朋友圈被越来越多去全国各地参赛的跑友‘刷屏’了！”来自北京的跑者王鹏表示。 中国马拉松官网数据显示，2024年，全国共举办路跑赛事671场，参赛人次约656万。赛事分布范围涵盖了全国31个省级行政区，261个市，537个区县。仅2024年11月，国内就有114场赛事鸣枪举办，其中1', 'language': 'zh', 'source': 'https://app.xinhuanet.com/news/article.html?articleId=cf58e389142893239ff9e986e7a3e06a', 'title': '中国马拉松产业观察：跑出来的消费转型，赛出来的城市活力 - 新华网客户端'}, page_content='1. 地方政府办赛的主动布局和积极发力，都能够加速马拉松赛事经济效益的放大。\n2. 相对于其他类型城市举办的路跑赛事，马拉松赛事平均收入远高，显示“马拉松经济效益”已成为新风尚。\n3. 文体旅商农产业融合发展也在取得一定的成果，同时“马拉松+旅行”这种消费模式被广泛应用。\n4. 与此同时，地方政府和主办事务机构要注意避免“内卷”，不让马拉松赛事成为“千城一面”的现象。'),
 Document(metadata={'description': '中国马拉松产业观察：跑出来的消费转型，赛出来的城市活力----新华网北京1月7日电（侯大伟 李旭）一年消费总规模超133亿元、单个赛事报名人数达450744人……日前刚刚结束的中国马拉松博览会上，多组数据让行业备受鼓舞；近期相关赛事的报名数