# 1. 加载文档


1. TextLoader
2. BasePDFLoader
3. UnstructuredHTMLLoader
4. ...

[document_loader](https://python.langchain.com/api_reference/community/document_loaders.html)


## 1.1 TextLoader

```python
from langchain_community.document_loaders import TextLoader
```

TextLoader参数：
1. file_path: 文件路径
2. encoding: 编码, 如："UTF-8"/"GB2312"
3. autodetect_encoding: 是否自动检测编码，默认为False

TextLoader的实例方法:
1. load() → list[Document]: 同步加载
2. async aload() → list[Document]: 异步加载
3. load_and_split(text_splitter: TextSplitter | None = None) → list[Document]: 加载文档，并切割

## 1.2 Document

实例属性：

1. page_content: 文本的内容
2. id: 可以为None
3. metadata: 字典结构，可以为None(但是很有用处)
4. type: 目前固定为"Document"


In [1]:
from langchain_community.document_loaders import TextLoader
loader = TextLoader("科技行业 2025 年展望.txt")
docs = loader.load()
len(docs)

1

# 2. 文档切割

langchain提供了RecursiveCharacterTextSplitter文档切割工具。

```python
from langchain_text_splitters import RecursiveCharacterTextSplitter
```

参数：
1. chunk_size 一般根据文档内容或大小来设置
2. chunk_overlap 一般设置 chunk_size 大小的10%-20%之间

返回：RecursiveCharacterTextSplitter实例对象

RecursiveCharacterTextSplitter实例的实例方法：

1. split_documents(): 执行文档切割


In [2]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_spliter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=100)
all_splits = text_spliter.split_documents(docs)
all_splits

[Document(metadata={'source': '科技行业 2025 年展望.txt'}, page_content='科技行业 2025 年展望:AI 浪潮重新 定义全球科技的未来\n\n发表时间：2024 年 12 月 13 日\n作者：\n(1) 沈岱 - 首席科技分析师 - sia_huang@spdbi.com - (852) 2809 0355\n(2) 马智焱 - 科技分析师 - ivy_ma@spdbi.com - (852) 2809 0300\n(3) 黄佳琦 - 科技分析师 - sia_huang@spdbi.com  - (852) 2809 0355\n\n一、全球 AI 行业具备较大成长空间'),
 Document(metadata={'source': '科技行业 2025 年展望.txt'}, page_content='2022 年 11 月底，OpenAI 发布 ChatGPT 3.5。紧随其后，生成式 AI，在供应 端的推动下，进入爆发式发展期。无论是OpenAI 随后发布的 ChatGPT 4.0， 还是谷歌、Meta 等多家厂商发布的 Gemini、Llama 等 AI 大模型，都是这一 轮AI 行业爆发式发展的体现。AI 算力芯片作为本轮 AI 浪潮基本且不可或缺 的硬件基础，成为这波浪潮最先受益的行业。'),
 Document(metadata={'source': '科技行业 2025 年展望.txt'}, page_content='首先，美国的云服务提供商大幅增加对于 AI 算力芯片的资本开支，并且推 动其AI 大模型快速更新迭代。而且，大量的公司不愿意在这波浪潮中落后，B 端需求初见端倪并快速成长，希望借助生成式 AI，提高生产力。\n这四家美国头部云服务厂商(微软、谷歌、亚马逊、Meta)资本支出同比增 速在经历了10 个季度的下行后，在 2023 年二季度见底触及-9%的低点，随 后就开启上行，在今年一季度实现+30%增长，并在二、三季度持续上扬至58%、59%(图表 1)。本轮美国互联网大厂资本开支投向主要集中在 AI 算 力的部署。'),
 Document(metadata={'source': '科技行业 2025 年展望.txt'}, page_content='展望 2025 年，

# 3. embedding

使用embedding模型进行embedding操作。

这里我们使用ollama进行embedding操作。（ollama是一个运行LLM的工具）

```python
from langchain_ollama import OllamaEmbeddings

# OllamaEmbeddings的参数
# - model：embedding模型从https://ollama.com/search选择。
```




In [3]:
from langchain_ollama import OllamaEmbeddings
embeddings = OllamaEmbeddings(model="nomic-embed-text:latest")

# 4. 存储到向量数据库

```python
from langchain_chroma import Chroma

# 参数:
# embedding_function: embeddings实例对象
```
chroma实例对象的方法：
- add_documents: 添加文档到向量数据库当中。


In [4]:
from langchain_chroma import Chroma

vector_store = Chroma(embedding_function=embeddings)
ids = vector_store.add_documents(documents=all_splits)
ids

['55a37a42-4eb6-41ab-97b7-0a5e41dedf12',
 'c6fd7e4c-484c-484c-bac2-5a9affe262ab',
 'c25d095b-938a-4248-b05a-7c75023979f7',
 '285198ce-e085-41c2-8d70-e6b140a101c7',
 '93cd81e6-8c43-482f-a2ad-321321a75b75',
 'd1d1bf6b-732b-4b84-b0de-83cc6a3ed52a',
 '0ee3960d-6b40-4ba7-942a-0011fb2dc410',
 '0b015ce0-afd6-4ae7-9f2f-36d23177e390',
 '15524418-6553-4694-a4f2-85a1d3abe8b8',
 '132abcb0-17f5-49fd-b15b-227ac0893cde',
 '0622383c-7ab3-47ff-a0e1-072f9fb5da87',
 'cd6a0a54-299c-4a6a-a66a-7571ee72c69c',
 'c2197e8c-221c-4e9f-b144-f221d179e070',
 'b45e0d3d-2f10-4983-8568-76b62c345e6c',
 '9f2a76cc-ac2a-4dae-ab6f-528089ce9015',
 '0d918971-8662-4289-b146-d871fd22ff85',
 'a364f833-0459-4ffd-b5ff-62c0e0cd0b21',
 '8a9e789a-a8c8-456f-a8d1-680e18b72044',
 '61657e97-389d-4b37-89cd-4800bc62faff',
 'ad372d06-128d-42f0-a2d4-0a78f5942105',
 '6d83df8d-0e99-4414-a4b1-c246840fc98a',
 '643aa2c6-c1e7-4966-8025-27c874f18c25',
 '939ce5e6-000f-48d8-83de-1c8500702695']

# 5. 检索生成

使用langchain框架，langchain框架的常规调用流程：

prompt | llm | output_parser

```python
# 1. 构建prompt
from langchain_core.prompts import ChatPromptTemplate
# 2. 使用Ollama进行回答
from langchain_ollama import ChatOllama
# 3. 输出格式化
from langchain_core.output_parsers import StrOutputParser
```

In [7]:
# 1. 构建prompt
from langchain_core.prompts import ChatPromptTemplate
# 2. 使用Ollama进行回答
from langchain_ollama import ChatOllama
# 3. 输出格式化
from langchain_core.output_parsers import StrOutputParser

prompt = ChatPromptTemplate.from_template("""
你是一个问答机器人。你的任务是根据下述给定的已知信息回答用户问题。

已知信息:
{context}
用户问题：
{query}
如果已知信息不包含用户问题的答案，或者已知信息不足以回答用户的问题，请直接回复"我无法回答您的问题"。
请不要输出已知信息中不包含的信息或答案。
请用中文回答用户问题。
""")

def query_vector(info):
    retriever = vector_store.as_retriever()
    docs = retriever.invoke(info["query"])
    docs_str = "\n\n".join(doc.page_content for doc in docs)
    return docs_str
    
llm = ChatOllama(model="qwen2.5:latest")

output_parser = StrOutputParser()
# 返回值: {"query": "XXXX", "context": "XXXXX2"}
rag_chain = ( {"context": query_vector, "query": lambda x: x["query"]} | prompt | llm | output_parser)

result = rag_chain.invoke({"query": "2025年AI服务器出货量预计为多少?"})
result

'2025年AI服务器出货量预计为214万台。'

In [8]:
# 今年三季度全球智能手机出货量 3.15 亿部
result = rag_chain.invoke({"query": "2024年三季度全球智能手机出货量 多少部?"})
result

'2024年三季度全球智能手机出货量的信息在已知信息中没有具体给出具体的数字，只知道今年三季度全球智能手机出货量为3.15亿部。因此，我无法回答您的问题。'

In [None]:
# 1. 根据问题到向量数据库中进行检索
# 2. 将检索到的文档片段加到prompt当中

In [5]:
# retriever = vector_store.as_retriever()
# retriever
def query_vector(info):
    retriever = vector_store.as_retriever()
    docs = retriever.invoke(info["query"])
    return docs

In [6]:
query_vector({"query": "2025年AI服务器出货量预计为多少?"})

[Document(id='55a37a42-4eb6-41ab-97b7-0a5e41dedf12', metadata={'source': '科技行业 2025 年展望.txt'}, page_content='科技行业 2025 年展望:AI 浪潮重新 定义全球科技的未来\n\n发表时间：2024 年 12 月 13 日\n作者：\n(1) 沈岱 - 首席科技分析师 - sia_huang@spdbi.com - (852) 2809 0355\n(2) 马智焱 - 科技分析师 - ivy_ma@spdbi.com - (852) 2809 0300\n(3) 黄佳琦 - 科技分析师 - sia_huang@spdbi.com  - (852) 2809 0355\n\n一、全球 AI 行业具备较大成长空间'),
 Document(id='285198ce-e085-41c2-8d70-e6b140a101c7', metadata={'source': '科技行业 2025 年展望.txt'}, page_content='展望 2025 年，我们预期美国互联网厂商以及其他初创企业都在加速部署 AI大模型算力，以避免在新技术商业落地过程中落后于竞争对手。所以，我们 预期这些美国头部科技企业的资本开支上行动能会推动AI 算力芯片需求大 幅上扬。\n其次，承接云服务厂商资本开支的 AI 服务器正在快速增长。与科技新兴产 业发展趋势类似，目前AI 服务器渗透率也处于加速上扬阶段，速度快于一 年/半年以前的市场预测。根据 Counterpoint，AI 服务器收入渗透率已经在二 季度达到29%(图表 8)。'),
 Document(id='643aa2c6-c1e7-4966-8025-27c874f18c25', metadata={'source': '科技行业 2025 年展望.txt'}, page_content='总体来看，我们预期今年全球智能手机出货量将达到 12.2 亿部，同比增长5.1%。我们略微上调全年出货量预测。全球智能手机出货量在今年取得较好 增长，在2023 年接近冰点的出货量基础上实现了较好的复苏。\n我们认为 2025 年有望延续 2024 年的复苏势头，预计 2025 年全球智能手机 出货量将达到12.4 亿部，同比增长 1.6