1. 文档加载器

In [8]:
from langchain_community.document_loaders.csv_loader import CSVLoader
from rich import print

# 实例化 CSVLoader
loader = CSVLoader(
  file_path="products.csv",
  csv_args= {
   'delimiter': ',',
    'quotechar': '"',
    #可以通过定制化的方式加载文档的不同列
    'fieldnames': ['品牌', '型号', '价格']
  }
)

data = loader.load()

print(data)

delimiter：这是一个字符，用于分隔CSV文件中的字段。通常，大多数CSV文件使用逗号作为分隔符，但也有可能使用其他字符，如制表符（'\t'）或分号（';'）。

quotechar：这是一个字符，用于封装那些包含特殊字符（如分隔符、换行符或其他引号字符）的字段。常见的引号字符是双引号（'"'）。如果字段中包含特殊字符，那么这个字段会被quotechar定义的字符封装起来。例如，如果你的分隔符是逗号，而你有一个字段是"John, Smith"，那么这个字段会被写成""John, Smith""，以防止逗号被误解为字段的分隔符。

指定对应的字段

In [9]:
# 实例化CSVLoader，指定需要加载的CSV文件路径，同时指定source_column参数，将"品牌"列作为每个文档的来源
loader = CSVLoader(file_path='products.csv', source_column="品牌")

# 调用load方法加载数据
data = loader.load()

# 打印加载的数据
print(data)


2. 文档转换器

In [11]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 定义一个长文本，该文本是一个关于智能手机的详细产品说明
product_description = """
该款智能手机配备了一块6.7英寸的超清液晶显示屏，分辨率高达3200x1440，显示效果极为出色。搭载了高通骁龙888处理器，运行速度非常快，能够流畅运行大多数应用和游戏。内置5000mAh大容量电池，续航能力强，支持快充技术，能在短时间内充满电池。拥有128GB的内部存储空间，可以存储大量的应用、照片和视频，同时支持扩展存储卡，最大可以扩展到1TB。后置有4800万像素的高清摄像头，支持8K视频录制和超清拍照，前置有2000万像素的自拍摄像头，自拍效果非常好。支持5G网络，下载速度非常快，网络信号稳定。还有许多其他功能，如面部解锁、指纹识别、防水防尘等，为用户提供了极为便捷的使用体验。
"""

# 实例化RecursiveCharacterTextSplitter，块大小为100字符，重叠区域为20字符
text_splitter = RecursiveCharacterTextSplitter(
  chunk_size=100, # 每个文档块的大小是100
  chunk_overlap =20, # 每个文档块之间的重叠区域是20
  length_function = len
)

# 使用split_text方法将长文本分割成多个文档
chunks = text_splitter.split_text(text = product_description)

# 打印分割后的文档
for index,chunk in enumerate(chunks):
  print(f"文档{index+1}：{chunk}")

In [None]:
from langchain_core.documents import Document
from langchain_community.chat_models import ChatOpenAI
#用来对文字进行tag化的一个类
from langchain_community.document_transformers.openai_functions import create_metadata_tagger

# 定义新的 schema
# 希望对用户的评价进行分类
schema = {
    "properties": {
        "产品": {"type": "string"},
        "情感": {"type": "string", "enum": ["正面", "负面"]},
        "评分": {
            "type": "integer",
            "description": "用户给出的评分，满分为5",
        },
    },
    "required": ["产品", "情感"],
}

from langchain_deepseek import ChatDeepSeek
from rich import print
#deepseek 模型的实例
llm = ChatDeepSeek(model = "deepseek-chat")

# 创建元数据标签生成器
document_transformer = create_metadata_tagger(metadata_schema=schema, llm=llm)

# 定义原始文档
original_documents = [
  Document(
    page_content="华为P40评价\nBy 用户A\n\n我非常喜欢这款手机，摄像头非常好。5星满分。"
  ),
  Document(
    page_content="三星Galaxy评价\nBy 用户B\n\n电池续航令人失望。给2星。"
  ),
]

# 转换文档
try:
  enhanced_documents = document_transformer.transform_documents(original_documents)
except Exception as e:
  import traceback
  traceback.print_exc()


# 打印增强的文档
import json
print(
  *[d.page_content + "\n\n" + json.dumps(d.metadata, ensure_ascii=False, indent=2) for d in enhanced_documents],
  sep="\n\n---------------\n\n"
)



Traceback (most recent call last):
  File "d:\ProgramData\Anaconda\envs\deepseek\lib\site-packages\langchain_core\output_parsers\openai_functions.py", line 96, in parse_result
    function_call = message.additional_kwargs["function_call"]
KeyError: 'function_call'

The above exception was the direct cause of the following exception:

Traceback (most recent call last):
  File "C:\Users\Administrator\AppData\Local\Temp\ipykernel_8580\3129320511.py", line 40, in <module>
    enhanced_documents = document_transformer.transform_documents(original_documents)
  File "d:\ProgramData\Anaconda\envs\deepseek\lib\site-packages\langchain_community\document_transformers\openai_functions.py", line 61, in transform_documents
    extracted_metadata: Dict = self.tagging_chain.run(document.page_content)  # type: ignore[assignment]
    return wrapped(*args, **kwargs)
  File "d:\ProgramData\Anaconda\envs\deepseek\lib\site-packages\langchain\chains\base.py", line 606, in run
    return self(args[0], callbac

NameError: name 'enhanced_documents' is not defined

pip install torch  sentence-transformers chromadb

In [20]:
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
import torch

hf = HuggingFaceBgeEmbeddings(
  model_name = "BAAI/bge-small-en",
  model_kwargs = {
    "device": "cuda" if torch.cuda.is_available() else "cpu"
  },
  encode_kwargs = {
    "normalize_embeddings": True
  }
)
embedding = hf.embed_query("猫")
print(embedding)

  hf = HuggingFaceBgeEmbeddings(
  from .autonotebook import tqdm as notebook_tqdm


4. 向量存储与搜索

In [24]:
# from langchain_community.embeddings import QianfanEmbeddingsEndpoint
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceBgeEmbeddings


raw_documents = """
该款智能手机配备了一块6.7英寸的超清液晶显示屏，分辨率高达3200x1440，显示效果极为出色。搭载了高通骁龙888处理器，运行速度非常快，能够流畅运行大多数应用和游戏。内置5000mAh大容量电池，续航能力强，支持快充技术，能在短时间内充满电池。拥有128GB的内部存储空间，可以存储大量的应用、照片和视频，同时支持扩展存储卡，最大可以扩展到1TB。后置有4800万像素的高清摄像头，支持8K视频录制和超清拍照，前置有2000万像素的自拍摄像头，自拍效果非常好。支持5G网络，下载速度非常快，网络信号稳定。还有许多其他功能，如面部解锁、指纹识别、防水防尘等，为用户提供了极为便捷的使用体验。
"""

text_splitter = RecursiveCharacterTextSplitter(
  chunk_size=100, # 每个文档块的大小是100
  chunk_overlap =20, # 每个文档块之间的重叠区域是20
  length_function = len
)

# 文本的切割
documents = text_splitter.split_text(text = raw_documents)


hf = HuggingFaceBgeEmbeddings(
  model_name = "BAAI/bge-small-en",
  model_kwargs = {
    "device": "cuda" if torch.cuda.is_available() else "cpu"
  },
  encode_kwargs = {
    "normalize_embeddings": True
  }
)
# vectorStore = Chroma.from_texts(documents, QianfanEmbeddingsEndpoint())
#chromadb 将嵌入的向量保存起来，通过hf 提供的embeddings的模型进行嵌入。
vectorStore = Chroma.from_texts(documents, hf)


query = "手机分辨率如何"
#查询已经存储向量的手机描述信息
#把query 也就是用户输入的问题，向量化，然后与保存在chromadb中的文本块向量进行比较。
#把相似的文本快返回。
docs = vectorStore.similarity_search(query)

for item in docs:
  print(item.page_content)

In [25]:
from langchain.chains.question_answering import load_qa_chain

llm = ChatDeepSeek(model="deepseek-chat")
#读取文件内容的方式，对返回的文本块进行总结或者润色。
chain = load_qa_chain(llm, chain_type="stuff")
#输入匹配得到的文本块和用户的提问。
#返回用户能够理解的自然语言
response =chain.run(input_documents=docs, question=query)
print(response)



stuff: https://python.langchain.com/docs/versions/migrating_chains/stuff_docs_chain
map_reduce: https://python.langchain.com/docs/versions/migrating_chains/map_reduce_chain
refine: https://python.langchain.com/docs/versions/migrating_chains/refine_chain
map_rerank: https://python.langchain.com/docs/versions/migrating_chains/map_rerank_docs_chain

See also guides on retrieval and question-answering here: https://python.langchain.com/docs/how_to/#qa-with-rag
  chain = load_qa_chain(llm, chain_type="stuff")
  response =chain.run(input_documents=docs, question=query)
