RAG第一步是加载本地数据。可以加载处理很多种文件。
下面以CSV为例说明。

In [None]:
from pathlib import Path
from langchain_community.document_loaders.csv_loader import CSVLoader
from langchain_community.document_loaders import DirectoryLoader

home_directory = str(Path.home())
file_path = f"{home_directory}/Documents/Data/order_202505.csv"

# 加载目录中的所有文档
# loader = DirectoryLoader('../', glob="**/*.md")
# 多线程加载
# loader = DirectoryLoader('../', glob="**/*.md", use_multithreading=True)

loader = CSVLoader(
    file_path=file_path,
    csv_args={
        "delimiter": ",", # 分隔符
        "quotechar": '"', # 引号字符：用于引用包含特殊字符的字段的单字符字符串，如定界符或者quotechar，或者包含换行符。它默认为'"'
        "fieldnames": ["订单ID", "用户ID", "下单时间", "支付时间", "支付金额", "设备类型", "支付方式", "产品ID", "产品名称", "自动续费", "会员类型"],
    },
    source_column="订单ID" # 为每一行创建的文档指定一个源，如果不制定，默认会将file_path作为source_column
    )
docs = loader.load()
# 懒惰加载
# docs_lazy = loader.lazy_load()

for record in docs[:2]:
    print(record)

还可以对text、html、json、pdf、word等内容加载

In [None]:
from langchain_community.document_loaders import UnstructuredHTMLLoader
from langchain_community.document_loaders import BSHTMLLoader

loader = UnstructuredHTMLLoader("example_data/fake-content.html")
# 使用 BeautifulSoup4 使用加载HTML文档 BSHTMLLoader 。这将把文本从HTML提取到page_content，页面标题为title到…里面metadata
# loader = BSHTMLLoader("example_data/fake-content.html")

data = loader.load()

print(data)

In [None]:
from langchain_community.document_loaders import JSONLoader

loader = JSONLoader(
    file_path=file_path,
    jq_schema='.messages[].content',
    text_content=False)

# 使用jq模式中的content_key从JSON文件加载文档
loader = JSONLoader(
    file_path=file_path,
    jq_schema=".data[]",
    content_key=".attributes.message",
    is_content_key_jq_parsable=True,
)

data = loader.load()

print(data)




