# CSVLoader

- 文档加载器提供了一套标准接口，用于将不同来源（csv、pdf、json等）的数据读取为 LangChain 的文档格式
- 文档加载器需实现 `BaseLoader` 接口
- `Document`类是 LangChain 内文档统一载体，所有文档加载器最后均返回 `Document` 类实例，包含内容：
  - `page_content`: 文档内容
  - `metadata`: 文档元数据
- 文档加载器统一方法：
  - `load()`: 读取数据并返回 `Document` 类实例
  - `lazy_load()`: 延迟流式传输文档

In [1]:
from langchain_community.document_loaders import CSVLoader

In [2]:
loader = CSVLoader(
    file_path="./data/stu.csv",
    csv_args={
        "delimiter": ",",       # 指定分隔符
        "quotechar": '"',       # 指定带有分隔符文本的引号包围是单引号还是双引号
        # 如果数据原本有表头，就不要下面的代码，如果没有可以使用
        "fieldnames": ['name', 'age', 'gender', '爱好']
    },
    encoding="utf-8"            # 指定编码为UTF-8
)

In [5]:
# 批量加载 .load()   ->  [Document, Document, ...]
documents = loader.load()

for document in documents:
    print(type(document), document)

<class 'langchain_core.documents.base.Document'> page_content='name: name
age: age
gender: gender
爱好: hobby' metadata={'source': './data/stu.csv', 'row': 0}
<class 'langchain_core.documents.base.Document'> page_content='name: 王梓涵
age: 25
gender: 男
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 1}
<class 'langchain_core.documents.base.Document'> page_content='name: 刘若曦
age: 22
gender: 女
爱好: 睡觉,rap' metadata={'source': './data/stu.csv', 'row': 2}
<class 'langchain_core.documents.base.Document'> page_content='name: 陈俊宇
age: 20
gender: 男
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 3}
<class 'langchain_core.documents.base.Document'> page_content='name: 赵思瑶
age: 28
gender: 女
爱好: 睡觉,rap' metadata={'source': './data/stu.csv', 'row': 4}
<class 'langchain_core.documents.base.Document'> page_content='name: 黄浩然
age: 15
gender: 男
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 5}
<class 'langchain_core.documents.base.Document'> page_content='name: 林雨桐
age: 20
gender:

In [6]:
# 懒加载  .lazy_load()  迭代器[Document]
for document in loader.lazy_load():
    print(document)

page_content='name: name
age: age
gender: gender
爱好: hobby' metadata={'source': './data/stu.csv', 'row': 0}
page_content='name: 王梓涵
age: 25
gender: 男
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 1}
page_content='name: 刘若曦
age: 22
gender: 女
爱好: 睡觉,rap' metadata={'source': './data/stu.csv', 'row': 2}
page_content='name: 陈俊宇
age: 20
gender: 男
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 3}
page_content='name: 赵思瑶
age: 28
gender: 女
爱好: 睡觉,rap' metadata={'source': './data/stu.csv', 'row': 4}
page_content='name: 黄浩然
age: 15
gender: 男
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 5}
page_content='name: 林雨桐
age: 20
gender: 女
爱好: 唱跳,rap' metadata={'source': './data/stu.csv', 'row': 6}
page_content='name: 周博文
age: 20
gender: 男
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 7}
page_content='name: 吴诗琪
age: 24
gender: 女
爱好: 吃饭,rap' metadata={'source': './data/stu.csv', 'row': 8}
page_content='name: 马子轩
age: 22
gender: 男
爱好: 睡觉,rap' metadata={'source': '.