# 数据加载器
* 加载各种数据，然后向LLM询问相关问题。
* 连接数据源并加载私人文件。

## LangChain 内置数据加载器。
* 标记为“集成”。
* 其中大多数需要安装相应的库。

## LangChain 文档关于文档加载器
* 请查看文档页面 [这里](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/)。
* 请查看内置文档加载器的列表 [这里](https://python.langchain.com/v0.1/docs/integrations/document_loaders/)。

## 设置

## 创建你的 .env 文件
* 在 GitHub 仓库中，我们包含了一个名为 .env.example 的文件
* 将该文件重命名为 .env 文件，在这里你将添加你的机密 API 密钥。记得包括：
* OPENAI_API_KEY=你的_openai_api_key
* LANGCHAIN_TRACING_V2=true
* LANGCHAIN_ENDPOINT=https://api.smith.langchain.com
* LANGCHAIN_API_KEY=你的_langchain_api_key
* LANGCHAIN_PROJECT=你的项目名称

我们将把我们的LangSmith项目称为**001-data-loaders**。

## 跟踪操作
从现在开始，我们可以从 LangSmith 跟踪这个项目的操作 **和成本**：
* [smith.langchain.com](https://smith.langchain.com)

In [2]:
import os
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv())
openai_api_key = os.environ["OPENAI_API_KEY"]

* 注意：由于现在市场上最优秀的语言模型是OpenAI，我们将默认使用它。您将在下一节中看到如何与其他开源语言模型如Llama3或Mistral连接。

简单数据加载

#### 加载 .txt 文件

In [2]:
from langchain_openai import ChatOpenAI

chatModel = ChatOpenAI(model="gpt-3.5-turbo-0125")

ValidationError: 1 validation error for ChatOpenAI
__root__
  Did not find openai_api_key, please add an environment variable `OPENAI_API_KEY` which contains it, or pass `openai_api_key` as a named parameter. (type=value_error)

In [7]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("./data/be-good.txt")

loaded_data = loader.load()

In [8]:
loaded_data

#### Loading a CSV file

In [9]:
from langchain_community.document_loaders import CSVLoader

loader = CSVLoader('./data/Street_Tree_List.csv')

loaded_data = loader.load()

In [10]:
loaded_data

#### Loading an .html file

In [12]:
from langchain_community.document_loaders import UnstructuredHTMLLoader

loader = UnstructuredHTMLLoader('./data/100-startups.html')

loaded_data = loader.load()

In [13]:
loaded_data

#### Loading a .pdf file

In [1]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader('./data/5pages.pdf')

loaded_data = loader.load_and_split()

ModuleNotFoundError: No module named 'langchain_community'

In [16]:
loaded_data[0].page_content

#### 加载维基百科页面并询问相关问题

In [32]:
from langchain_community.document_loaders import WikipediaLoader

name = "JFK"

loader = WikipediaLoader(query=name, load_max_docs=1)

loaded_data = loader.load()[0].page_content

In [33]:
from langchain_core.prompts import ChatPromptTemplate

chat_template = ChatPromptTemplate.from_messages(
    [
        ("human", "Answer this {question}, here is some extra {context}"),
    ]
)

messages = chat_template.format_messages(
    question="What was the full name of JFK",
    context=loaded_data
)

In [34]:
response = chatModel.invoke(messages)

In [None]:
response