# 如何加载 HTML

超文本标记语言 [HTML](https://en.wikipedia.org/wiki/HTML) 是用于设计在网页浏览器中显示的文档的标准标记语言。

本内容介绍如何将 `HTML` 文档加载到 LangChain 的 [Document](https://api.js.langchain.com/classes/langchain_core.documents.Document.html) 对象中，以便我们可以在后续流程中使用这些对象。

解析 HTML 文件通常需要专用工具。这里我们通过 [Unstructured](https://unstructured-io.github.io/unstructured/) 展示解析过程。有关与其他服务（如 [FireCrawl](/docs/integrations/document_loaders/web_loaders/firecrawl)）的集成，请查看集成页面。

:::info 预备知识

本指南假设您已熟悉以下概念：

- [Documents](https://api.js.langchain.com/classes/_langchain_core.documents.Document.html)
- [Document Loaders](/docs/concepts/document_loaders)

:::

## 安装

```{=mdx}
import Npm2Yarn from "@theme/Npm2Yarn"

<Npm2Yarn>
  @langchain/community @langchain/core
</Npm2Yarn>
```

## 配置

尽管 Unstructured 有开源版本，但您仍需提供一个 API 密钥才能访问该服务。要使一切正常运行，请按照以下两个步骤操作：

1. 下载并启动 Docker 容器：
  
```bash
docker run -p 8000:8000 -d --rm --name unstructured-api downloads.unstructured.io/unstructured-io/unstructured-api:latest --port 8000 --host 0.0.0.0
```

2. 在[此处](https://unstructured.io/api-key)获取免费的 API 密钥和 API URL，并在您的环境中设置（根据 Unstructured 网站说明，分配您的 API 密钥和 URL 可能需要一个小时）：

```bash
export UNSTRUCTURED_API_KEY="..."
# 将下方替换为您邮件中的 `Full URL`
export UNSTRUCTURED_API_URL="https://<ORG_NAME>-<SECRET>.api.unstructuredapp.io/general/v0/general" 
```

## 使用Unstructured加载HTML

In [1]:
import { UnstructuredLoader } from "@langchain/community/document_loaders/fs/unstructured";

const filePath = "../../../../libs/langchain-community/src/tools/fixtures/wordoftheday.html"

const loader = new UnstructuredLoader(filePath, {
  apiKey: process.env.UNSTRUCTURED_API_KEY,
  apiUrl: process.env.UNSTRUCTURED_API_URL,
});

const data = await loader.load()
console.log(data.slice(0, 5));

[
  Document {
    pageContent: 'Word of the Day',
    metadata: {
      category_depth: 0,
      languages: [Array],
      filename: 'wordoftheday.html',
      filetype: 'text/html',
      category: 'Title'
    }
  },
  Document {
    pageContent: ': April 10, 2023',
    metadata: {
      emphasized_text_contents: [Array],
      emphasized_text_tags: [Array],
      languages: [Array],
      parent_id: 'b845e60d85ff7d10abda4e5f9a37eec8',
      filename: 'wordoftheday.html',
      filetype: 'text/html',
      category: 'UncategorizedText'
    }
  },
  Document {
    pageContent: 'foible',
    metadata: {
      category_depth: 1,
      languages: [Array],
      parent_id: 'b845e60d85ff7d10abda4e5f9a37eec8',
      filename: 'wordoftheday.html',
      filetype: 'text/html',
      category: 'Title'
    }
  },
  Document {
    pageContent: 'play',
    metadata: {
      category_depth: 0,
      link_texts: [Array],
      link_urls: [Array],
      link_start_indexes: [Array],
      languages: 