# 如何加载HTML
超文本标记语言（[HTML](https://en.wikipedia.org/wiki/HTML)）是一种标准标记语言，用于设计可通过网页浏览器显示的文档。
本文介绍如何将 `HTML` 文档加载为 LangChain 的 [Document](https://python.langchain.com/api_reference/core/documents/langchain_core.documents.base.Document.html#langchain_core.documents.base.Document) 对象，以便后续使用。
解析HTML文件通常需要专门的工具。这里我们演示通过[Unstructured](https://docs.unstructured.io)和[BeautifulSoup4](https://beautiful-soup-4.readthedocs.io/en/latest/)进行解析，这两个工具可以通过pip安装。前往集成页面查看与其他服务的集成方案，例如[Azure AI文档智能](/docs/integrations/document_loaders/azure_document_intelligence)或[FireCrawl](/docs/integrations/document_loaders/firecrawl)。
## 使用Unstructured加载HTML

In [None]:
%pip install unstructured

In [2]:
from langchain_community.document_loaders import UnstructuredHTMLLoader

file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

print(data)

[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]


## 使用BeautifulSoup4加载HTML
我们同样可以使用 `BeautifulSoup4` 通过 `BSHTMLLoader` 加载 HTML 文档。这将把 HTML 中的文本提取到 `page_content` 中，并将页面标题作为 `title` 存入 `metadata`。

In [None]:
%pip install bs4

In [4]:
from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader(file_path)
data = loader.load()

print(data)

[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]
