---
sidebar_label: RecursiveUrlLoader
sidebar_class_name: node-only
---

# 递归URL加载器

```{=mdx}

:::tip 兼容性

仅适用于Node.js。

:::

```

本笔记本提供了[RecursiveUrlLoader](/docs/integrations/document_loaders/)的快速入门概览。如需了解RecursiveUrlLoader所有功能和配置的详细文档，请前往[API参考](https://api.js.langchain.com/classes/langchain_community_document_loaders_web_recursive_url.RecursiveUrlLoader.html)。

## 概览
### 集成细节

| 类 | 包 | 本地支持 | 可序列化 | Python支持 |
| :--- | :--- | :---: | :---: |  :---: |
| [RecursiveUrlLoader](https://api.js.langchain.com/classes/langchain_community_document_loaders_web_recursive_url.RecursiveUrlLoader.html) | [@langchain/community](https://api.js.langchain.com/modules/langchain_community_document_loaders_web_recursive_url.html) | ✅ | beta | ❌ | 
### 加载器特性
| 来源 | 网络加载器 | 仅限Node环境
| :---: | :---: | :---: | 
| RecursiveUrlLoader | ✅ | ✅ | 

在从网站加载内容时，我们可能希望处理并加载页面上的所有URL。

例如，让我们看一下[LangChain.js简介](/docs/introduction)文档。

这有很多我们可能想要加载、拆分并在以后批量检索的子页面。

挑战在于遍历子页面树并生成一个列表！

我们通过使用`RecursiveUrlLoader`来实现这一点。

这也给了我们排除某些子页面、自定义提取器等灵活性。

## 准备

要访问`RecursiveUrlLoader`文档加载器，您需要安装`@langchain/community`集成以及[`jsdom`](https://www.npmjs.com/package/jsdom)包。

### 凭证

如果您想自动追踪模型调用，也可以通过取消下面的注释来设置您的[LangSmith](https://docs.smith.langchain.com/) API密钥：

```bash
# export LANGSMITH_TRACING="true"
# export LANGSMITH_API_KEY="your-api-key"
```

### 安装

LangChain的RecursiveUrlLoader集成位于`@langchain/community`包中：

```{=mdx}
import IntegrationInstallTooltip from "@mdx_components/integration_install_tooltip.mdx";
import Npm2Yarn from "@theme/Npm2Yarn";

<IntegrationInstallTooltip></IntegrationInstallTooltip>

<Npm2Yarn>
  @langchain/community @langchain/core jsdom
</Npm2Yarn>

我们还建议添加一个类似[`html-to-text`](https://www.npmjs.com/package/html-to-text)或者
[`@mozilla/readability`](https://www.npmjs.com/package/@mozilla/readability)的包来从页面中提取原始文本。

<Npm2Yarn>
  html-to-text
</Npm2Yarn>

```

## 实例化

现在我们可以实例化我们的模型对象并加载文档：

In [1]:
import { RecursiveUrlLoader } from "@langchain/community/document_loaders/web/recursive_url"
import { compile } from "html-to-text";

const compiledConvert = compile({ wordwrap: 130 }); // returns (text: string) => string;

const loader = new RecursiveUrlLoader("https://langchain.com/",  {
  extractor: compiledConvert,
  maxDepth: 1,
  excludeDirs: ["/docs/api/"],
})

## 加载

In [2]:
const docs = await loader.load()
docs[0]

{
  pageContent: '\n' +
    '/\n' +
    'Products\n' +
    '\n' +
    'LangChain [/langchain]LangSmith [/langsmith]LangGraph [/langgraph]\n' +
    'Methods\n' +
    '\n' +
    'Retrieval [/retrieval]Agents [/agents]Evaluation [/evaluation]\n' +
    'Resources\n' +
    '\n' +
    'Blog [https://blog.langchain.dev/]Case Studies [/case-studies]Use Case Inspiration [/use-cases]Experts [/experts]Changelog\n' +
    '[https://changelog.langchain.com/]\n' +
    'Docs\n' +
    '\n' +
    'LangChain Docs [https://python.langchain.com/v0.2/docs/introduction/]LangSmith Docs [https://docs.smith.langchain.com/]\n' +
    'Company\n' +
    '\n' +
    'About [/about]Careers [/careers]\n' +
    'Pricing [/pricing]\n' +
    'Get a demo [/contact-sales]\n' +
    'Sign up [https://smith.langchain.com/]\n' +
    '\n' +
    '\n' +
    '\n' +
    '\n' +
    'LangChain’s suite of products supports developers along each step of the LLM application lifecycle.\n' +
    '\n' +
    '\n' +
    'APPLICATIONS THAT CAN

In [3]:
console.log(docs[0].metadata)

{
  source: 'https://langchain.com/',
  title: 'LangChain',
  description: 'LangChain’s suite of products supports developers along each step of their development journey.',
  language: 'en'
}


## 选项

```typescript
interface Options {
  excludeDirs?: string[]; // 要排除的网页目录。
  extractor?: (text: string) => string; // 用于从网页中提取文档文本的函数，默认情况下它将直接返回整个页面。建议使用类似 html-to-text 的工具来提取文本，默认情况下，它只是原样返回页面。
  maxDepth?: number; // 爬取的最大深度。默认值为 2。如果需要爬取整个网站，将其设置为足够大的数值即可。
  timeout?: number; // 每个请求的超时时间，单位为秒。默认值为 10000（即10秒）。
  preventOutside?: boolean; // 是否防止爬取到根 URL 之外的内容。默认值为 true。
  callerOptions?: AsyncCallerConstructorParams; // 调用 AsyncCaller 的选项，例如设置最大并发数（默认为 64）
}
```

不过，由于很难实现完美的过滤，你可能在结果中仍然会看到一些不相关的内容。如果需要，你可以自行对返回的文档进行过滤。大多数情况下，返回的结果已经足够好。

## API 参考

有关 RecursiveUrlLoader 所有功能和配置的详细文档，请访问 API 参考：https://api.js.langchain.com/classes/langchain_community_document_loaders_web_recursive_url.RecursiveUrlLoader.html