---
sidebar_label: Cheerio
---

# Cheerio

本笔记本提供了如何快速入门 [CheerioWebBaseLoader](/docs/integrations/document_loaders/) 的概览。如需查看 CheerioWebBaseLoader 所有功能和配置的详细文档，请访问 [API 参考文档](https://api.js.langchain.com/classes/langchain_community_document_loaders_web_cheerio.CheerioWebBaseLoader.html)。

## 概述
### 集成细节

本示例介绍了如何使用 Cheerio 从网页加载数据。每个网页将创建一个文档。

Cheerio 是一个快速且轻量级的库，允许您使用类似 jQuery 的语法解析和遍历 HTML 文档。您可以使用 Cheerio 提取网页中的数据，而无需在浏览器中渲染它们。

但是，Cheerio 并不会模拟网页浏览器，因此它无法执行页面上的 JavaScript 代码。这意味着它无法从需要 JavaScript 渲染的动态网页中提取数据。为此，您可以改用 [`PlaywrightWebBaseLoader`](/docs/integrations/document_loaders/web_loaders/web_playwright) 或 [`PuppeteerWebBaseLoader`](/docs/integrations/document_loaders/web_loaders/web_puppeteer)。

| 类 | 包 | 本地支持 | 可序列化 | Python 支持 |
| :--- | :--- | :---: | :---: | :---: |
| [CheerioWebBaseLoader](https://api.js.langchain.com/classes/langchain_community_document_loaders_web_cheerio.CheerioWebBaseLoader.html) | @langchain/community | ✅ | ✅ | ❌ | 
### 加载器功能
| 来源 | 网页支持 | Node 支持 |
| :---: | :---: | :---: | 
| CheerioWebBaseLoader | ✅ | ✅ | 

## 安装配置

要访问 `CheerioWebBaseLoader` 文档加载器，您需要安装 `@langchain/community` 集成包以及 `cheerio` 的 peer dependency。

### 凭据

如果您希望自动追踪模型调用，也可以通过取消下面注释设置您的 [LangSmith](https://docs.smith.langchain.com/) API 密钥：

```bash
# export LANGSMITH_TRACING="true"
# export LANGSMITH_API_KEY="your-api-key"
```

### 安装

LangChain CheerioWebBaseLoader 集成位于 `@langchain/community` 包中：

```{=mdx}
import IntegrationInstallTooltip from "@mdx_components/integration_install_tooltip.mdx";
import Npm2Yarn from "@theme/Npm2Yarn";

<IntegrationInstallTooltip></IntegrationInstallTooltip>

<Npm2Yarn>
  @langchain/community @langchain/core cheerio
</Npm2Yarn>

```

## 实例化

现在我们可以实例化我们的模型对象并加载文档：

In [1]:
import { CheerioWebBaseLoader } from "@langchain/community/document_loaders/web/cheerio"

const loader = new CheerioWebBaseLoader("https://news.ycombinator.com/item?id=34817881", {
  // optional params: ...
})

## 加载

In [2]:
const docs = await loader.load()
docs[0]

Document {
  pageContent: '\n' +
    '        \n' +
    '                  Hacker News\n' +
    '                            new | past | comments | ask | show | jobs | submit            \n' +
    '                              login\n' +
    '                          \n' +
    '              \n' +
    '\n' +
    '        \n' +
    '            What Lights the Universe’s Standard Candles? (quantamagazine.org)\n' +
    '          75 points by Amorymeltzer on Feb 17, 2023  | hide | past | favorite | 6 comments        \n' +
    '              \n' +
    '        \n' +
    '                  \n' +
    '          \n' +
    '          delta_p_delta_x on Feb 17, 2023           \n' +
    '             | next [–]          \n' +
    '                  \n' +
    "                  Astrophysical and cosmological simulations are often insightful. They're also very cross-disciplinary; besides the obvious astrophysics, there's networking and sysadmin, parallel computing and algorithm theory (so that 

In [3]:
console.log(docs[0].metadata)

{ source: 'https://news.ycombinator.com/item?id=34817881' }


## 附加配置

`CheerioWebBaseLoader` 在实例化加载器时支持附加配置。以下是如何使用传递的 `selector` 字段的示例，使其仅从提供的 HTML 类名加载内容：

In [8]:
import { CheerioWebBaseLoader } from "@langchain/community/document_loaders/web/cheerio"

const loaderWithSelector = new CheerioWebBaseLoader("https://news.ycombinator.com/item?id=34817881", {
  selector: "p",
});

const docsWithSelector = await loaderWithSelector.load();
docsWithSelector[0].pageContent;

Some of my favourite simulation projects:- IllustrisTNG: https://www.tng-project.org/- SWIFT: https://swift.dur.ac.uk/- CO5BOLD: https://www.astro.uu.se/~bf/co5bold_main.html (which produced these animations of a red-giant star: https://www.astro.uu.se/~bf/movie/AGBmovie.html)- AbacusSummit: https://abacussummit.readthedocs.io/en/latest/And I can add the simulations in the article, too.
                  
      
                  
      
                  
      
                  
      
                  
      
                  
      


## API 参考文档

有关 CheerioWebBaseLoader 所有功能和配置的详细文档，请访问 API 参考页面: https://api.js.langchain.com/classes/langchain_community_document_loaders_web_cheerio.CheerioWebBaseLoader.html