# HyperbrowserLoader

[Hyperbrowser](https://hyperbrowser.ai) 是一个用于运行和扩展无头浏览器的平台。它允许您大规模启动和管理浏览器会话，并为任何网页抓取需求提供易于使用的解决方案，例如抓取单个页面或爬取整个网站。

主要功能：
- 即时可扩展性 - 无需基础设施烦恼，即可在几秒钟内启动数百个浏览器会话
- 简单集成 - 可与 Puppeteer 和 Playwright 等流行工具无缝协作
- 强大的 API - 用于抓取/爬取任何网站的易于使用的 API，以及更多功能
- 绕过反机器人措施 - 内置隐身模式、广告拦截、自动验证码解决和代理轮换

本笔记本提供了使用 Hyperbrowser [文档加载器](https://python.langchain.com/docs/concepts/#document-loaders) 入门的快速概述。

有关 Hyperbrowser 的更多信息，请访问 [Hyperbrowser 网站](https://hyperbrowser.ai) 或如果您想查看文档，可以访问 [Hyperbrowser 文档](https://docs.hyperbrowser.ai)。

## 概述
### 集成详情

| 类名 | 包名 | 本地化 | 可序列化 | JS 支持 |
| :--- | :--- | :---: | :---: |  :---: |
| HyperbrowserLoader | langchain-hyperbrowser | ❌ | ❌ | ❌ | 
### 加载器功能
| 数据源 | 文档延迟加载 | 原生异步支持 |
| :---: | :---: | :---: | 
| HyperbrowserLoader | ✅ | ✅ | 

## 设置

要访问 Hyperbrowser 文档加载器，您需要安装 `langchain-hyperbrowser` 集成包，并创建一个 Hyperbrowser 账户并获取 API 密钥。

### 凭证

前往 [Hyperbrowser](https://app.hyperbrowser.ai/) 注册并生成 API 密钥。完成此操作后，请设置 HYPERBROWSER_API_KEY 环境变量：

### 安装

安装 **langchain-hyperbrowser**。

In [None]:
%pip install -qU langchain-hyperbrowser

## 初始化

现在我们可以实例化模型对象并加载文档了：

In [None]:
from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(
    urls="https://example.com",
    api_key="YOUR_API_KEY",
)

## 加载

In [None]:
docs = loader.load()
docs[0]

Document(metadata={'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, page_content='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)')

In [None]:
print(docs[0].metadata)

## 懒加载

In [None]:
page = []
for doc in loader.lazy_load():
    page.append(doc)
    if len(page) >= 10:
        # do some paged operation, e.g.
        # index.upsert(page)

        page = []

## 高级用法

您可以指定加载器执行的操作。默认操作是 `scrape`。对于 `scrape`，您可以提供单个 URL 或 URL 列表进行抓取。对于 `crawl`，您只能提供单个 URL。`crawl` 操作将爬取提供的页面及其子页面，并为每个页面返回一个文档。

In [None]:
loader = HyperbrowserLoader(
    urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)

加载器的可选参数也可以在 `params` 参数中提供。有关支持的参数的更多信息，请访问 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 或 https://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait。

In [None]:
loader = HyperbrowserLoader(
    urls="https://example.com",
    api_key="YOUR_API_KEY",
    operation="scrape",
    params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}},
)

## API 参考

- [GitHub](https://github.com/hyperbrowserai/langchain-hyperbrowser/)
- [PyPi](https://pypi.org/project/langchain-hyperbrowser/)
- [Hyperbrowser Docs](https://docs.hyperbrowser.ai/)