# AgentQLLoader

[AgentQL](https://www.agentql.com/)的文档加载器使用[AgentQL查询](https://docs.agentql.com/agentql-query)从任何网页提取结构化数据。AgentQL可以跨多种语言和网页使用，且不会随时间和变化而失效。

## 概述

`AgentQLLoader`需要以下两个参数：
- `url`：您想要从中提取数据的网页URL。
- `query`：要执行的AgentQL查询。在[文档中了解更多关于如何编写AgentQL查询](https://docs.agentql.com/agentql-query)或在[AgentQL Playground](https://dev.agentql.com/playground)中测试查询。

以下参数是可选的：
- `api_key`：您从[dev.agentql.com](https://dev.agentql.com)获取的AgentQL API密钥。**`可选`。**
- `timeout`：请求超时前等待的秒数。**默认为`900`。**
- `is_stealth_mode_enabled`：是否启用实验性的反机器人检测规避策略。此功能可能并不适用于所有网站。启用此模式后，数据提取可能需要更长时间才能完成。**默认为`False`。**
- `wait_for`：在提取数据之前等待页面加载的秒数。**默认为`0`。**
- `is_scroll_to_bottom_enabled`：是否在提取数据之前滚动到页面底部。**默认为`False`。**
- `mode`：`"standard"`使用深度数据分析，而`"fast"`牺牲一些分析深度以换取速度，适用于大多数用例。[在本指南中了解更多关于模式的信息。](https://docs.agentql.com/accuracy/standard-mode) **默认为`"fast"`。**
- `is_screenshot_enabled`：是否在提取数据之前截取屏幕截图。作为Base64字符串返回在'metadata'中。**默认为`False`。**

AgentQLLoader是通过AgentQL的[REST API](https://docs.agentql.com/rest-api/api-reference)实现的

### 集成详情

| 类 | 包 | 本地 | 可序列化 | JS支持 |
| :--- | :--- | :---: | :---: |  :---: |
| AgentQLLoader| langchain-agentql | ✅ | ❌ | ❌ |

### 加载器特性
| 源 | 文档懒加载 | 原生异步支持
| :---: | :---: | :---: |
| AgentQLLoader | ✅ | ❌ |

## 设置

要使用AgentQL文档加载器，您需要配置`AGENTQL_API_KEY`环境变量，或使用`api_key`参数。您可以从我们的[开发者门户](https://dev.agentql.com)获取API密钥。

### 安装

安装**langchain-agentql**。

In [None]:
%pip install -qU langchain_agentql

### 设置凭证

In [3]:
import os

os.environ["AGENTQL_API_KEY"] = "YOUR_AGENTQL_API_KEY"

## 初始化

接下来实例化您的模型对象：

In [4]:
from langchain_agentql.document_loaders import AgentQLLoader

loader = AgentQLLoader(
    url="https://www.agentql.com/blog",
    query="""
    {
        posts[] {
            title
            url
            date
            author
        }
    }
    """,
    is_scroll_to_bottom_enabled=True,
)

## 加载

In [5]:
docs = loader.load()
docs[0]

Document(metadata={'request_id': 'bdb9dbe7-8a7f-427f-bc16-839ccc02cae6', 'generated_query': None, 'screenshot': None}, page_content="{'posts': [{'title': 'Launch Week Recap—make the web AI-ready', 'url': 'https://www.agentql.com/blog/2024-launch-week-recap', 'date': 'Nov 18, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Accurate data extraction from PDFs and images with AgentQL', 'url': 'https://www.agentql.com/blog/accurate-data-extraction-pdfs-images', 'date': 'Feb 1, 2025', 'author': 'Rachel-Lee Nabors'}, {'title': 'Introducing Scheduled Scraping Workflows', 'url': 'https://www.agentql.com/blog/scheduling', 'date': 'Dec 2, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Updates to Our Pricing Model', 'url': 'https://www.agentql.com/blog/2024-pricing-update', 'date': 'Nov 19, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Get data from any page: AgentQL’s REST API Endpoint—Launch week day 5', 'url': 'https://www.agentql.com/blog/data-rest-api', 'date': 'Nov 15, 2024', 'autho

In [6]:
print(docs[0].metadata)

{'request_id': 'bdb9dbe7-8a7f-427f-bc16-839ccc02cae6', 'generated_query': None, 'screenshot': None}


## 懒加载

`AgentQLLoader`目前一次只加载一个`Document`。因此，`load()`和`lazy_load()`的行为相同：

In [7]:
pages = [doc for doc in loader.lazy_load()]
pages

[Document(metadata={'request_id': '06273abd-b2ef-4e15-b0ec-901cba7b4825', 'generated_query': None, 'screenshot': None}, page_content="{'posts': [{'title': 'Launch Week Recap—make the web AI-ready', 'url': 'https://www.agentql.com/blog/2024-launch-week-recap', 'date': 'Nov 18, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Accurate data extraction from PDFs and images with AgentQL', 'url': 'https://www.agentql.com/blog/accurate-data-extraction-pdfs-images', 'date': 'Feb 1, 2025', 'author': 'Rachel-Lee Nabors'}, {'title': 'Introducing Scheduled Scraping Workflows', 'url': 'https://www.agentql.com/blog/scheduling', 'date': 'Dec 2, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Updates to Our Pricing Model', 'url': 'https://www.agentql.com/blog/2024-pricing-update', 'date': 'Nov 19, 2024', 'author': 'Rachel-Lee Nabors'}, {'title': 'Get data from any page: AgentQL’s REST API Endpoint—Launch week day 5', 'url': 'https://www.agentql.com/blog/data-rest-api', 'date': 'Nov 15, 2024', 'auth

## API参考

有关如何使用此集成的更多信息，请参阅[git仓库](https://github.com/tinyfish-io/agentql-integrations/tree/main/langchain)或[langchain集成文档](https://docs.agentql.com/integrations/langchain)