# ZeroxPDFLoader

`ZeroxPDFLoader` 是一个利用 [Zerox](https://github.com/getomni-ai/zerox) 库的文档加载器。Zerox 将 PDF 文档转换为图像，使用支持视觉功能的语言模型进行处理，并生成结构化的 Markdown 表示。此加载器支持异步操作，并提供页面级别的文档提取。

### 集成详情

| 类 | 包 | 本地 | 可序列化 | JS 支持|
| :--- | :--- | :---: | :---: |  :---: |
| [ZeroxPDFLoader](https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.pdf.ZeroxPDFLoader.html) | [langchain_community](https://python.langchain.com/api_reference/community/index.html) | ❌ | ❌ | ❌ | 

### 加载器特性
| 源 | 文档延迟加载 | 原生异步支持
| :---: | :---: | :---: | 
| ZeroxPDFLoader | ✅ | ❌ | 

## 设置

### 凭证
需要在环境变量中设置适当的凭证。加载器支持多种不同的模型和模型提供商。有关支持模型的完整列表，请参阅下面的“用法”部分或 [Zerox 文档](https://github.com/getomni-ai/zerox)。

### 安装
要使用 `ZeroxPDFLoader`，您需要安装 `zerox` 包。另外，请确保已安装 `langchain-community`。

```bash
pip install zerox langchain-community
```

## 初始化

`ZeroxPDFLoader` 通过将每一页转换为图像并异步处理它，使用具备视觉能力的大语言模型来实现 PDF 文本提取。要使用此加载器，您需要指定一个模型，并为 Zerox 配置任何必要的环境变量，例如 API 密钥。

如果您在 Jupyter Notebook 等环境中工作，您可能需要使用 `nest_asyncio` 来处理异步代码。您可以按如下方式进行设置：

```python
import nest_asyncio
nest_asyncio.apply()
```

In [None]:
import os

# use nest_asyncio (only necessary inside of jupyter notebook)
import nest_asyncio
from langchain_community.document_loaders.pdf import ZeroxPDFLoader

nest_asyncio.apply()

# Specify the url or file path for the PDF you want to process
# In this case let's use pdf from web
file_path = "https://assets.ctfassets.net/f1df9zr7wr1a/soP1fjvG1Wu66HJhu3FBS/034d6ca48edb119ae77dec5ce01a8612/OpenAI_Sacra_Teardown.pdf"

# Set up necessary env vars for a vision model
os.environ["OPENAI_API_KEY"] = (
    "zK3BAhQUmbwZNoHoOcscBwQdwi3oc3hzwJmbgdZ"  ## your-api-key
)

# Initialize ZeroxPDFLoader with the desired model
loader = ZeroxPDFLoader(file_path=file_path, model="azure/gpt-4o-mini")

## 加载

In [None]:
# Load the document and look at the first page:
documents = loader.load()
documents[0]

Document(metadata={'source': 'https://assets.ctfassets.net/f1df9zr7wr1a/soP1fjvG1Wu66HJhu3FBS/034d6ca48edb119ae77dec5ce01a8612/OpenAI_Sacra_Teardown.pdf', 'page': 1, 'num_pages': 5}, page_content='# OpenAI\n\nOpenAI is an AI research laboratory.\n\n#ai-models #ai\n\n## Revenue\n- **$1,000,000,000**  \n  2023\n\n## Valuation\n- **$28,000,000,000**  \n  2023\n\n## Growth Rate (Y/Y)\n- **400%**  \n  2023\n\n## Funding\n- **$11,300,000,000**  \n  2023\n\n---\n\n## Details\n- **Headquarters:** San Francisco, CA\n- **CEO:** Sam Altman\n\n[Visit Website](#)\n\n---\n\n## Revenue\n### ARR ($M)  | Growth\n--- | ---\n$1000M  | 456%\n$750M   | \n$500M   | \n$250M   | $36M\n$0     | $200M\n\nis on track to hit $1B in annual recurring revenue by the end of 2023, up about 400% from an estimated $200M at the end of 2022.\n\nOpenAI overall lost about $540M last year while developing ChatGPT, and those losses are expected to increase dramatically in 2023 with the growth in popularity of their consumer t

In [None]:
# Let's look at parsed first page
print(documents[0].page_content)

# OpenAI

OpenAI is an AI research laboratory.

#ai-models #ai

## Revenue
- **$1,000,000,000**  
  2023

## Valuation
- **$28,000,000,000**  
  2023

## Growth Rate (Y/Y)
- **400%**  
  2023

## Funding
- **$11,300,000,000**  
  2023

---

## Details
- **Headquarters:** San Francisco, CA
- **CEO:** Sam Altman

[Visit Website](#)

---

## Revenue
### ARR ($M)  | Growth
--- | ---
$1000M  | 456%
$750M   | 
$500M   | 
$250M   | $36M
$0     | $200M

is on track to hit $1B in annual recurring revenue by the end of 2023, up about 400% from an estimated $200M at the end of 2022.

OpenAI overall lost about $540M last year while developing ChatGPT, and those losses are expected to increase dramatically in 2023 with the growth in popularity of their consumer tools, with CEO Sam Altman remarking that OpenAI is likely to be "the most capital-intensive startup in Silicon Valley history."

The reason for that is operating ChatGPT is massively expensive. One analysis of ChatGPT put the running cost a

## 懒加载
加载器始终惰性地获取结果。`.load()` 方法等同于 `.lazy_load()`

## API 参考

### `ZeroxPDFLoader`

此加载器类使用文件路径和模型类型进行初始化，并通过 `zerox_kwargs` 支持自定义配置，用于处理 Zerox 特定的参数。

**参数**:
- `file_path` (Union[str, Path]): PDF 文件的路径。
- `model` (str): 用于处理的具备视觉能力的模型，格式为 `<provider>/<model>`。
一些有效值的示例：
  - `model = "gpt-4o-mini" ## openai model`
  - `model = "azure/gpt-4o-mini"`
  - `model = "gemini/gpt-4o-mini"`
  - `model="claude-3-opus-20240229"`
  - `model = "vertex_ai/gemini-1.5-flash-001"`
  - 更多详情请参阅 [Zerox 文档](https://github.com/getomni-ai/zerox)
  - 默认为 `"gpt-4o-mini"`。
- `**zerox_kwargs` (dict): 其他 Zerox 特定的参数，例如 API 密钥、端点等。
  - 请参阅 [Zerox 文档](https://github.com/getomni-ai/zerox)

**方法**:
- `lazy_load`: 生成一个 `Document` 实例的迭代器，每个实例代表 PDF 的一页，并包含页码和来源等元数据。

请在此处查看完整的 API 文档：[here](https://python.langchain.com/api_reference/community/document_loaders/langchain_community.document_loaders.pdf.ZeroxPDFLoader.html)

## 注意事项
- **模型兼容性**: Zerox 支持一系列具备视觉能力的模型。请参阅 [Zerox 的 GitHub 文档](https://github.com/getomni-ai/zerox)，了解支持的模型列表和配置详情。
- **环境变量**: 请确保按照 Zerox 文档的说明，设置所需的 `API_KEY` 或端点详细信息等环境变量。
- **异步处理**: 如果在 Jupyter Notebook 中遇到与事件循环相关的错误，您可能需要应用 `nest_asyncio`，如设置部分所示。

## 故障排除
- **RuntimeError: This event loop is already running**: 在 Jupyter 等环境中，使用 `nest_asyncio.apply()` 以防止异步循环冲突。
- **Configuration Errors**: 验证 `zerox_kwargs` 是否与您所选模型预期的参数匹配，并确保所有必需的环境变量都已设置。

## 更多资源
- **Zerox 文档**: [Zerox GitHub Repository](https://github.com/getomni-ai/zerox)
- **LangChain 文档加载器**: [LangChain Documentation](https://python.langchain.com/docs/integrations/document_loaders/)