<a href="https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/docs/examples/data_connectors/WebPageDemo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="在 Colab 中打开"/></a>


# 网页阅读器

演示了我们的网页阅读器。

如果您在colab上打开这个笔记本，您可能需要安装LlamaIndex 🦙。


In [None]:
%pip install llama-index llama-index-readers-web

In [None]:
import logging
import sys

logging.basicConfig(stream=sys.stdout, level=logging.INFO)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

#### 使用SimpleWebPageReader

```python
from SimpleWebPageReader import SimpleWebPageReader

# 创建SimpleWebPageReader对象
reader = SimpleWebPageReader()

# 读取网页内容
url = 'https://www.example.com'
content = reader.read_webpage(url)

print(content)
```


In [None]:
from llama_index.core import SummaryIndex
from llama_index.readers.web import SimpleWebPageReader
from IPython.display import Markdown, display
import os

In [None]:
# 注意：html_to_text=True 选项需要安装 html2text。

In [None]:
documents = SimpleWebPageReader(html_to_text=True).load_data(
    ["http://paulgraham.com/worked.html"]
)

In [None]:
documents[0]

In [None]:
index = SummaryIndex.from_documents(documents)

In [None]:
# 将日志级别设置为DEBUG，以获得更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者在成长过程中做了什么？")

In [None]:
display(Markdown(f"<b>{response}</b>"))

# 使用 Spider Reader 🕷
[Spider](https://spider.cloud/?ref=llama_index) 是最快的爬虫。它可以将任何网站转换为纯HTML、markdown、元数据或文本，同时可以使用人工智能进行自定义操作。

Spider允许您使用高性能代理来防止检测，缓存AI操作，使用Webhooks来获取爬取状态，进行定时爬取等等...

**先决条件：** 您需要拥有Spider API密钥才能使用此加载器。您可以在[spider.cloud](https://spider.cloud)上获取一个。


In [None]:
# 从单个URL抓取数据
from llama_index.readers.web import SpiderWebReader

spider_reader = SpiderWebReader(
    api_key="YOUR_API_KEY",  # 在 https://spider.cloud 获取
    mode="scrape",
    # params={} # 可选参数，更多信息请参考 https://spider.cloud/docs/api
)

documents = spider_reader.load_data(url="https://spider.cloud")
print(documents)



爬取域名并跟踪所有更深层次的子页面。


In [None]:
# 从子页面开始深度爬取域名
from llama_index.readers.web import SpiderWebReader

spider_reader = SpiderWebReader(
    api_key="YOUR_API_KEY",
    mode="crawl",
    # params={} # 可选参数，更多信息请参考 https://spider.cloud/docs/api
)

documents = spider_reader.load_data(url="https://spider.cloud")
print(documents)



请访问[Spider](https://spider.cloud/docs/api)获取指南和文档。


# 使用 Browserbase Reader 🅱️

[Browserbase](https://browserbase.com) 是一个用于运行无头浏览器的无服务器平台，它提供高级调试、会话录制、隐身模式、集成代理和验证码解决功能。

## 安装和设置

- 从 [browserbase.com](https://browserbase.com) 获取 API 密钥和项目 ID，并将其设置为环境变量 (`BROWSERBASE_API_KEY`, `BROWSERBASE_PROJECT_ID`)。
- 安装 [Browserbase SDK](http://github.com/browserbase/python-sdk)：


In [None]:
% pip install browserbase

In [None]:
from llama_index.readers.web import BrowserbaseWebReader

In [None]:

reader = BrowserbaseWebReader()
docs = reader.load_data(
    urls=[
        "https://example.com",
    ],
    # 文本模式
    text_content=False,
)

### 使用 FireCrawl Reader 🔥


Firecrawl是一个API，可以将整个网站转换为干净、易于访问的Markdown格式。


使用Firecrawl收集整个网站


In [None]:
from llama_index.readers.web import FireCrawlWebReader

In [None]:
# 使用firecrawl来爬取网站
firecrawl_reader = FireCrawlWebReader(
    api_key="<your_api_key>",  # 从https://www.firecrawl.dev/获取你的实际API密钥替换
    mode="scrape",  # 选择"crawl"和"scrape"之间的单页抓取
    params={"additional": "parameters"},  # 可选的额外参数
)

# 从单个页面URL加载文档
documents = firecrawl_reader.load_data(url="http://paulgraham.com/")


In [None]:
index = SummaryIndex.from_documents(documents)

In [None]:
# 将日志级别设置为DEBUG，以获得更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者在成长过程中做了什么？")

In [None]:
display(Markdown(f"<b>{response}</b>"))

使用firecrawl爬取单个页面


In [None]:
# 使用您的API密钥和所需的模式初始化FireCrawlWebReader
from llama_index.readers.web.firecrawl_web.base import FireCrawlWebReader

firecrawl_reader = FireCrawlWebReader(
    api_key="<your_api_key>",  # 从https://www.firecrawl.dev/获取您的实际API密钥
    mode="scrape",  # 选择“crawl”和“scrape”以进行单页面抓取
    params={"additional": "parameters"},  # 可选的额外参数
)

# 从单个页面URL加载文档
documents = firecrawl_reader.load_data(url="http://paulgraham.com/worked.html")

: 

In [None]:
index = SummaryIndex.from_documents(documents)

In [None]:
# 将日志级别设置为DEBUG，以获得更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者在成长过程中做了什么？")

In [None]:
display(Markdown(f"<b>{response}</b>"))

#### 使用TrafilaturaWebReader


In [None]:
from llama_index.readers.web import TrafilaturaWebReader

ModuleNotFoundError: No module named 'llama_index.readers.web'

In [None]:
documents = TrafilaturaWebReader().load_data(
    ["http://paulgraham.com/worked.html"]
)

In [None]:
index = SummaryIndex.from_documents(documents)

In [None]:
# 将日志级别设置为DEBUG，以获得更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("作者在成长过程中做了什么？")

In [None]:
display(Markdown(f"<b>{response}</b>"))

### 使用RssReader


In [None]:
from llama_index.core import SummaryIndex
from llama_index.readers.web import RssReader

documents = RssReader().load_data(
    ["https://rss.nytimes.com/services/xml/rss/nyt/HomePage.xml"]
)

index = SummaryIndex.from_documents(documents)

# 将Logging设置为DEBUG以获得更详细的输出
query_engine = index.as_query_engine()
response = query_engine.query("今天新闻发生了什么？")

## 使用ScrapFly
ScrapFly是一个具有无头浏览器功能、代理和反爬虫绕过功能的网络抓取API。它允许将网页数据提取为可访问的LLM标记或文本。使用pip安装ScrapFly Python SDK：
```shell
pip install scrapfly-sdk
```

以下是ScrapflyReader的基本用法


In [None]:
from llama_index.readers.web import ScrapflyReader

# 使用您的ScrapFly API密钥初始化ScrapflyReader
scrapfly_reader = ScrapflyReader(
    api_key="您的ScrapFly API密钥",  # 从https://www.scrapfly.io/获取您的API密钥
    ignore_scrape_failures=True,  # 忽略无法处理的网页并记录其异常
)

# 从URL加载文档为markdown格式
documents = scrapfly_reader.load_data(
    urls=["https://web-scraping.dev/products"]
)

ScrapflyReader还允许传递ScrapeConfig对象以自定义抓取请求。有关所有功能详细信息及其API参数，请参阅文档：https://scrapfly.io/docs/scrape-api/getting-started


In [None]:
来自llama_index.readers.web的ScrapflyReader

# 使用您的ScrapFly API密钥初始化ScrapflyReader
scrapfly_reader = ScrapflyReader(
    api_key="您的ScrapFly API密钥",  # 从https://www.scrapfly.io/获取您的API密钥
    ignore_scrape_failures=True,  # 忽略无法处理的网页并记录其异常
)

scrapfly_scrape_config = {
    "asp": True,  # 绕过阻止和反爬虫解决方案，如Cloudflare的网页抓取
    "render_js": True,  # 使用云无头浏览器启用JavaScript渲染
    "proxy_pool": "public_residential_pool",  # 选择代理池（数据中心或住宅）
    "country": "us",  # 选择代理位置
    "auto_scroll": True,  # 自动滚动页面
    "js": "",  # 由无头浏览器执行自定义JavaScript代码
}

# 从URL加载文档为markdown格式
documents = scrapfly_reader.load_data(
    urls=["https://web-scraping.dev/products"],
    scrape_config=scrapfly_scrape_config,  # 传递抓取配置
    scrape_format="markdown",  # 抓取结果格式，可以是`markdown`（默认）或`text`
)