Skip to content

Hi-Barry/browser-read

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

browser-read

通过 Chrome DevTools Protocol (CDP) 读取本地浏览器内容 的 OpenClaw 技能。

场景

当你需要读取那些有反爬虫保护(如 403 验证)的网站时,这个技能可以绕过限制,直接读取本地浏览器中已登录状态下的页面内容。

前提条件

  1. 启动 Chromium/Chrome 浏览器时开启远程调试端口:

    chromium --remote-debugging-port=9222
    #
    google-chrome --remote-debugging-port=9222
  2. 安装依赖:

    npm install

使用方法

作为 OpenClaw 技能使用

当用户发送 URL 时,技能会自动使用 puppeteer-core 连接到本地浏览器(端口 9222),读取页面内容。

手动运行脚本

# 列出所有打开的标签页
node scripts/list-tabs.js

# 读取当前活动标签页内容
node scripts/read-current.js [maxChars]

# 读取指定 URL 的内容
node scripts/read-url.js <URL> [maxChars]

示例

# 读取当前页面(最多 5000 字符)
node scripts/read-current.js 5000

# 读取指定 URL
node scripts/read-url.js "https://zhuanlan.zhihu.com/p/xxx"

# 列出所有标签页
node scripts/list-tabs.js

工作原理

  1. 使用 puppeteer-core 通过 CDP 连接到本地浏览器
  2. 通过 browserURL: 'http://localhost:9222' 建立连接
  3. 获取页面 DOM 内容并返回纯文本

依赖

配合 OpenClaw 使用

在 OpenClaw 环境中,这个技能可以:

  • 读取登录后的页面内容
  • 绕过网站的反爬虫保护
  • 抓取需要认证的内容

贡献

欢迎提交 Issue 和 Pull Request!

许可证

MIT

About

OpenClaw skill: 通过 Chrome DevTools Protocol 读取本地浏览器内容

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors