Skip to content

hoolulu/deep-research

Repository files navigation

deep-research Skill

🇨🇳 中文 · 🇬🇧 English

深度调研报告生成 Skill · 支持 19 种语言输出

当前版本: 查看更新

📂 浏览所有报告 → 可筛选、排序、按语言和类型浏览所有报告。


✨ 一分钟看懂

🎯 一个命令 /research 你的主题 → 全自动调研,无需人工干预
十分钟出报告 quick 模式约 8–12 分钟,standard 约 10–15 分钟
📁 本地文件调研 支持 PDF/DOCX/TXT/MD,不联网,AI 自动解析
🌍 19 种语言 主题用什么语言写,报告就用什么语言出,自动检测
🔧 非 OpenCode 独占 Claude Code、Cursor、Codex CLI、Windsurf、Cline 等均可适配
命令 说明
/research 中国新能源汽车产业发展现状 中文报告
/research Competitive landscape of AI cloud computing English report
/research Анализ рынка нефти и газа в России Отчёт на русском
/research 日本のアニメ産業のグローバル市場戦略 日本語レポート
/research 한국 반도체 산업의 글로벌 경쟁력 분석 한국어 보고서
本地资料调研,详细命令见 FAQ 离线模式,读本地文件

是全程以设定语言与你交互,并搜索目标语言的资料,不是简单的翻译输出。


一、为什么你需要这个

让 AI 帮你做调研,你大概率碰过这些坑:

搜索 + 总结 → 太浅,出来几条摘要,没有纵深。 行业报告按份收费 $50–500+ → 太贵,个人用不起。 海外工具 → 搜不到国内资源如:百度百科、知乎、199IT、艾瑞。 AI 编数字 → 看起来合理,但找不到来源。

这个 skill 走完 4 层流程才交报告。不是搜完就出,是析→搜验→写→验。

二、谁适合用

独立开发者独立研究者小团队。 需要专业级调研能力,但不想依赖付费数据库或研究机构的人。

三、一次标准模式调研的输出

指标 数据(standard 模式示例)
报告长度 500-700 行 / 约 12,000-20,000 字(视语言浮动)
数据表 15-25 张,覆盖市场规模、竞争格局、技术参数等多个维度
分析段落 80-120 段(每段含结论 + 数据 + 因果 + 判断)
引用的独立机构 15-25 家(中国信通院、艾瑞咨询、国家统计局、百度百科、知乎、36氪、澎湃新闻等)
反方观点 3-8 处,每章至少呈现一个争议或反对角度
数据收集 ~1-3 分钟
报告生成 ~8-15 分钟
总耗时 ~10-20 分钟

以上为 standard 模式典型范围,实际因主题复杂度、数据可获取性、搜索引擎响应等因素有所浮动。|

📖 精选报告展示

报告主题 话题标签
蜜雪冰城 2026 深度研究报告 消费赛道 · 下沉市场
2026 年抖音个人自媒体生态现状与趋势研究 自媒体 · 流量经济
2026 年中国新能源汽车行业展望 新能源 · 产业趋势
2026 年中国宠物家居行业深度研究报告 宠物经济 · 消费升级
2026 年 AI 编程助手工具发展趋势报告 AI · 开发者生态

点击报告标题可在新窗口打开阅读。

四、工作逻辑

整个流程分 4 个阶段,按顺序自动执行:

① 分析大纲 — 分析主题,生成调研框架和搜索计划
         ↓
② 采集数据 — ╭─ 在线模式:SearXNG + Exa 并行搜索 → 按质量触发补强 → Scrapling 批量抓取 → 数据池
              ╰─ 离线模式:直接读取本地文件(PDF/DOCX/TXT/MD)→ 数据池
         ↓
③ 并行撰写 — 所有章节同时撰写,事实直接嵌入 prompt,不做工具调用
          ↓
④ 验收装配 — 批量 validate → assemble-report → convert-citations → qa-report

两种模式共享第 ③④ 阶段。数据池格式完全一致,章节撰写和装配质检零改动。

五、搜索链路与内置资源

所有工具已内置,无需额外购买。系统采用 双引擎并行 + 质量触发补强 搜索策略:SearXNG(作者部署,70+ 引擎含百度/Google/Brave)与 Exa(OMO 内置)并行检测,两者均可用时同时搜索,结果合并去重。若搜索结果质量不足(URL < 3 / 年份过旧 / 来源过少),再触发免费源补强。整个流程如下:

SearXNG(Layer 1 自建主力,70+ 引擎含百度/Google/Brave,开箱即用)
  +  Exa(Layer 2 备用,OMO 内置,零费用)
  ∥ 并行搜索,结果合并去重
  ↓ 搜索结果质量不足时触发
Layer 3 — 免费源补强(兜底)
  ├─ 搜索补强线      │  已知源补强线
  ├─ DuckDuckGo      │  百度百科 / 维基百科
  ├─ Bing 国内版     │  知乎 / 36氪 / 澎湃新闻
  ├─ Brave / Mojeek  │  199IT / 艾瑞咨询 / 东方财富
  ├─ Semantic Scholar│  国家统计局 / 微博 / CSDN
  └─ GDELT / arXiv   │  豆瓣 / 虎嗅

搜索补强线可动态发现任意其他网站,不限于上述列表。所有来源的 URL 最终统一由 Scrapling 批量抓取全文。

六、报告独特亮点

维度 说明
多语言专业行文 自动检测主题语言,以 19 种语言直接撰写报告,非翻译模式
每个数字有来源 正文标注 (N) 可点击引用,文末附参考来源列表。找不到来源的数字不写
正反观点并存 每章呈现争议和反对观点,不回避矛盾
置信度分级 末章汇总表(高/中/低),什么可靠什么有争议一目了然
数据防坑机制 自动识别常见数据错误——单位搞混、数据造假、张冠李戴,不让有问题的数据混进报告
段落重于行数 每章 8-12 段正文为核心,表格和空行灌不了水

七、三种深度

命令 用途 最少章数 最少段落/章 参考字数(字符) 参考耗时
/research 主题 standard 默认 8 ≥ 5 ≈ 25,000 ~10–15 min
/research 主题 -quick 快速洞察 5 ≥ 4 ≈ 15,000 ~8–12 min
/research 主题 -deep 极致深度 10 ≥ 6 ≈ 45,000 ~15–25 min

参数见 profiles.json,修改后重启生效。字数为去空格和 Markdown 语法的纯字符数。

八、运行截图

Screenshot 2026-06-09 at 11-28-17 Screenshot 2026-06-09 at 11-30-13 Screenshot 2026-06-09 at 11-30-55 Screenshot 2026-06-09 at 11-32-13 Screenshot 2026-06-09 at 11-35-03

九、安装

🧠 方式一:AI 傻瓜安装(推荐)

把下面这段提示词复制到 OpenCode 聊天框发送,AI 会自动完成一切:

请调研 https://github.com/hoolulu/deep-research 项目,按照文档要求依次完成:

1. 安装前置依赖(根据 Scrapling 官方文档和你的操作系统确定安装方式)
2. 注册 Scrapling MCP Server,确保重启 CLI 后正常使用
3. 注册 /research 和 /research-update 命令

每完成一步都确认结果,完成后读取 VERSION 确认版本号,并总结安装状态。

AI 会读取项目文档→理解系统类型→逐项安装→验证可用性。不需要手动执行任何命令。

🔧 方式二:非 OpenCode 用户(Claude Code / Codex CLI / Cursor 等)

把这段提示词粘贴到你的 AI 编码工具中:

请调研 https://github.com/hoolulu/deep-research 项目,自动安装前置依赖并改造适配当前 CLI 工具:

1. 安装 Python 和 Scrapling(参考 Scrapling 官方文档和系统确定方式)
2. 注册 Scrapling MCP Server,重启后生效
3. 根据当前工具的能力注册 /research 和 /research-update 的等价入口:
   - **Codex CLI** → 注册为 skill(skill 目录 `command/` 已含命令文件,注册后自动生效)
   - **Claude Code** → 注册为 slash command(Hook)
   - **Cursor** → 按平台机制适配(自定义命令 / Agent rules)
   - 其他工具先判断有无 skill/命令机制,再选最合适的方式
4. 将多 agent 链式架构(大纲 → 数据采集 → 并行撰写 → 装配QA)翻译为当前工具的等价实现,保留各阶段的串行依赖关系
5. 如果本机安装了多个 CLI 工具(如同时有 Claude Code、Cursor、Codex CLI 等),请严格限定:**只配置当前正在执行本条命令的这个工具**,不得修改、注册、或影响其他任何 CLI 工具的配置

每完成一步确认结果,完成后读取 VERSION 确认版本号并总结状态。

不同工具的适配点:多 agent 编排需映射到各自的原生机制(Claude Code 的 sub-agent、Codex CLI 的 agent/skill 模式、Cursor 的 agent 模式等),命令入口注册方式也不同(OpenCode/Codex CLI 使用 skill,Claude Code 使用 Hook/命令,Cursor 使用自定义指令)。搜索和抓取逻辑(python-scrapling + 搜索 API)可原样复用。

前置依赖

组件 在线模式 离线模式 获取方式
LLM 运行时(OpenCode / Claude Code / Codex CLI / Cursor 等) ✅ 必须 ✅ 必须 选择你习惯的工具即可
oh-my-openagent(OpenCode 用户) ✅ 必须 ✅ 必须 安装后自动提供子 agent 编排能力
Scrapling ✅ 必须 ❌ 不需要 网页抓取用,离线模式不涉及
SearXNG(作者部署,70+ 引擎) ✅ 使用 ❌ 不需要 内置默认端点,开箱即用
Exa MCP ✅ 冷备 ❌ 不需要 OMO 自带

平台说明:OpenCode 需要 oh-my-openagent 插件来提供子 agent 编排能力(Task 1-4 的多 agent 架构)。其他编程工具(Claude Code、Cursor、Codex CLI 等)有自己的原生多 agent 框架,可以直接适配本 skill 的工作流,不需要 oh-my-openagent。离线模式下仅依赖 LLM 的文件读取能力,无需搜索/抓取组件。

十、使用方法

安装并重启 OpenCode 后,在聊天框输入:

命令 说明 参考耗时
/research 你的主题 standard 模式(在线搜索) ~10-15 min
/research 你的主题 -quick quick 模式(在线搜索) ~8-12 min
/research 你的主题 -deep deep 模式(在线搜索) ~15-25 min
本地资料调研 离线模式(读本地文件) 取决于文件大小
/research-update 检查更新

本地资料调研:具体指令词见 FAQ 第 2 节《如何使用本地资料生成报告?》。

发送后会发生什么

整个流程自动运行,你不需要做任何操作:

① 分析大纲 — 分析主题,生成调研框架和搜索计划
② 采集数据 — SearXNG + Exa 并行搜索 → 按质量触发补强 → Scrapling 批量抓取 → 数据池提取 → 数据质检
③ 并行撰写 — 所有章节同时撰写,事实直接嵌入 prompt,不做额外工具调用
④ 装配验收 — 批量 validate → assemble-report → convert-citations → qa-report

以上累计 ~10-20 分钟。复杂主题可能延长,简单主题可能缩短。

输出文件

报告以 Markdown 格式保存到 skill 目录下的 reports/ 文件夹,文件名包含日期时间戳:

~/.opencode/skills/deep-research/reports/

可以用任何 Markdown 阅读器(Typora / Obsidian / VS Code 等)打开。

你也可以指定报告的存放路径,让 AI 帮你修改。

👉 浏览所有已生成的报告 — 点此浏览所有已生成的调研报告,可直接点击打开阅读。

十一、成本

组件 费用
LLM(你已经在用的) DeepSeek v4 Flash 基准:quick 约 10–15 万 token / < 0.2 元,standard 约 15–30 万 / < 0.4 元,deep 约 30–50 万 / < 0.7 元
SearXNG 搜索(作者部署) 已部署在 VPS,零费用,无限畅用
Exa 搜索 OpenCode 内置,零额外费用(冷备引擎)
Scrapling 抓取 纯本地运行,零费用
国内源(百度百科/维基百科/知乎/36氪/澎湃/199IT/艾瑞/东方财富/国统局等) 直连零费用,不要代理
OpenCode 运行时 MIT 开源,零费用

以上估算基于 DeepSeek v4 Flash($0.14/百万输入、$0.28/百万输出,来源:https://api-docs.deepseek.com/quick_start/pricing)。实际因缓存命中率与主题复杂度浮动。

十二、FAQ

1. 搜索额度?怎么保证搜索不中断?

系统采用 双引擎并行 + 质量触发补强 架构:

  • Layer 1 — SearXNG(作者部署,主力):作者在 VPS 上部署的元搜索引擎,聚合 70+ 搜索引擎(含百度/Google/Brave),中文英文全覆盖。内置默认端点,开箱即用,无限畅用、不限速、无额度限制。
  • Layer 2 — Exa(备用):OpenCode 内置的搜索引擎,OMO 插件自动配置,零费用。与 SearXNG 并行检测,两者均可用时同时搜索,结果合并去重。
  • Layer 3 — 免费源补强(兜底):当双引擎搜索结果质量不足(URL < 3 / 年份过旧 / 来源过少)时触发。DuckDuckGo / Bing / Brave / Mojeek / Semantic Scholar / GDELT / arXiv + 百度百科 / 知乎 / 199IT / 艾瑞 / 36氪 / 澎湃 / 东方财富 / 微博 / CSDN / 虎嗅 / 豆瓣 等 20+ 源。不依赖任何 API Key,永远可用。

2. 如何使用本地资料生成报告?

Skill 内置了离线模式,可以根据本地文件直接生成带有完整格式(目录/引用/元数据)的调研报告。支持的文件格式:MD / TXT(原生读取)、PDF(AI 自动安装 PyPDF2 提取文本)、DOCX(AI 自动安装 python-docx 解析)。

根据你的需要选择以下场景:

场景 1:本地资料 + 联网补充(推荐,调研最完整)

请使用 deep-research 这个 skill,根据 D:\我的笔记\项目A 的本地资料,生成一份关于 XX 的研究报告(quick 模式)。本地资料里的内容优先作为素材,不够的你在网上搜索补充。

场景 2:只用本地资料,不联网(适合资料足够、担心联网干扰主题的情况)

请使用 deep-research 这个 skill,根据 D:\我的笔记\项目A 的本地资料,生成一份关于 XX 的研究报告(quick 模式)。只看本地资料,不要联网搜索。

系统会跳过搜索/抓取流程,直接从指定文件提取数据,后续的章节撰写和装配 QA 正常执行。最终输出带有元数据、[N] 引用、目录的标准报告。

场景 3:纯本地,不用 skill(最轻量,适合不需要专业报告格式的快速总结)

根据 D:\我的笔记\项目A 的资料,帮我整理成一份结构化的研究报告,要有目录和章节标题。

场景选择建议:资料不够全 → 场景 1(联网补充);资料足够且需要专业报告格式 → 场景 2(离线模式);只需快速总结 → 场景 3(最轻量)。

3. 如何更新到最新版本?

版本策略main 分支始终是最新代码,日常小修改直接推送。GitHub Releases 仅用于里程碑版本标记(如 v2.1.0 → v2.2.0),不必等到新 Release 才更新。

OpenCode 用户:

  • 自动:输入 /research-update,AI 自动执行 git pull 获取最新
  • 手动cd ~/.opencode/skills/deep-research && git pull

版本号可通过 cat ~/.opencode/skills/deep-research/VERSION 查看。

4. 非 OpenCode 用户能自动更新吗?

可以直接让 AI 帮你做版本对比和更新适配。把下面这段提示词粘贴到你的 AI 编码工具中:

请对比 https://github.com/hoolulu/deep-research 最新版与本地版本的差异,
找出上游新增功能和修复,
逐项应用到本地适配版本中,
保留平台特定改动。

5. 数据安全吗?

所有处理在本地完成。不收集、不上传任何用户数据。

License

MIT

本项目采用 MIT 协议。选择 MIT 而非 GPL/CC 等更严格的协议,是因为本项目的核心是一套可移植的方法论和管道设计,而非需要保护版权的成品库。MIT 能让它在不同平台和工具链中被最大化地复用和改造,与"非 OpenCode 独占"的定位一致。


Star History

Star History Chart

Created by hoolulu · 项目地址:github.com/hoolulu/deep-research

社区讨论:LINUX DO

About

深度调研报告生成 Skill — 一个命令,十分钟,多语言,一份深度专业的调研报告 / Professional deep research report generation Skill · Supports 19 languages

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages