🔍
Discover
→
⬇
Download
→
📝
Convert
→
📊
Analyze
GeneralExplorer 是面向科研人员与学术开发者的智能论文检索与分析 Agent,自动完成从多源发现、筛选、下载、格式转换到结构化分析报告生成的全流程。项目聚焦于“最小交互、强证据、可复现”的学术工作流,助力高效文献综述、领域前沿追踪与创新启发。
它不是一个“只会搜论文”的脚本集合,而是一个可持续演进的研究引擎:
- 把一次性的读论文行为,升级为可积累、可复盘、可复用的研究资产。
- 把分散在 PDF、笔记、表格中的信息,统一为标准化目录与结构化报告。
- 把“今天读完就结束”的流程,变成“发现问题 -> 形成假设 -> 继续检索 -> 持续迭代”的研究闭环。
如果你正在做长期研究,这个项目能直接提升三个关键指标:
- 速度:减少重复性的下载、转换、整理和格式化工作。
- 质量:每条结论可追溯,避免无证据陈述与信息漂移。
- 复现:环境、产物、路径、标签和索引统一,便于团队协作和历史回溯。
- 多源检索:集成 Google Scholar、arXiv、DBLP 等主流学术源,支持关键词扩展、CCF 分级筛选、标题去歧义。
- 自动下载与格式转换:一键下载 PDF,自动调用 MinerU 本地引擎高质量转换为 Markdown,图片与引用自动迁移。
- 结构化报告生成:严格遵循科研分析模板,自动生成分章节、可追溯证据的
paper.report.md,支持增量修订与 in-place 合并。 - 全流程自动化:默认“零交互”链路,自动完成检索、筛选、下载、转换、分析、索引与队列维护。
- 科研环境隔离:所有脚本强制运行于本地虚拟环境
.venv,依赖一致、复现友好。 - 记忆系统与索引:自动维护全局论文索引、分析队列、分类标签与历史分析记忆,避免重复劳动。
papers.csv # 全局论文台账(每分析一篇即追加)
papers/
INDEX.md # 全局论文索引表
QUEUE.md # 全局下载/分析队列
raw/ # 原始 PDF 暂存区
{主标签}/
{论文名}/
paper.pdf
paper.raw.md # MinerU 原始输出,禁止手动编辑
paper.md # 清洗正文(无附录/参考文献)
paper.references.md # 仅参考文献
paper.report.md # 结构化分析报告(含主标签/论文标签)
images/ # 图片资源
scripts/
这是一个 SKILL/Agent 工作流项目,推荐使用 GitHub Copilot 或 Claude 的 coding plan 模式驱动执行,而不是把它当作单一脚本工程直接运行。
-
准备 Agent 运行环境
- 在 VS Code 中启用 Copilot Chat(或使用支持计划执行的 Claude 工作流)。
- 推荐 Windows PowerShell,使用项目本地虚拟环境:
.\.venv\Scripts\Activate.ps1
- 依赖安装统一使用:
.\.venv\Scripts\pip.exe install -r requirements.txt
-
用 Coding Plan 启动 SKILL(主入口)
- 在 Copilot Chat 中使用 Research Paper Pipeline Agent:
/research-paper-pipeline <研究主题 | 种子论文 | PDF路径> - 推荐一次给出完整目标,例如:
/research-paper-pipeline 主题: multi-vector retrieval; 先检索近5年CCF-A/B论文, 再下载、转换、清洗并生成报告 - 在 Claude/其他 Agent 中,同样建议以“计划 -> 执行 -> 回写”三段式提示驱动,确保流程完整闭环。
- 在 Copilot Chat 中使用 Research Paper Pipeline Agent:
-
按 SKILL 规范自动产出
- Agent 会按仓库规范自动完成 discover/download/convert/analyze。
- 结果会回写到
papers/目录,并同步维护papers.csv、papers/INDEX.md、papers/QUEUE.md。
-
脚本直跑仅用于调试(非推荐主路径)
- 若需排障或单步验证,可手动调用脚本;但默认工作方式应是通过 SKILL 的 coding plan 驱动端到端执行。
无论你是个人研究者、研究生团队,还是要维护长期技术路线图的工程研究组,GeneralExplorer 都适合作为“文献基础设施层”:
- 快速搭建领域全景图:围绕一个主题自动扩展关键词、拉取候选论文并形成可追踪队列,显著降低从“问题定义”到“文献版图”之间的启动成本。
- 持续追踪前沿演进:对新文献进行批量拉取与统一分析,把零散更新转成可比较、可回溯的连续观察,适合做周报、组会和阶段性综述。
- 高质量报告与复现准备:将 PDF 内容转为结构化文本并输出标准化分析报告,明确已知条件与缺失条件,减少“看懂但复现不了”的断层。
- 团队协作知识沉淀:通过统一目录、标签、索引和台账机制,让不同成员的阅读产物可以无缝汇总,避免重复读同一批论文。
- 选题与技术路线评估:结合已分析论文的证据链,快速识别值得继续投入的方向、潜在风险点与可验证假设,提升决策效率。
- 严格证据链与结论约束:所有关键结论都要求可回溯到源文本,默认抑制“无证据推断”,让报告更接近可审计的研究记录而非主观摘要。
- 自动化闭环而非单点工具:从检索、下载、转换、清洗到报告与索引维护形成完整链路,减少人工在多工具间切换造成的上下文损耗。
- 最小交互设计:仅在标题歧义高、候选冲突大等高风险节点请求确认,日常流程尽可能自动推进,保证效率同时控制误判成本。
- 可复现工程实践:统一虚拟环境、统一产物命名、统一目录结构与台账字段,确保“今天能跑通”的流程在未来仍可稳定重放。
- 结构化产物体系:
paper.raw.md、paper.md、paper.references.md、paper.report.md分工明确,既便于人读,也便于后续自动化处理。 - 可扩展架构能力:支持按研究需求替换检索源、调整模板、追加后处理脚本与记忆策略,便于从个人项目平滑演进到团队平台。
papers.csv列定义:序号, 论文标题, 分析时间, 科研领域, tags- 论文目录与路径命名规则:见
.github/instructions/papers-paths.instructions.md paper.raw.md为转换原始输出,不应直接编辑。paper.md为清洗后的正文(不含附录和参考文献)。paper.references.md仅包含参考文献内容(不含标题行)。
GeneralExplorer 已自动拉取与分析 50+ 篇高质量论文,覆盖如下研究方向:
-
- Sculpting_the_Vector_Space_Towards_Efficient_Multi-Vector_Visual_Document_Retrieval_via_Prune-then-Merge_Framework
- ColPali_Efficient_Document_Retrieval_with_Vision_Language_Models
- DocPruner_A_Storage-Efficient_Framework_for_Multi-Vector_Visual_Document_Retrieval_via_Adaptive_Patch-Level_Embedding_Pruning
- Visual_RAG_Toolkit_Scaling_Multi-Vector_Visual_Retrieval_with_Training-Free_Pooling_and_Multi-Stage_Search
更多论文与详细分析见 papers/INDEX.md。
本项目受益于 MinerU、CCF 会议分级、Google Scholar、arXiv、DBLP 等开源资源。
GeneralExplorer
为长期科研而生的自动化文献分析 Agent:从发现到报告,从单篇到知识网络。
Discover • Download • Convert • Analyze • Rediscover
让科研分析更高效、更严谨、更自动化
