Skip to content

HJCheng0602/paperwise

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

research-helper

一个由 V4-Pro 级别模型驱动的论文阅读系统,产出结构化精读报告、领域综述与知识图谱。

不是把论文丢给 AI 问"这篇讲了什么"——而是一套围绕长期知识积累设计的 pipeline:向量知识库消除幻觉,多路 LLM 调用保证深度,知识图谱追踪概念演进。


功能

命令 功能
rh read --arxiv 2310.01234 精读单篇论文,生成 6 节结构化报告(中文)
rh read --pdf paper.pdf 同上,使用本地 PDF
rh survey --query "KV Cache" 检索 Arxiv,生成领域综述
rh graph 从已读论文构建知识图谱(交互式 HTML + JSON)
rh kb search "attention" 在知识库中语义检索
rh cost 查看 API 费用记录

精读报告结构

每篇报告由 6 次独立 LLM 调用生成,每节有最低字数要求:

  1. 研究问题与动机
  2. 核心方法(含公式、架构、设计动机)
  3. 实验设计与结果
  4. 与相关工作的比较(自动注入知识库上下文)
  5. 局限性与未来工作
  6. 个人评价与研究启发

知识图谱

rh graph 从所有已读报告中提取:

  • 概念节点(方法、任务标签,如 KV CacheRoPE
  • 论文节点
  • 边类型uses(论文→概念)、similar_to(向量相似度)、builds_on / compares_to / contradicts(从报告中提取)

输出为可在浏览器中直接打开的交互式 HTML,以及可导入 Gephi 的 JSON。


快速开始

从源码安装:

git clone https://github.com/<your-username>/research-helper
cd research-helper
pip install -e .

复制配置文件并填入 API Key:

cp .env.example .env
# 编辑 .env,填入 DEEPSEEK_API_KEY 等

读第一篇论文:

rh read --arxiv 1706.03762   # Attention Is All You Need

配置

所有配置通过 .env 文件或环境变量设置,参见 .env.example

LLM 提供商

提供商 LLM_PROVIDER 推荐模型 获取 Key
DeepSeek deepseek deepseek-v4-flash platform.deepseek.com
Qwen qwen qwen-plus dashscope.aliyuncs.com
OpenAI openai gpt-4o platform.openai.com
Anthropic anthropic claude-sonnet-4-6 console.anthropic.com

向量嵌入(知识库)

优先级:EMBEDDING_PROVIDER 环境变量 → 有 QWEN_API_KEY 则用 Qwen → 有 OPENAI_API_KEY 则用 OpenAI → 本地 sentence-transformers(无需 Key,首次运行自动下载模型)。


成本参考

以 DeepSeek v4-flash 为例,精读一篇论文约 $0.002–0.005,综述约 $0.001–0.003


项目结构

research_helper/
├── cli.py              # Click CLI 入口
├── config.py           # 配置与定价表
├── llm/client.py       # 多提供商 LLM 客户端
├── readers/
│   ├── arxiv_reader.py # Arxiv 元数据 + PDF 下载
│   └── pdf_reader.py   # PDF 文本提取(pymupdf + pdfplumber)
├── reports/
│   ├── single_paper.py # 精读报告生成(6 节 × 独立调用)
│   └── survey.py       # 领域综述生成
├── kb/
│   ├── store.py        # ChromaDB 向量知识库
│   ├── embedder.py     # 多提供商 embedding
│   └── graph.py        # 知识图谱构建与导出
└── utils/
    ├── cache.py        # 中间结果缓存
    └── cost_tracker.py # API 费用追踪

致谢

本项目由 Claude Sonnet 4.6 协助设计与实现。

Reports generated by this tool are authored with the assistance of large language models (DeepSeek / Qwen / Claude). The pipeline design, prompts, knowledge base architecture, and graph construction logic were developed in collaboration with Claude Code.


License

MIT

About

Deep-reading pipeline for research papers — LLM-powered reports, vector KB, and knowledge graph.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages