Bibliographic Intelligence for Thought Emergence
让每一个 idea 都有 出处,让每一个判断都有 锚点。
本项目前身为 ResearchFlow,现已更名为 BITE(Bibliographic Intelligence for Thought Emergence)。
🔥 BITE 社区交流 | 💬 微信交流 / BITE微信交流群
🔥 News:BITE 的公开证据层已发布至 HuggingFace dataset PaperBite-Assets,覆盖
L0-L3的结构化论文资产(Markdown 分析笔记 + 图表 + manifests)。可直接用scripts/sync_assets_from_hf.py增量同步;如果你本身做 AI 相关研究,建议在此之上构建自己的 evidence vault。
BITE 是什么? BITE 是一个本地优先的研究工作流框架,面向研究 Agent 的结构化论文分析与 Research Memory,帮助你将论文分析转化为结构化笔记,并构建可复用的个人 research memory。
适合谁? 适合想构建论文知识库、证据驱动研究 workflow、或让 agent 参与文献理解与 idea 生成的研究者。
🧠 先构建知识,再让 Agent 行动。 大多数 AI 科研工具关注“帮你跑实验、写论文”。 BITE 更关注上游问题:你的 agent 在做决策时,手里有没有足够的、结构化的、可检索的论文证据?
🧩 把结构化论文分析沉淀为可复用的 research memory。 BITE 把论文 PDF 和论文列表组织成层次化的本地资产:原始文献、单点分析、领域知识面构建、跨领域资产沉淀与碰撞,从而支持智能的涌现与溯源。
🪶 本地优先,低锁定。 默认 workflow 完全基于本地文件: PDF、Markdown、JSONL 索引和 idea notes 都位于
obsidian-vault/下。正常使用不需要数据库、后端服务或在线部署。
💡 BITE 是一种方法论和本地知识工作流,不是封闭平台。真正有价值的是你持续积累的多级科研资产。
BITE 的核心不在于“先产出一个看起来合理的 idea”,而在于先沉淀结构化证据, 再让研究方向从证据中自然涌现,最后用审稿视角做压力测试,避免在证据薄弱时过早推进实验。
本图展示 BITE 的六层资产结构:L0-L3 由 PaperBite 驱动,完成知识积累与建库;L4 是观点涌现层;L5 是实验验证层。
下表按自底向上顺序对应图片中的六层结构:
| 层级 | 产物 | 作用 |
|---|---|---|
L0 |
论文 PDF | 保留原始文献 |
L1 |
单篇论文分析 | 提取 main idea、core design、experiment proofs |
L2 |
单领域 Research Vault | 支持领域内归纳、演绎与对比 |
L3 |
多领域 Research Vault | 支持跨领域启发与方向涌现 |
L4 |
Idea Vault | 涌现层 |
L5 |
Experiment Vault | 验证层 |
给 BITE 一个研究方向,它可以帮你把知识库逐步建起来:
collect candidate papers / import local PDFs
-> batch MinerU PDF parse
-> structured paper analysis
-> index
-> query / ideate / review / export
你可以用四种常见模式使用它:
| 模式 | 用途 | 常用入口 |
|---|---|---|
| Build | 收集候选论文、批量解析 PDF、分析论文并刷新索引 | research-workflow |
| Query | 按主题、任务、方法、venue、年份、标题或技术标签检索论文 | papers-query-knowledge-base |
| Decision | 在选择 baseline、修改方案或写 related work 前对比方法 | papers-query-knowledge-base |
| Idea | 基于本地知识库生成、收敛并压力测试研究方向 | research-brainstorm-from-kb, idea-focus-coach, reviewer-stress-test |
git clone https://github.com/<your-username>/BITE.git
cd BITE
conda env create -f environment/environment.yml
conda activate researchflow需要设置模型密钥、模型名或 parser override 时,在仓库根目录创建自己的 .env,
并参考 environment/.env.example。
MinerU 是前置的 PDF 批量解析阶段,不属于 BITE 的结构化分析本体。BITE 推荐先完成 MinerU 批量解析,再复用其输出进入后续分析。最小验证方式:mineru --help 能运行,或在 .env 中设置 MINERU_CLI_PATH。
对于中大规模论文集合,建议先批量完成 MinerU 解析,并把结果整理到可复用的 --mineru-output-root 下。后续 BITE 分析应优先复用这些解析结果,而不是在分析阶段重复解析 PDF。
/research-workflow
我想从 PDF 构建 controllable motion generation 的论文知识库。
请告诉我下一步应该做什么,以及会生成哪些结果。
如需直接使用 BITE 已沉淀的结构化论文资产,从 HuggingFace 按需同步:
pip install huggingface_hub
# 只下载论文分析笔记(analysis/ + index/,~43 MB)
python scripts/sync_assets_from_hf.py --mode text
# 只下载图表资产(assets/,~1.8 GB)
python scripts/sync_assets_from_hf.py --mode assets
# 下载全部(默认)
python scripts/sync_assets_from_hf.py --mode all --dry-run # 先看看需要多少
python scripts/sync_assets_from_hf.py # 正式下载从零构建一个主题知识库
/research-workflow
我想构建 text-driven reactive motion generation 的论文知识库。
请从候选论文收集开始,告诉我每个阶段应该使用哪个 skill。
从 GitHub 论文列表收集候选论文
/papers-collect-from-github-repo
从这个 GitHub repository 收集 controllable human motion generation 相关论文:<URL>
只保留 diffusion、controllability、real-time generation 或 long-form motion 相关条目。
输出适合后续下载 workflow 使用的候选列表。
运行正式本地分析链
先复用已有的 MinerU 输出进入分析:
python3 scripts/run_local_paper_analysis.py \
--mineru-output "<mineru_output_dir>" \
--paper-pdf "obsidian-vault/paperPDFs/<Category>/<Venue_Year>/<Paper>.pdf" \
--conf-year "<Venue_Year>" \
--export-vault如果没有现成输出,也可以在单篇运行时由脚本触发 MinerU:
python3 scripts/run_local_paper_analysis.py \
--pdf "obsidian-vault/paperPDFs/<Category>/<Venue_Year>/<Paper>.pdf" \
--conf-year "<Venue_Year>" \
--export-vault批量分析时,建议要求复用已有 MinerU 输出:
python3 scripts/run_paper_list_analysis.py \
--source obsidian-vault/paper_list.csv \
--state Downloaded \
--mineru-output-root "<mineru_output_root>" \
--require-existing-mineru-output| 需求 | Skill |
|---|---|
| 判断下一步 pipeline | research-workflow |
| 从网页收集候选论文 | papers-collect-from-web |
| 从 GitHub 论文列表收集候选论文 | papers-collect-from-github-repo |
| 根据 triage list 下载 PDF | papers-download-from-list |
| 生成单篇深度报告 | paper-report |
| 重建本地索引 | papers-build-index |
| 基于本地笔记查询 / 对比论文 | papers-query-knowledge-base |
| 基于知识库生成研究想法 | research-brainstorm-from-kb |
| 把想法收敛为可执行计划 | idea-focus-coach |
| 做 reviewer 风格压力测试 | reviewer-stress-test |
| 导出可分享 Markdown | notes-export-share-version |
完整 skill 地图见 .claude/skills/README.md。
BITE 有意保持朴素:文件夹、Markdown、JSONL、CSV 和 SKILL.md。因此同一
份 research memory 可以被多个 Agent 共享:
- Claude Code / Cursor 可以直接读取
.claude/skills。 - Codex CLI 可以用
scripts/setup_shared_skills.py生成本地 alias。 - 其他能读取文件的 Agent 可以直接读取
obsidian-vault/index/index.jsonl和obsidian-vault/analysis/。
<a id="codex-cli-compat"></a>
Codex CLI compatibility
Claude Code / Cursor 不需要这一步;Codex CLI 需要。
python3 scripts/setup_shared_skills.py
python3 scripts/setup_shared_skills.py --check<a id="obsidian-config"></a>
Obsidian setup
- Obsidian 是可选但推荐的可视化层。
- 如果需要 graph view、backlinks 和人工浏览,可以把
obsidian-vault/作为 Obsidian vault 打开。 - 不要把 Obsidian 页面当作独立 source of truth。
@misc{lin2026bite,
title = {{BITE}: Bibliographic Intelligence for Thought Emergence},
author = {Jingzhong Lin and Ziheng Huang},
year = {2026},
howpublished = {\url{https://github.com/RipeMangoBox/BITE}},
note = {GitHub repository}
}MIT

