PaperTools

学术论文数据采集与语义搜索工具集。包含从 OpenReview 爬取会议论文，以及基于 Embedding 的论文相似度搜索。

项目组成

子项目	说明
OpenReviewCrawler	通过 OpenReview 官方 API 爬取会议论文（如 NeurIPS 2025），输出 JSON/CSV
PaperSimilaritySearch	基于语义 Embedding 的论文相似度搜索，支持交互式/单次/批量查询

快速开始

1. 爬取论文（OpenReviewCrawler）

cd OpenReviewCrawler
pip install -r requirements.txt
python crawl.py

输出在 OpenReviewCrawler/output/：

neurips2025_papers.json
neurips2025_papers.csv

2. 论文相似度搜索（PaperSimilaritySearch）

cd PaperSimilaritySearch
pip install -r requirements.txt
python search.py

首次运行会为数据源生成并缓存 Embedding，之后可进行交互式搜索。详见各子项目 README。

仓库结构

PaperTools/
├── README.md                 # 本文件
├── OpenReviewCrawler/        # 论文爬虫
│   ├── crawl.py              # 主爬取脚本
│   ├── show_raw_data.py      # API 数据结构示例
│   ├── requirements.txt
│   ├── README.md
│   └── output/               # 爬取结果 (JSON/CSV)
└── PaperSimilaritySearch/    # 论文相似度搜索
    ├── config.py             # 数据源与模型配置
    ├── data_loader.py
    ├── embedder.py
    ├── similarity.py
    ├── search.py             # 主程序入口
    ├── requirements.txt
    ├── README.md
    └── data/embeddings/      # Embedding 缓存

环境要求

Python：建议 3.10+
OpenReviewCrawler：openreview-py>=1.40.0
PaperSimilaritySearch：sentence-transformers、torch、numpy、transformers 等（见子项目 requirements.txt）

各子项目可独立安装依赖与运行，互不强制依赖。

文档与配置

爬虫用法与字段说明：OpenReviewCrawler/README.md
搜索用法、参数、数据源与模型配置：PaperSimilaritySearch/README.md

License

MIT License

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PaperTools

项目组成

推荐工作流

快速开始

1. 爬取论文（OpenReviewCrawler）

2. 论文相似度搜索（PaperSimilaritySearch）

仓库结构

环境要求

文档与配置

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
OpenReviewCrawler		OpenReviewCrawler
PaperSimilaritySearch		PaperSimilaritySearch
README.md		README.md

Folders and files

Latest commit

History

Repository files navigation

PaperTools

项目组成

推荐工作流

快速开始

1. 爬取论文（OpenReviewCrawler）

2. 论文相似度搜索（PaperSimilaritySearch）

仓库结构

环境要求

文档与配置

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages