Skip to content

chensuzeyu/PaperTools

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

PaperTools

学术论文数据采集与语义搜索工具集。包含从 OpenReview 爬取会议论文,以及基于 Embedding 的论文相似度搜索。

项目组成

子项目 说明
OpenReviewCrawler 通过 OpenReview 官方 API 爬取会议论文(如 NeurIPS 2025),输出 JSON/CSV
PaperSimilaritySearch 基于语义 Embedding 的论文相似度搜索,支持交互式/单次/批量查询

推荐工作流

  1. 采集论文:用 OpenReviewCrawler 拉取会议论文列表并保存为 JSON。
  2. 语义搜索:用 PaperSimilaritySearch 将上述 JSON 作为数据源,按标题/摘要做相似度检索。

两者通过 JSON 文件衔接:爬虫输出路径可直接配置为搜索系统的数据源(默认已指向 OpenReviewCrawler/output/neurips2025_papers.json)。

快速开始

1. 爬取论文(OpenReviewCrawler)

cd OpenReviewCrawler
pip install -r requirements.txt
python crawl.py

输出在 OpenReviewCrawler/output/

  • neurips2025_papers.json
  • neurips2025_papers.csv

2. 论文相似度搜索(PaperSimilaritySearch)

cd PaperSimilaritySearch
pip install -r requirements.txt
python search.py

首次运行会为数据源生成并缓存 Embedding,之后可进行交互式搜索。详见各子项目 README。

仓库结构

PaperTools/
├── README.md                 # 本文件
├── OpenReviewCrawler/        # 论文爬虫
│   ├── crawl.py              # 主爬取脚本
│   ├── show_raw_data.py      # API 数据结构示例
│   ├── requirements.txt
│   ├── README.md
│   └── output/               # 爬取结果 (JSON/CSV)
└── PaperSimilaritySearch/    # 论文相似度搜索
    ├── config.py             # 数据源与模型配置
    ├── data_loader.py
    ├── embedder.py
    ├── similarity.py
    ├── search.py             # 主程序入口
    ├── requirements.txt
    ├── README.md
    └── data/embeddings/      # Embedding 缓存

环境要求

  • Python:建议 3.10+
  • OpenReviewCrawleropenreview-py>=1.40.0
  • PaperSimilaritySearchsentence-transformerstorchnumpytransformers 等(见子项目 requirements.txt

各子项目可独立安装依赖与运行,互不强制依赖。

文档与配置

License

MIT License

About

学术论文数据采集与语义搜索工具集。包含从 OpenReview 爬取会议论文,以及基于 Embedding 的论文相似度搜索。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages