Skip to content

SimpleArxivPaperHelper 是一款专为研究人员设计的学术文献自动化管理工具,能够简化从 ArXiv 论文检索到文献分析的全流程。通过自定义关键词、时间范围和学科分类精准筛选目标论文,结合大语言模型(LLM)进行智能相关性判断与中英文翻译,并利用 Semantic Scholar 补充期刊 / 会议发表信息,最终支持批量 PDF 下载。该工具通过 SQLite 数据库统一管理文献数据,帮助研究者高效挖掘领域内重要学术资源。

Notifications You must be signed in to change notification settings

sfmoraa/SimpleArxivPaperHelper

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SimpleArxivPaperHelper

一个用于自动化搜索、筛选和下载ArXiv论文的工具,特别适合LLM过滤和Semantic Scholar数据富集功能,帮助研究者高效管理学术文献。

功能特点

  • 论文搜索:根据关键词、时间范围和学科分类自动搜索ArXiv论文
  • 智能过滤:使用大语言模型(LLM)筛选与研究方向相关的论文
  • 内容翻译:自动将论文标题和摘要翻译成中文
  • 数据富集:通过Semantic Scholar补充论文的发表期刊/会议信息
  • 批量下载:并发下载筛选后的论文PDF

环境要求

  • Python 3.8+
  • 所需依赖见requirements.txt

安装步骤

  1. 克隆本项目:
git clone https://github.com/sfmoraa/SimpleArxivPaperHelper.git
cd SimpleArxivPaperHelper
  1. 安装依赖:
pip install -r requirements.txt
  1. 配置环境变量(用于LLM API访问):
# Linux/Mac
export SILICON_FLOW_API_KEY="your_api_key_here"

# Windows (PowerShell)
$env:SILICON_FLOW_API_KEY = "your_api_key_here"

配置说明

可在config.py中修改以下关键配置:

  • 搜索参数

    • REQUIRED_KEYWORDS:搜索关键词列表
    • TIME_RANGE_START/TIME_RANGE_END:论文提交时间范围
    • CATEGORY_WHITELIST/CATEGORY_BLACKLIST:学科分类过滤
  • LLM配置

    • SILICON_FLOW_BASE_URL:LLM API基础地址
    • LLM_FILTER_MODEL:用于筛选论文的模型
    • LLM_TRANSLATE_MODEL:用于翻译的模型
    • LLM_FILTER_PROMPT:筛选提示词
  • 下载配置

    • DOWNLOAD_DIR:PDF下载目录

使用方法

程序通过命令行参数指定数据库名称和操作类型,支持三种操作:

  1. 搜索论文并保存到数据库
python main.py [数据库名称] search
  1. 筛选论文并富集信息
python main.py [数据库名称] filter

该操作会:

  • 使用LLM筛选相关论文
  • 翻译合格论文的标题和摘要
  • 从Semantic Scholar获取发表信息
  1. 下载筛选后的论文
python main.py [数据库名称] download

数据库结构

程序使用SQLite数据库存储所有信息,包含三个表:

  • config:存储搜索和过滤的配置参数
  • raw_paper:存储从ArXiv搜索到的原始论文数据
  • filtered_paper:存储筛选结果、翻译内容和富集信息

注意事项

  • 请遵守ArXiv和Semantic Scholar的API使用规范
  • 大规模下载可能需要调整并发参数(max_workers)
  • LLM调用需要有效的API密钥,且可能产生费用
  • 建议根据网络情况调整重试参数和请求间隔

示例工作流

  1. 首先配置config.py中的搜索关键词和时间范围
  2. 执行搜索命令获取原始论文数据
  3. 执行筛选命令进行论文过滤和信息富集
  4. 执行下载命令获取PDF文件
# 完整流程示例
python main.py llm_graph_papers.db search
python main.py llm_graph_papers.db filter
python main.py llm_graph_papers.db download

About

SimpleArxivPaperHelper 是一款专为研究人员设计的学术文献自动化管理工具,能够简化从 ArXiv 论文检索到文献分析的全流程。通过自定义关键词、时间范围和学科分类精准筛选目标论文,结合大语言模型(LLM)进行智能相关性判断与中英文翻译,并利用 Semantic Scholar 补充期刊 / 会议发表信息,最终支持批量 PDF 下载。该工具通过 SQLite 数据库统一管理文献数据,帮助研究者高效挖掘领域内重要学术资源。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages