Skip to content

YuyaoGe/Paper_Agent_Skill

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

hf-paper-filter

自动过滤 HuggingFace Daily Papers,快速筛选 LLM / VLM 相关高质量论文。

每天 HuggingFace 会推荐数十篇论文,但大部分可能不在你的关注领域。这个工具通过关键词过滤 + 摘要语义过滤,帮你在几秒内缩小范围到真正值得读的那几篇。

✨ 特性

  • 标题关键词过滤 — 自动排除 benchmark、speech、video、3D、编译器优化、量化蒸馏等不相关主题
  • 摘要语义过滤 — 确认论文属于 LLM/VLM 核心领域(reasoning、alignment、agent 等)
  • 零依赖 — 纯 Python 标准库,无需安装任何第三方包
  • 无需 API Key — 直接调用 HuggingFace 公开接口

🚀 快速开始

# 筛选指定日期的论文
python3 scripts/fetch_hf_papers.py 2026-04-25

# 筛选今天的论文
python3 scripts/fetch_hf_papers.py

输出示例:

📅 日期: 2026-04-25  |  总计: 42 篇  |  候选: 12 篇  |  已过滤: 30 篇

✅ 候选论文(12 篇)— 等待人工 review:

[1] DAPO: An Open-Source LLM Reinforcement Learning System
    📄 https://arxiv.org/abs/2503.14476
    💻 https://github.com/xxx/dapo
    📝 We propose DAPO, an open-source RL system for LLM training...

脚本会输出候选论文列表(含 arxiv 链接、GitHub 链接、摘要预览)和被过滤掉的论文及原因,方便你快速人工复核。

🤖 作为 AI Agent Skill 使用

这个项目同时是一个 AI Agent Skill——可以被 AI 编程助手(如 Kimi Code CLI)作为能力模块加载,实现全自动的每日论文筛选工作流:

  1. 调用脚本完成初筛
  2. Agent 自动检查 GitHub 仓库是否有实质代码
  3. 生成结构化的论文列表(含中文摘要和标签)
  4. 支持多天批量并行处理

详见 SKILL.md 了解完整的 Skill 工作流和 Subagent 模板。

📁 项目结构

hf-paper-filter/
├── README.md                              # 本文件
├── SKILL.md                               # AI Agent Skill 完整工作流文档
├── LICENSE                                # MIT License
├── scripts/
│   ├── fetch_hf_papers.py                 # 核心过滤脚本(纯 Python 初筛)
│   ├── run_kimi_one_day.sh                # 调用 Kimi 处理单天的全流程
│   ├── backfill_papers.sh                 # 批量并行补录指定日期范围
│   ├── merge_batches.py                   # 将 batch JSON 合并到 paper_list.md
│   ├── daily_fetch.sh                     # 每日定时任务(爬取+合并+推送)
│   └── com.yuyaoge.paper-daily-fetch.plist# launchd 配置(每天 22:00 自动运行)
└── references/
    └── batch_process.md                   # 批量处理策略参考

🛠 自动化工作流(与 paper_reader 联动)

本项目同时提供一组配合 Kimi Code CLI 的自动化脚本,实现「每天自动爬取并入库 HuggingFace Daily Papers」。

1. 安装 Skill 到 Kimi

mkdir -p ~/.kimi/skills
ln -sfn "$PWD" ~/.kimi/skills/hf-paper-filter

2. 历史日期批量补录

并行启动多个 Kimi 子任务(默认并发 6),把缺失的天数一次补齐:

./scripts/backfill_papers.sh 2026-04-25 2026-05-26 6 /path/to/paper_reader
  • 已存在的合法 batch 文件会自动跳过
  • 每个日期独立写入 paper_batches/YYYY-MM-DD.json
  • 完成后再用合并脚本一次性整理:
python3 ./scripts/merge_batches.py /path/to/paper_reader

3. 每日定时任务(多次触发 + 幂等 + 自动追赶)

将 launchd 配置安装为用户级任务,只要电脑开着就自动跑

cp scripts/com.yuyaoge.paper-daily-fetch.plist ~/Library/LaunchAgents/
launchctl load -w ~/Library/LaunchAgents/com.yuyaoge.paper-daily-fetch.plist

触发时机:

  • 登录 / launchctl load 时立即跑一次(RunAtLoad: true
  • 之后每 2 小时复跑一次(StartInterval: 7200
  • 错过的触发只在唤醒后补一次,不堆积

为什么不抓「今天」? HF Daily Papers 当天列表会持续到深夜才稳定,当天爬取会漏掉后续提交的论文。 所以 daily_fetch.sh 默认抓「昨天起向前 7 天」,等一天再爬保证完整、电脑关机几天也能自动补齐。

幂等机制(重复触发不浪费 Kimi 调用):

  • 某天 batch 已有论文 → 直接跳过 Kimi
  • 某天 batch 是 [](旧的空记录)→ 先用 HF API 探测;若仍为空则跳过,若新增论文才重跑
  • paper_list.md 已含某天日期 → 合并步骤跳过
  • 没有变更 → 不 commit / push

手动用法:

./scripts/daily_fetch.sh                # 默认:补过去 7 天(不含今天)
./scripts/daily_fetch.sh yesterday      # 只补昨天
./scripts/daily_fetch.sh 2026-05-26     # 只补指定日期
./scripts/daily_fetch.sh today          # 抓今天(不推荐,会漏论文)
./scripts/daily_fetch.sh --days 14      # 自定义回溯窗口

日志位置 paper_reader/.kimi_logs/

  • daily_YYYY-MM-DD.log — 端到端运行日志(按本次最早日期命名)
  • YYYY-MM-DD.log — Kimi 单天处理的原始输出
  • launchd.out.log / launchd.err.log — launchd 守护进程输出

⚙️ 过滤规则

排除的主题(标题关键词匹配,不区分大小写)

类别 关键词
评测 benchmark, benchmarking, bench
多媒体 speech, audio, video, 3d
系统优化 compiler, cuda, kernel, triton, tpu, xla
工程向 quantization, quantisation, distillation
报告/综述 report, survey
其他 world model, robot, robotics, embodied, VLA, recommendation

保留的领域

LLM / VLM 核心方法:reasoning, reinforcement learning, alignment, fine-tuning, agent, chain-of-thought, in-context learning, multimodal 等。

🔧 自定义

过滤规则定义在 scripts/fetch_hf_papers.py 顶部的三个列表中,你可以根据自己的研究方向自由修改:

  • TITLE_EXCLUDE_KEYWORDS — 标题排除关键词
  • ABSTRACT_EXCLUDE_PATTERNS — 摘要排除模式
  • ABSTRACT_REQUIRE_ANY — 摘要必须包含的领域关键词

License

MIT

About

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors