Skip to content

YanSH258/skills

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 

Repository files navigation

WoS Literature Crawler

从 Web of Science 抓取、去重、相关性筛选、导入学术文献的工具。

工作流

配置文件 → WoS 检索 → 去重+相关性筛选 → 缺失字段补全 → 生成审核表 → 人工审核 → 导入到主表

使用方式

方式 A:交互式配置(推荐)- 5-10分钟

在 Claude Code 对话中描述主题,系统推荐关键词并迭代优化:

我要写综述,主题是:[描述]
涉及:[方向1]、[方向2]...
时间范围:[年份]
要求:[其他限制]

系统会:

  1. 推荐初稿关键词和权重
  2. 根据反馈调整
  3. 输出 search.json 配置

详见 references/prompt-engineering-guide.md


方式 B:使用模板配置

# 复制模板
cp ~/.claude/skills/wos-literature-crawler/references/chemistry-config.json ./search.json

# 编辑 search.json(修改关键词、年份等)
nano search.json

# 执行搜索
python3 ~/.claude/skills/wos-literature-crawler/scripts/search_wos.py \
  --config search.json --base-dir .

# 审核临时表
open extracted/review_TIMESTAMP.xlsx

# 导入到主表
python3 ~/.claude/skills/wos-literature-crawler/scripts/import_review_table.py \
  --review-table extracted/review_TIMESTAMP.xlsx --base-dir .

核心功能

  • 配置管理:支持交互式推荐或手工编辑 JSON 配置
  • 去重:基于 DOI 自动去重
  • 相关性筛选:混合 WoS 评分、引用数、发表年份排序
  • 字段补全:调用 CrossRef API 补全缺失字段
  • 审核表:生成临时审核表供人工确认
  • 导入日志:记录每次搜索和导入的元数据
  • 与 doi-literature-manager 兼容:输出格式可直接用于后续 PDF 下载和分析

核心脚本说明

脚本 功能
search_wos.py 主搜索脚本,API/浏览器自动化双支持
import_review_table.py 导入临时表到master
generate_config.py 生成配置模板

配置详解

SKILL.md 中的 "配置详解" 部分。

API密钥

支持环境变量设置:

export WOS_API_KEY="xxx"
export ANTHROPIC_API_KEY="xxx"  # 可选,用于AI字段补全

或在项目目录创建 .env 文件(必须gitignore)。

与 doi-literature-manager 的完整流程

# Step 1: 用本skill抓取文献
python3 ~/.claude/skills/wos-literature-crawler/scripts/search_wos.py \
  --config search_config.json --base-dir .

# Step 2: 审核并导入
python3 ~/.claude/skills/wos-literature-crawler/scripts/import_review_table.py \
  --review-table extracted/review_TIMESTAMP.xlsx --base-dir .

# Step 3: 下载PDF到papers/pdf目录(外部操作)

# Step 4: 运行doi-literature-manager的后续步骤
python3 ~/.claude/skills/doi-literature-manager/scripts/run_pipeline.py --base-dir .
python3 ~/.claude/skills/doi-literature-manager/scripts/extract_papers.py --base-dir .
python3 ~/.claude/skills/doi-literature-manager/scripts/batch_extract.py --base-dir . --config chemistry

常见问题

Q: 能否跳过API直接用浏览器? A: 可以。脚本会自动检测API密钥,没有则回退到Selenium浏览器自动化。

Q: 50条上限太少? A: 可以在配置的 max_results 中修改。但建议保持50以内,便于审核。

Q: DOI为空怎么办? A: 脚本会自动跳过没有DOI的记录,因为DOI是唯一去重键。

Q: 能否修改临时表后再导入? A: 完全可以!临时表支持删除行、修改字段,导入脚本会验证后再合并。

详细文档

  • SKILL.md - 完整使用说明
  • references/prompt-engineering-guide.md - 交互式提示词工程详细指南
  • references/config-template.json - 配置文件模板
  • references/chemistry-config.json - 化学领域配置示例

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages