# Tutorial: 阶段 1：元数据聚合

受众:
- 需要获取文献列表的用户

前置条件:
- 已配置 Elsevier/Springer API Key（可选）

本篇目标:
- 完成元数据检索并生成 CSV
- 了解 Provider 与 query 的配置方法



## 1. 核心概念
- **Query**：检索关键词（默认值在 `config.py` 中）
- **Provider**：Elsevier / Springer / Crossref / OpenAlex / arXiv / PubMed
- 输出文件：默认 `data_resourse/assets1/elsevier_metadata.csv`

## 2. 推荐命令（终端执行）
```bash
python -m bensci.metadata_fetcher
```

## 3. 在 Notebook 内运行（可选）
如果你希望在 Notebook 中直接调用，可以使用下方代码。
注意：这会调用真实接口。


In [None]:
from bensci import metadata_fetcher as mf
from bensci import config as cfg

RUN = False  # 改为 True 后执行检索

if RUN:
    query = cfg.METADATA_DEFAULT_QUERY
    max_results = cfg.METADATA_MAX_RESULTS
    records = mf.fetch_metadata(query=query, max_results=max_results)
    print("records:", len(records))
    mf.write_metadata_csv(records)
    print("saved:", cfg.METADATA_CSV_PATH)
else:
    print("Skip running. Default output:", cfg.METADATA_CSV_PATH)



## 4. 快速查看输出 CSV（可选）


In [None]:
import csv
from pathlib import Path
from bensci import config as cfg

csv_path = Path(cfg.METADATA_CSV_PATH)
if csv_path.exists():
    with csv_path.open("r", encoding="utf-8") as f:
        reader = csv.DictReader(f)
        rows = [next(reader) for _ in range(5)]
    for row in rows:
        print(row.get("title"), row.get("doi"))
else:
    print("CSV not found:", csv_path)


## 常用参数建议
- 调试阶段把 `METADATA_MAX_RESULTS` 设为 10~20，减少调用成本。
- 可在 `config.override.json` 指定 `METADATA_PROVIDERS` 仅保留 1~2 个来源。
- Provider 特有 query 可在 `METADATA_PROVIDER_QUERIES` 中调整。

