# Tutorial: 配置文件与 API Key 管理

受众:
- 需要配置检索/LLM 接口的用户

前置条件:
- 已完成依赖安装
- 了解基本环境变量概念

本篇目标:
- 理解 .env 与 config.override.json 的作用
- 知道常见 API Key 的配置方式



## 1. .env：保存 API Key（推荐）
`.env` 位于项目根目录，用于保存敏感信息（不会被代码提交）。
常见配置项（示例）：

```text
ELSEVIER_API_KEY=your_key
SPRINGER_OPEN_ACCESS_KEY=your_key
SPRINGER_META_API_KEY=your_key
ACS_API_KEY=your_key
OPENAI_API_KEY=your_key
CHAT_ANYWHERE_API_KEY=your_key
```

说明：
- `ELSEVIER_API_KEY`：Elsevier/Scopus 元数据检索
- `SPRINGER_OPEN_ACCESS_KEY`：Springer OA 获取
- `SPRINGER_META_API_KEY`：Springer Meta 获取（下载）
- `ACS_API_KEY`：ACS 下载可选
- `OPENAI_API_KEY` / `CHAT_ANYWHERE_API_KEY`：用于 LLM 筛选/抽取

## 2. config.override.json：覆盖默认配置
不建议修改源码中的 `config.py`，而是新建 `config.override.json` 来覆盖。
可覆盖内容示例：
```json
{
  "METADATA_MAX_RESULTS": 50,
  "METADATA_PROVIDERS": ["elsevier", "springer", "openalex"],
  "METADATA_CSV_PATH": "data_resourse/assets1/metadata.csv",
  "FILTERED_METADATA_CSV_PATH": "data_resourse/assets1/metadata_filtered.csv",
  "TRANSER_OUTPUT_FORMAT": "json",
  "LLM_EXTRACTION_PROVIDER": "openai",
  "LLM_EXTRACTION_MODEL": "gpt-5-mini"
}
```

## 3. 交互式创建模板（可选）
下面的代码可帮助你创建 `.env` 或 `config.override.json` 模板。
默认不会写入文件，你需要把 `CREATE = True`。


In [None]:
from pathlib import Path
from bensci import config as cfg

CREATE = False  # 改为 True 后再运行

if CREATE:
    env_path = Path(cfg.ENV_FILE)
    env_path.parent.mkdir(parents=True, exist_ok=True)
    template = (
        "ELSEVIER_API_KEY=
"
        "SPRINGER_OPEN_ACCESS_KEY=
"
        "SPRINGER_META_API_KEY=
"
        "ACS_API_KEY=
"
        "OPENAI_API_KEY=
"
        "CHAT_ANYWHERE_API_KEY=
"
    )
    env_path.write_text(template, encoding="utf-8")
    print(".env created:", env_path)
else:
    print("Skip writing .env. Path:", cfg.ENV_FILE)


In [None]:
import json
from pathlib import Path
from bensci import config as cfg

CREATE = False  # 改为 True 后再运行

if CREATE:
    override_path = Path(cfg.CONFIG_OVERRIDE_PATH)
    override_path.parent.mkdir(parents=True, exist_ok=True)
    sample = {
        "METADATA_MAX_RESULTS": 50,
        "METADATA_PROVIDERS": ["elsevier", "springer", "openalex"],
        "METADATA_CSV_PATH": "data_resourse/assets1/metadata.csv",
        "FILTERED_METADATA_CSV_PATH": "data_resourse/assets1/metadata_filtered.csv",
        "TRANSER_OUTPUT_FORMAT": "json",
        "LLM_EXTRACTION_PROVIDER": "openai",
        "LLM_EXTRACTION_MODEL": "gpt-5-mini",
    }
    override_path.write_text(json.dumps(sample, ensure_ascii=False, indent=2) + "
", encoding="utf-8")
    print("config.override.json created:", override_path)
else:
    print("Skip writing override. Path:", cfg.CONFIG_OVERRIDE_PATH)



## 4. 重新加载配置（当你修改 override 后）


In [None]:
import importlib
import bensci.config as cfg

cfg = importlib.reload(cfg)
print("METADATA_MAX_RESULTS:", cfg.METADATA_MAX_RESULTS)
print("METADATA_PROVIDERS:", cfg.METADATA_PROVIDERS)


## 常用可覆盖配置速查
- `METADATA_MAX_RESULTS`：元数据总条数上限
- `METADATA_PROVIDERS`：限制元数据来源
- `METADATA_CSV_PATH` / `FILTERED_METADATA_CSV_PATH`：CSV 输出路径
- `ASSETS2_DIR` / `BLOCKS_OUTPUT_DIR`：下载/解析输出目录
- `LLM_EXTRACTION_PROVIDER` / `LLM_EXTRACTION_MODEL`：LLM 抽取配置
- `METADATA_FILTER_PROVIDER` / `METADATA_FILTER_MODEL`：摘要筛选配置

