# Tutorial: Bensci 项目总览与数据流

受众:
- 首次接触 Bensci 的研究员/工程师

前置条件:
- 可运行 Python 3.10+
- 可以在终端执行命令

本篇目标:
- 理解项目解决的问题与整体流程
- 熟悉目录结构与关键产物位置
- 知道后续手册各 Notebook 的用途



## 项目做什么
Bensci 用于**自动化获取催化领域文献**，并完成：元数据聚合 → 摘要筛选 → 全文下载 → 解析为结构化块 → LLM 抽取建表。

## 全流程数据流
1. **元数据聚合**：从 Elsevier / Springer / Crossref / OpenAlex / arXiv / PubMed 获取文献元数据。
2. **摘要筛选**：用 LLM 或规则筛选出满足条件的记录。
3. **全文下载**：根据 DOI 下载 XML/HTML/PDF。
4. **格式转化统一**：解析全文为 JSON/Markdown block。
5. **LLM 抽取建表**：从 block 中抽取结构化信息并输出 CSV。

## 目录结构速览
```text
Bensci/
  bensci/                  # 核心代码
  ui/                      # 可视化界面
  notebooks/               # 交互式手册
  data_resourse/
    assets1/               # 元数据 & 初筛
    assets2/               # 全文下载
    assets3/               # 解析后的结构化块
    assets4/               # LLM 抽取结果
    logs/                  # 日志
  config.override.json     # 覆盖配置（可选）
  .env                     # API Key（可选）
```

## 本手册结构（Notebook 导览）
- `00_overview_and_flow.ipynb`：总览与流程
- `01_environment_setup.ipynb`：环境与依赖安装
- `02_config_and_api_keys.ipynb`：配置与密钥管理
- `03_run_modes_cli_ui.ipynb`：一键运行与 UI
- `04_metadata_fetch.ipynb`：阶段 1 元数据聚合
- `05_filter_and_download.ipynb`：阶段 2-3 筛选与下载
- `06_convert_transer.ipynb`：阶段 4 格式转化统一
- `07_llm_extraction.ipynb`：阶段 5 LLM 抽取建表
- `08_troubleshooting.ipynb`：常见问题与排查

## 快速环境自检（可选）
运行下方代码确认项目根目录和配置路径无误。


In [None]:
import sys
from pathlib import Path
from bensci import config as cfg

print("Python:", sys.version)
print("Project root:", cfg.PROJECT_ROOT)
print("Config override:", cfg.CONFIG_OVERRIDE_PATH)
print("Env file:", cfg.ENV_FILE)
print("Assets:")
print("  assets1:", cfg.ASSETS1_DIR)
print("  assets2:", cfg.ASSETS2_DIR)
print("  assets3:", cfg.ASSETS3_DIR)
print("  assets4:", cfg.ASSETS4_DIR)
print("Logs:", cfg.LOGS_DIR)



## 可用组件检查（可选）
如果你想知道当前安装环境包含哪些 Provider/解析器，可以运行下面的代码。


In [None]:
from bensci.metadata_fetcher import PROVIDER_CLIENTS
from bensci.fetcher_tools import available_fetchers
from bensci.transer_tools import describe_parsers
from bensci.extracter_tools.providers import PROVIDER_PRESETS

print("Metadata providers:", sorted(PROVIDER_CLIENTS.keys()))
print("Download fetchers:", sorted(available_fetchers().keys()))
print("Parsers:", sorted(describe_parsers().keys()))
print("LLM providers:", sorted(PROVIDER_PRESETS.keys()))


## 输出产物清单（默认路径）
- 元数据 CSV：`data_resourse/assets1/elsevier_metadata.csv`
- 筛选后 CSV：`data_resourse/assets1/elsevier_metadata_filtered.csv`
- 下载全文：`data_resourse/assets2/`
- 解析后 JSON/MD：`data_resourse/assets3/`
- LLM 抽取 CSV：`data_resourse/assets4/extracted_tap_kinetics_issues.csv`

## 推荐运行顺序
1. 01 环境准备 → 02 配置 → 03 运行方式
2. 04 元数据 → 05 筛选 & 下载 → 06 转化 → 07 抽取
3. 08 排查（遇到问题时）

