# Tutorial: 环境准备与依赖安装

受众:
- 准备在本地运行完整流程的用户

前置条件:
- 具备 conda 或 venv 使用经验

本篇目标:
- 完成 Python 环境与依赖安装
- 确认 OCR 相关依赖（可选）
- 执行基础自检



## 1. 创建并激活虚拟环境
推荐使用 `conda` 或 `venv`。

### 方式 A：conda
```bash
conda create -n bensci python=3.11
conda activate bensci
```

### 方式 B：venv
```bash
python -m venv .venv
source .venv/bin/activate
```

## 2. 安装项目依赖
```bash
pip install -r requirements.txt
```

## 3. （可选）安装 OCR 相关依赖
如果需要解析 PDF/扫描件，请安装 OCR 相关库：
```bash
pip install -r requirements-ocr.txt
```

## 4. （可选）系统级依赖
- macOS: `brew install tesseract poppler`
- Ubuntu: `sudo apt-get install -y tesseract-ocr poppler-utils`

## 5. 基础自检
运行下方代码检查关键依赖是否已安装。


In [None]:
import importlib
import shutil

packages = [
    "requests",
    "pydantic",
    "dotenv",
    "bs4",
    "lxml",
    "openai",
    "flask",
]

for name in packages:
    try:
        importlib.import_module(name)
        print(f"{name}: OK")
    except Exception as exc:
        print(f"{name}: MISSING ({exc})")

print("tesseract:", shutil.which("tesseract"))
print("pdftoppm:", shutil.which("pdftoppm"))


## 依赖安装小提示
- 初次安装 `torch` 可能较慢；如不需要本地向量/模型，可以后续再装。
- 若网络较慢，可配置 pip 镜像源以加速。
- OCR 相关包体积较大，只有解析 PDF/扫描件时才建议安装。

