KampoBench は、OpenAI の HealthBench を基に、日本語の漢方(Kampo)医療シナリオで LLM を評価するためのベンチマークです。本ディレクトリは simple-evals の最小限の改変コピーを含み、HealthBench 互換の評価フレームワーク上で KampoBench の JSONL データを評価できます。
** 現在の状況**: このプロジェクトは pilot段階 です。現在含まれるデータは合成データによるサンプルであり、将来的に漢方専門医の監修を受けた高品質データに置き換える予定です。
本プロジェクトは研究目的で提供されます。医療アドバイスの提供を目的とせず、臨床判断には利用しないでください。
—
- 推論モデル対応のサンプラ
- o1/o3/o4 などの推論モデルで
temperatureを送らない - API 仕様に応じて
max_completion_tokensを使用
- o1/o3/o4 などの推論モデルで
- モデルレジストリの更新
- 一部のモデルエントリの整理・追加
- 入力 JSONL の切り替え
- HealthBench 公式 JSONL に加え、KampoBench の JSONL を評価対象に設定可能
詳細は NOTICE を参照してください(上流リポジトリの帰属と変更概要)。
—
- Python 3.10+(3.12 で動作確認)
- OpenAI API キー:
OPENAI_API_KEY
オプション(推奨):
jq(JSONL の確認)pandas,tabulate(表形式の表示)
インストール:
pip install -r requirements.txt—
KampoBench を実行する例:
python -m sevals.simple_evals --eval=kampobench --model=<モデル名> --n-threads 10HealthBench(オリジナル)のサブセットを実行する例:
python -m sevals.simple_evals --eval=healthbench --model=<モデル名>
python -m sevals.simple_evals --eval=healthbench_hard --model=<モデル名>
python -m sevals.simple_evals --eval=healthbench_consensus --model=<モデル名>--n-threads は並列度(デフォルトはソース参照)。--examples で少数サンプルに絞れます。
—
- KampoBench サンプル:
sevals/jsonl/kampobench_pilot_samples.jsonl - スキーマ/タグ規約:
sevals/jsonl/kampobench_jsonl_tag_rule_jp.md,..._en.md - HealthBench 公式 JSONL(ヘッド等)も同ディレクトリに配置
注意: 本リポジトリに含まれる JSONL は研究用データです。出典や再配布条件がある場合は README と DATA_LICENSE.md(後述)に準拠してください。
—
- 乱数シードはコード内で固定化(必要に応じて実装参照)
- 並列度は
--n-threadsで制御
—
評価は HTML 断片やメトリクスの要約を生成します(実装の common/各 Eval クラス参照)。小規模 JSONL で動作確認してから本番実行を推奨します。
—
開発手順や PR ルールは CONTRIBUTING.md を参照してください。
—
研究で利用する場合は、後日追加予定の CITATION.cff または本 README の引用情報をご参照ください。
—
- コード: MIT License(© 2024 OpenAI, © 2025 Takata Hideaki)
- データ: CC BY 4.0(© 2025 Takata Hideaki)
詳細は LICENSE(コード)および DATA_LICENSE.md(データ)を参照してください。上流リポジトリおよび変更点の詳細は NOTICE を参照してください。