KampoBench（simple-evals/HealthBench 派生）

KampoBench は、OpenAI の HealthBench を基に、日本語の漢方（Kampo）医療シナリオで LLM を評価するためのベンチマークです。本ディレクトリは simple-evals の最小限の改変コピーを含み、HealthBench 互換の評価フレームワーク上で KampoBench の JSONL データを評価できます。

** 現在の状況**: このプロジェクトは pilot段階 です。現在含まれるデータは合成データによるサンプルであり、将来的に漢方専門医の監修を受けた高品質データに置き換える予定です。

本プロジェクトは研究目的で提供されます。医療アドバイスの提供を目的とせず、臨床判断には利用しないでください。

—

含まれる主な変更点

推論モデル対応のサンプラ
- o1/o3/o4 などの推論モデルで temperature を送らない
- API 仕様に応じて max_completion_tokens を使用
モデルレジストリの更新
- 一部のモデルエントリの整理・追加
入力 JSONL の切り替え
- HealthBench 公式 JSONL に加え、KampoBench の JSONL を評価対象に設定可能

詳細は NOTICE を参照してください（上流リポジトリの帰属と変更概要）。

—

要件

Python 3.10+（3.12 で動作確認）
OpenAI API キー: OPENAI_API_KEY

オプション（推奨）:

jq（JSONL の確認）
pandas, tabulate（表形式の表示）

インストール:

pip install -r requirements.txt

—

使い方

KampoBench を実行する例:

python -m sevals.simple_evals --eval=kampobench --model=<モデル名> --n-threads 10

HealthBench（オリジナル）のサブセットを実行する例:

python -m sevals.simple_evals --eval=healthbench --model=<モデル名>
python -m sevals.simple_evals --eval=healthbench_hard --model=<モデル名>
python -m sevals.simple_evals --eval=healthbench_consensus --model=<モデル名>

--n-threads は並列度（デフォルトはソース参照）。--examples で少数サンプルに絞れます。

—

データセット

KampoBench サンプル: sevals/jsonl/kampobench_pilot_samples.jsonl
スキーマ/タグ規約: sevals/jsonl/kampobench_jsonl_tag_rule_jp.md, ..._en.md
HealthBench 公式 JSONL（ヘッド等）も同ディレクトリに配置

注意: 本リポジトリに含まれる JSONL は研究用データです。出典や再配布条件がある場合は README と DATA_LICENSE.md（後述）に準拠してください。

—

再現性

乱数シードはコード内で固定化（必要に応じて実装参照）
並列度は --n-threads で制御

—

サンプル出力について

評価は HTML 断片やメトリクスの要約を生成します（実装の common/各 Eval クラス参照）。小規模 JSONL で動作確認してから本番実行を推奨します。

—

開発・貢献

開発手順や PR ルールは CONTRIBUTING.md を参照してください。

—

引用（Citation）

研究で利用する場合は、後日追加予定の CITATION.cff または本 README の引用情報をご参照ください。

—

ライセンス

詳細は LICENSE（コード）および DATA_LICENSE.md（データ）を参照してください。上流リポジトリおよび変更点の詳細は NOTICE を参照してください。

Name		Name	Last commit message	Last commit date
Latest commit History 111 Commits
healthbench_scripts		healthbench_scripts
jsonl		jsonl
sampler		sampler
.gitignore		.gitignore
CITATION.cff		CITATION.cff
CONTRIBUTING.md		CONTRIBUTING.md
DATA_LICENSE.md		DATA_LICENSE.md
LICENSE		LICENSE
NOTICE		NOTICE
README.md		README.md
append_temp.py		append_temp.py
browsecomp_eval.py		browsecomp_eval.py
common.py		common.py
drop_eval.py		drop_eval.py
gpqa_eval.py		gpqa_eval.py
healthbench_eval.py		healthbench_eval.py
healthbench_eval_test.py		healthbench_eval_test.py
healthbench_meta_eval.py		healthbench_meta_eval.py
healthbench_meta_eval_test.py		healthbench_meta_eval_test.py
humaneval_eval.py		humaneval_eval.py
math_eval.py		math_eval.py
mgsm_eval.py		mgsm_eval.py
mmlu_eval.py		mmlu_eval.py
multilingual_mmlu_benchmark_results.md		multilingual_mmlu_benchmark_results.md
requirements.txt		requirements.txt
run_multilingual_mmlu.py		run_multilingual_mmlu.py
simple_evals.py		simple_evals.py
simpleqa_eval.py		simpleqa_eval.py
types.py		types.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

KampoBench（simple-evals/HealthBench 派生）

含まれる主な変更点

要件

使い方

データセット

再現性

サンプル出力について

開発・貢献

引用（Citation）

ライセンス

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

KampoBench（simple-evals/HealthBench 派生）

含まれる主な変更点

要件

使い方

データセット

再現性

サンプル出力について

開発・貢献

引用（Citation）

ライセンス

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages