Skip to content

medicalcloud/kampobench

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

111 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

KampoBench(simple-evals/HealthBench 派生)

KampoBench は、OpenAI の HealthBench を基に、日本語の漢方(Kampo)医療シナリオで LLM を評価するためのベンチマークです。本ディレクトリは simple-evals の最小限の改変コピーを含み、HealthBench 互換の評価フレームワーク上で KampoBench の JSONL データを評価できます。

** 現在の状況**: このプロジェクトは pilot段階 です。現在含まれるデータは合成データによるサンプルであり、将来的に漢方専門医の監修を受けた高品質データに置き換える予定です。

本プロジェクトは研究目的で提供されます。医療アドバイスの提供を目的とせず、臨床判断には利用しないでください。

含まれる主な変更点

  • 推論モデル対応のサンプラ
    • o1/o3/o4 などの推論モデルで temperature を送らない
    • API 仕様に応じて max_completion_tokens を使用
  • モデルレジストリの更新
    • 一部のモデルエントリの整理・追加
  • 入力 JSONL の切り替え
    • HealthBench 公式 JSONL に加え、KampoBench の JSONL を評価対象に設定可能

詳細は NOTICE を参照してください(上流リポジトリの帰属と変更概要)。

要件

  • Python 3.10+(3.12 で動作確認)
  • OpenAI API キー: OPENAI_API_KEY

オプション(推奨):

  • jq(JSONL の確認)
  • pandas, tabulate(表形式の表示)

インストール:

pip install -r requirements.txt

使い方

KampoBench を実行する例:

python -m sevals.simple_evals --eval=kampobench --model=<モデル名> --n-threads 10

HealthBench(オリジナル)のサブセットを実行する例:

python -m sevals.simple_evals --eval=healthbench --model=<モデル名>
python -m sevals.simple_evals --eval=healthbench_hard --model=<モデル名>
python -m sevals.simple_evals --eval=healthbench_consensus --model=<モデル名>

--n-threads は並列度(デフォルトはソース参照)。--examples で少数サンプルに絞れます。

データセット

  • KampoBench サンプル: sevals/jsonl/kampobench_pilot_samples.jsonl
  • スキーマ/タグ規約: sevals/jsonl/kampobench_jsonl_tag_rule_jp.md, ..._en.md
  • HealthBench 公式 JSONL(ヘッド等)も同ディレクトリに配置

注意: 本リポジトリに含まれる JSONL は研究用データです。出典や再配布条件がある場合は README と DATA_LICENSE.md(後述)に準拠してください。

再現性

  • 乱数シードはコード内で固定化(必要に応じて実装参照)
  • 並列度は --n-threads で制御

サンプル出力について

評価は HTML 断片やメトリクスの要約を生成します(実装の common/各 Eval クラス参照)。小規模 JSONL で動作確認してから本番実行を推奨します。

開発・貢献

開発手順や PR ルールは CONTRIBUTING.md を参照してください。

引用(Citation)

研究で利用する場合は、後日追加予定の CITATION.cff または本 README の引用情報をご参照ください。

ライセンス

  • コード: MIT License(© 2024 OpenAI, © 2025 Takata Hideaki)
  • データ: CC BY 4.0(© 2025 Takata Hideaki)

詳細は LICENSE(コード)および DATA_LICENSE.md(データ)を参照してください。上流リポジトリおよび変更点の詳細は NOTICE を参照してください。

About

a derivative of openai/healthbench for benchmarking LLM for traditional Japanese/Chinese medicine

Resources

License

Contributing

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors