Skip to content

AlphaCatMeow/codex-candy-eval

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Codex 降智测试

用本地 Codex CLI 批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。

example

用法

该脚本无任何第三方依赖,只需要您已安装并登录 Codex CLI

python codex_candy_eval.py -m gpt-5.5 -r high -n 5

参数:

  • -m, --model:codex 模型名,省略则用本地默认
  • -r, --reasoning-effortlow/medium/high/xhigh(默认 medium
  • -n, --tests:测试次数(默认 1)

正确答案为 21,脚本直接判断回答中是否出现独立的 21

致谢

About

Codex 降智测试

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Python 100.0%