Skip to content

haowang02/codex-candy-eval

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Codex 降智测试

用本地 Codex CLI 批量测试一道糖果数学题,并统计 reasoning tokens 与正确率。

example

用法

该脚本无任何第三方依赖,只需要您已安装并登录 Codex CLI

python codex_candy_eval.py -m gpt-5.5 -r high -n 5

参数:

  • -m, --model:codex 模型名,省略则用本地默认
  • -r, --reasoning-effortlow/medium/high/xhigh(默认 medium
  • -n, --tests:测试次数(默认 1)

正确答案为 21,脚本直接判断回答中是否出现独立的 21

致谢

About

Codex 降智测试

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages