Codex 降智测试

用本地 Codex CLI 批量测试一道糖果数学题，并统计 reasoning tokens 与正确率。

用法

该脚本无任何第三方依赖，只需要您已安装并登录 Codex CLI

python codex_candy_eval.py -m gpt-5.5 -r high -n 5

参数：

正确答案为 21，脚本直接判断回答中是否出现独立的 21。

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.gitignore		.gitignore
README.md		README.md
codex_candy_eval.py		codex_candy_eval.py
codex_tps_eval.py		codex_tps_eval.py
example.png		example.png