Replies: 11 comments 17 replies
-
|
限制反代和第三方Harness还能理解,但是连 Codex 自己的 SDK 也降智就很难评了。 |
Beta Was this translation helpful? Give feedback.
-
|
希望有条件的朋友能够复现上述测试,一起交流。 |
Beta Was this translation helpful? Give feedback.
-
|
嗯,我也出现了516的情况。 |
Beta Was this translation helpful? Give feedback.
-
|
确实存在部分516,有没有可能是tool默认低智力的问题? |
Beta Was this translation helpful? Give feedback.
-
|
拿着你的问题试了下 41,781 1,035 516 2,432 42,816 确实有516,以及大量请求中,偶尔也有准确516的,但大多数思考不足516 |
Beta Was this translation helpful? Give feedback.
-
|
opus4.8max思考了很久然后答错了🤣 |
Beta Was this translation helpful? Give feedback.
-
|
1,发现至少3月初就有516问题了 |
Beta Was this translation helpful? Give feedback.
-
|
opencode+omo,直接oauth登录gpt pro5x,gpt5.5开了xhigh: |
Beta Was this translation helpful? Give feedback.
-
|
好奇怪,我用的自己的 最少需要取出 34 个糖果。 理由:先算“最多能取多少个还不满足条件”。 目标要求出现:
要避免满足条件,就不能同时拥有这两类配对。 最多的避免方式是:
这样没有“五角星苹果”,所以不会出现“五角星苹果 + 圆形桃子”;但也没有同时构成另一组冲突。 数量为: 但这里已经有“圆形苹果 + 五角星桃子”,所以这个组合其实满足条件,不能作为避免情况。需要重新限制。 真正避免条件时,苹果和桃子的可取结构只能是:
最大可避免组合是: 再加所有西瓜味: 所以最多可以取 35 个仍不保证满足条件。 因此最少保证数是: 答案:36 个。 |
Beta Was this translation helpful? Give feedback.
-
抽象 原来我一直被 516 控制
|
Beta Was this translation helpful? Give feedback.
-
516 果然降智 写了一个插件 516 就报错重试 本来答案是 23个 直接重试给了 21 个 |
Beta Was this translation helpful? Give feedback.







Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
最近发现 OpenAI 似乎对非 Codex 发出的请求降智(限制推理)。包括但不限于:
具体而言,我使用如下问题进行了广泛测试:
该问题的正确答案是 21,不降智的 GPT-5.5 模型只要开启思考(low/medium/high/xhigh)应该都能回答正确。
测试环境如下:
测试结果如下:
一个观察是,当降智发生的时候,这次请求的 reasoning token 总是 516。如下:
希望有条件的朋友一起测试一下,看看 OpenAI 降智具体是怎么回事,能不能规避。
Beta Was this translation helpful? Give feedback.
All reactions