[讨论] OpenAI 对第三方客户端发出的请求降智 #3937

haowang02 · 2026-06-20T13:18:52Z

haowang02
Jun 20, 2026

最近发现 OpenAI 似乎对非 Codex 发出的请求降智（限制推理）。包括但不限于：

CLIProxyAPI 这类反代工具
OpenCode 这类第三方 Harness
Codex SDK

具体而言，我使用如下问题进行了广泛测试：

在一个黑色的袋子里放有三种口味的糖果，每种糖果有两种不同的形状（圆形和五角星形，不同的形状靠手感可以分辨）。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目，那么，最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖？（同时手中有圆形苹果味匹配五角星桃子味糖果，或者有圆形桃子味匹配五角星苹果味糖果都满足要求）
苹果味桃子味西瓜味
圆形 7 9 8
五角星形 7 6 4

该问题的正确答案是 21，不降智的 GPT-5.5 模型只要开启思考（low/medium/high/xhigh）应该都能回答正确。

测试环境如下：

账号：正常无风控
IP：本人在新加坡，未使用代理工具，IP正常无风控
系统：macOS

测试结果如下：

注意：虽然只展示了一张截图，但是每个场景我都进行了重复多次测试，确保结果是可靠的。

场景	是否降智	截图
Codex CLI 直接登录账号	否
Codex CLI 直接登录账号+Python Codex SDK 调用	是
CLIProxyAPI 登录账号+Codex接入	是
OpenCode 直接登录账号	是

一个观察是，当降智发生的时候，这次请求的 reasoning token 总是 516。如下：

Token usage: total=12,756 input=11,996 (+ 2,432 cached) output=760 (reasoning 516)

希望有条件的朋友一起测试一下，看看 OpenAI 降智具体是怎么回事，能不能规避。

haowang02 · 2026-06-20T13:21:47Z

haowang02
Jun 20, 2026
Author

限制反代和第三方Harness还能理解，但是连 Codex 自己的 SDK 也降智就很难评了。

0 replies

haowang02 · 2026-06-20T13:24:00Z

haowang02
Jun 20, 2026
Author

希望有条件的朋友能够复现上述测试，一起交流。

0 replies

xiaorong117 · 2026-06-20T13:25:30Z

xiaorong117
Jun 20, 2026

嗯，我也出现了516的情况。

0 replies

BlueSkyXN · 2026-06-20T16:21:22Z

BlueSkyXN
Jun 20, 2026

确实存在部分516，有没有可能是tool默认低智力的问题？

0 replies

BlueSkyXN · 2026-06-20T16:25:23Z

BlueSkyXN
Jun 20, 2026

拿着你的问题试了下

41,781 1,035 516 2,432 42,816

确实有516，以及大量请求中，偶尔也有准确516的，但大多数思考不足516

11 replies

haowang02 Jun 20, 2026
Author

我如果用 Python OpenAI SDK 调用的话，大部分时候都是 516，如下图：

Codex CLI 登录账号（gpt-5.5 low）

反之，如果我直接启动 codex cli，然后在里面提问则没有降智问题。

我观察了下，典型表现就是UI看不见思考

登录时的回答是

`最少取出 21 个糖果。

因为形状能靠手感分辨，可以这样取：

取 9 个圆形 + 12 个五角星形。

理由：

圆形西瓜味只有 8 个，所以取 9 个圆形 时，手中必然至少有一个：

圆形苹果味，或

圆形桃子味。

如果 9 个圆形里有 圆形苹果味，那么再取 12 个五角星形：

五角星中“非桃子味”最多是苹果 7 个 + 西瓜 4 个 = 11 个；

所以 12 个五角星里必有 五角星桃子味；

得到“圆形苹果味 + 五角星桃子味”。

如果 9 个圆形里有 圆形桃子味：

五角星中“非苹果味”最多是桃子 6 个 + 西瓜 4 个 = 10 个；

所以 12 个五角星里必有 五角星苹果味；

得到“圆形桃子味 + 五角星苹果味”。

因此 21 个一定够。

20 个不够：例如若只取 20 个，可能安排成无法同时得到这种“不同形状的苹果味和桃子味”组合。所以最少是：

21 个。`

而CPA+登录是 `最少要取出 29 个糖果。

理由是看“最多能取出多少个仍然不满足条件”。

要避免满足条件，必须同时避免：

有 圆形苹果味 + 五角星桃子味

有 圆形桃子味 + 五角星苹果味

西瓜味不影响条件，所以最多可以先全拿： 8 + 4 = 12 个西瓜味。

然后在相关四类里，为了不形成目标组合：

圆形苹果 7 和 五角星桃子 6 不能同时有，所以最多取较多的 圆形苹果 7

圆形桃子 9 和 五角星苹果 7 不能同时有，所以最多取较多的 圆形桃子 9

因此最多可以取出仍不满足条件的数量是：

12 + 7 + 9 = 28

例如取出所有西瓜味、所有圆形苹果味、所有圆形桃子味，共 28 个，手里没有五角星苹果味或五角星桃子味，所以还不满足。

所以再多取 1 个，也就是：

28 + 1 = 29

必然满足条件。答案是 29 个。`

这就和我这边观察到的现象一致了，使用第三方客户端（CLIProxyAPI、opencode 等）发出的请求会有更大的概率被降智。

BlueSkyXN Jun 20, 2026

一个没有降智的参考图像：

而且我发现至少3月初就有516了

haowang02 Jun 20, 2026
Author

一个没有降智的参考图像：

而且我发现至少3月初就有516了

我怀疑 516 是被官方强行截断了思考。
如果官方只是将请求路由到一个更差的模型，那思考长度应该还是会有变化。
但是无从求证。

BlueSkyXN Jun 20, 2026

我如果用 Python OpenAI SDK 调用的话，大部分时候都是 516，如下图：

Codex CLI 登录账号（gpt-5.5 low）

反之，如果我直接启动 codex cli，然后在里面提问则没有降智问题。

我观察了下，典型表现就是UI看不见思考
登录时的回答是
`最少取出 21 个糖果。
因为形状能靠手感分辨，可以这样取：
取 9 个圆形 + 12 个五角星形。
理由：

圆形西瓜味只有 8 个，所以取 9 个圆形 时，手中必然至少有一个：

圆形苹果味，或

圆形桃子味。

如果 9 个圆形里有 圆形苹果味，那么再取 12 个五角星形：

五角星中“非桃子味”最多是苹果 7 个 + 西瓜 4 个 = 11 个；

所以 12 个五角星里必有 五角星桃子味；

得到“圆形苹果味 + 五角星桃子味”。

如果 9 个圆形里有 圆形桃子味：

五角星中“非苹果味”最多是桃子 6 个 + 西瓜 4 个 = 10 个；

所以 12 个五角星里必有 五角星苹果味；

得到“圆形桃子味 + 五角星苹果味”。

因此 21 个一定够。
20 个不够：例如若只取 20 个，可能安排成无法同时得到这种“不同形状的苹果味和桃子味”组合。所以最少是：
21 个。而CPA+登录是最少要取出 29 个糖果。
理由是看“最多能取出多少个仍然不满足条件”。
要避免满足条件，必须同时避免：

有 圆形苹果味 + 五角星桃子味

有 圆形桃子味 + 五角星苹果味

西瓜味不影响条件，所以最多可以先全拿： 8 + 4 = 12 个西瓜味。
然后在相关四类里，为了不形成目标组合：

圆形苹果 7 和 五角星桃子 6 不能同时有，所以最多取较多的 圆形苹果 7

圆形桃子 9 和 五角星苹果 7 不能同时有，所以最多取较多的 圆形桃子 9

因此最多可以取出仍不满足条件的数量是：
12 + 7 + 9 = 28
例如取出所有西瓜味、所有圆形苹果味、所有圆形桃子味，共 28 个，手里没有五角星苹果味或五角星桃子味，所以还不满足。
所以再多取 1 个，也就是：
28 + 1 = 29
必然满足条件。答案是 29 个。`

这就和我这边观察到的现象一致了，使用第三方客户端（CLIProxyAPI、opencode 等）发出的请求会有更大的概率被降智。

最麻烦的是，我发现哪里纯正登录，也会516，不使用第三方（在长任务过程中）

haowang02 Jun 20, 2026
Author

我如果用 Python OpenAI SDK 调用的话，大部分时候都是 516，如下图：

Codex CLI 登录账号（gpt-5.5 low）

反之，如果我直接启动 codex cli，然后在里面提问则没有降智问题。

我观察了下，典型表现就是UI看不见思考
登录时的回答是
`最少取出 21 个糖果。
因为形状能靠手感分辨，可以这样取：
取 9 个圆形 + 12 个五角星形。
理由：

圆形西瓜味只有 8 个，所以取 9 个圆形 时，手中必然至少有一个：

圆形苹果味，或

圆形桃子味。

如果 9 个圆形里有 圆形苹果味，那么再取 12 个五角星形：

五角星中“非桃子味”最多是苹果 7 个 + 西瓜 4 个 = 11 个；

所以 12 个五角星里必有 五角星桃子味；

得到“圆形苹果味 + 五角星桃子味”。

如果 9 个圆形里有 圆形桃子味：

五角星中“非苹果味”最多是桃子 6 个 + 西瓜 4 个 = 10 个；

所以 12 个五角星里必有 五角星苹果味；

得到“圆形桃子味 + 五角星苹果味”。

因此 21 个一定够。
20 个不够：例如若只取 20 个，可能安排成无法同时得到这种“不同形状的苹果味和桃子味”组合。所以最少是：
21 个。而CPA+登录是最少要取出 29 个糖果。
理由是看“最多能取出多少个仍然不满足条件”。
要避免满足条件，必须同时避免：

有 圆形苹果味 + 五角星桃子味

有 圆形桃子味 + 五角星苹果味

西瓜味不影响条件，所以最多可以先全拿： 8 + 4 = 12 个西瓜味。
然后在相关四类里，为了不形成目标组合：

圆形苹果 7 和 五角星桃子 6 不能同时有，所以最多取较多的 圆形苹果 7

圆形桃子 9 和 五角星苹果 7 不能同时有，所以最多取较多的 圆形桃子 9

因此最多可以取出仍不满足条件的数量是：
12 + 7 + 9 = 28
例如取出所有西瓜味、所有圆形苹果味、所有圆形桃子味，共 28 个，手里没有五角星苹果味或五角星桃子味，所以还不满足。
所以再多取 1 个，也就是：
28 + 1 = 29
必然满足条件。答案是 29 个。`

这就和我这边观察到的现象一致了，使用第三方客户端（CLIProxyAPI、opencode 等）发出的请求会有更大的概率被降智。

最麻烦的是，我发现哪里纯正登录，也会516，不使用第三方（在长任务过程中）

降智不一定是第三方登录导致的，还有账号、IP等因素。
如果账号、IP 存在风控问题，即便是直接在 Codex 里面登录，也是有可能被降智的。
只不过我讨论的是由第三方客户端代理的降智问题。

dann2333 · 2026-06-20T16:52:29Z

dann2333
Jun 20, 2026

opus4.8max思考了很久然后答错了🤣

1 reply

haowang02 Jun 20, 2026
Author

opus4.8max思考了很久然后答错了🤣

这倒不一定是降智，opus 4.8 一直回答不了这个问题。而 gpt-5.4/gpt-5.5 是能回答这个问题的，降智之后才不行。

BlueSkyXN · 2026-06-20T16:59:24Z

BlueSkyXN
Jun 20, 2026

1，发现至少3月初就有516问题了
2，516相当于无思考弱智模型，和网页那个表现类似，但是钱照收，会出现log有一段加密思考但UI不显示思考
3，哪怕直接登录也会516（长任务中）
4，虽然会516，但是大多数时候思考还是没有这么多，几十是常态，但也能到几千。

1 reply

haowang02 Jun 20, 2026
Author

对了，UI 不显示思考可能是因为你没有开，在 .codex/config.toml 中

model_reasoning_summary = "auto"

如果开了的话 516 情况下是有 summary 的，而且多次请求的 summary 还会不一样，但是 reasoning tokens 始终是 516。

另外就是 516 在其他需要推理的问题被降智时也会出现，不仅仅是我上面贴出来的那个糖果推理问题。

waterskinlee · 2026-06-20T17:04:22Z

waterskinlee
Jun 20, 2026

opencode+omo，直接oauth登录gpt pro5x，gpt5.5开了xhigh：

最少取 21 个。
做法：利用手感区分形状，取 9 个圆形、12 个五角星形。
理由：
- 圆形中西瓜味最多只有 8 个，所以取 9 个圆形，手里一定至少有一个圆形苹果味或圆形桃子味。
- 如果这 9 个圆形里有圆形苹果味：
- 五角星形中“非桃子味”最多是苹果 7 个 + 西瓜 4 个 = 11 个。
- 取 12 个五角星形，必有五角星桃子味。
- 得到“圆形苹果 + 五角星桃子”。
- 如果这 9 个圆形里有圆形桃子味：
- 五角星形中“非苹果味”最多是桃子 6 个 + 西瓜 4 个 = 10 个。
- 取 12 个五角星形，必有五角星苹果味。
- 得到“圆形桃子 + 五角星苹果”。
少于 21 个不能保证，例如只取 8 个圆形时可能全是圆形西瓜味。
所以答案是 21 个。

1 reply

haowang02 Jun 20, 2026
Author

我测试了 xhigh，的确更少出现降智（516 reasoning tokens），但仍然没有完全避免。

CreatorEdition · 2026-06-20T18:09:12Z

CreatorEdition
Jun 20, 2026

好奇怪，我用的自己的
@CreatorEdition/Codex-Manager
low、m、high 最终结果是 26
xhigh 给我的结果是 36
正确答案是多少其实。。。
Cursor的claude是 26
kiro的claude是29
claude.ai的 max sonnet 是29

最少需要取出 34 个糖果。

理由：先算“最多能取多少个还不满足条件”。

目标要求出现：

圆形苹果 + 五角星桃子，或
五角星苹果 + 圆形桃子。

要避免满足条件，就不能同时拥有这两类配对。

最多的避免方式是：

拿走所有西瓜味：圆形 8 + 五角星 4 = 12
只拿一种形状下的苹果和桃子，避免跨形状配对。比如拿：
- 圆形苹果 7
- 圆形桃子 9
- 五角星桃子 6

这样没有“五角星苹果”，所以不会出现“五角星苹果 + 圆形桃子”；但也没有同时构成另一组冲突。

数量为：

12 + 7 + 9 + 6 = 34

但这里已经有“圆形苹果 + 五角星桃子”，所以这个组合其实满足条件，不能作为避免情况。需要重新限制。

真正避免条件时，苹果和桃子的可取结构只能是：

只取苹果，不取桃子：苹果 14
只取桃子，不取苹果：桃子 15
只取同一形状的苹果和桃子：
- 圆形苹果 7 + 圆形桃子 9 = 16
- 五角星苹果 7 + 五角星桃子 6 = 13
或取某一味的两种形状，再取另一味中不会配对的同形状糖。

最大可避免组合是：

圆形苹果 7 + 五角星苹果 7 + 圆形桃子 9 = 23

再加所有西瓜味：

23 + 12 = 35

所以最多可以取 35 个仍不保证满足条件。

因此最少保证数是：

35 + 1 = 36

答案：36 个。

3 replies

haowang02 Jun 20, 2026
Author

如果不降智的话一般回答为 21。这里给出一个 OpenRouter API 调用的结果：

CreatorEdition Jun 20, 2026

看来好像真的是降智。。。

若可按手感选择形状，最少 21 颗。
若完全不能控制形状，只是盲取总数，则才是 29 颗。

因此，在题目强调“形状靠手感可以分辨”并允许按形状摸取时，答案应为：
21 颗。

所以在“可按形状选择摸取”的规则下，最少是：
21 颗
我之前给的 29颗对应的是另一种理解：只能决定总数，不能控制摸出的形状。这里题目特意说明“形状靠手感可以分辨”，更合理的竞赛题意应该是允许按形状摸取，所以 21颗是更准确答案。

haowang02 Jun 20, 2026
Author

看来好像真的是降智。。。

若可按手感选择形状，最少 21 颗。若完全不能控制形状，只是盲取总数，则才是 29 颗。

因此，在题目强调“形状靠手感可以分辨”并允许按形状摸取时，答案应为： 21 颗。

所以在“可按形状选择摸取”的规则下，最少是： 21 颗我之前给的 29颗对应的是另一种理解：只能决定总数，不能控制摸出的形状。这里题目特意说明“形状靠手感可以分辨”，更合理的竞赛题意应该是允许按形状摸取，所以 21颗是更准确答案。

可以进一步观察降智回答的情况下，reasoning tokens 是否是 516.

Fvr9W · 2026-06-20T22:15:05Z

Fvr9W
Jun 20, 2026

抽象原来我一直被 516 控制

0 replies

Fvr9W · 2026-06-20T23:32:17Z

Fvr9W
Jun 20, 2026

516 果然降智写了一个插件 516 就报错重试本来答案是 23个直接重试给了 21 个

0 replies

Uh oh!

[讨论] OpenAI 对第三方客户端发出的请求降智 #3937

Uh oh!

Uh oh!

Replies: 11 comments · 17 replies

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

haowang02 Jun 20, 2026 Author

Uh oh!

Uh oh!

Replies: 11 comments 17 replies

haowang02
Jun 20, 2026
Author

haowang02
Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author

haowang02 Jun 20, 2026
Author