感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下 #1

lrs1353281004 · 2023-05-09T06:50:09Z

1）我看到基础能力评测中人类各项分数都接近100分，是不是题目出的太少太简单？
2) 项目上说一共三个人用投票机制，作为人类的分数，请问是什么水平的人类？另外三个人是否太少~
3）尤其是代码能力方面以我自己使用的体验 gpt-4 写代码能力很强而且属于全栈，各种语言都会一些，这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样，是否题目的区分度还不够

littlepan0413 · 2023-05-09T07:47:01Z

同文+1，具体的题目数量有多少呢

qiangmzsx · 2023-05-09T08:18:19Z

期待把每一期的题目公布出来，大家一起共创。

mali-nuist · 2023-05-09T10:28:12Z

放出来厂商就可以作弊了 lol

stenlylee · 2023-05-09T14:39:40Z

看到人类得分那么高，就知道这个项目不靠谱。

brightmart · 2023-05-15T02:37:37Z

1）我看到基础能力评测中人类各项分数都接近100分，是不是题目出的太少太简单？ 2) 项目上说一共三个人用投票机制，作为人类的分数，请问是什么水平的人类？另外三个人是否太少~ 3）尤其是代码能力方面以我自己使用的体验 gpt-4 写代码能力很强而且属于全栈，各种语言都会一些，这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样，是否题目的区分度还不够

1）当前报告的分数是采用开卷形式做题目的分数，所以结果比较高。我们也计划报告一下闭卷形式的分数。
2）人类的水平是本科生、研究生的水平
3）代码生成方面gpt-4还是很强的。只是我们的题目是客观题，而不是纯生成题，所以gpt-4强大的生成能力，可能没有那么明显。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下 #1

感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下 #1

lrs1353281004 commented May 9, 2023

littlepan0413 commented May 9, 2023

qiangmzsx commented May 9, 2023

mali-nuist commented May 9, 2023

stenlylee commented May 9, 2023

brightmart commented May 15, 2023

感谢徐亮老师团队的工作~关于评测细节 有一些疑问咨询下 #1

感谢徐亮老师团队的工作~关于评测细节 有一些疑问咨询下 #1

Comments

lrs1353281004 commented May 9, 2023

littlepan0413 commented May 9, 2023

qiangmzsx commented May 9, 2023

mali-nuist commented May 9, 2023

stenlylee commented May 9, 2023

brightmart commented May 15, 2023

感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下 #1

感谢徐亮老师团队的工作~关于评测细节有一些疑问咨询下 #1