Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

感谢徐亮老师团队的工作~关于评测细节 有一些疑问咨询下 #1

Open
lrs1353281004 opened this issue May 9, 2023 · 5 comments

Comments

@lrs1353281004
Copy link

1)我看到基础能力评测中人类各项分数都接近100分,是不是题目出的太少太简单?
2) 项目上说一共三个人用投票机制,作为人类的分数,请问是什么水平的人类?另外三个人是否太少~
3)尤其是代码能力方面 以我自己使用的体验 gpt-4 写代码能力很强 而且属于全栈 ,各种语言都会一些,这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样,是否题目的区分度还不够

@littlepan0413
Copy link

同文+1,具体的题目数量有多少呢

@qiangmzsx
Copy link

期待把每一期的题目公布出来,大家一起共创。

@mali-nuist
Copy link

放出来厂商就可以作弊了 lol

@stenlylee
Copy link

看到人类得分那么高,就知道这个项目不靠谱。

@brightmart
Copy link
Member

1)我看到基础能力评测中人类各项分数都接近100分,是不是题目出的太少太简单? 2) 项目上说一共三个人用投票机制,作为人类的分数,请问是什么水平的人类?另外三个人是否太少~ 3)尤其是代码能力方面 以我自己使用的体验 gpt-4 写代码能力很强 而且属于全栈 ,各种语言都会一些,这个应该没人能达到吧。但是这个评测中人类、gpt-4、gpt-3.5-turbo分数一样,是否题目的区分度还不够

1)当前报告的分数是采用开卷形式做题目的分数,所以结果比较高。我们也计划报告一下闭卷形式的分数。
2)人类的水平是本科生、研究生的水平
3)代码生成方面gpt-4还是很强的。只是我们的题目是客观题,而不是纯生成题,所以gpt-4强大的生成能力,可能没有那么明显。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants