Skip to content

中文模型 C-Eval 评测结果简单小评测 #96

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
ninehills opened this issue Jun 27, 2023 · 4 comments
Open

中文模型 C-Eval 评测结果简单小评测 #96

ninehills opened this issue Jun 27, 2023 · 4 comments
Labels

Comments

@ninehills
Copy link
Owner

ninehills commented Jun 27, 2023

最近 C-Eval 有较多中文开源模型打榜,分数一度超越 GPT-4,今天做一下简单的复盘。

首先排名靠前的几位全部是封闭模型,连API也不对外提供,无法进行评测。

image

顺序找下去,发现 ChatGLM2-6B 可以用,来做一次简单的分析。

评测大模型的能力,最难的莫过于逻辑能力和数学能力,我们用 ChatGPT 3.5对比,根据 C-Eval 官方榜单的详细评测项目:

模型 Probability and Statistics High School Mathematics Logic
ChatGPT 33.7 34.3 37.7
ChatGLM2-6B 25.9 32.5 36.3

注:此处注意题目都是单项选择题,也就是最低得分是 25分。

可以发现 ChatGLM2-6B 总的来说和 ChatGPT 区别不大,可喜可贺。我们选择分数最为接近的 Logic ,用 c-eval 官方提供的验证数据集(有答案)共 21 道题中随机选5道题,进行 Zero-shot 对比。同时用我觉得中文模型数学和逻辑能力还不错的讯飞星火做对比。

题目编号 ChatGPT ChatGLM2-6B 讯飞星火 正确答案
0 C A D C
2 D C D D
4 B A A B
8 D A A B
20 A C A D

3:0:1,我相信这个并不仅仅是误差。当然因为实际榜单里使用的是 Few-shot,可能会让能力有所提升。但是我想本身Zero-shot 能力也是模型能力的一部分,多数大模型使用场景还是 Zero-shot。

有时间一定要做一次评测复现。

@ninehills ninehills added the blog label Jun 27, 2023
@ninehills ninehills changed the title 中文开源模型 C-Eval 评测结果简单小评测 中文模型 C-Eval 评测结果简单小评测 Jun 27, 2023
@137-rick
Copy link

https://www.modelscope.cn/studios/AI-ModelScope/ChatGLM6B-unofficial/summary 在这里手动提交测试下刚才几个错题

@Nietism
Copy link

Nietism commented Jun 27, 2023

从 ChatGLM-6B 到 ChatGLM2-6B 平均分的提升主要在数学以外的科目。

马克思主义和中国特色社会主义这两个科目分别从 52 和 53.4 升到了 69.3 和 68.9,初中化学、高中化学则分别从 40.5 和 28.5 提高到了 84.9 和 63.4,对底座模型的二次预训练使得 ChatGLM2 在这几门科目上提升巨大。而在数学方面,从 ChatGLM-6B 到 ChatGLM2-6B,高等数学、离散数学、高中数学、初中数学的分数则从 30.1 / 24.2 / 31.9 / 26 提高到了 32.4 / 27.5 / 32.5 / 36.7,可以看到在这几门较大程度上能反应推理能力、逻辑能力的科目上,从 ChatGLM-6B 到 ChatGLM2-6B 的提升并不明显。

@Nietism
Copy link

Nietism commented Jun 27, 2023

从 ChatGLM-6B 到 ChatGLM2-6B 平均分的提升主要在数学以外的科目。

马克思主义和中国特色社会主义这两个科目分别从 52 和 53.4 升到了 69.3 和 68.9,初中化学、高中化学则分别从 40.5 和 28.5 提高到了 84.9 和 63.4,对底座模型的二次预训练使得 ChatGLM2 在这几门科目上提升巨大。而在数学方面,从 ChatGLM-6B 到 ChatGLM2-6B,高等数学、离散数学、高中数学、初中数学的分数则从 30.1 / 24.2 / 31.9 / 26 提高到了 32.4 / 27.5 / 32.5 / 36.7,可以看到在这几门较大程度上能反应推理能力、逻辑能力的科目上,从 ChatGLM-6B 到 ChatGLM2-6B 的提升并不明显。

另外,在报告的几个 benchmark 上,ChatGLM2 的最高表现都来自于 base model + few-shot prompting (w/o CoT),chat model + zero-shot CoT 的表现反而没有前者高,跟百川一样,数学题也是没有 CoT 过程直接预测答案的。

@OedoSoldier
Copy link

OedoSoldier commented Jun 27, 2023

我用文心一言,遵照官方给出的 prompt 格式(zero-shot)测试了 op 的几道题目,答案是:CDABD,对了 4 道题。我体感是,文心一言经过数次迭代后最新版本(0621 V2.1.0)能力已经很强了,不过可惜 API 尚未大范围开放,无法进行批量评测

具体答案如下:

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

4 participants