-
Notifications
You must be signed in to change notification settings - Fork 121
中文模型 C-Eval 评测结果简单小评测 #96
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
从 ChatGLM-6B 到 ChatGLM2-6B 平均分的提升主要在数学以外的科目。 马克思主义和中国特色社会主义这两个科目分别从 52 和 53.4 升到了 69.3 和 68.9,初中化学、高中化学则分别从 40.5 和 28.5 提高到了 84.9 和 63.4,对底座模型的二次预训练使得 ChatGLM2 在这几门科目上提升巨大。而在数学方面,从 ChatGLM-6B 到 ChatGLM2-6B,高等数学、离散数学、高中数学、初中数学的分数则从 30.1 / 24.2 / 31.9 / 26 提高到了 32.4 / 27.5 / 32.5 / 36.7,可以看到在这几门较大程度上能反应推理能力、逻辑能力的科目上,从 ChatGLM-6B 到 ChatGLM2-6B 的提升并不明显。 |
另外,在报告的几个 benchmark 上,ChatGLM2 的最高表现都来自于 base model + few-shot prompting (w/o CoT),chat model + zero-shot CoT 的表现反而没有前者高,跟百川一样,数学题也是没有 CoT 过程直接预测答案的。 |
最近 C-Eval 有较多中文开源模型打榜,分数一度超越 GPT-4,今天做一下简单的复盘。
首先排名靠前的几位全部是封闭模型,连API也不对外提供,无法进行评测。
顺序找下去,发现 ChatGLM2-6B 可以用,来做一次简单的分析。
评测大模型的能力,最难的莫过于逻辑能力和数学能力,我们用 ChatGPT 3.5对比,根据 C-Eval 官方榜单的详细评测项目:
可以发现 ChatGLM2-6B 总的来说和 ChatGPT 区别不大,可喜可贺。我们选择分数最为接近的 Logic ,用 c-eval 官方提供的验证数据集(有答案)共 21 道题中随机选5道题,进行 Zero-shot 对比。同时用我觉得中文模型数学和逻辑能力还不错的讯飞星火做对比。
3:0:1,我相信这个并不仅仅是误差。当然因为实际榜单里使用的是 Few-shot,可能会让能力有所提升。但是我想本身Zero-shot 能力也是模型能力的一部分,多数大模型使用场景还是 Zero-shot。
有时间一定要做一次评测复现。
The text was updated successfully, but these errors were encountered: