-
Notifications
You must be signed in to change notification settings - Fork 10
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
BUG #25
Comments
对于第一个问题,需要把meta_template设成chatglm,chatglm3有个feature就是如果第一条message是system的时候返回的结果会eval一下变成dict,就不是string了 |
多谢~ 我的启动命令是 sh test_all_zh.sh hf ../../ckpt/chatglm3-6b/ chatglm3-6b-zh chatglm,应该已经把meta_template设成chatglm了吧?并且只是在部分数据集报第一个错,应该不是meta_template没设成chatglm的原因? |
话说方便说一下具体是哪条数据呀,我这边试一下~ |
我hack了一下 现在应该是能正常跑通的, 主要是他们自己写了个这个代码 (https://huggingface.co/THUDM/chatglm3-6b/blob/f30825950ce00cb0577bf6a15e0d95de58e328dc/modeling_chatglm.py#L1021) |
不好意思哈 因为论文走的是opencompass 这套代码是我们另外写的 现在还处在验证阶段 一些回归测试还没来得及跑 今天会整体测一下~有bug请多见谅 |
@nyBball 代码已经更新,您这边可以再试试,但是对齐精度可能需要等opencompass那边也ready后才能完全对齐哈
chatglm3-6b似乎会存在一些内部错误,走到try except逻辑里面,存在结果偏低的现象,这个我们后续会再看看 |
这个是Qwen-7B的infer结果,应该是正常的
|
这个您自己注释掉就行了哈~所有的跑的都是chat model |
我跑的qwen-7b-chat (https://huggingface.co/Qwen/Qwen-7B-Chat) 数据集用的1/5 subset (https://drive.google.com/file/d/1DgCMjquEIJ2v14Xu6uB6w3UEzaYXZbUL/view) 跑的结果是 Overall: 64.0 Instruct: 93.3 Plan: 56.8 Reason: 59.7 Retrieve: 67.3 Understand: 48.7 Review: 58.1 跟你的这个结果差的有点大,估计是什么原因呢?谢谢 |
之前那个是full-set的 我昨天跑了一个1/5susbet的结果
你可以更新一下lagent和t-eval的代码,感觉主要是instruct你的点比较高?你测了str格式的instruct了吗 我这边json format的instruct能到90+,但是str format的比较低 |
我目前使用chatglm3-6b模型进行评测,我使用的是4个A800显卡(80G),在跑v0.2版本的代码时,部分数据集跑不通报错。详情如下:
对于instruct、review、plan json数据集评测正常,但是对于plan str、retrieve str,在运行到中途的时候会报如下错误:
对于reason str、understand str、RRU,在运行到中途的时候会报如下错误:
请问作者有什么建议吗?多谢
The text was updated successfully, but these errors were encountered: