We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
您好,在mvbench论文中我了解到您使用了“Best Option: (” 这样的插入语以使得模型输出为abcd选项中的一个,代码中也是这样做的。这在videochat2中可以达成限定模型输出的作用。但是在video-chatgpt以及其他视觉语言大模型中,似乎在prompt部分加入“Best Option: (” 这样的插入语之后,模型输出仍为一段话,而非一定对应abcd四个选项,导致很难单纯用accuracy作为评测模型性能的指标。请问该问题您这边是否有解决方案?谢谢!
The text was updated successfully, but these errors were encountered:
我们使用answer prompt之后,虽然其他模型输出认为一段话,但是去除了前面的空格后,第一个字符仍然是以ABCDE的选项开始的。
Sorry, something went wrong.
直接取ABCD对应的token id的prob
把其他模型prompt上末尾的特殊token去掉,比如</s>之类的,就可以了。
No branches or pull requests
您好,在mvbench论文中我了解到您使用了“Best Option: (” 这样的插入语以使得模型输出为abcd选项中的一个,代码中也是这样做的。这在videochat2中可以达成限定模型输出的作用。但是在video-chatgpt以及其他视觉语言大模型中,似乎在prompt部分加入“Best Option: (” 这样的插入语之后,模型输出仍为一段话,而非一定对应abcd四个选项,导致很难单纯用accuracy作为评测模型性能的指标。请问该问题您这边是否有解决方案?谢谢!
The text was updated successfully, but these errors were encountered: