-
Notifications
You must be signed in to change notification settings - Fork 111
-
Notifications
You must be signed in to change notification settings - Fork 111
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于论文的一些疑惑 #5
Comments
此外,我发现如果固定预训练模型权重不变,只优化prompt,那么对于特定的预训练模型来说,性能会存在上限,即全量数据训练的情况下比不上直接finetune整个模型(哪怕想过拟合都不行)。按照我的想法,这个现象应该是很普遍的,但我看贵作在superglue的实验结果,多数任务下p-tuning还优于直接finetune,这点应该怎么理解。 |
|
在SuperGlue部分的实验设定中,我们已经明确了需要同时fine-tune预训练模型,可以参考#4。 |
谢谢,是我疏忽了。我以为SuperGlue和LAMA的设置是一样的,而LAMA的Table 2显然是固定了语言模型的。 |
你好,那最后再确认一下,在superglue任务中,是先固定预训练模型找出prompt然后再finetune整个模型,还是找prompt和finetune模型同时做的呢? |
在SuperGLUE任务中,找prompt和fine-tune模型是同时进行的。 |
想了解一下,现在有chatgpt 3.5, 4这种比较强的工具了是不是可以不需要p-tuning这种技巧了? |
你好,有幸读到贵作《GPT Understands, Too》,确实很不错。在阅读过程中,主要有两个疑问,烦请指点。
1、prompt直接通过embedding优化生成,跟原论文中使用LSTM生成,效果差距有多大呢?论文似乎并没有对比两者的差距。
2、关于superglue的各个任务的template,能否简单罗列一下?我只看到LAMA那里写了(3, sub, 3, obj, 3)和(3, sub, 3, obj),其他任务未见。
The text was updated successfully, but these errors were encountered: