-
Notifications
You must be signed in to change notification settings - Fork 58
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于梯度反传的小问题 #49
Comments
我并没有试过这个,但我直观感觉只更新decoder没有同时更新encoder和decoder好。 |
感谢您的回复。还想问一下您,关于特征扰动可以带来半监督的性能增益,这个背后更加直观的解释是什么呢?如果通俗来讲的话? |
比较正经的解释:强扰动(无论是特征上的还是图像上的)可以缓解对噪声标签的过拟合,也可以使得分类器的决策边界落在密度较低的空间上.....(还有很多解释) 通俗的解释:我们先用干净的样本(没有被强扰动)产生伪标签,如果这时候我们还是用这些干净的样本去学习这些本来已经预测出来的伪标签的话,那其实是没有什么额外的信息增益的。就像我们本来已经会写了一道题,自己给出了答案,这时候如果再去用这个答案来监督我们再做一遍这个题,那其实是没有什么帮助的,本来对的还是对,错的还是错。 |
感谢回答,我消化一下。 |
抱歉,我也很难回答这个问题...不确定大模型未来会做到何种程度 |
看您关于特征扰动的实现是在原始特征上drop后与原始特征cat起来输入解码器,也就是说,这样计算得到的损失会同时更新编码器+解码器。
作者有试过将drop的特征detach,然后直接输入到解码器吗?这样drop特征输入只训练解码器,也就是梯度只经过解码器。
The text was updated successfully, but these errors were encountered: