Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

生成文本如何提高多样性 #98

Closed
dkicenan opened this issue Nov 12, 2019 · 5 comments
Closed

生成文本如何提高多样性 #98

dkicenan opened this issue Nov 12, 2019 · 5 comments

Comments

@dkicenan
Copy link

问题:

1.我使用散文预训练模型,用自己的数据(20000条)进行微调,5epochs,训练完loss:0.08,预测结果会完全拟合我的数据。我想提高预测输出的多样性(比如,我的训练数据以外的词汇或者句子结构)。请问需要如何改进?我的训练是不是过拟合了
2.loss=0.08,微调时的损失函数是什么呢?

期待给些指导建议,祝好!

@hzrpku
Copy link

hzrpku commented Nov 12, 2019

可以调整一下temperature参数,或者不要训练太多轮。

@dkicenan
Copy link
Author

@hzrpku 非常感谢回复,我按你的建议试着修改。我看代码训练时,lable和input一样,没理解这样做模型是在学习什么(自身的表示吗?),loss是什么呢(输入和输出之间的误差吗?)
outputs = model.forward(input_ids=batch_inputs, labels=batch_inputs)

@lioyou
Copy link

lioyou commented Nov 12, 2019

@dkicenan

  • topk表示将输出结果排序,并获取概率大于topk的所有词,并从中选择一个,所以可增加多样性。
  • topp表示概率叠加,将会使得一些概率很小的词会有可能被选中,并去除一些概率超过topp的词。
    自己多试试。。。
    其它问题已经有人问过了,自己搜一下列表

@dkicenan
Copy link
Author

@lioyou 非常感谢回复并解释topk和topp,理解这些超参数,然后多尝试~祝好!

@yinhexi009
Copy link

如何微调呢?教程在哪里?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants