生成文本如何提高多样性 #98

dkicenan · 2019-11-12T02:57:11Z

问题：

1.我使用散文预训练模型，用自己的数据（20000条）进行微调，5epochs，训练完loss:0.08，预测结果会完全拟合我的数据。我想提高预测输出的多样性（比如，我的训练数据以外的词汇或者句子结构）。请问需要如何改进？我的训练是不是过拟合了
2.loss=0.08,微调时的损失函数是什么呢？

期待给些指导建议,祝好！

hzrpku · 2019-11-12T06:35:03Z

可以调整一下temperature参数，或者不要训练太多轮。

dkicenan · 2019-11-12T07:08:10Z

@hzrpku 非常感谢回复，我按你的建议试着修改。我看代码训练时，lable和input一样，没理解这样做模型是在学习什么（自身的表示吗？），loss是什么呢（输入和输出之间的误差吗？）
outputs = model.forward(input_ids=batch_inputs, labels=batch_inputs)

lioyou · 2019-11-12T08:30:18Z

@dkicenan

topk表示将输出结果排序，并获取概率大于topk的所有词，并从中选择一个，所以可增加多样性。
topp表示概率叠加，将会使得一些概率很小的词会有可能被选中，并去除一些概率超过topp的词。
自己多试试。。。
其它问题已经有人问过了，自己搜一下列表

dkicenan · 2019-11-12T08:52:44Z

@lioyou 非常感谢回复并解释topk和topp，理解这些超参数，然后多尝试~祝好！

yinhexi009 · 2022-11-14T05:18:36Z

如何微调呢？教程在哪里？

dkicenan closed this as completed Nov 12, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

生成文本如何提高多样性 #98

生成文本如何提高多样性 #98

dkicenan commented Nov 12, 2019

hzrpku commented Nov 12, 2019

dkicenan commented Nov 12, 2019

lioyou commented Nov 12, 2019

dkicenan commented Nov 12, 2019

yinhexi009 commented Nov 14, 2022

生成文本如何提高多样性 #98

生成文本如何提高多样性 #98

Comments

dkicenan commented Nov 12, 2019

问题：

期待给些指导建议,祝好！

hzrpku commented Nov 12, 2019

dkicenan commented Nov 12, 2019

lioyou commented Nov 12, 2019

dkicenan commented Nov 12, 2019

yinhexi009 commented Nov 14, 2022