Skip to content
This repository has been archived by the owner on Jan 24, 2024. It is now read-only.

所有模型去随机性 #54

Closed
guochaorong opened this issue Jun 15, 2018 · 5 comments
Closed

所有模型去随机性 #54

guochaorong opened this issue Jun 15, 2018 · 5 comments
Assignees

Comments

@guochaorong
Copy link
Contributor

guochaorong commented Jun 15, 2018

CE模型是从paddlepaddle models repo 陆续挪过来的一些模型。目前一共12个。
共3类

NLP seq2seq, lstm, language_model, transformer, sequence_tagging_for_ner, text_classification
图像 mnsit, image_classification, resnet50, vgg16, object_detection
多机 vgg16_aws_dist

CE监测到一些模型的数据仍存在随机性,比如during指标 (时长)、memory指标,
还有不定期会有一些模型的acc(精确度) 过些天又震荡一下的情况。 现在整体情况:http://18.222.34.7/
比如:

11

#41
#42
http://18.222.34.7/commit/draw_scalar?task=mnist
http://18.222.34.7/commit/draw_scalar?task=image_classification
http://18.222.34.7:8080/viewLog.html?tab=buildLog&buildTypeId=Paddle_ContinuousEvaluation&buildId=828

需要每个方向的模型有一个owner。各自确定其模型的不稳定指标的阈值。
在这两周内消除所有不稳定指标的阈值报警。

@Superjomn
Copy link
Collaborator

这个建议让各个方向和模型作者参与到其中,作为 owner 去推动。

CE 的角色是帮助各个模型监测paddle 代码的稳定性,这个对每个方向都是很重要的,未来模型会越来越多,还是希望有更多人参与其中的。

@guochaorong
Copy link
Contributor Author

@kuke @qingqing01 @typhoonzero 三个方向负责人看看吧~

@panyx0718
Copy link
Contributor

看看能不能通过固定和调整一些参数来降低随机性

  1. 固定输入的数据的顺序,适当缩小数据量(但不要太容易过拟合,不建议使用会收敛到99%的数据,无法发现收敛bug)。
  2. 增大训练的batch数,使用固定的batch数,而不是固定的时间。

@Superjomn
Copy link
Collaborator

不太行,随机性很大,现在已经放松到比较大的状态,但偶尔还会挂。

@guochaorong
Copy link
Contributor Author

恩恩, 有一些看着是已经没有随机性的模型,还存在挂的情况, 一是during mem这种随运行时指标的阈值的确定(上次yibing 对我们确定的指标有疑议)。 二是一些不应该波动的问题的调查。 这两种需要模型方向自己来确定。

对于还有随机种子不固定和输入随机的。 我们来消灭

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants