denom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps']) #18

yuanwei2019 · 2020-10-26T07:38:17Z

作者你好，我发现Adabelief-Optimizer/PyTorch_Experiments/AdaBelief.py里的第157行：
‘ denom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps'])’
exp_avg_var.add_(eps)这样是不是每次修正偏差都会导致exp_avg_var加上一个eps，和文中的St更新公式不一样。是不是应该改成exp_avg_var.add(group['eps'])或者是使用add_实验效果好？

juntang-zhuang · 2020-10-26T13:28:56Z

感谢指出，我没有测过用add。写code的时候没有想到这一点直接把后面的add_(group['eps'])复制到前面去了。有可能改过来之后效果更好，因为随着增加eps*t，分母变大导致stepsize逐渐变小，可能导致后期fientune不起作用。稍后我测一下。

yuanwei2019 mentioned this issue Nov 4, 2020

Epsilon is important to Adaptive Optimizer #24

Closed

juntang-zhuang closed this as completed Nov 13, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

denom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps']) #18

denom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps']) #18

yuanwei2019 commented Oct 26, 2020

juntang-zhuang commented Oct 26, 2020 •

edited

denom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps']) #18

denom = (exp_avg_var.add_(group['eps']).sqrt() / math.sqrt(bias_correction2)).add_(group['eps']) #18

Comments

yuanwei2019 commented Oct 26, 2020

juntang-zhuang commented Oct 26, 2020 • edited

juntang-zhuang commented Oct 26, 2020 •

edited