Skip to content
This repository has been archived by the owner on Sep 21, 2020. It is now read-only.

pytorch训练的超参数是? #3

Closed
betterhalfwzm opened this issue Feb 25, 2020 · 12 comments
Closed

pytorch训练的超参数是? #3

betterhalfwzm opened this issue Feb 25, 2020 · 12 comments

Comments

@betterhalfwzm
Copy link

非常棒的网络!! 请问Ghostnet有不加se结构在imagenet训练的结果吗?se对精度影响大吗?pytorch训练的超参数是?

@iamhankai
Copy link
Owner

谢谢肯定。加se是follow MobileNetV3的结构,不加的话top1会有约0.5个点的损失。

pytorch训练的超参可参考https://github.com/megvii-model/ShuffleNet-Series

@pawopawo
Copy link

pawopawo commented Mar 5, 2020

我参考 https://github.com/megvii-model/ShuffleNet-Series 的训练策略,训练出的ghostnet 1.0,精度只有73.04,没有复现出论文的73.9。请问有什么特别需要注意的地方么

@pawopawo
Copy link

pawopawo commented Mar 5, 2020

30000iter , batch size 1024, lr 0.5, 学习率linear decay,weight decay 4e-5,momentum 0.9, label smooth 0.1。 没有学习率的warm up

@iamhankai
Copy link
Owner

Try 450000iter, lr0.4, dropout0.15 or dropout0.1

@pawopawo
Copy link

pawopawo commented Mar 6, 2020

Try 450000iter, lr0.4, dropout0.15 or dropout0.1

hi,我尝试改了下训练策略:
把iter改为450000iter, lr0.4,dropout0.15,结果是73.2
把iter改为450000iter, lr0.4,dropout0.2, 结果是73.4
把iter改为450000iter, lr0.4,dropout0.1, 结果是72.7

最好的结果还是跟论文差了0.5。请问还有别的细节吗?weight decay是4e-5吗?

盼望能够得到你的帮助~

@iamhankai
Copy link
Owner

iamhankai commented Mar 6, 2020

我们论文的实验是在TF上进行的,pytorch的话有些细节可能需要调整。

我们用了5epochs的warmup和cosine学习率,另外我建议试试weight decay 3e-5,1e-5

@pawopawo
Copy link

请问不带SE的训练策略和带SE的策略有什么不同吗?能提供一个预训练模型么?

@pawopawo
Copy link

不带SE的ghostnet 1.0,我按照和带SE一样的训练策略,精度是72.7%,会低1.2%

@pawopawo
Copy link

pawopawo commented Mar 10, 2020

求帮助~

@laisimiao
Copy link

求帮助~

请问一下ghostnet后面的数字,如1.0, 0.5, 1.3×是什么意思?谢谢

@iamhankai
Copy link
Owner

请问不带SE的训练策略和带SE的策略有什么不同吗?能提供一个预训练模型么?

不带SE的模型我们没做过多探索。

@iamhankai
Copy link
Owner

求帮助~

请问一下ghostnet后面的数字,如1.0, 0.5, 1.3×是什么意思?谢谢

神经网络的宽度,论文里面的 $\alpha$

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants