关于CPNet训练问题 #4

menghuaa · 2023-05-16T08:21:49Z

您好，我下载了您给的ILSVRC2012数据集，在训练的时候loss感觉没啥显著变化，请问正常吗？loss值大概一直都在下图所示的值附近徘徊，我用了4张A6000训练，没有改变任何参数

zhaoyuzhi · 2023-05-17T07:33:05Z

不正常。

我在1张V100上用默认参数（但batch size改成8）训练，开始几个iteration之后Color L1 loss就会降到0.02-0.05的水平。

我也检查了多卡跑起来会不会出错，此时用了4张V100（batch size此时为32），开始几个iteration之后Color L1 loss也会在0.03左右。

建议检查下data读取是不是有问题？

menghuaa · 2023-05-17T07:49:25Z

不正常。

我在1张V100上用默认参数（但batch size改成8）训练，开始几个iteration之后Color L1 loss就会降到0.02-0.05的水平。

我也检查了多卡跑起来会不会出错，此时用了4张V100（batch size此时为32），开始几个iteration之后Color L1 loss也会在0.03左右。

建议检查下data读取是不是有问题？

请问您是用你发布在github上的代码跑的吗？
另外您是在linux上跑的吗？
请问您使用4张v100时，改变了哪些参数呢？学习率还是1e-4吗？

zhaoyuzhi · 2023-05-17T07:55:43Z

是啊，clone下来跑的，是linux，就改了个batch size

menghuaa · 2023-05-17T08:07:00Z

是啊，clone下来跑的，是linux，就改了个batch size

改了batchsize后，应该是正常了

太可怕了，跑到第二个epoch的时候loss突然变大，这个训练这么不稳定的吗，还是哪里又出了问题......

请问您训练完imagenet数据集后损失大概能降到多少？我是用4张A6000,batchsize调整为32，其它参数没动，想问下您提供的在imagenet数据集上训练cpnet的运行命令是用几张卡跑的，用什么卡跑的

zhaoyuzhi · 2023-05-19T06:46:26Z

Hi, menghuaa

好久之前训的，具体训练策略写在paper里了，建议先看论文的描述

查了下论文，是 batchsize=4 per GPU and 8 NVIDIA Titan Xp GPUs。具体损失降到多少记不清楚了，我提供了预训练模型，可以加载第一阶段的CPNet接着训就知道loss大概是多少了

关于稳定性的问题，或许是因为之前网络没有采用任何normalization的原因。可以改变下网络initialization策略和调低学习率？这样训练可能更容易一点？

zhaoyuzhi added the bug Something isn't working label May 19, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于CPNet训练问题 #4

关于CPNet训练问题 #4

menghuaa commented May 16, 2023 •

edited

zhaoyuzhi commented May 17, 2023

menghuaa commented May 17, 2023 •

edited

zhaoyuzhi commented May 17, 2023

menghuaa commented May 17, 2023 •

edited

zhaoyuzhi commented May 19, 2023

关于CPNet训练问题 #4

关于CPNet训练问题 #4

Comments

menghuaa commented May 16, 2023 • edited

zhaoyuzhi commented May 17, 2023

menghuaa commented May 17, 2023 • edited

zhaoyuzhi commented May 17, 2023

menghuaa commented May 17, 2023 • edited

zhaoyuzhi commented May 19, 2023

menghuaa commented May 16, 2023 •

edited

menghuaa commented May 17, 2023 •

edited

menghuaa commented May 17, 2023 •

edited