关于训练 #10

roar-1128 · 2021-10-26T11:25:44Z

作者您好，我在集群训练的时候出现问题，希望您能解答一下：

我的环境是：
torch == 1.7.1
torchvision == 0.8.2
detectron == 0.2.1

集群显卡使用：
1块显存12G的V100

学习率设置：
IMS_PER_BATCH: 2
BASE_LR: 0.00001
WARMUP_FACTOR: 0.00001
报出结果：NAN

学习率设置：
IMS_PER_BATCH: 4
BASE_LR: 0.00001
WARMUP_FACTOR: 0.00001
报错结果：CUDA out of memory

请问怎么解决这个问题？

roar-1128 · 2021-10-26T12:06:36Z

是16g的v100

easton-cau · 2021-11-01T07:55:41Z

您好，我将BatchSize设置为2，GPU数量设置为1，学习率不变，没有出现NAN的情况，但是Loss下降会有波动，且较为缓慢。我认为这可能是BatchSize设置的太小，导致梯度震荡严重，不利于收敛。建议更换算力，增大BatchSize或者在多块GPU上运行。

roar-1128 · 2021-11-01T09:20:35Z

感谢作者的回复，我再尝试一下多块GPU

roar-1128 closed this as completed Nov 1, 2021

Provide feedback