Loss is NaN , while training on both VOC data and Custom dataset #182

soumenms2015 · 2018-02-22T01:44:40Z

I am getting the loss is NaN error while training on custom data as well as benchmark dataset pascal voc dataset.
Here is the error:

INFO net.py: 271: labels_int32 INFO net.py: 271: bbox_pred INFO net.py: 271: bbox_targets INFO net.py: 271: bbox_inside_weights INFO net.py: 271: bbox_outside_weights INFO net.py: 271: cls_prob INFO net.py: 271: labels_int32 INFO net.py: 271: fpn_res2_2_sum INFO net.py: 271: mask_rois_fpn2 INFO net.py: 271: fpn_res3_7_sum INFO net.py: 271: mask_rois_fpn3 INFO net.py: 271: fpn_res4_35_sum INFO net.py: 271: mask_rois_fpn4 INFO net.py: 271: fpn_res5_2_sum INFO net.py: 271: mask_rois_fpn5 INFO net.py: 271: _[mask]_roi_feat_fpn2 INFO net.py: 271: _[mask]_roi_feat_fpn3 INFO net.py: 271: _[mask]_roi_feat_fpn4 INFO net.py: 271: _[mask]_roi_feat_fpn5 INFO net.py: 271: _[mask]_roi_feat_shuffled INFO net.py: 271: mask_rois_idx_restore_int32 INFO net.py: 271: _[mask]_roi_feat INFO net.py: 271: _[mask]_fcn1 INFO net.py: 271: _[mask]_fcn1 INFO net.py: 271: _[mask]_fcn2 INFO net.py: 271: _[mask]_fcn2 INFO net.py: 271: _[mask]_fcn3 INFO net.py: 271: _[mask]_fcn3 INFO net.py: 271: _[mask]_fcn4 INFO net.py: 271: _[mask]_fcn4 INFO net.py: 271: conv5_mask INFO net.py: 271: conv5_mask INFO net.py: 271: mask_fcn_logits INFO net.py: 271: masks_int32 INFO net.py: 275: End of ../anaconda2/lib/python2.7/site- r = func(a, **kwargs)
json_stats: {"accuracy_cls": CRITICAL train_net.py: Tried with lowering the : (512,) => cls_prob : (512, 10) ------|
: (512, 40) => loss_bbox : () ------- (op: SmoothL1Loss)
: (512, 40) => loss_bbox : () ------|
: (512, 40) => loss_bbox : () ------|
: (512, 40) => loss_bbox : () ------|
: (512, 10) => accuracy_cls : () ------- (op: Accuracy)
: (512,) => accuracy_cls : () ------|
: (1, 256, 336, 152) => _[mask]_roi_feat_fpn2 : (8, 256, 14, 14) ------- (op: RoIAlign)
: (8, 5) => _[mask]_roi_feat_fpn2 : (8, 256, 14, 14) ------|
: (1, 256, 168, 76) => _[mask]_roi_feat_fpn3 : (12, 256, 14, 14) ------- (op: RoIAlign)
: (12, 5) => _[mask]_roi_feat_fpn3 : (12, 256, 14, 14) ------|
: (1, 256, 84, 38) => _[mask]_roi_feat_fpn4 : (9, 256, 14, 14) ------- (op: RoIAlign)
: (9, 5) => _[mask]_roi_feat_fpn4 : (9, 256, 14, 14) ------|
: (1, 256, 42, 19) => _[mask]_roi_feat_fpn5 : (23, 256, 14, 14) ------- (op: RoIAlign)
: (23, 5) => _[mask]_roi_feat_fpn5 : (23, 256, 14, 14) ------|
: (8, 256, 14, 14) => _[mask]_roi_feat_shuffled : (52, 256, 14, 14) ------- (op: Concat)
: (12, 256, 14, 14) => _[mask]_roi_feat_shuffled : (52, 256, 14, 14) ------|
: (9, 256, 14, 14) => _[mask]_roi_feat_shuffled : (52, 256, 14, 14) ------|
: (23, 256, 14, 14) => _[mask]_roi_feat_shuffled : (52, 256, 14, 14) ------|
: (52, 256, 14, 14) => _[mask]_roi_feat : (52, 256, 14, 14) ------- (op: BatchPermutation)
: (52,) => _[mask]_roi_feat : (52, 256, 14, 14) ------|
: (52, 256, 14, 14) => _[mask]_fcn1 : (52, 256, 14, 14) ------- (op: Conv)
: (52, 256, 14, 14) => _[mask]_fcn1 : (52, 256, 14, 14) ------- (op: Relu)
: (52, 256, 14, 14) => _[mask]_fcn2 : (52, 256, 14, 14) ------- (op: Conv)
: (52, 256, 14, 14) => _[mask]_fcn2 : (52, 256, 14, 14) ------- (op: Relu)
: (52, 256, 14, 14) => _[mask]_fcn3 : (52, 256, 14, 14) ------- (op: Conv)
: (52, 256, 14, 14) => _[mask]_fcn3 : (52, 256, 14, 14) ------- (op: Relu)
: (52, 256, 14, 14) => _[mask]_fcn4 : (52, 256, 14, 14) ------- (op: Conv)
: (52, 256, 14, 14) => _[mask]_fcn4 : (52, 256, 14, 14) ------- (op: Relu)
: (52, 256, 14, 14) => conv5_mask : (52, 256, 28, 28) ------- (op: ConvTranspose)
: (52, 256, 28, 28) => conv5_mask : (52, 256, 28, 28) ------- (op: Relu)
: (52, 256, 28, 28) => mask_fcn_logits : (52, 10, 28, 28) ------- (op: Conv)
: (52, 10, 28, 28) => loss_mask : () ------- (op: SigmoidCrossEntropyLoss)
: (52, 7840) => loss_mask : () ------|
model: generalized_rcnn
packages/numpy/lib/function_base.py:4033: RuntimeWarning: Invalid value encountered in median
0.898438, "eta": "21 days, 12:25:49", "iter": 0, "loss": NaN, "loss_bbox": -0.071702, "loss_cls": 2.302585, "loss_mask": NaN, "loss_rpn_bbox_fpn2": 0.000000, "loss_rpn_bbox_fpn3": 0.000000, "loss_rpn_bbox_fpn4": NaN, "loss_rpn_bbox_fpn5": 0.000000, "loss_rpn_bbox_fpn6": 0.000000, "loss_rpn_cls_fpn2": 0.000000, "loss_rpn_cls_fpn3": NaN, "loss_rpn_cls_fpn4": 0.000000, "loss_rpn_cls_fpn5": 0.000000, "loss_rpn_cls_fpn6": 0.000000, "lr": 0.000333, "mb_qsize": 64, "mem": 7174, "time": 7.150576}
159: Loss is NaN, exiting...
base learning rate.

telwell · 2018-03-10T04:28:55Z

I see that you closed this, did you ever figure out what was going on?

RafaRuiz · 2018-04-09T22:29:59Z

Hello @soumenms2015, any hint of how to proceed?

soumenms2015 · 2018-07-01T22:09:34Z

@RafaRuiz Lowering the learning rate would alleviate the problem.

soumenms2015 closed this as completed Feb 28, 2018

satyajithj mentioned this issue Apr 18, 2019

NaN loss when using pretrained weights from my custom classification dataset #868

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Loss is NaN , while training on both VOC data and Custom dataset #182

Loss is NaN , while training on both VOC data and Custom dataset #182

soumenms2015 commented Feb 22, 2018

telwell commented Mar 10, 2018

RafaRuiz commented Apr 9, 2018

soumenms2015 commented Jul 1, 2018

Loss is NaN , while training on both VOC data and Custom dataset #182

Loss is NaN , while training on both VOC data and Custom dataset #182

Comments

soumenms2015 commented Feb 22, 2018

telwell commented Mar 10, 2018

RafaRuiz commented Apr 9, 2018

soumenms2015 commented Jul 1, 2018