selsa vid fp16 training error #139

fcakyon · 2021-04-14T11:54:09Z

I only add fp16 settings into original selsa fasterrcnnr 50 training config:

# fp16 settings
fp16 = dict(loss_scale=512.)

When I try to train selsa vid model on fp16 mode, I get this error:

Traceback (most recent call last):
  File "tools/train.py", line 168, in <module>
    main()
  File "tools/train.py", line 157, in main
    train_model(
  File "mmtracking\mmtrack\apis\train.py", line 135, in train_model
    runner.run(data_loaders, cfg.workflow, cfg.total_epochs)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\mmcv\runner\epoch_based_runner.py", line 125, in run
    epoch_runner(data_loaders[i], **kwargs)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\mmcv\runner\epoch_based_runner.py", line 50, in train
    self.run_iter(data_batch, train_mode=True)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\mmcv\runner\epoch_based_runner.py", line 29, in run_iter
    outputs = self.model.train_step(data_batch, self.optimizer,
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\mmcv\parallel\data_parallel.py", line 67, in train_step
    return self.module.train_step(*inputs[0], **kwargs[0])
  File "mmtracking\mmtrack\models\vid\base.py", line 215, in train_step
    losses = self(**data)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\torch\nn\modules\module.py", line 727, in _call_impl
    result = self.forward(*input, **kwargs)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\mmcv\runner\fp16_utils.py", line 84, in new_func
    return old_func(*args, **kwargs)
  File "mmtracking\mmtrack\models\vid\base.py", line 149, in forward
    return self.forward_train(img, img_metas, **kwargs)
  File "mmtracking\mmtrack\models\vid\selsa.py", line 137, in forward_train
    all_x = self.detector.extract_feat(all_imgs)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\mmdet\models\detectors\two_stage.py", line 82, in extract_feat       
    x = self.backbone(img)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\torch\nn\modules\module.py", line 727, in _call_impl
    result = self.forward(*input, **kwargs)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\mmdet\models\backbones\resnet.py", line 627, in forward
    x = self.conv1(x)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\torch\nn\modules\module.py", line 727, in _call_impl
    result = self.forward(*input, **kwargs)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\torch\nn\modules\conv.py", line 423, in forward
    return self._conv_forward(input, self.weight)
  File "C:\Users\FCA\Miniconda3\envs\mmtracking\lib\site-packages\torch\nn\modules\conv.py", line 419, in _conv_forward
    return F.conv2d(input, weight, self.bias, self.stride,
RuntimeError: Input type (torch.cuda.FloatTensor) and weight type (torch.cuda.HalfTensor) should be the same

OceanPang · 2021-04-28T13:24:40Z

MMTracking does not support FP16 training yet. It will be supported in the future.

GT9505 · 2021-08-06T01:47:06Z

Hi, @fcakyon , sorry for the late. We have already supported fp16 training in #230 . You can give it a try if you still need it.

OceanPang assigned GT9505 Apr 20, 2021

GT9505 closed this as completed Sep 1, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

selsa vid fp16 training error #139

selsa vid fp16 training error #139

fcakyon commented Apr 14, 2021

OceanPang commented Apr 28, 2021

GT9505 commented Aug 6, 2021

selsa vid fp16 training error #139

selsa vid fp16 training error #139

Comments

fcakyon commented Apr 14, 2021

OceanPang commented Apr 28, 2021

GT9505 commented Aug 6, 2021