在ctc_pytorch的训练过程中，损失值总会变为nan #29

AemaH · 2019-07-22T12:39:24Z

问题

训练中，loss总是会变为nan，尝试着改batch_size和lr，也只能让其晚出现2个epoch左右，acc至多变为70左右。

求指点啊TAT

The text was updated successfully, but these errors were encountered:

ypwhs · 2019-07-22T13:20:38Z

loss nan 是因为 target_length 过长，input_length 过短。

CTCLoss 要求 input_length >= 2 * target_length + 1，比如 abcd 这个label，输出必须能放得下 -a-b-c-d-，不然就会 nan。

有关代码：

        if (s < 2*max_target_length+1)
          log_alpha_data[la_batch_offset + la_input_stride * t + la_target_stride * s] = neginf;
      }

https://github.com/pytorch/pytorch/blob/v1.1.0/aten/src/ATen/native/cuda/LossCTC.cu#L139-L141

解决方法：

增加图像宽度，增加 input_length
调整池化层，减少水平方向的池化，增加 input_length

AemaH · 2019-07-22T14:17:43Z

但调整了input_length的长度，在ipynb文件开头设置了n_input_length = 9「target_length*2+1」，或者10，就会出现：

RuntimeError: Expected tensor to have size at least 6 at dimension 1, but got size 64 for argument #2 'targets' (while checking arguments for ctc_loss_gpu)

这样的问题，查询了一下来源，说是input_length过长而导致。

ypwhs · 2019-07-22T14:22:26Z

n_input_length 不是随便设置的，要和模型输出尺寸一致：

测试模型输出尺寸

model = Model(n_classes, input_shape=(3, height, width))
inputs = torch.zeros((32, 3, height, width))
outputs = model(inputs)
outputs.shape

# torch.Size([12, 32, 37])

这里的 12 就是 input_length，你可以跑一下这段代码，看看你的图像尺寸输入到模型以后，输出的 length 是多少，然后再修改 n_input_length 。

AemaH · 2019-07-22T15:01:22Z

是的，一开始的时候对于n_input_length 进行修改的时候，也是比对原文按照这里的输出，修改为了6，结果想不到原来CTCLoss是有要求的，回头确实要好好看一下。
万分感谢您的指点，按照您的指导，我删去了一个卷积层+池化层的block，现在的input_lenght变为了12，满足了要求，训练也可以正常继续下去了。😊

顺带插一句隔壁的题外话，在TensorFlow相关的ipynb文件中，您对于模型的evaluate都是编写了一个evalute()函数或者类，这个评估函数算起来总是十分的慢，比如CNN_2019文件中，训练模型总共加起来不过十多分钟，结果在运行这个函数的时候，已经修改epoch为1了，依旧快两个小时，还没有结束的预兆。
按照该函数的意思，应该是遍历全部的可能组合结果对于该识别器进行评估？，在开头设置的时候，我加入了小写字母的考虑，难道是这个原因，导致的计算时间猛增？

ypwhs added the Loss nan input_length 太小导致 loss nan label Jul 22, 2019

ypwhs mentioned this issue Jul 22, 2019

ctc_2019.ipynb中，训练完一个epoch后，就不再继续了 #28

Open

AemaH mentioned this issue Aug 1, 2019

代码已经更新，关于新版本的问题可以在这里提出 Sierkinhane/CRNN_Chinese_Characters_Rec#124

Closed

hjgw mentioned this issue Apr 3, 2023

loss always nan BADBADBADBOY/OCR-TextRecog#3

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在ctc_pytorch的训练过程中，损失值总会变为nan #29

在ctc_pytorch的训练过程中，损失值总会变为nan #29

AemaH commented Jul 22, 2019

ypwhs commented Jul 22, 2019 •

edited

Loading

AemaH commented Jul 22, 2019 •

edited

Loading

ypwhs commented Jul 22, 2019

AemaH commented Jul 22, 2019

在ctc_pytorch的训练过程中，损失值总会变为nan #29

在ctc_pytorch的训练过程中，损失值总会变为nan #29

Comments

AemaH commented Jul 22, 2019

相关信息

相关修改

问题

ypwhs commented Jul 22, 2019 • edited Loading

AemaH commented Jul 22, 2019 • edited Loading

ypwhs commented Jul 22, 2019

测试模型输出尺寸

AemaH commented Jul 22, 2019

ypwhs commented Jul 22, 2019 •

edited

Loading

AemaH commented Jul 22, 2019 •

edited

Loading