关于文本中存在空格问题 #476

1120475708 · 2024-02-28T09:36:22Z

看模型的训练部分代码，似乎会把空格全都移除掉，这是不是意味着如果我的测试集合中存在空格的case，那么模型在predict时，存在空格的case一定会被判断为错误，从而影响模型的训练效果。

我看这个mr似乎修复过一次关于空格的bug，
但是看现在的纠错代码，如果遇到带空格的case，那么则不会对其进行纠错。
如下代码所示，对原文本进行了spilt后，则会导致text中原始的空格消失，从而导致纠错后文本和纠错前文本长度不一致
不知道是有意而为之还是一个bug

            for id, (logit_tensor, sentence) in enumerate(zip(outputs.logits, batch)):
                decode_tokens_new = self.tokenizer.decode(
                    torch.argmax(logit_tensor, dim=-1), skip_special_tokens=True).split(' ')
                decode_tokens_new = decode_tokens_new[:len(sentence)]
                if len(decode_tokens_new) == len(sentence):
                    probs = torch.max(torch.softmax(logit_tensor, dim=-1), dim=-1)[0].cpu().numpy()
                    decode_str = ''
                    for i in range(len(sentence)):
                        if probs[i + 1] >= threshold:
                            decode_str += decode_tokens_new[i]
                        else:
                            decode_str += sentence[i]
                    corrected_text = decode_str
                else:
                    corrected_text = sentence
                corrected_sents.append(corrected_text)

#192

The text was updated successfully, but these errors were encountered:

shibing624 · 2024-02-28T09:55:05Z

预测时会过滤空格，空格会跳过不纠。

1120475708 · 2024-02-28T09:59:10Z

也就是说我的训练数据里面其实是可以存在带有空格的case是吗

感谢您的解答！

1120475708 added the question Further information is requested label Feb 28, 2024

shibing624 closed this as completed Mar 20, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于文本中存在空格问题 #476

关于文本中存在空格问题 #476

1120475708 commented Feb 28, 2024

shibing624 commented Feb 28, 2024 •

edited

Loading

1120475708 commented Feb 28, 2024

关于文本中存在空格问题 #476

关于文本中存在空格问题 #476

Comments

1120475708 commented Feb 28, 2024

shibing624 commented Feb 28, 2024 • edited Loading

1120475708 commented Feb 28, 2024

shibing624 commented Feb 28, 2024 •

edited

Loading