Fix transformers 4.41.0 prompt may differ after encode decode #1617

AllentDan · 2024-05-20T07:37:54Z

The following script failed with the latest transformers. The output differs from the input after encode and decode functions.

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(
    'WizardLM/WizardLM-70B-V1.0', trust_remote_code=True)
prompt = ' '
encoded = tokenizer.encode(prompt)
decoded = tokenizer.decode(encoded)  # ' ' was decoded to '<s> ' actually
assert decoded == prompt

lvhan028 · 2024-05-20T08:51:05Z

tests/test_lmdeploy/test_tokenizer.py

@@ -23,6 +23,7 @@ def test_tokenizer(model_path, input, interval, skip_special_tokens):
    tokenizer = HuggingFaceTokenizer(model_path)
    encoded = tokenizer.encode(input, False, add_special_tokens=False)
    output = ''
+    input = tokenizer.decode(encoded, skip_special_tokens=skip_special_tokens)


这种追改兼容了各transformers的版本吗？

只是改了 UT，增量解码我理解只要结果等于普通解码结果就OK。至于普通解码结果是不是一开始的 prompt，这可能是 transformers 关心的

tokenizer.encode的部分需要把 add_special_token=False改成 add_special_token=add_special_token吗？

Fix transformers 4.41.0 prompt may differ after encode decode

f9bd4c4

lvhan028 reviewed May 20, 2024

View reviewed changes

AllentDan mentioned this pull request May 21, 2024

Check base64 image validation #1615

Open

refine UT

d496db8

lvhan028 approved these changes May 21, 2024

View reviewed changes

lvhan028 merged commit 0a27c96 into InternLM:main May 21, 2024
4 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fix transformers 4.41.0 prompt may differ after encode decode #1617

Fix transformers 4.41.0 prompt may differ after encode decode #1617

AllentDan commented May 20, 2024

lvhan028 May 20, 2024

AllentDan May 21, 2024

lvhan028 May 21, 2024

Fix transformers 4.41.0 prompt may differ after encode decode #1617

Fix transformers 4.41.0 prompt may differ after encode decode #1617

Conversation

AllentDan commented May 20, 2024

lvhan028 May 20, 2024

Choose a reason for hiding this comment

AllentDan May 21, 2024

Choose a reason for hiding this comment

lvhan028 May 21, 2024

Choose a reason for hiding this comment