[FIX] In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used. #1136

SeongBeomLEE · 2022-12-25T11:46:54Z

Same Error #1120

Thanks.

before

char_level_bep.py

if vocab is not None and merges is not None:
    tokenizer = Tokenizer(
        BPE(
            vocab,
            merges,
            dropout=dropout,
            unk_token=str(unk_token),
            end_of_word_suffix=suffix,
        )
    )
else:
    tokenizer = Tokenizer(BPE())

main.py

from tokenizers import CharBPETokenizer

tokenizer = CharBPETokenizer(
    unk_token = "[UNK]",
    suffix = "</w>",
)

tokenizer.train(
    files = './vocab.txt',
    vocab_size = 1000,
    min_frequency = 1,
    special_tokens = ["[PAD]", "[BOS]", "[EOS]", "[UNK]", "[SEP]", "[CLS]", "[MASK]"],
)

line = "나는 😀 😃 😄 축구를 😀 😃 😄 좋아한다."
pieces = tokenizer.encode(line)
print("CharBPETokenizer", pieces.tokens, tokenizer.decode(pieces.ids))

output:

CharBPETokenizer ['나는</w>', '축구를</w>', '좋아한다</w>', '.</w>'] 나는 축구를 좋아한다 .

after

char_level_bep.py

if vocab is not None and merges is not None:
    tokenizer = Tokenizer(
        BPE(
            vocab,
            merges,
            dropout=dropout,
            unk_token=str(unk_token),
            end_of_word_suffix=suffix,
        )
    )
else:
    tokenizer = Tokenizer(BPE(unk_token=str(unk_token),))

main.py

from tokenizers import CharBPETokenizer

tokenizer = CharBPETokenizer(
    unk_token = "[UNK]",
    suffix = "</w>",
)

tokenizer.train(
    files = './vocab.txt',
    vocab_size = 1000,
    min_frequency = 1,
    special_tokens = ["[PAD]", "[BOS]", "[EOS]", "[UNK]", "[SEP]", "[CLS]", "[MASK]"],
)

line = "나는 😀 😃 😄 축구를 😀 😃 😄 좋아한다."
pieces = tokenizer.encode(line)
print("CharBPETokenizer", pieces.tokens, tokenizer.decode(pieces.ids))

output:

CharBPETokenizer ['나는</w>', '[UNK]', '[UNK]', '[UNK]', '축구를</w>', '[UNK]', '[UNK]', '[UNK]', '좋아한다</w>', '.</w>'] 나는 축구를 좋아한다 .

In SentencePieceBPETokenizer, when Vocab or merges is None, unk_token cannot be used.

…e_bpe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used.

HuggingFaceDocBuilderDev · 2022-12-25T11:56:47Z

The documentation is not available anymore as the PR was closed or merged.

bindings/python/py_src/tokenizers/implementations/char_level_bpe.py

…pe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

bindings/python/py_src/tokenizers/implementations/char_level_bpe.py

…pe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

Narsil

LGTM. Thank you for this

…nnot be used. (#1136) * [fix] Use unk_token In SentencePieceBPETokenizer, when Vocab or merges is None, unk_token cannot be used. * [fix] If unk_token is None, this case is also considered. * Update bindings/python/py_src/tokenizers/implementations/sentencepiece_bpe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com> * [FIX] In CharBPETokenizer, Use unk_token. In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used. * Update bindings/python/py_src/tokenizers/implementations/char_level_bpe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com> * Update bindings/python/py_src/tokenizers/implementations/char_level_bpe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com> Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

SeongBeomLEE and others added 5 commits December 12, 2022 18:41

[fix] Use unk_token

f04f093

In SentencePieceBPETokenizer, when Vocab or merges is None, unk_token cannot be used.

[fix] If unk_token is None, this case is also considered.

a36b3f4

Update bindings/python/py_src/tokenizers/implementations/sentencepiec…

2fc5b7a

…e_bpe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

Merge branch 'huggingface:main' into main

d0dd1f7

[FIX] In CharBPETokenizer, Use unk_token.

d37b6f6

In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used.

Narsil reviewed Dec 26, 2022

View reviewed changes

bindings/python/py_src/tokenizers/implementations/char_level_bpe.py Outdated Show resolved Hide resolved

Update bindings/python/py_src/tokenizers/implementations/char_level_b…

34c923b

…pe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

Narsil reviewed Dec 27, 2022

View reviewed changes

bindings/python/py_src/tokenizers/implementations/char_level_bpe.py Outdated Show resolved Hide resolved

Update bindings/python/py_src/tokenizers/implementations/char_level_b…

8d5647b

…pe.py Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>

Narsil approved these changes Dec 27, 2022

View reviewed changes

Narsil merged commit 9b155b5 into huggingface:main Dec 27, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[FIX] In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used. #1136

[FIX] In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used. #1136

SeongBeomLEE commented Dec 25, 2022

HuggingFaceDocBuilderDev commented Dec 25, 2022 •

edited

Narsil left a comment

[FIX] In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used. #1136

[FIX] In CharBPETokenizer, when Vocab or merges is None, unk_token cannot be used. #1136

Conversation

SeongBeomLEE commented Dec 25, 2022

before

after

HuggingFaceDocBuilderDev commented Dec 25, 2022 • edited

Narsil left a comment

Choose a reason for hiding this comment

HuggingFaceDocBuilderDev commented Dec 25, 2022 •

edited