is tokenizer max length correct? #182

ruiguo-bio · 2024-04-26T15:35:01Z

If I use distilbert-base-uncased model
trans_version 4.40
It will have max_length 1000000000000000019884624838656
in the utils.py line 216

DistilBertTokenizer(name_or_path='distilbert-base-uncased', vocab_size=30522, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True), added_tokens_decoder={
0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

hemengjita · 2024-05-14T12:40:40Z

same question!! hhh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

is tokenizer max length correct? #182

is tokenizer max length correct? #182

ruiguo-bio commented Apr 26, 2024

hemengjita commented May 14, 2024

is tokenizer max length correct? #182

is tokenizer max length correct? #182

Comments

ruiguo-bio commented Apr 26, 2024

hemengjita commented May 14, 2024