Add tokenizer for 4 languages trained on wikidump train data #2

Danqi7 · 2021-04-13T00:53:26Z

create tokenizer with vocab size 40K for all 4 languages. (ar, fr, hi all trained on wikidump, en trained on wikitext-103)
create robert8 config file with the trained tokenizer with vocab_size set to 40K.

Danqi7 added 6 commits April 12, 2021 02:02

hindi script to run inverted modification

066e605

change model config

9a1fcdc

tokenizers trained on wikidump traindata

c75092b

tokenizer with vocab size 40K instead of 50K

b1fe505

create roberta8 configs with vocab_size 40K

878b12d

remove unnecessary script file

c2522c2

ameet-1997 closed this Oct 27, 2021

ameet-1997 deleted the danqi_tokenizer branch October 27, 2021 21:38

Provide feedback