prepare-tokenizer

Prepare SentencePiece (T5, Llama2) and Byte level (GPT2, RoBERTa) BPE on Malaysian texts (Jawi, Melayu, Manglish, Mandarin, Tamil).

dataset used

how-to

SentencePiece

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('malaysia-ai/sentencepiece-tokenizer')
tokenizer.encode('husein comel')
tokenizer.encode('husein cute')
tokenizer.encode('حسين چوميل')
tokenizer.encode('侯赛因很可爱')

BPE

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('malaysia-ai/bpe-tokenizer')
tokenizer.encode('husein comel')
tokenizer.encode('husein cute')
tokenizer.encode('حسين چوميل')
tokenizer.encode('侯赛因很可爱')
tokenizer.encode('ஹுசைன் அழகாக இருக்கிறார்')

how-to train

Train SentencePiece,

python3 train-sentencepiece.py

When training SentencePiece,

Always partitioned long texts.

We use Standard_HB60-15rs to train.

Train BPE,

python3 train-bpe.py

We use Standard_HB60-15rs to train.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
README.md		README.md
merge_tokenizer.ipynb		merge_tokenizer.ipynb
train-bpe.py		train-bpe.py
train-sentencepiece.py		train-sentencepiece.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

merge_tokenizer.ipynb

merge_tokenizer.ipynb

train-bpe.py

train-bpe.py

train-sentencepiece.py

train-sentencepiece.py

Repository files navigation

prepare-tokenizer

dataset used

how-to

SentencePiece

BPE

how-to train

About

Releases

Packages

Languages

malaysia-ai/prepare-tokenizer

Folders and files

Latest commit

History

Repository files navigation

prepare-tokenizer

dataset used

how-to

SentencePiece

BPE

how-to train

About

Resources

Stars

Watchers

Forks

Languages