GitHub - monatis/turkish-tokenizers: Subword and BPE Tokenizers for Turkish language

turkish-tokenizers

This repo contains tokenizer models for Turkish language trained with Sentence Piece by Google. Available vocabulary sizes are 10k, 16k, 20k and 32k. The input text was cleaned and deduplicated Oscar corpus in Turkish. I will publish BPE tokenizers trained with the tokenizers package quite soon.

TODO

Rewrite a better spm_train.py configureable with command line arguments.
Publish BPE tokenizers and bpe_train.py.
Write a better readme.md to explain the purpose, motivation and how to use it.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
sentence_piece		sentence_piece
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

turkish-tokenizers

TODO

About

Releases

Sponsor this project

Packages

Languages

monatis/turkish-tokenizers

Folders and files

Latest commit

History

Repository files navigation

turkish-tokenizers

TODO

About

Resources

Stars

Watchers

Forks

Releases

Sponsor this project

Packages 0

Languages

Packages