GitHub - ziliwang/gpt_tokenizer: cpp roberta tokenzier for deploy using

The GPT tokenizer only for deploy

The c++ version of gpt tokenizer base on https://github.com/huggingface/transformers.

Support:

tokenize
convert_token_to_id
padding_encode_single_with_special_tokens: encode a single string with padding mode

exmaple

Encoder tokenizer("vocab.json", "merge.txt");
std::vector<int64_t> input_ids;
std::vector<int64_t> mask_ids;
size_t max_length=128;
tokenizer.padding_encode_single_with_special_tokens("test string", max_length, &input_ids, &mask_ids);

more example please see the test.cpp

test

compiling the test.cpp and run test <vocab.json> <merge.txt>

bugs

bugs may occur when windows environment as the different implement of std::wstring

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
3rdparty		3rdparty
.gitignore		.gitignore
gpt_encoder.cpp		gpt_encoder.cpp
merges.txt		merges.txt
readme.md		readme.md
test.cpp		test.cpp
vocab.json		vocab.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

The GPT tokenizer only for deploy

exmaple

test

bugs

About

Releases

Packages

Languages

ziliwang/gpt_tokenizer

Folders and files

Latest commit

History

Repository files navigation

The GPT tokenizer only for deploy

exmaple

test

bugs

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages