fix showing unknown token at gpt_tokenize #801

katsu560 · 2024-04-20T10:17:51Z

As for current implementation, gpt_tokenize() shows each byte of multi bytes character if unknown token is existed, like below

test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
main: number of tokens in prompt = 6
main: token[0] =   5619, 日本で
main: token[1] =   3300, 一番
main: token[2] =   1737, 高い
main: token[3] =  14218, 山は
main: token[4] =  37814, 何で
main: token[5] =  24250, すか

I fixed with stopping show each bytes as below.

test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token '？'
main: number of tokens in prompt = 6
main: token[0] =   5619, 日本で
main: token[1] =   3300, 一番
main: token[2] =   1737, 高い
main: token[3] =  14218, 山は
main: token[4] =  37814, 何で
main: token[5] =  24250, すか

please confirm this.

-- detail --
original:
$ ./240407up/gpt-neox.org --repeat-last-n 256 --repeat-penalty 1.2 -m models/cyberagent/ggml-calm-1b-q4_0.bin -s 7654321 -p "日本で一番高い山は何ですか？"
main: seed = 7654321
gpt_neox_model_load: loading model from 'models/cyberagent/ggml-calm-1b-q4_0.bin' - please wait ...
gpt_neox_model_load: n_vocab = 52096
gpt_neox_model_load: n_ctx = 2048
gpt_neox_model_load: n_embd = 2048
gpt_neox_model_load: n_head = 16
gpt_neox_model_load: n_layer = 24
gpt_neox_model_load: n_rot = 128
gpt_neox_model_load: par_res = 0
gpt_neox_model_load: ftype = 2002
gpt_neox_model_load: qntvr = 2
gpt_neox_model_load: ggml ctx size = 1917.12 MB
gpt_neox_model_load: memory_size = 384.00 MB, n_mem = 49152
gpt_neox_model_load: .................................... done
gpt_neox_model_load: model size = 764.92 MB / num tensors = 292
extract_tests_from_file : No test file found.
test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
gpt_tokenize: unknown token ' '
main: number of tokens in prompt = 6
main: token[0] = 5619, 日本で
main: token[1] = 3300, 一番
main: token[2] = 1737, 高い
main: token[3] = 14218, 山は
main: token[4] = 37814, 何で
main: token[5] = 24250, すか

日本で一番高い山は何ですか?」。そんな質問を何度か受けてきましたが、 ...

fixed:
$ ./240407up/gpt-neox.mod --repeat-last-n 256 --repeat-penalty 1.2 -m models/cyberagent/ggml-calm-1b-q4_0.bin -s 7654321 -p "日本で一番高い山は何ですか？"
main: seed = 7654321
gpt_neox_model_load: loading model from 'models/cyberagent/ggml-calm-1b-q4_0.bin' - please wait ...
gpt_neox_model_load: n_vocab = 52096
gpt_neox_model_load: n_ctx = 2048
gpt_neox_model_load: n_embd = 2048
gpt_neox_model_load: n_head = 16
gpt_neox_model_load: n_layer = 24
gpt_neox_model_load: n_rot = 128
gpt_neox_model_load: par_res = 0
gpt_neox_model_load: ftype = 2002
gpt_neox_model_load: qntvr = 2
gpt_neox_model_load: ggml ctx size = 1917.12 MB
gpt_neox_model_load: memory_size = 384.00 MB, n_mem = 49152
gpt_neox_model_load: .................................... done
gpt_neox_model_load: model size = 764.92 MB / num tensors = 292
extract_tests_from_file : No test file found.
test_gpt_tokenizer : 0 tests failed out of 0 tests.
gpt_tokenize: unknown token '？'
main: number of tokens in prompt = 6
main: token[0] = 5619, 日本で
main: token[1] = 3300, 一番
main: token[2] = 1737, 高い
main: token[3] = 14218, 山は
main: token[4] = 37814, 何で
main: token[5] = 24250, すか

日本で一番高い山は何ですか?」。そんな質問を何度か受けてきましたが、 ...

…to fixunknowntoken

ggerganov

Can be simplified - see comments

ggerganov · 2024-06-16T09:35:42Z

examples/common.cpp

+                    auto unk = word.substr(i, 1).data();
+                    unknown.push_back(*unk);


Isn't this just:

Suggested change

auto unk = word.substr(i, 1).data();

unknown.push_back(*unk);

unknown.push_back(word[i]);

ggerganov · 2024-06-16T09:36:02Z

examples/common.cpp

+            std::string unkstr(unknown.begin(), unknown.end());
+            fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());


Suggested change

std::string unkstr(unknown.begin(), unknown.end());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unknown.data());

ggerganov · 2024-06-16T09:36:23Z

examples/common.cpp

+                        std::string unkstr(unknown.begin(), unknown.end());
+                        fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());


Suggested change

std::string unkstr(unknown.begin(), unknown.end());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());

fprintf(stderr, "%s: unknown token '%s'\n", __func__, unknown.data());

ggerganov · 2024-06-16T09:36:40Z

examples/common.cpp

+    // unknown token
+    std::vector<char> unknown;
+    unknown.clear();


Suggested change

// unknown token

std::vector<char> unknown;

unknown.clear();

// unknown token

std::vector<char> unknown;

katsu560 and others added 8 commits April 20, 2024 18:52

fix unknown token at gpt_tokenize

da02d76

Merge branch 'ggerganov:master' into fixunknowntoken

5ad2866

delete same debug code

93f1733

commit again

816578c

delete same debug code

3a8a694

delete some debug code

24f8912

Merge branch 'fixunknowntoken' of https://github.com/katsu560/ggml in…

14169ea

…to fixunknowntoken

Merge branch 'ggerganov:master' into fixunknowntoken

d6dd3b4

ggerganov approved these changes Jun 16, 2024

View reviewed changes

katsu560 added 3 commits June 17, 2024 22:58

Merge branch 'ggerganov:master' into fixunknowntoken

c2ccc65

Merge branch 'ggerganov:master' into fixunknowntoken

f33c3e8

Merge branch 'ggerganov:master' into fixunknowntoken

cfa891d

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

fix showing unknown token at gpt_tokenize #801

fix showing unknown token at gpt_tokenize #801

Uh oh!

katsu560 commented Apr 20, 2024

Uh oh!

ggerganov left a comment

Uh oh!

ggerganov Jun 16, 2024

Uh oh!

ggerganov Jun 16, 2024

Uh oh!

ggerganov Jun 16, 2024

Uh oh!

ggerganov Jun 16, 2024

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

		auto unk = word.substr(i, 1).data();
		unknown.push_back(*unk);

	auto unk = word.substr(i, 1).data();
	unknown.push_back(*unk);
	unknown.push_back(word[i]);

		std::string unkstr(unknown.begin(), unknown.end());
		fprintf(stderr, "%s: unknown token '%s'\n", __func__, unkstr.data());

fix showing unknown token at gpt_tokenize #801

Are you sure you want to change the base?

fix showing unknown token at gpt_tokenize #801

Uh oh!

Conversation

katsu560 commented Apr 20, 2024

Uh oh!

ggerganov left a comment

Choose a reason for hiding this comment

Uh oh!

ggerganov Jun 16, 2024

Choose a reason for hiding this comment

Uh oh!

ggerganov Jun 16, 2024

Choose a reason for hiding this comment

Uh oh!

ggerganov Jun 16, 2024

Choose a reason for hiding this comment

Uh oh!

ggerganov Jun 16, 2024

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants