what is the reason to be choosing new_p.score = 0? #867

Kowsher · 2023-11-13T01:20:37Z

Kowsher
Nov 13, 2023

from chinese_spm we get p.score as the original score of training. Instead of new_p.score = p.score, why new_p.score = 0?

Add Chinese tokens to LLaMA tokenizer

llama_spm_tokens_set=set(p.piece for p in llama_spm.pieces)
print(len(llama_spm_tokens_set))
print(f"Before:{len(llama_spm_tokens_set)}")
for p in chinese_spm.pieces:
piece = p.piece
if piece not in llama_spm_tokens_set:
new_p = sp_pb2_model.ModelProto().SentencePiece()
new_p.piece = piece
new_p.score = 0
llama_spm.pieces.append(new_p)
print(f"New model pieces: {len(llama_spm.pieces)}")

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

what is the reason to be choosing new_p.score = 0? #867

{{title}}

Replies: 0 comments

Select a reply

what is the reason to be choosing new_p.score = 0? #867

Kowsher Nov 13, 2023

Add Chinese tokens to LLaMA tokenizer

Replies: 0 comments

Kowsher
Nov 13, 2023