## 从头训练tokenizer的示例

该notebook提供一个完整的使用[sentencepiece](https://github.com/google/sentencepiece)工具，训练一个BPE算法分词的示例。

SentencePiece是一种基于未经分词的文本进行训练的通用分词工具，由Google开发。它可以用于多种语言，并支持多种分词算法，如BPE（Byte Pair Encoding）和Unigram Language Model。SentencePiece的主要特点和功能如下：

1. 通用性：SentencePiece可以适用于多种语言，包括英语、中文、日语、韩语等。这使得它成为处理多语言文本和跨语言任务的理想选择。

1. 未经分词的训练：与传统的分词工具不同，SentencePiece的训练过程不需要经过预分词的文本作为输入。它可以直接训练原始的未经分词的文本，从而更好地捕捉语言的特征和模式。

1. 分词算法支持：SentencePiece支持多种分词算法，其中最常用的是BPE和Unigram Language Model。BPE算法逐步合并出现频率最高的字符对，而Unigram Language Model则通过学习每个子词的概率分布来进行分词。

1. 灵活的训练选项：SentencePiece提供了丰富的训练选项，可以控制词汇表大小、分词算法参数等。这使得用户可以根据具体任务和需求进行定制化的分词训练。

1. 易用的API：SentencePiece提供了多种编程语言的API接口，包括Python、C++、Java等。这使得开发人员可以方便地在各种NLP框架和应用中使用SentencePiece。

1. 预训练模型和共享模型：SentencePiece提供了一些预训练的模型，可以用于快速开始分词任务。此外，用户还可以共享和下载其他用户训练好的模型，节省了训练时间和资源。

使用SentencePiece进行分词的一般流程如下：

1. 准备训练数据：收集并准备用于训练的原始文本数据，可以是未经分词的文本。

1. 训练模型：使用SentencePiece提供的API，将原始文本数据作为输入进行模型训练。可以选择合适的分词算法和训练参数。

1. 应用模型：将训练好的模型应用于实际的分词任务。可以将模型加载到相关的NLP应用中，或使用SentencePiece提供的API进行分词操作。

### 安装库和数据准备

我们在这个示例中使用一个小的训练语料(红楼梦.txt)

In [1]:
#仔细检查下自己的运行目录，相对路径需要注意下。
!pwd

/home/silver/workbench/llama2.c/notebooks


In [2]:

# ! pip install sentencepiece

!wget https://github.com/shjwudp/shu/raw/master/books/红楼梦.txt  -P ../data

--2023-10-13 12:27:51--  https://github.com/shjwudp/shu/raw/master/books/%E7%BA%A2%E6%A5%BC%E6%A2%A6.txt
Resolving github.com (github.com)... 20.205.243.166
Connecting to github.com (github.com)|20.205.243.166|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/shjwudp/shu/master/books/%E7%BA%A2%E6%A5%BC%E6%A2%A6.txt [following]
--2023-10-13 12:27:52--  https://raw.githubusercontent.com/shjwudp/shu/master/books/%E7%BA%A2%E6%A5%BC%E6%A2%A6.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2622979 (2.5M) [text/plain]
Saving to: ‘../data/红楼梦.txt’


2023-10-13 12:27:53 (3.94 MB/s) - ‘../data/红楼梦.txt’ saved [2622979/2622979]



### 端到端示例

In [11]:
import sentencepiece as spm

# 用红楼梦.txt训练一个sentencepiece模型，模型前缀model_prefix=meng, 会生成meng.model, meng.vocab.
# meng.vocab仅仅是一个参考，在分词中并未使用。
spm.SentencePieceTrainer.train('--input=../data/红楼梦.txt --model_prefix=meng --vocab_size=5000')

# 实例化一个分词实例，然后加载训练好的meng.model
sp = spm.SentencePieceProcessor()
sp.load('meng.model')

# encode: text => id
print(sp.encode_as_pieces('刘姥姥初入大观园'))
print(sp.encode_as_ids('刘姥姥初入大观园'))

# decode: id => text
print(sp.decode_pieces(['▁', '刘姥姥', '初', '入', '大观园']))
print(sp.decode_ids([29, 423, 801, 282, 1919]))

['▁', '刘姥姥', '初', '入', '大观园']
[29, 423, 801, 282, 1919]
刘姥姥初入大观园
刘姥姥初入大观园


sentencepiece_trainer.cc(177) LOG(INFO) Running command: --input=../data/红楼梦.txt --model_prefix=meng --vocab_size=5000
sentencepiece_trainer.cc(77) LOG(INFO) Starts training with : 
trainer_spec {
  input: ../data/红楼梦.txt
  input_format: 
  model_prefix: meng
  model_type: UNIGRAM
  vocab_size: 5000
  self_test_sample_size: 0
  character_coverage: 0.9995
  input_sentence_size: 0
  shuffle_input_sentence: 1
  seed_sentencepiece_size: 1000000
  shrinking_factor: 0.75
  max_sentence_length: 4192
  num_threads: 16
  num_sub_iterations: 2
  max_sentencepiece_length: 16
  split_by_unicode_script: 1
  split_by_number: 1
  split_by_whitespace: 1
  split_digits: 0
  pretokenization_delimiter: 
  treat_whitespace_as_suffix: 0
  allow_whitespace_only_pieces: 0
  required_chars: 
  byte_fallback: 0
  vocabulary_output_piece_score: 1
  train_extremely_large_corpus: 0
  hard_vocab_limit: 1
  use_all_vocab: 0
  unk_id: 0
  bos_id: 1
  eos_id: 2
  pad_id: -1
  unk_piece: <unk>
  bos_piece: <s>
  eos_p

In [4]:
# 返回 vocab size
print(f"词表大小={sp.get_piece_size()}")

print(sp.encode_as_ids("宝玉"))
# id <=> piece conversion
print(sp.id_to_piece(716))
print(sp.piece_to_id('宝玉'))

# id=0的位置留着给UNK token, 可对其进行修改
print(sp.piece_to_id('__MUST_BE_UNKNOWN__'))

# 控制符 unk, <s>, </s> 默认id对应（0,1,2）
for id in range(3):
      print(sp.id_to_piece(id), sp.is_control(id))

词表大小=5000
[716]
▁宝玉
25
0
<unk> False
<s> True
</s> True


In [14]:
# 加载一个社区训练好的tokenizer对比下。

from sentencepiece import SentencePieceProcessor
model_path = "llama2enzh/tokenizer.model"
sp_model = SentencePieceProcessor(model_file=model_path)
print(f"Loaded SentencePiece model from {model_path}")

# BOS / EOS token IDs
n_words: int = sp_model.vocab_size()
bos_id: int = sp_model.bos_id()
eos_id: int = sp_model.eos_id()
pad_id: int = sp_model.pad_id()
unk_id: int = sp_model.unk_id()
print(f"#words: {n_words} - BOS ID: {bos_id} - EOS ID: {eos_id} - PAD ID: {pad_id} - UNK ID : {unk_id}")


model_path = "meng.model"
sp_model = SentencePieceProcessor(model_file=model_path)
print(f"Loaded SentencePiece model from {model_path}")

# BOS / EOS token IDs
n_words: int = sp_model.vocab_size()
bos_id: int = sp_model.bos_id()
eos_id: int = sp_model.eos_id()
pad_id: int = sp_model.pad_id()
print(f"#words: {n_words} - BOS ID: {bos_id} - EOS ID: {eos_id} - PAD ID: {pad_id} - UNK ID : {unk_id}")


Loaded SentencePiece model from llama2enzh/tokenizer.model
#words: 55296 - BOS ID: 1 - EOS ID: 2 - PAD ID: -1 - UNK ID : 0
Loaded SentencePiece model from meng.model
#words: 5000 - BOS ID: 1 - EOS ID: 2 - PAD ID: -1 - UNK ID : 0


normalizer.cc(51) LOG(INFO) precompiled_charsmap is empty. use identity normalization.


### 修改这些控制符的位置


默认情况, UNK/BOS/EOS/PAD 这些token的是按照如下定义的:

|token|UNK|BOS|EOS|PAD|
---|---
|surface|&lt;unk&gt;|&lt;s&gt;|&lt;/s&gt;|&lt;pad&gt;|
|id|0|1|2|undefined (-1)|


我们可以通过这些参数对齐修改 **--{unk|bos|eos|pad}_id** and **--{unk|bos|eos|pad}_piece** flags.

In [19]:
spm.SentencePieceTrainer.train('--input=../data/红楼梦.txt --model_prefix=meng --vocab_size=5000 --pad_id=0 --unk_id=1 --bos_id=2 --eos_id=3 --pad_piece=[PAD] --unk_piece=[UNK] --bos_piece=[BOS] --eos_piece=[EOS]')
sp = spm.SentencePieceProcessor()
sp.load('meng.model')

for id in range(4):
    print(sp.id_to_piece(id), sp.is_control(id))

n_words: int = sp.vocab_size()
bos_id: int = sp.bos_id()
eos_id: int = sp.eos_id()
pad_id: int = sp.pad_id()
print(f"#words: {n_words} - BOS ID: {bos_id} - EOS ID: {eos_id} - PAD ID: {pad_id} - UNK ID : {unk_id}")

[PAD] True
[UNK] False
[BOS] True
[EOS] True
#words: 5000 - BOS ID: 2 - EOS ID: 3 - PAD ID: 0 - UNK ID : 0


sentencepiece_trainer.cc(177) LOG(INFO) Running command: --input=../data/红楼梦.txt --model_prefix=meng --vocab_size=5000 --pad_id=0 --unk_id=1 --bos_id=2 --eos_id=3 --pad_piece=[PAD] --unk_piece=[UNK] --bos_piece=[BOS] --eos_piece=[EOS]
sentencepiece_trainer.cc(77) LOG(INFO) Starts training with : 
trainer_spec {
  input: ../data/红楼梦.txt
  input_format: 
  model_prefix: meng
  model_type: UNIGRAM
  vocab_size: 5000
  self_test_sample_size: 0
  character_coverage: 0.9995
  input_sentence_size: 0
  shuffle_input_sentence: 1
  seed_sentencepiece_size: 1000000
  shrinking_factor: 0.75
  max_sentence_length: 4192
  num_threads: 16
  num_sub_iterations: 2
  max_sentencepiece_length: 16
  split_by_unicode_script: 1
  split_by_number: 1
  split_by_whitespace: 1
  split_digits: 0
  treat_whitespace_as_suffix: 0
  allow_whitespace_only_pieces: 0
  required_chars: 
  byte_fallback: 0
  vocabulary_output_piece_score: 1
  train_extremely_large_corpus: 0
  hard_vocab_limit: 1
  use_all_vocab: 0
  unk_

### BPE (Byte pair encoding) model

可通过 -model_type=bpe 指定model类型

In [5]:
import sentencepiece as spm
spm.SentencePieceTrainer.train('--input=../../data/红楼梦.txt --model_prefix=meng --vocab_size=10000 --model_type=bpe')
sp_bpe = spm.SentencePieceProcessor()
sp_bpe.load('meng.model')

print('*** BPE ***')
print(sp_bpe.encode_as_pieces('满纸荒唐言，一把辛酸泪'))
print(sp_bpe.nbest_encode_as_pieces('满纸荒唐言', 5))  # returns an empty list.

# encode: text => id
print(sp_bpe.encode_as_pieces('满纸荒唐言，一把辛酸泪！都云作者痴，谁解其中味？'))
print(sp_bpe.encode_as_ids('满纸荒唐言，一把辛酸泪！都云作者痴，谁解其中味？'))

# decode: id => text
print(sp_bpe.decode_pieces(['满', '纸', '荒', '唐', '言', ',', '一把', '辛', '酸', '泪']))
print(sp_bpe.decode_ids([6060, 6407, 6679, 7346, 7398, 6260, 6014, 983, 7319, 7195, 6353]))

*** BPE ***
['▁', '满', '纸', '荒', '唐', '言', ',', '一把', '辛', '酸', '泪']
[]
['▁', '满', '纸', '荒', '唐', '言', ',', '一把', '辛', '酸', '泪', '!', '都', '云', '作', '者', '痴', ',', '谁', '解', '其中', '味', '?']
[6060, 6407, 6679, 7346, 7398, 6260, 6014, 984, 7319, 7195, 6353, 6071, 6073, 6222, 6146, 6319, 6793, 6014, 6185, 6328, 1837, 6853, 6051]
满纸荒唐言,一把辛酸泪
满纸荒唐言,凤姐儿笑道辛酸泪


sentencepiece_trainer.cc(177) LOG(INFO) Running command: --input=../../data/红楼梦.txt --model_prefix=meng --vocab_size=10000 --model_type=bpe
sentencepiece_trainer.cc(77) LOG(INFO) Starts training with : 
trainer_spec {
  input: ../../data/红楼梦.txt
  input_format: 
  model_prefix: meng
  model_type: BPE
  vocab_size: 10000
  self_test_sample_size: 0
  character_coverage: 0.9995
  input_sentence_size: 0
  shuffle_input_sentence: 1
  seed_sentencepiece_size: 1000000
  shrinking_factor: 0.75
  max_sentence_length: 4192
  num_threads: 16
  num_sub_iterations: 2
  max_sentencepiece_length: 16
  split_by_unicode_script: 1
  split_by_number: 1
  split_by_whitespace: 1
  split_digits: 0
  pretokenization_delimiter: 
  treat_whitespace_as_suffix: 0
  allow_whitespace_only_pieces: 0
  required_chars: 
  byte_fallback: 0
  vocabulary_output_piece_score: 1
  train_extremely_large_corpus: 0
  hard_vocab_limit: 1
  use_all_vocab: 0
  unk_id: 0
  bos_id: 1
  eos_id: 2
  pad_id: -1
  unk_piece: <unk>
  b