In [4]:
# Toy example
from bpe import Tokenizer
tokenizer = Tokenizer()
text = "aaabdaaabac"
tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 merges
print(tokenizer.encode(text))
tokens = tokenizer.encode(text)
# [258, 100, 258, 97, 99]
word = [tokenizer.decode([i]) for i in tokens]
print(word)
print(text == tokenizer.decode(tokenizer.encode(text)))
# aaabdaaabac
# tokenizer.save("toy")
# writes two files: toy.model (for loading) and toy.vocab (for viewing)

[258, 100, 258, 97, 99]
['aaab', 'd', 'aaab', 'a', 'c']
True


In [None]:
# 很慢，不要运行，结果在train.txt中
# 验证Tokenizer在encoder再decode之后与原文一致
from bpe import Tokenizer
tokenizer = Tokenizer()
tokenizer.load("base_tokenizer.model")
with open('./base.txt', 'r', encoding='utf-8') as file:
    text = file.read()
print(f"encode and decode match: {text == tokenizer.decode(tokenizer.encode(text))}")

In [None]:
# 使用gpt2 tokenizer encode 示例句子
from transformers import AutoTokenizer
import numpy as np
# 加载 GPT-2 tokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")

# 测试 gpt2 tokenizer
text1 = "君子曰：學不可以已。青、取之於藍而青於藍；冰、水為之而寒於水。木直中繩，輮以為輪，其曲中規，雖有槁暴，不復挺者，輮使之然也。故木受繩則直，金就礪則利，君子博學而日參省乎己，則智明而行無過矣。"
encoded_input = tokenizer(text1)['input_ids']
print("first 10 tokens of text1", encoded_input[:10])
print("length:", len(encoded_input))
tokens = [tokenizer.decode([i]) for i in encoded_input]
print(f"tokens: {tokens}")

text2 ="子曰：學而時習之，不亦悦乎？馬融曰：子者，男子之通稱，謂孔子也。王肅曰：時者，學者以時誦習之。誦習以時，學無廢業，所以爲悦懌也。有朋自逺方来，不亦樂乎？苞氏曰：同門曰朋也。人不知而不愠，不亦君子乎！愠，怒也。凡人有所不知，君子不愠也。"
encoded_input = tokenizer(text2)['input_ids']
print("first 10 tokens of text2", encoded_input[:10])
print("length:", len(encoded_input))
tokens = [tokenizer.decode([i]) for i in encoded_input]
print(f"tokens: {tokens}")
# 出现特殊字符的原因是，一些byte pair由于在gpt2的繁体古文语料太少，而没有充分的合并成有意义的词语（合并为对应为词语unicode编码）
# 而在大模型训练和推理的时候，我们所说的token指的就是这些合并后的字节在整个词表中的索引
# 

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


first 10 tokens of text1 [28938, 249, 36310, 162, 249, 108, 171, 120, 248, 27764]
length: 201
tokens: ['�', '�', '子', '�', '�', '�', '�', '�', '�', '�', '�', '不', '�', '�', '�', '�', '�', '�', '。', '�', '�', '�', '、', '�', '�', '之', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '、', '�', '�', '�', '�', '�', '之', '�', '�', '�', '�', '�', '�', '�', '�', '。', '�', '�', '�', '�', '中', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '��', '�', '�', '中', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '不', '�', '�', '�', '�', '�', '者', '�', '�', '�', '�', '�', '�', '使', '之', '�', '�', '�', '�', '。', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '子', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '�', '

In [None]:
# 使用gpt2 tokenizer encode 示例句子
from transformers import AutoTokenizer
import numpy as np
# 加载 GPT-2 tokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
print(tokenizer.decode([28938, 249]))
print(tokenizer.decode([36310]))
print(tokenizer.decode([162, 249, 108]))
print(tokenizer.decode([171, 120, 248]))
# 以下可以更清晰的看出tokenizer给出的编码，实际上是多个token对应中文里一个字（甚至冒号）的情况
# 这样的编码明显是不适宜于理解中文文本的，其原因在于gpt2的训练语料不够丰富

君
子
曰
：


In [None]:
# 使用我训练的 tokenizer encode 示例句子
from bpe import Tokenizer
tokenizer = Tokenizer()
tokenizer.load("base_tokenizer.model")

# 测试 base tokenizer
text1 = "君子曰：學不可以已。青、取之於藍而青於藍；冰、水為之而寒於水。木直中繩，輮以為輪，其曲中規，雖有槁暴，不復挺者，輮使之然也。故木受繩則直，金就礪則利，君子博學而日參省乎己，則智明而行無過矣。"
encoded_input = tokenizer.encode(text1)
print("first 10 tokens of text1", encoded_input[:10])
print("length:", len(encoded_input))
tokens = [tokenizer.decode([i]) for i in encoded_input]
print(f"tokens: {tokens}")

text2 ="子曰：學而時習之，不亦悦乎？馬融曰：子者，男子之通稱，謂孔子也。王肅曰：時者，學者以時誦習之。誦習以時，學無廢業，所以爲悦懌也。有朋自逺方来，不亦樂乎？苞氏曰：同門曰朋也。人不知而不愠，不亦君子乎！愠，怒也。凡人有所不知，君子不愠也。"
encoded_input = tokenizer.encode(text2)
print("first 10 tokens of text2", encoded_input[:10])
print("length:", len(encoded_input))
tokens = [tokenizer.decode([i]) for i in encoded_input]
print(f"tokens: {tokens}")
# 可以看到针对base文件夹的中文繁体古文文本训练的tokenizer，能更好的捕捉语义信息
# “君子”、“曰：”被合并成一个token

first 10 tokens of text1 [1007, 326, 428, 621, 274, 497, 259, 363, 146, 358]
length: 108
tokens: ['君子', '曰：', '學', '不可', '以', '已', '。', '�', '�', '、', '取', '之', '於', '�', '�', '而', '�', '�', '於', '�', '�', '；', '�', '�', '、', '水', '為', '之', '而', '�', '�', '於', '水', '。', '木', '直', '中', '�', '�', '，�', '�', '�', '以為', '�', '�', '，其', '�', '�', '中', '�', '�', '，雖', '有', '�', '�', '�', '�', '�', '，不', '復', '�', '�', '者', '，�', '�', '�', '使', '之', '然', '也。', '故', '木', '受', '�', '�', '則', '直', '，�', '�', '�', '�', '�', '�', '�', '則', '利', '，�', '�', '子', '�', '�', '學', '而', '日', '�', '�', '�', '�', '乎', '己', '，則', '智', '明', '而', '行', '無', '過', '矣。']
first 10 tokens of text2 [305, 326, 428, 275, 411, 678, 146, 262, 392, 375]
length: 116
tokens: ['子', '曰：', '學', '而', '時', '�', '�', '之', '，不', '亦', '�', '�', '乎？', '馬', '�', '�', '�', '曰：', '子', '者，', '�', '�', '子之', '通', '稱', '，謂', '孔', '子', '也。', '王', '�', '�', '曰：', '時', '者', '，�', '�', '者', '以', '時', '�', '�', '�', '�', '之。', '�', '�', '�', 