### (1)Tokenizer简介
- 数据处理
    - Step1分词：使用分词器对文本数据进行分词（字、字词）
    - Step2构建词典：根据数据集分词的结果，构建词典映射（这一步并不绝对，如果采用预训练词向量，词典映射要根据词向量文件进行处理）；
    - Step3数据转换：根据构建好的词典，将分词处理后的数据做映射，将文本序列转换为数字序列
    - Step4数据填充与截断：在以batch输入到模型的方式中，需要对过短的数据进行填充，过长的数据进行截断，保证数据长度符合模型能接受的范围，同时batch内的数据维度大小一致。

In [2]:
from transformers import AutoTokenizer

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
sen='弱小的我也有大梦想'

### (2)Tokenizer基本使用方法
- 加载保存（from_pretrained/save_pretrained）
- 句子分词（tokenize）
- 查看词典（vocab）
- 索引转换（convert_tokens_to_ids/convert_ids_to_tokens）
- 填充截断 （padding/truncation）
- 其他输入（attention_mask/token_type_ids）

#### Step1加载与保存

In [4]:
# 从Huggingface加载，输入模型名称，即可加载对于的分词器
tokenizer=AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-dianping-chinese')
tokenizer

BertTokenizerFast(name_or_path='uer/roberta-base-finetuned-dianping-chinese', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [5]:
# tokenizer保存到本地
tokenizer.save_pretrained('./roberta_tokenizer')

('./roberta_tokenizer\\tokenizer_config.json',
 './roberta_tokenizer\\special_tokens_map.json',
 './roberta_tokenizer\\vocab.txt',
 './roberta_tokenizer\\added_tokens.json',
 './roberta_tokenizer\\tokenizer.json')

In [6]:
# 从本地加载到tokenizer
tokenizer=AutoTokenizer.from_pretrained('./roberta_tokenizer/')
tokenizer

BertTokenizerFast(name_or_path='./roberta_tokenizer/', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

#### Step2 句子分词

In [7]:
tokens=tokenizer.tokenize(sen)
tokens

['弱', '小', '的', '我', '也', '有', '大', '梦', '想']

#### Step3 查看词典

In [8]:
tokenizer.vocab

{'##鬢': 20839,
 '騁': 7696,
 '##list': 10142,
 '食': 7608,
 '##程': 17980,
 '##畦': 17584,
 '##粟': 18169,
 '##奖': 15003,
 '##麩': 20989,
 '##vr': 10131,
 '##噸': 14754,
 '##餒': 20681,
 '慢': 2714,
 '##冤': 14153,
 'watch': 9114,
 '孪': 2112,
 '２': 8030,
 'и': 241,
 '｢': 8082,
 '組': 5175,
 '悩': 2645,
 '憲': 2740,
 '棵': 3484,
 '碘': 4814,
 '群': 5408,
 'rx': 12342,
 '074': 12780,
 '##閉': 20330,
 '盲': 4683,
 '##という': 12383,
 '〃': 512,
 'will': 9339,
 '筛': 5033,
 '##rf': 10531,
 '##map': 10909,
 '##ф': 13419,
 'б': 234,
 '減': 3938,
 '起': 6629,
 '衩': 6135,
 'offer': 10038,
 '綿': 5214,
 '##樸': 16628,
 '##攔': 16162,
 '##ak': 9896,
 '##後': 15584,
 '[unused60]': 60,
 '冈': 1082,
 '##學': 15176,
 '⒋': 423,
 '粿': 5126,
 '##腸': 18648,
 '歓': 3628,
 '隠': 7398,
 '027': 12849,
 'red': 9276,
 '##よって': 12957,
 '##掛': 16022,
 '##钰': 20234,
 '##栉': 16462,
 '論': 6316,
 'long': 10037,
 '##丞': 13750,
 '征': 2519,
 '呂': 1436,
 '樹': 3572,
 '##mer': 9778,
 '##▼': 10264,
 'という': 10741,
 '##ress': 11142,
 'bbe': 12517,
 '摹': 30

In [9]:
tokenizer.vocab_size

21128

#### Step4 索引转换

In [10]:
# 将词序列转换为id序列
ids=tokenizer.convert_tokens_to_ids(tokens)
ids

[2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682]

In [11]:
# 将id序列转换为token序列
tokens=tokenizer.convert_ids_to_tokens(ids)
tokens

['弱', '小', '的', '我', '也', '有', '大', '梦', '想']

In [12]:
# 将token序列转换为string
str_sen=tokenizer.convert_tokens_to_string(tokens)
str_sen

'弱 小 的 我 也 有 大 梦 想'

##### 更便捷的实现方式

In [None]:
# 将字符串转换为id序列，又称之为编码
ids=tokenizer.encode(sen)
ids

In [None]:
# 将id序列转换为字符串，又称之为解密
str_sen=tokenizer.decode(ids)
str_sen

In [None]:
# 加一个参数去掉101，102
ids2=tokenizer.encode(sen,add_special_tokens=False)
print(ids2)
print(tokenizer.decode(ids2))


#### Step5 填充与截断

In [13]:
# 填充
ids=tokenizer.encode(sen,padding='max_length',max_length=15)
ids

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102, 0, 0, 0, 0]

In [14]:
# 截断
ids=tokenizer.encode(sen,max_length=5,truncation=True)
ids

[101, 2483, 2207, 4638, 102]

#### Step6 其他输入部分

In [15]:
ids=tokenizer.encode(sen,padding='max_length',max_length=15)
ids

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102, 0, 0, 0, 0]

In [16]:
attention_mask=[1 if idx!=0 else 0 for idx in ids]
token_type_ids=[0]*len(ids)
attention_mask,token_type_ids

([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

#### Step7 快速调用方式

In [17]:
inputs=tokenizer.encode_plus(sen,padding='max_length',max_length=15)
inputs

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]}

In [18]:
inputs=tokenizer(sen,padding='max_length',max_length=15)
inputs

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]}

#### Step8 处理batch数据

In [19]:
sens=['弱小的我也又大梦想',
      '有梦想谁都了不起',
      '追着梦想的心，比梦想本身，更可贵',
      ]
res=tokenizer(sens)
res


{'input_ids': [[101, 2483, 2207, 4638, 2769, 738, 1348, 1920, 3457, 2682, 102], [101, 3300, 3457, 2682, 6443, 6963, 749, 679, 6629, 102], [101, 6841, 4708, 3457, 2682, 4638, 2552, 8024, 3683, 3457, 2682, 3315, 6716, 8024, 3291, 1377, 6586, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [None]:
%%time
# 单条循环处理
for i in range(1000):
    tokenizer(sen)

In [None]:
%%time
# 处理batch数据
res=tokenizer([sen]*1000)

### (3)Fast/Slow Tokenizer
- FastTokenizer
    - 基于Rust实现，速度快
    - offsets_mapping、word_ids
- SlowTokenizer
    - 基于Python实现，速度慢

In [None]:
sen='弱小的我也有大Dreaming!'

In [None]:
fast_tokenizer=AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-dianping-chinese')
fast_tokenizer

In [None]:
slow_tokenizer=AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-dianping-chinese',use_fast=False)
slow_tokenizer

In [None]:
%%time
# 单条训练处理
for i in range(10000):
    fast_tokenizer(sen)

In [None]:
%%time
for i in range(10000):
    slow_tokenizer(sen)

In [None]:
%%time
# 处理bath数据
res=fast_tokenizer([sen]*10000)

In [None]:
%%time
# 处理bath数据
res=slow_tokenizer([sen]*10000)

In [None]:
inputs=fast_tokenizer(sen,return_offsets_mapping=True)
inputs

In [None]:
inputs.word_ids()

### 特殊Tokenizer的加载

In [20]:
from transformers import AutoTokenizer

In [21]:
# 新版本的transformers（>4.34），加载 THUDM/chatglm 会报错，因此这里替换为了天宫的模型
tokenizer = AutoTokenizer.from_pretrained("Skywork/Skywork-13B-base", trust_remote_code=True)
tokenizer

You are using the legacy behaviour of the <class 'transformers_modules.Skywork.Skywork-13B-base.bc35915066fbbf15b77a1a4a74e9b574ab167816.tokenization_skywork.SkyworkTokenizer'>. This means that tokens that come after special tokens will not be properly handled. 


SkyworkTokenizer(name_or_path='Skywork/Skywork-13B-base', vocab_size=65519, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>'}, clean_up_tokenization_spaces=False),  added_tokens_decoder={
	0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
}

In [22]:
tokenizer.save_pretrained("skywork_tokenizer")

('skywork_tokenizer\\tokenizer_config.json',
 'skywork_tokenizer\\special_tokens_map.json',
 'skywork_tokenizer\\tokenizer.model',
 'skywork_tokenizer\\added_tokens.json')

In [23]:
tokenizer = AutoTokenizer.from_pretrained("skywork_tokenizer", trust_remote_code=True)

In [24]:
tokenizer.decode(tokenizer.encode(sen))

'<s>弱小的我也有大梦想'