# 基础组件之Tokenizer

## Tokenizer 简介
**数据预处理**  
Step1 分词:使用分词器对文本数据进行分词(字、字词);  
Step2 构建词典:根据数据集分词的结果，构建词典映射(这一步并不绝对，如果采用预训练词向量，词典映射要根据词向量文件进行处理);  
Step3 数据转换:根据构建好的词典，将分词处理后的数据做映射，将文本序列转换为数字序列;  
Step4 数据填充与截断:在以batch输入到模型的方式中，需要对过短的数据进行填充，过长的数据进行截断保证数据长度符合模型能接受的范围，同时batch内的数据维度大小一致。  

**现在使用Tokenizer可以打包上述流程。**

# Tokenizer 基本使用

加载保存(from_pretrained/save_pretrained)  
句子分词(tokenize)  
查看词典(vocab)  
索引转换(convert tokens to_ids/convert ids_to_tokens)  
填充截断(padding/truncation)  
其他输入(attention_mask/token_type_ids)  

In [1]:
from transformers import AutoTokenizer
# 不同的模型可能对应不同的Tokenizer，transformer提供了AutoTokenizer：会自动根据模型参数判断选择不同的Tokenizer

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 给定一个句子，后续对他进行处理
sen = "弱小的我也有大梦想!"

## Step1 加载与保存

In [3]:
# 加载一般用from_pretrained，从预训练的地方开始加载
# 传入参数是"从HuggingFace加载，输入模型名称，即可加载对于的分词器"
tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese")
tokenizer

BertTokenizerFast(name_or_path='uer/roberta-base-finetuned-dianping-chinese', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True, added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

In [None]:
# tokenizer 保存到当前项目文件夹下
tokenizer.save_pretrained("./roberta_tokenizer")

('./roberta_tokenizer\\tokenizer_config.json',
 './roberta_tokenizer\\special_tokens_map.json',
 './roberta_tokenizer\\vocab.txt',
 './roberta_tokenizer\\added_tokens.json',
 './roberta_tokenizer\\tokenizer.json')

In [5]:
# 从本地加载tokenizer（直接使用保存好的文件路径，不用写HuggingFace里的Model名称了）
tokenizer = AutoTokenizer.from_pretrained("./roberta_tokenizer/")
tokenizer

BertTokenizerFast(name_or_path='./roberta_tokenizer/', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True, added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

可以看到tokenizer = AutoTokenizer.from_pretrained("./roberta_tokenizer/")和之前的tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese")输出效果是一样的。

## Step2 句子分词

加载好之后，使用tokenizer.tokenize(句子)对句子进行分词。

In [6]:
tokens = tokenizer.tokenize(sen)
tokens

['弱', '小', '的', '我', '也', '有', '大', '梦', '想', '!']

可以看到当前我们选择的模型会把句子"弱小的我也有大梦想!"拆分成['弱', '小', '的', '我', '也', '有', '大', '梦', '想', '!']（并不一定每个模型都这样拆）。

## Step3 查看词典

为什么分词器会把句子那么拆？可以通过tokenizer.vocab查看词典.

In [7]:
tokenizer.vocab

{'##ram': 9661,
 '##贲': 19641,
 '##族': 16241,
 '##胜': 18583,
 '祿': 4879,
 '##打': 15859,
 '##hr': 10561,
 'jul': 9618,
 '##覃': 19264,
 '##油': 16836,
 '##麼': 20995,
 '##埋': 14870,
 '##и': 11000,
 '干': 2397,
 '##贞': 19622,
 '湿': 3969,
 'ᵘ': 336,
 '櫻': 3607,
 '瀬': 4115,
 '筹': 5040,
 '##笔': 18068,
 '聘': 5470,
 '##老': 18496,
 '##拽': 15952,
 '配': 6981,
 '蕭': 5941,
 '娉': 2020,
 'labels': 11562,
 '##甜': 17551,
 '45㎡2': 12039,
 '##ｚ': 21100,
 '肓': 5493,
 '##懸': 15813,
 '##铅': 20249,
 '##莞': 18863,
 'س': 267,
 '版': 4276,
 'iii': 9207,
 '##畀': 17573,
 '芒': 5695,
 '##雀': 20468,
 '孺': 2120,
 '霍': 7452,
 '701': 12656,
 '##fo': 10261,
 '##劲': 14283,
 '##述': 19892,
 '##サ': 13685,
 'with': 8663,
 '356': 12215,
 '##個': 14000,
 '０': 8028,
 '擼': 3100,
 '##寥': 15235,
 '##豚': 19552,
 'cover': 12555,
 '##钯': 20233,
 '##晶': 16310,
 '##＜': 21086,
 '##炀': 17194,
 '##ht': 12160,
 '儕': 1028,
 '##倪': 14017,
 '蕲': 5942,
 '##柢': 16445,
 '##柒': 16437,
 '鹅': 7900,
 'shirt': 12060,
 '囹': 1742,
 '118': 8966,
 '##列': 1421

可以看到有的词前面有##，是因为把一个完整的词拆成多个子词（从英文词语方面更好理解），缩小词表。

In [8]:
# 查看词汇表的大小
tokenizer.vocab_size

21128

## Step4 索引转换

需要使用tokenizer.convert_token_to_ids(tokens)方法将词转化成id的形式，才能传入神经网络。传入参数tokens是Step2中切好的词序列。

In [9]:
# 将词序列转换为id序列
ids = tokenizer.convert_tokens_to_ids(tokens)
ids

[2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106]

可以看到实际上是把['弱', '小', '的', '我', '也', '有', '大', '梦', '想', '!']对应在词表中的编码id取出来了[2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106]。  
如果要把id转回token，使用tokenizer.convert_ids_to_tokens(ids)方法，传入参数是id序列。

In [10]:
# 将id序列转换为token序列
tokens = tokenizer.convert_ids_to_tokens(ids)
tokens

['弱', '小', '的', '我', '也', '有', '大', '梦', '想', '!']

如果要进一步将token转成string，使用tokenizer.convert_tokens_to_string(tokens)，传入参数是token序列。

In [11]:
# 将token序列转换为string
str_sen = tokenizer.convert_tokens_to_string(tokens)
str_sen

'弱 小 的 我 也 有 大 梦 想!'

###  更便捷的实现方式

上述4步好像也没有很便捷地处理数据，那么HuggingFace提供了：  
**encode()方法**：直接可以将字符串（句子）转化成id序列，又叫编码。  
**decode()方法**：直接将id序列转换为字符串，又叫解码

In [14]:
# 将字符串转换为id序列
ids = tokenizer.encode(sen)
ids

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102]

In [15]:
# 将id序列转换为字符串
str_sen = tokenizer.decode(ids)
str_sen

'[CLS] 弱 小 的 我 也 有 大 梦 想! [SEP]'

可以看到上述结果中多了[CLS]、[SEP]（对应101、102），是BERT模型中添加的关于序列开始和结束的标志。  
如果不想看到的话可以不添加参数：  
encode() 中添加参数 add_special_tokens = False。(默认True)  
decode() 中添加参数 skip_special_tokens = True。(默认False)

In [17]:
# 将字符串转换为id序列
ids = tokenizer.encode(sen, add_special_tokens=False)
print(ids)
# 将id序列转换为字符串
str_sen = tokenizer.decode(ids, skip_special_tokens = True)
print(str_sen)

[2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106]
弱 小 的 我 也 有 大 梦 想!


## Step5 填充与截断

想要数据进入模型，还需要将数据变成同一长度（太短的填充，太长的截断）， 可以直接通过encode()的参数实现：  
**填充**：参数padding="max_length"  
**截断**：先设置最大长度，然后截断：max_length=5, truncation=True

In [18]:
# 填充
ids = tokenizer.encode(sen, padding="max_length", max_length=15)
ids

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0]

可以看到序列不够15长度，后面加0补齐。

In [19]:
# 截断
ids = tokenizer.encode(sen, max_length=5, truncation=True)
ids

[101, 2483, 2207, 4638, 102]

可以看到序列比最大长度max_length=5多，只取前5个数据（包含开始字符101、结束字符102，实际只取了3个字符）。

## Step6 其他输入部分

在进入模型时，有些特殊的注意事项。比如：  
Transformer模型中，当数据存在填充，需要告诉模型哪些是填充，哪些是有效输入，需要用attention_mask标注。  
Bert模型中还需要token_type_ids来区别句子边界。

In [20]:
ids = tokenizer.encode(sen, padding="max_length", max_length=15)
ids

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0]

In [21]:
# for idx in ids遍历ids，如果idx != 0 说明是有效数据
attention_mask = [1 if idx != 0 else 0 for idx in ids]
token_type_ids = [0] * len(ids)
ids, attention_mask, token_type_ids

([101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0],
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

## Step7 快速调用方式

要实现Step5的填充截断和Step6的特殊标注，直接使用**encode_plus()方法**或者**tokenizer()方法**实现，参数和encode()方法相同。

In [22]:
inputs = tokenizer.encode_plus(sen, padding="max_length", max_length=15)
inputs

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]}

In [23]:
inputs = tokenizer(sen, padding="max_length", max_length=15)
inputs

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]}

## Step8 处理batch数据

前面是处理单条句子，处理多个句子同样使用tokenizer()方法，只是处理结果是一个list。

In [24]:
sens = ["弱小的我也有大梦想",
        "有梦想谁都了不起",
        "追逐梦想的心，比梦想本身，更可贵"]
res = tokenizer(sens)
res

{'input_ids': [[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102], [101, 3300, 3457, 2682, 6443, 6963, 749, 679, 6629, 102], [101, 6841, 6852, 3457, 2682, 4638, 2552, 8024, 3683, 3457, 2682, 3315, 6716, 8024, 3291, 1377, 6586, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [26]:
# jupyter使用 %%time 记录当前单元格处理时间
%%time
# 单条循环处理
for i in range(1000):
    tokenizer(sen)

UsageError: Line magic function `%%time` not found.


In [None]:
%%time
# 处理batch数据
res = tokenizer([sen] * 1000)

In [None]:
tokenizer

# Fast / Slow Tokenizer

In [None]:
sen = "弱小的我也有大Dreaming!"

In [None]:
fast_tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese")
fast_tokenizer

In [None]:
slow_tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese", use_fast=False)
slow_tokenizer

In [None]:
%%time
# 单条循环处理
for i in range(10000):
    fast_tokenizer(sen)

In [None]:
%%time
# 单条循环处理
for i in range(10000):
    slow_tokenizer(sen)

In [None]:
%%time
# 处理batch数据
res = fast_tokenizer([sen] * 10000)

In [None]:
%%time
# 处理batch数据
res = slow_tokenizer([sen] * 10000)

In [None]:
inputs = fast_tokenizer(sen, return_offsets_mapping=True)
inputs

In [None]:
inputs.word_ids()

In [None]:
inputs = slow_tokenizer(sen, return_offsets_mapping=True)

# 特殊Tokenizer的加载

In [None]:
from transformers import AutoTokenizer

In [None]:
# 新版本的transformers（>4.34），加载 THUDM/chatglm 会报错，因此这里替换为了天宫的模型
tokenizer = AutoTokenizer.from_pretrained("Skywork/Skywork-13B-base", trust_remote_code=True)
tokenizer

In [None]:
tokenizer.save_pretrained("skywork_tokenizer")

In [None]:
tokenizer = AutoTokenizer.from_pretrained("skywork_tokenizer", trust_remote_code=True)

In [None]:
tokenizer.decode(tokenizer.encode(sen))