# 大语言模型Transformer库-Tokenizer组件实践

## 一、Tokenizer概览
官网API地址：https://huggingface.co/docs/transformers/main_classes/tokenizer

Tokenizer是自然语言处理中的一个核心组件，它的主要功能是将原始文本转换为机器学习模型能够处理的格式。这一过程看似简单，实则包含了许多复杂且精细的步骤。在深度学习中的Transformer架构及其衍生模型中，Tokenizer的工作流程通常包括两个关键步骤：

- 1）首先，是文本分解。这一步的目的是将原始的、连续的文本分割成更细的粒度单元，这些单元可以是单词级别，也可以是子词级别，甚至是字符级别。这一步骤的目标是将文本分解为可以被模型理解并处理的基本单元。

- 2）其次，是编码映射。这一步的目标是将这些基本单元转换为模型可以理解的数值形式，最常见的形式是整数序列。这样，我们就可以将这些数值输入到模型中，让模型进行学习和预测。

## 二、Tokenizer的工作原理
Tokenizer的工作原理涉及：
- 1）文本分解：将文本分解为更小的单元。
- 2）词汇表：使用词汇表将文本单元映射到数值ID。
- 3）特殊标记：添加如[CLS]、[SEP]等特殊标记，以适应模型的特定需求。

在序列标注任务中，特殊标记帮助模型识别序列的开始和结束。
``` python
# 展示特殊标记的添加
sequence = "Here is an example sequence."
encoded_sequence = tokenizer(sequence, add_special_tokens=True)
print(encoded_sequence)
```

## 三、Tokenizer的使用方法
Tokenizer的使用流程一般遵循以下步骤：

1）导入Tokenizer库：从NLP库（例如Hugging Face的transformers）导入Tokenizer类。

2）加载预训练Tokenizer：通过指定模型名称加载预训练的Tokenizer实例。

3）文本转换：将文本数据输入Tokenizer进行编码转换。

4）获取编码输出：Tokenizer输出编码后的数据，通常包括：
- 输入ID：转换后的整数序列，用于模型输入。
- 注意力掩码（Attention Mask）：标识哪些输入ID是有效内容，哪些是填充（padding）。
- 类别ID（Token Type IDs）：在某些任务中区分句子对的两个不同句子。

```python
from transformers import AutoTokenizer

# 加载预训练的Tokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# 待处理的文本
text = "Transformers are the core of modern NLP tasks."

# 使用Tokenizer进行编码
encoded_input = tokenizer(text, return_tensors='pt')

# 访问编码结果
input_ids = encoded_input['input_ids']
attention_mask = encoded_input['attention_mask']
```

### 1、加载与保存

In [34]:
from transformers import AutoTokenizer
sen = "吃葡萄不吐葡萄皮"

# 从HuggingFace加载，输入模型名称，即可加载对于的分词器
tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese")
tokenizer

BertTokenizerFast(name_or_path='uer/roberta-base-finetuned-dianping-chinese', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [None]:
# tokenizer 保存到本地
tokenizer.save_pretrained("./roberta_tokenizer")

'./roberta_tokenizer/tokenizer_config.json'
'./roberta_tokenizer/special_tokens_map.json'
'./roberta_tokenizer/vocab.txt'
'./roberta_tokenizer/added_tokens.json'
'./roberta_tokenizer/tokenizer.json'

### 2、句子分词

In [35]:
tokens = tokenizer.tokenize(sen)
tokens

['吃', '葡', '萄', '不', '吐', '葡', '萄', '皮']

### 3、查看词典

In [4]:
tokenizer.vocab

{'##荟': 18837,
 'なのて': 10925,
 '沪': 3772,
 '[PAD]': 0,
 '吖': 1407,
 '基': 1825,
 '15': 8115,
 'top10': 10466,
 'するとあなたにもっとマッチした': 12153,
 '##痢': 17638,
 '##gy': 9765,
 '##荊': 18828,
 '鸽': 7894,
 '##凜': 14181,
 '##「': 13654,
 '[unused46]': 46,
 '##虑': 19048,
 '125': 8752,
 '##路': 19719,
 '##ova': 13067,
 '固': 1743,
 '##今': 13848,
 '╞': 441,
 '236': 9671,
 '##儲': 14090,
 '讨': 6374,
 '蛇': 6026,
 '##纹': 18349,
 '##嗎': 14678,
 '靄': 7469,
 'rm': 10620,
 '##捡': 15996,
 '##狡': 17379,
 '糙': 5133,
 '##啜': 14619,
 '##钠': 20222,
 '##粮': 18174,
 '枉': 3356,
 '140': 8468,
 '##迈': 19872,
 '##峥': 15343,
 '渎': 3932,
 '蕁': 5930,
 '##閔': 20337,
 'lumia': 11506,
 '自': 5632,
 '靥': 7482,
 '##旷': 16256,
 '惶': 2684,
 '##騎': 20754,
 '##ｯ': 21108,
 '翡': 5429,
 '命': 1462,
 '##穀': 18001,
 '剤': 1194,
 '須': 7519,
 'hk': 8512,
 '14k': 10612,
 '嘸': 1675,
 'bruce': 12897,
 '岖': 2265,
 '氙': 3701,
 '##eting': 13216,
 '渔': 3934,
 'charlie': 12962,
 '##暂': 16314,
 'nokia': 9752,
 '瘪': 4610,
 '##獭': 17418,
 '蒻': 5894,
 'tb':

In [5]:
tokenizer.vocab_size

21128

### 4、索引转换

In [36]:
ids = tokenizer.convert_tokens_to_ids(tokens)
ids

[1391, 5868, 5843, 679, 1402, 5868, 5843, 4649]

In [37]:
tokens = tokenizer.convert_ids_to_tokens(ids)
tokens

['吃', '葡', '萄', '不', '吐', '葡', '萄', '皮']

In [38]:
str_sen = tokenizer.convert_tokens_to_string(tokens)
str_sen

'吃 葡 萄 不 吐 葡 萄 皮'

In [39]:
ids = tokenizer.encode(sen, add_special_tokens=True)
ids

[101, 1391, 5868, 5843, 679, 1402, 5868, 5843, 4649, 102]

In [40]:
str_sen = tokenizer.decode(ids, skip_special_tokens=False)
str_sen

'[CLS] 吃 葡 萄 不 吐 葡 萄 皮 [SEP]'

### 5、填充与截断

In [41]:
ids = tokenizer.encode(sen, padding="max_length", max_length=15)
ids

[101, 1391, 5868, 5843, 679, 1402, 5868, 5843, 4649, 102, 0, 0, 0, 0, 0]

In [42]:
ids = tokenizer.encode(sen, max_length=5, truncation=True)
ids

[101, 1391, 5868, 5843, 102]

### 6、其他输入部分

In [43]:
ids = tokenizer.encode(sen, padding="max_length", max_length=15)
ids

[101, 1391, 5868, 5843, 679, 1402, 5868, 5843, 4649, 102, 0, 0, 0, 0, 0]

In [44]:
# 输入ID (ids)：转换后的整数序列，用于模型输入。
# 注意力掩码（attention_mask）：标识哪些输入ID是有效内容，哪些是填充（padding）。
# 类别ID（token_type_ids）：在某些任务中区分句子对的两个不同句子。
attention_mask = [1 if idx != 0 else 0 for idx in ids]
token_type_ids = [0] * len(ids)
ids, attention_mask, token_type_ids

([101, 1391, 5868, 5843, 679, 1402, 5868, 5843, 4649, 102, 0, 0, 0, 0, 0],
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

### 7、快速调用方式

In [51]:
inputs = tokenizer.encode_plus(sen,'不吐葡萄倒吐葡萄皮', padding="max_length", max_length=25)
inputs

{'input_ids': [101, 1391, 5868, 5843, 679, 1402, 5868, 5843, 4649, 102, 679, 1402, 5868, 5843, 948, 1402, 5868, 5843, 4649, 102, 0, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]}

In [52]:
inputs = tokenizer(sen,'不吐葡萄倒吐葡萄皮', padding="max_length", max_length=25)
inputs

{'input_ids': [101, 1391, 5868, 5843, 679, 1402, 5868, 5843, 4649, 102, 679, 1402, 5868, 5843, 948, 1402, 5868, 5843, 4649, 102, 0, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]}

### 8、处理batch数据

In [53]:
sens = ["吃葡萄不吐葡萄皮",
        "不吃葡萄到吐葡萄皮",
        "顺势而为"]
res = tokenizer(sens)
res

{'input_ids': [[101, 1391, 5868, 5843, 679, 1402, 5868, 5843, 4649, 102], [101, 679, 1391, 5868, 5843, 1168, 1402, 5868, 5843, 4649, 102], [101, 7556, 1232, 5445, 711, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]}

## 四、Fast/Slow Tokenizer
在Hugging Face的transformers库中，Tokenizer分为两种类型：Fast Tokenizer和Slow Tokenizer。

1)Slow Tokenizer：通常是用Python编写的，速度较慢，但在所有环境中都能保证一致性和可移植性。

2)Fast Tokenizer：使用Rust编写，并通过PyTorch的C++扩展或Python的C扩展提供，速度非常快，尤其是在处理大量数据时。Fast Tokenizers提供了与Slow Tokenizers相同的功能，但速度更快

在transformers库中，AutoTokenizer类会自动选择Fast Tokenizer（如果可用），以提供最佳性能。

In [57]:
sen = "吃葡萄不吐葡萄皮!"
fast_tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese")
fast_tokenizer

BertTokenizerFast(name_or_path='uer/roberta-base-finetuned-dianping-chinese', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [55]:
slow_tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese", use_fast=False)
slow_tokenizer

BertTokenizer(name_or_path='uer/roberta-base-finetuned-dianping-chinese', vocab_size=21128, model_max_length=1000000000000000019884624838656, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [61]:
%%time
# 处理batch数据
res = fast_tokenizer([sen] * 10000)

CPU times: user 425 ms, sys: 10.2 ms, total: 435 ms
Wall time: 148 ms


In [60]:
%%time
# 处理batch数据
res = slow_tokenizer([sen] * 10000)

CPU times: user 550 ms, sys: 0 ns, total: 550 ms
Wall time: 549 ms


## 五、自定义Tokenizer
用户可以根据特定需求定制Tokenizer：

1）自定义词汇表：创建特定领域的词汇表。

2）自定义规则：添加自定义分词规则以适应特定场景

> 实践案例：在医疗领域的文本处理中，自定义Tokenizer能够识别专业术语。<br>
工具和资源：Hugging Face的transformers库允许用户通过继承和修改现有Tokenizer类来创建自定义Tokenizer。

In [None]:
from transformers import BertTokenizerFast

class CustomBertTokenizer(BertTokenizerFast):
    def __init__(self, vocab_file, **kwargs):
        super().__init__(vocab_file=vocab_file, **kwargs)
        # 自定义逻辑...

# 假设已有自定义词汇表
custom_tokenizer = CustomBertTokenizer(vocab_file="path_to_vocab.txt")
encoded_custom = custom_tokenizer("Customizing Tokenizer is flexible.", return_tensors="pt")
print(encoded_custom)

## 六、Tokenizer与模型训练
Tokenizer在模型训练中的作用包括：

1）数据预处理：将训练数据转换为模型可处理的格式。

2）与模型整合：确保Tokenizer与模型的输入层完全兼容。

In [None]:
# 导入必要的类：从transformers库中导入BertForSequenceClassification（用于序列分类的BERT模型），
# Trainer（训练器类），和TrainingArguments（训练参数类）
from transformers import BertForSequenceClassification, Trainer, TrainingArguments

# 初始化模型：使用BertForSequenceClassification类创建一个序列分类模型实例。
# 这个模型是基于BERT的，并且是预训练好的，我们通过from_pretrained方法加载它。
# num_labels参数指定了分类任务的标签数量。
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

# 准备数据集
# ...
#定义训练参数：TrainingArguments类用于定义训练过程中的各种参数，如输出目录output_dir，
# 训练轮数num_train_epochs，每个设备的训练批次大小per_device_train_batch_size，
# 预热步数warmup_steps，权重衰减weight_decay，以及日志目录logging_dir。
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=16,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir="./logs",
)
# 初始化Trainer：Trainer类负责执行模型的实际训练。我们传入模型实例、训练参数和Tokenizer。
# train_dataset是一个包含训练数据的PyTorch数据集对象，这里省略了其定义和准备过程。
trainer = Trainer(
    model=model,
    args=training_args,
    # train_dataset=train_dataset,  # 定义训练数据集
    tokenizer=tokenizer
)
#执行训练：调用trainer.train()方法开始训练
trainer.train()