# Tokenizer（分词器）的基本使用

## step1: 加载和保存

In [3]:
from transformers import AutoTokenizer
sen = "弱小的我也有大梦想怆! "

# 从HuggingFace加载，输入模型名称，即可加载对于的分词器
tokenizer = AutoTokenizer.from_pretrained("uer/roberta-base-finetuned-dianping-chinese")

# 保存本地
tokenizer.save_pretrained('./roberta_tokenizer')

  from .autonotebook import tqdm as notebook_tqdm


('./roberta_tokenizer\\tokenizer_config.json',
 './roberta_tokenizer\\special_tokens_map.json',
 './roberta_tokenizer\\vocab.txt',
 './roberta_tokenizer\\added_tokens.json',
 './roberta_tokenizer\\tokenizer.json')

## step2: 句子分词

In [4]:
tokens = tokenizer.tokenize(sen) # 分词： ['弱', '小', '的', '我', '也', '有', '大', '梦', '想', '!']
tokenizer.vocab # 分词表：dict 

{'9985': 12839,
 '##eam': 10430,
 '棵': 3484,
 '##板': 16409,
 '274': 11482,
 '挞': 2910,
 '##哌': 14566,
 '笏': 5009,
 '餚': 7627,
 '谟': 6467,
 '##孽': 15178,
 '##徕': 15589,
 '奬': 1955,
 '##紮': 18224,
 '##钧': 20229,
 '##￥': 21123,
 '垵': 1810,
 '五': 758,
 '荟': 5780,
 '##塭': 14915,
 'ian': 13268,
 '##擞': 16145,
 '##斐': 16213,
 '##訟': 19310,
 '##鄲': 20032,
 '轨': 6758,
 '##殲': 16722,
 '##ground': 13195,
 '##れた': 10679,
 '艹': 5685,
 '##κ': 13388,
 '総': 5217,
 '費': 6527,
 '##叔': 14413,
 '##ash': 9889,
 '摔': 3035,
 '炕': 4145,
 '##吴': 14483,
 '##稞': 17987,
 '##脳': 18623,
 '规': 6226,
 '##†': 13498,
 'cctv': 10099,
 '曄': 3277,
 'ken': 11314,
 '正': 3633,
 '些': 763,
 '##傳': 14058,
 '##銑': 20125,
 '##索': 18221,
 '##际': 20411,
 '躍': 6713,
 '迂': 6811,
 '瞇': 4732,
 '糗': 5132,
 '##舜': 18715,
 'trc': 11885,
 '##ways': 11672,
 'main': 9139,
 '诉': 6401,
 '##繩': 18313,
 '##籽': 18161,
 '##车': 19813,
 '抡': 2842,
 'acer': 10837,
 '##喚': 14655,
 '##莫': 18868,
 'sui': 10997,
 '##砲': 17844,
 '##飢': 20666,
 'silver': 1

## step3：索引转换

In [5]:
tokenizer.convert_tokens_to_ids(tokens)    #  将token序列转换为ids序列

[2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 2581, 106]

In [6]:
ids = tokenizer.convert_tokens_to_ids(tokens)    #  将token序列转换为ids序列
tokens = tokenizer.convert_ids_to_tokens(ids)    #  将ids序列转换为token序列
str_sen = tokenizer.convert_tokens_to_string(tokens) # 将token序列转换为string
str_sen

'弱 小 的 我 也 有 大 梦 想 怆!'

## step3：索引转换-更便捷的方式 

In [25]:
# 将字符串序列转换为id, 称为编码; 
# add_special_tokens=False 为不加载特殊编码 例如标识句子开头结尾 '[CLS] 弱 小 的 我 也 有 大 梦 想! [SEP]'
ids = tokenizer.encode(sen, add_special_tokens=False)
ids

# 将id序列转换为字符串, 称为解码
# tokenizer.decode(ids, skip_special_tokens=True)

[1,
 29871,
 55215,
 30210,
 30672,
 30953,
 30417,
 30257,
 42243,
 33816,
 29991,
 29871]

## Step4:  填充和截断

In [8]:
# 填充 [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0]
# padding="longest"： 将 batch 内的序列填充到当前 batch 中最长序列的长度；
# padding="max_length"：将所有序列填充到模型能够接受的最大长度，例如 BERT 模型就是 512。
tokenizer.encode(sen, padding='max_length', max_length=15) 
# 截断: truncation=True;会有头尾标记也占用[101, 2483, 2207, 4638, 102]： 101cls  102seP
# 
tokenizer.encode(sen, max_length=5, truncation=True)


[101, 2483, 2207, 4638, 102]

## Step5:  其他输入部分

In [9]:
ids = tokenizer.encode(sen, padding="max_length", max_length=15)
attention_mask = [1 if idx != 0 else 0 for idx in ids] # 区分哪些是有效的token
token_type_ids = [0] * len(ids)  # 用于区分不同的句子或段落（例如在 BERT 模型中用于区分两个句子）。这里假设输入是一个单一的句子，因此所有的 token_type_ids 都设置为 0。
ids, attention_mask, token_type_ids

([101,
  2483,
  2207,
  4638,
  2769,
  738,
  3300,
  1920,
  3457,
  2682,
  2581,
  106,
  102,
  0,
  0],
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

## Step6:  快速调用方式

In [10]:
# 很常用
inputs = tokenizer.encode_plus(sen, padding="max_length", max_length=15)
inputs

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 2581, 106, 102, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0]}

## Step7: 处理batch（多条数据）数据

In [11]:
sens = ["弱小的我也有大梦想",
        "有梦想谁都了不起",
        "追逐梦想的心，比梦想本身，更可贵"]
res = tokenizer(sens)
res

{'input_ids': [[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 102], [101, 3300, 3457, 2682, 6443, 6963, 749, 679, 6629, 102], [101, 6841, 6852, 3457, 2682, 4638, 2552, 8024, 3683, 3457, 2682, 3315, 6716, 8024, 3291, 1377, 6586, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}

In [12]:
%%time
# 单条循环处理
for i in range(1000):
    tokenizer(sen)


CPU times: total: 15.6 ms
Wall time: 36.6 ms


In [13]:
%%time
res = tokenizer([sen] * 1000)


CPU times: total: 31.2 ms
Wall time: 7.01 ms


## step8: Fast-tokenizer特有功能

In [14]:
inputs = tokenizer(sen, return_offsets_mapping=True) # 使用return_offsets_mapping后结果多一个 offset_mapping
print(inputs)
# word_ids方法，该方法会返回分词后token序列对应原始实际词的索引，特殊标记的值为None。
inputs.word_ids() # 结果与上面的offset_mapping做对比 [None, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, None]

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 2581, 106, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], 'offset_mapping': [(0, 0), (0, 1), (1, 2), (2, 3), (3, 4), (4, 5), (5, 6), (6, 7), (7, 8), (8, 9), (9, 10), (10, 11), (0, 0)]}


[None, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, None]

## step9: 特殊tokenizer的加载 

In [15]:
# 新版本的transformers（>4.34），加载 THUDM/chatglm 会报错，因此这里替换为了天宫的模型

# trust_remote_code是从远程仓库加载
tokenizer = AutoTokenizer.from_pretrained("Skywork/Skywork-13B-base", trust_remote_code=True) 
tokenizer.save_pretrained("Skywork-13B-base")
AutoTokenizer.from_pretrained("Skywork-13B-base", trust_remote_code=True) 
# tokenizer.encode_plus(sen)
tokenizer.decode(tokenizer.encode(sen))

You are using the legacy behaviour of the <class 'transformers_modules.Skywork.Skywork-13B-base.bc35915066fbbf15b77a1a4a74e9b574ab167816.tokenization_skywork.SkyworkTokenizer'>. This means that tokens that come after special tokens will not be properly handled. 


'<s>弱小的我也有大梦想怆! '