# Tokenizer的基本使用
1. Step1: 分词
2. Step2: 构建词典
3. Step3: 数据转化
4. Step4: 数据填充与截断

In [2]:
from transformers import AutoTokenizer

In [9]:
sentence = '弱小的我也有大梦想!'    

# Step1 加载与保存

In [5]:
tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-dianping-chinese')

In [6]:
# 保存至本地
tokenizer.save_pretrained('./roberta_tokenizer')

('./roberta_tokenizer\\tokenizer_config.json',
 './roberta_tokenizer\\special_tokens_map.json',
 './roberta_tokenizer\\vocab.txt',
 './roberta_tokenizer\\added_tokens.json',
 './roberta_tokenizer\\tokenizer.json')

In [7]:
# 从本地加载tokenizer
tokenizer = AutoTokenizer.from_pretrained('./roberta_tokenizer')

# Step2 分词

In [10]:
tokens = tokenizer.tokenize(sentence)
tokens

['弱', '小', '的', '我', '也', '有', '大', '梦', '想', '!']

# Step3 查看词典

In [11]:
tokenizer.vocab

{'贝': 6564,
 '弘': 2473,
 '擢': 3091,
 'bbc': 8846,
 '##喵': 14668,
 '##帶': 15437,
 '##睦': 17778,
 '広': 2410,
 '哐': 1513,
 '##put': 11300,
 'education': 12727,
 '隼': 7408,
 '山': 2255,
 '疸': 4561,
 '虧': 6000,
 '##噔': 14740,
 '##崔': 15360,
 '##妮': 15041,
 '##市': 15413,
 '##桧': 16500,
 '##皰': 17707,
 '##腿': 18654,
 '##陽': 20439,
 'ャ': 629,
 '獐': 4355,
 'ko': 10368,
 '皑': 4644,
 '##歲': 16698,
 '##駭': 20750,
 '焼': 4198,
 '49': 8249,
 '##烫': 17233,
 '酗': 6984,
 '220': 8796,
 'gucci': 10258,
 '##判': 14218,
 '說': 6303,
 '##冰': 14159,
 '溅': 3972,
 '##窄': 18019,
 '##tw': 12278,
 '##慣': 15772,
 '肩': 5504,
 '鳝': 7850,
 '菖': 5829,
 '誰': 6306,
 '近': 6818,
 '##蓬': 18965,
 '012': 11496,
 '旗': 3186,
 '↓': 371,
 '怙': 2588,
 '890': 12075,
 '怨': 2596,
 '氮': 3713,
 '6221': 12580,
 'echo': 11701,
 '##夔': 14967,
 '##抒': 15887,
 '##离': 17952,
 '##苕': 18784,
 '##﹐': 21057,
 '##镶': 20325,
 '##蝨': 19134,
 '##文': 16209,
 '钒': 7156,
 '##棣': 16536,
 'iso9001': 9727,
 '428': 11351,
 '##萋': 18902,
 '雕': 7425,
 '385': 11

In [12]:
tokenizer.vocab_size

21128

# Step4 索引转换

In [18]:
# 将token序列转化为id序列
ids = tokenizer.convert_tokens_to_ids(tokens)
ids

[2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106]

In [19]:
# 将id序列转化为token序列
tokens = tokenizer.convert_ids_to_tokens(ids)
tokens

['弱', '小', '的', '我', '也', '有', '大', '梦', '想', '!']

In [20]:
# 将token序列转化为string序列
str_sen = tokenizer.convert_tokens_to_string(tokens)
str_sen

'弱 小 的 我 也 有 大 梦 想!'

## 更便捷的实现方式

In [21]:
ids = tokenizer.encode(sentence)
ids

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102]

In [22]:
str_sen = tokenizer.decode(ids)
str_sen

'[CLS] 弱 小 的 我 也 有 大 梦 想! [SEP]'

# Step5 填充与截断

In [23]:
#填充
ids = tokenizer.encode(sentence, padding='max_length', max_length=15)
ids

[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0]

In [24]:
# 截断
ids = tokenizer.encode(sentence, max_length=5, truncation=True)
ids

[101, 2483, 2207, 4638, 102]

# Step6 其他输入部分

In [25]:
ids = tokenizer.encode(sentence, padding='max_length', max_length=15)
attention_mask = [1 if idx != 0 else 0 for idx in ids]
token_type_ids = [0] * len(ids)
ids, attention_mask, token_type_ids

([101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0],
 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

# Step7 快速调用方式

In [26]:
inputs = tokenizer.encode_plus(sentence, padding='max_length', max_length=15)
inputs

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]}

In [28]:
inputs = tokenizer(sentence, padding='max_length', max_length=15)
inputs

{'input_ids': [101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0]}

# Step8 处理batch数据

In [30]:
sentence = ['弱小的我也有大梦想!', '有梦想谁都了不起', '追逐梦想的心，比梦想本身更可贵']
res = tokenizer(sentence)
res

{'input_ids': [[101, 2483, 2207, 4638, 2769, 738, 3300, 1920, 3457, 2682, 106, 102], [101, 3300, 3457, 2682, 6443, 6963, 749, 679, 6629, 102], [101, 6841, 6852, 3457, 2682, 4638, 2552, 8024, 3683, 3457, 2682, 3315, 6716, 3291, 1377, 6586, 102]], 'token_type_ids': [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]}