In [1]:
from transformers import AutoTokenizer

#在线加载一个tokenizer
tokenizer = AutoTokenizer.from_pretrained('google-bert/bert-base-chinese')

tokenizer

BertTokenizerFast(name_or_path='google-bert/bert-base-chinese', vocab_size=21128, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [2]:
#保存到本地
tokenizer.save_pretrained('tokenizer/google-bert/bert-base-chinese')

('tokenizer/google-bert/bert-base-chinese/tokenizer_config.json',
 'tokenizer/google-bert/bert-base-chinese/special_tokens_map.json',
 'tokenizer/google-bert/bert-base-chinese/vocab.txt',
 'tokenizer/google-bert/bert-base-chinese/added_tokens.json',
 'tokenizer/google-bert/bert-base-chinese/tokenizer.json')

In [3]:
#从本地文件加载
tokenizer = AutoTokenizer.from_pretrained(
    'tokenizer/google-bert/bert-base-chinese')

tokenizer

BertTokenizerFast(name_or_path='tokenizer/google-bert/bert-base-chinese', vocab_size=21128, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [4]:
#简单编码
data = tokenizer.encode('你好,你好吗?')

data

[101, 872, 1962, 117, 872, 1962, 1408, 136, 102]

In [5]:
#解码
tokenizer.decode(data, skip_special_tokens=False)

'[CLS] 你 好, 你 好 吗? [SEP]'

In [6]:
#常规编码
data = tokenizer('你好,你好吗?')

data

{'input_ids': [101, 872, 1962, 117, 872, 1962, 1408, 136, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [7]:
#参数解释
data = tokenizer(

    #句子的前半部分
    text=['第一个句子', '第二个句子'],

    #句子的后半部分,单句子编码时不用传递
    text_pair=['第三个句子', '第四个更长一点的句子'],

    #是否要添加特殊符号
    add_special_tokens=True,

    #是否补长到统一长度,一般定义为True或者'max_length'
    #定义为True时,编码的长度取决于最长的句子
    #定义为max_length时,编码的长度就等于max_length
    padding=True,

    #句子长度超过max_length时是否裁剪,一般定义为True
    truncation=True,

    #定义最大编码长度
    max_length=20,

    #编码数据的格式,一般定义为'pt','np','tf'默认是list
    return_tensors='np',
)

data

{'input_ids': array([[ 101, 5018,  671,  702, 1368, 2094,  102, 5018,  676,  702, 1368,
        2094,  102,    0,    0,    0,    0,    0],
       [ 101, 5018,  753,  702, 1368, 2094,  102, 5018, 1724,  702, 3291,
        7270,  671, 4157, 4638, 1368, 2094,  102]]), 'token_type_ids': array([[0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]), 'attention_mask': array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}

In [8]:
#批量解码
tokenizer.batch_decode(data.input_ids, skip_special_tokens=False)

['[CLS] 第 一 个 句 子 [SEP] 第 三 个 句 子 [SEP] [PAD] [PAD] [PAD] [PAD] [PAD]',
 '[CLS] 第 二 个 句 子 [SEP] 第 四 个 更 长 一 点 的 句 子 [SEP]']

In [9]:
#编码结果
data.input_ids

array([[ 101, 5018,  671,  702, 1368, 2094,  102, 5018,  676,  702, 1368,
        2094,  102,    0,    0,    0,    0,    0],
       [ 101, 5018,  753,  702, 1368, 2094,  102, 5018, 1724,  702, 3291,
        7270,  671, 4157, 4638, 1368, 2094,  102]])

In [10]:
#标记每个句子中前后两段的位置,第二句的位置是1,其他是0
data.token_type_ids

array([[0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

In [11]:
#标记哪些位置是pad
data.attention_mask

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])