In [85]:
from transformers import AutoTokenizer

In [86]:
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path='bert-base-chinese')
tokenizer

BertTokenizerFast(name_or_path='bert-base-chinese', vocab_size=21128, model_max_length=512, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
	0: AddedToken("[PAD]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	100: AddedToken("[UNK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	101: AddedToken("[CLS]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	102: AddedToken("[SEP]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	103: AddedToken("[MASK]", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}
)

In [87]:
participle = tokenizer.tokenize("我和我的祖国一刻也不能分离!")
participle 

['我', '和', '我', '的', '祖', '国', '一', '刻', '也', '不', '能', '分', '离', '!']

In [88]:
# Converts a token string (or a sequence of tokens) in a single integer id (or a sequence of ids), using the vocabulary.
tti = tokenizer.convert_tokens_to_ids(participle)
print(tti)

# Converts a single index or a sequence of indices in a token or a sequence of tokens, using the vocabulary and added tokens.
itt = tokenizer.convert_ids_to_tokens(tti)
print(itt)

# Converts a sequence of ids in a string, using the tokenizer and vocabulary with options to remove special tokens and clean up tokenization spaces.
print(tokenizer.decode(tti))

[2769, 1469, 2769, 4638, 4862, 1744, 671, 1174, 738, 679, 5543, 1146, 4895, 106]
['我', '和', '我', '的', '祖', '国', '一', '刻', '也', '不', '能', '分', '离', '!']
我 和 我 的 祖 国 一 刻 也 不 能 分 离!


In [89]:
list_of_token = tokenizer("我和我的祖国一刻也不能分离!")['input_ids']

print(tokenizer.decode(list_of_token))
print(tokenizer.decode(list_of_token, 
                       # Whether or not to remove special tokens in the decoding.defaults to False
                       skip_special_tokens=True))

[CLS] 我 和 我 的 祖 国 一 刻 也 不 能 分 离! [SEP]
我 和 我 的 祖 国 一 刻 也 不 能 分 离!


In [90]:
list_of_tokens = tokenizer([
    "我和我的祖国一刻也不能分离!",
    "1001问"])['input_ids']

# 批量解码
print(tokenizer.batch_decode(list_of_tokens))
print(tokenizer.batch_decode(list_of_tokens, skip_special_tokens=True))

['[CLS] 我 和 我 的 祖 国 一 刻 也 不 能 分 离! [SEP]', '[CLS] 1001 问 [SEP]']
['我 和 我 的 祖 国 一 刻 也 不 能 分 离!', '1001 问']
