### tokenizer的功能，分词

In [None]:
from transformers import AutoTokenizer, BertTokenizer

In [None]:
tokenizer = AutoTokenizer.from_pretrained("models/roberta_tokenizer")

In [14]:
saying = "爆竹声中一岁除，春风送暖入屠苏。"

#### 功能一：分词

In [6]:
# 分词结果，一个字一个词，返回数据类型，list
tokens = tokenizer.tokenize(saying)
print(tokens, type(tokens))

['爆', '竹', '声', '中', '一', '岁', '除', '，', '春', '风', '送', '暖', '入', '屠', '苏', '。'] <class 'list'>


In [None]:
# 了解BPE和WordPiece算法-https://zhuanlan.zhihu.com/p/424631681
# 大意是构建子词，增加词复用，减少vocab_size大小，比如[run, ##ing], [say, ##ing]就可以复用##ing。(##word)仅代表word是一个子词
print(tokenizer.vocab, tokenizer.vocab_size)

{'慷': 2724, '懋': 2748, '洞': 3822, '狮': 4326, '##瞅': 17788, '##裂': 19219, 'bonnie': 12972, '##编': 18413, '##庭': 15488, '##钩': 20231, '##焱': 17253, '∙': 379, '☼': 485, '##媽': 15118, 'pm2': 9150, '枫': 3367, '##庸': 15492, '##辉': 19835, '臉': 5622, '##蜒': 19108, '##響': 20570, 'apt': 13205, '##きた': 12775, 'hello': 8701, '##撒': 16111, '##蒹': 18950, '65': 8284, '荤': 5784, 'etf': 8946, 'な': 557, '品': 1501, '熱': 4229, '##渭': 17005, '##nes': 10107, '##黍': 21000, '睢': 4718, '##たい': 10722, '##队': 20396, 'model': 9264, '枢': 3364, '鬟': 7781, '腾': 5596, '宋': 2129, '##拣': 15937, 'robert': 9441, '510': 10907, '##dget': 11857, '##拍': 15921, '##襠': 19257, '##ust': 12840, '920': 11976, '##獻': 17425, '##ia': 8321, '##饍': 20696, 'usb': 8335, '泣': 3798, 'eeworld': 12490, '##晷': 16311, '##獅': 17410, 'mi': 10551, '翹': 5435, '##爐': 17314, '侵': 909, '躏': 6714, '峽': 2296, '##碘': 17871, '##雙': 20484, '##9': 8160, '##景': 16307, '##輾': 19804, '峦': 2287, '##赓': 19664, '掬': 2975, '##灏': 17176, '##bank': 10980, '##皿': 17

#### 功能二： 词id转换

In [9]:
# 将token转化为id
ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

[4255, 5001, 1898, 704, 671, 2259, 7370, 8024, 3217, 7599, 6843, 3265, 1057, 2248, 5722, 511]


In [11]:
# 将id转化为token
tokens_from_ids = tokenizer.convert_ids_to_tokens(ids)
print(tokens_from_ids)

['爆', '竹', '声', '中', '一', '岁', '除', '，', '春', '风', '送', '暖', '入', '屠', '苏', '。']


In [13]:
token_string = tokenizer.convert_tokens_to_string(tokens_from_ids)
print(token_string.replace(" ", "")) # 转换出来的结果中有很多空格，替换

爆竹声中一岁除，春风送暖入屠苏。


In [17]:
'''
流程：句子->tokenize分词->convert_tokens_to_ids获取词向量
这个过程封装的结果就是tokenizer.encode
'''
token_ids = tokenizer.encode(saying)
print(token_ids)
tokens = tokenizer.decode(token_ids)
print(tokens)

[101, 4255, 5001, 1898, 704, 671, 2259, 7370, 8024, 3217, 7599, 6843, 3265, 1057, 2248, 5722, 511, 102]
[CLS] 爆 竹 声 中 一 岁 除 ， 春 风 送 暖 入 屠 苏 。 [SEP]


#### 功能三：padding和截断

In [20]:
token_ids = tokenizer.encode(saying, max_length=32, padding="max_length")
print(token_ids)

[101, 4255, 5001, 1898, 704, 671, 2259, 7370, 8024, 3217, 7599, 6843, 3265, 1057, 2248, 5722, 511, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]


In [21]:
token_ids = tokenizer.encode(saying, max_length=10, padding="max_length", truncation=True)
print(token_ids)

[101, 4255, 5001, 1898, 704, 671, 2259, 7370, 8024, 102]


#### attention_mask、token_type_ids和offsets_mapping

attention_mask是让模型在计算时忽视无效词如padding之类的
如["I", "have", "a", "dream", pad]的attention_mask是[1, 1, 1, 1, 0]

token_type_ids是bert区分词隶属于哪一个句子的方法。

offsets_mapping是token在原句子中的起始位置，按字符来计算。

In [31]:
inputs = tokenizer(saying, padding="max_length", max_length=32, return_offsets_mapping=True)
inputs

{'input_ids': [101, 4255, 5001, 1898, 704, 671, 2259, 7370, 8024, 3217, 7599, 6843, 3265, 1057, 2248, 5722, 511, 102, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'offset_mapping': [(0, 0), (0, 1), (1, 2), (2, 3), (3, 4), (4, 5), (5, 6), (6, 7), (7, 8), (8, 9), (9, 10), (10, 11), (11, 12), (12, 13), (13, 14), (14, 15), (15, 16), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0), (0, 0)]}