# 标记器（Tokenizer） (PyTorch)

Install the Transformers, Datasets, and Evaluate libraries to run this notebook.

In [None]:
!pip install datasets evaluate transformers[sentencepiece]

### 分词方法
（1）Word-based<br>
（2）Character-based<br>
（3）Subword tokenization - 子词分词器<br>
（4）Byte-level BPE, GPT-2使用<br>
（5）WordPiece, BERT使用<br>
（6）SentencePiece or Unigram, 多个多语言models使用<br>

In [None]:
tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)

['Jim', 'Henson', 'was', 'a', 'puppeteer']

### 分词器的加载和保存

每个模型预训练的时候有可能采用的都是不同的分词器，因此加载分词器的时候需要给定模型的名。

文本转化数值序列包含两个步骤：（1）分词，（2）将分词转成index序列。实际操作中一般直接使用tokenzier一步得到最终结果。

In [None]:
# 方式一  
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")

In [None]:
# 方式二
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

In [None]:
tokenizer("Using a Transformer network is simple")

{'input_ids': [101, 7993, 170, 11303, 1200, 2443, 1110, 3014, 102],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [None]:
tokenizer.save_pretrained("directory_on_my_computer")

### 编码Encoding
tokenzier两个步骤的拆解

In [None]:
# 第一步：分词
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence) # 分词

print(tokens)  # 从分词结果可知，上述模型使用的是子词分词器

['Using', 'a', 'transform', '##er', 'network', 'is', 'simple']

In [None]:
# 第二步：从token转化为数值
ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

[7993, 170, 11303, 1200, 2443, 1110, 3014]

### 解码Decoding

decode不仅将数值序列转换为token序列，同时将token序列组成一个可读性很好的字符串

In [None]:
decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
print(decoded_string)

'Using a Transformer network is simple'