# Tokenizers 分词器

## word-based 基于单词

In [1]:
tokenized_text = "Jim Henson was a puppeteer".split()
print(tokenized_text)

['Jim', 'Henson', 'was', 'a', 'puppeteer']


## character-based 基于字符

In [None]:
# 按字符分

## 子词分词

In [None]:
# 按语义分 例如，“annoyingly” 可能被认为是一个稀有词，可以分解为“annoying”和“ly”

## 更多

不出所料，还有更多的技术。仅举几例：

Byte-level BPE, as used in GPT-2
GPT-2 中使用的字节级 BPE

WordPiece, as used in BERT
WordPiece，在 BERT 中使用

SentencePiece or Unigram, as used in several multilingual models
SentencePiece 或 Unigram，用于多个多语言模型

You should now have sufficient knowledge of how tokenizers work to get started with the API.
您现在应该对分词器的工作原理有足够的了解，以开始使用 API。

## Loading and saving  加载和保存

In [5]:
#
# HF
# 加载使用与 BERT 相同的检查点训练的 BERT 分词器与加载模型的方式相同，只是我们使用 BertTokenizer 类：
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-cased")


In [6]:
#
# 还有一个 auto的
#
# HF
# 与 AutoModel 类似，AutoTokenizer 类将根据检查点名称在库中获取适当的 tokenizer 类，并且可以直接与任何检查点一起使用：
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

In [8]:
# 使用
tokenizer("Using a Transformer network is simple")

{'input_ids': [101, 7993, 170, 13809, 23763, 2443, 1110, 3014, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [9]:
#
# HF
# 保存 tokenizer 与保存模型相同：
tokenizer.save_pretrained("directory_on_my_computer")
#
# 好复杂的结果

('directory_on_my_computer\\tokenizer_config.json',
 'directory_on_my_computer\\special_tokens_map.json',
 'directory_on_my_computer\\vocab.txt',
 'directory_on_my_computer\\added_tokens.json',
 'directory_on_my_computer\\tokenizer.json')

# 编码

In [None]:
# 
# HF
# 将文本转换为数字称为编码 。编码分两个步骤完成：
#  1. 分词化，
#  2. 然后转换为输入 ID。

In [None]:
# 正如我们所看到的，第一步是将文本拆分为单词（或单词的一部分、标点符号等），通常称为标记 / usually called tokens ！！！！。
# token ！！！！！！
# 有多个规则可以控制该过程，
# 这就是为什么我们需要使用模型的名称实例化分词器，
# 以确保我们使用与模型预训练时使用的相同规则。

In [None]:
# 第二步是将这些标记转换为数字，这样我们就可以从中构建一个张量并将它们提供给模型。
# 为此，分词器有一个词汇表 ，
# 这是我们使用 from_pretrained（） 方法实例化它时下载的部分。
# 同样，我们需要使用模型预训练时使用的相同词汇。

## Tokenization  分词化

In [11]:
#
# HF
# 分词化过程由 tokenizer 的 tokenize（） 方法完成：
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

sequence = "Using a Transformer network is simple"
tokens = tokenizer.tokenize(sequence)

print(tokens)

# 此方法的输出是字符串或 tokens 的列表：
# 这个分词器是一个子词分词器：
# 它拆分单词，直到获得可以用其词汇表表示的词元。
# transformer 就是这种情况，它被分成两个标记：transform 和 ##er。

['Using', 'a', 'Trans', '##former', 'network', 'is', 'simple']


## 从令牌/ tokens 到输入 ID

In [12]:
# 
# 到 输入 ID 的转换由 convert_tokens_to_ids（） 分词器方法处理：
ids = tokenizer.convert_tokens_to_ids(tokens)

print(ids)

[7993, 170, 13809, 23763, 2443, 1110, 3014]



#  Decoding  译码

In [None]:
# 
# HF
# 从词汇索引中，我们想要得到一个字符串。这可以通过 decode（） 方法完成，如下所示：

In [15]:
decoded_string = tokenizer.decode([7993, 170, 11303, 1200, 2443, 1110, 3014])
print(decoded_string)
# 请注意，decode 方法不仅将索引转换回标记，
# 而且还将属于相同单词的标记组合在一起，以生成可读的句子。
# 
# 当我们使用预测新文本的模型（从提示生成的文本，或者用于翻译或摘要等序列到序列问题）时，
# 这种行为将非常有用。

Using a transformer network is simple
