## 使用Hugging Face的tokenizers库子词词元化

`tokenizers`是`Hugging Face`官方使用`Rust`编写的分词工具，提供了`Python`和`JavaScript`语言的接口调用。

安装：`pip install tokenizers`

In [1]:
import warnings
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=FutureWarning)

In [2]:
!pip freeze | grep tokenizers

curated-tokenizers==0.0.9
tokenizers==0.15.2


In [3]:
import torch
import tokenizers

我们可以搭建自己的分词器：https://huggingface.co/docs/tokenizers/main/en/quicktour

In [4]:
from transformers import AutoTokenizer

In [5]:
# 第一次会下载模型，会有一个进度条
# 后面再次运行，一般就是从缓存中加载模型了，缓存一般在：~/.cache/huggingface目录中
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

**次元分析器的重要属性：** 词表的大小、模型的最大上下文。

In [6]:
# 词表的大小
tokenizer.vocab_size

30522

In [7]:
# 模型的最大上下文大小
tokenizer.model_max_length

512

In [8]:
# 模型在前向传播中期望的字段名称
tokenizer.model_input_names

['input_ids', 'token_type_ids', 'attention_mask']

In [9]:
# 查看此表文件名称
tokenizer.vocab_files_names

{'vocab_file': 'vocab.txt', 'tokenizer_file': 'tokenizer.json'}

> 我们可以去huggingface.co网站上去查看[`bert-base-uncased`模型的文件列表](https://huggingface.co/google-bert/bert-base-uncased/tree/main)。
> 里面会有`vocab.txt`和`tokenizer.json`文件。

**下面让我们使用这个分词器，对文本词元化。**

In [10]:
text = "I love python and transformer."

In [11]:
encoded_text = tokenizer(text)
encoded_text

{'input_ids': [101, 1045, 2293, 18750, 1998, 10938, 2121, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1]}

In [12]:
tokenizer.encode(text)

[101, 1045, 2293, 18750, 1998, 10938, 2121, 1012, 102]

> 通过上面直接调用`tokenizer()`和`tokenizer.encode()`其返回值是不一样的。    
> 如果只关注次元的数字ID，可以用encode。应用中我们一般会使用`tokenizer()`。

In [13]:
tokenizer.tokenize(text)

['i', 'love', 'python', 'and', 'transform', '##er', '.']

In [14]:
# 把token的id列表，解码为文本
# 输出的时候：##会和前面的token相连接
tokenizer.decode([101, 1045, 2293, 18750, 1998, 10938, 2121, 1012, 102, 0, 0, 0])

'[CLS] i love python and transformer. [SEP] [PAD] [PAD] [PAD]'

In [15]:
# 把token的ids转换为字符串token
tokenizer.decode([100, 101, 102, 103, 0])

'[UNK] [CLS] [SEP] [MASK] [PAD]'

In [16]:
# 除了decode方法也可以通过convert_ids_to_tokens方法
# 不过前者返回的是一个字符串文本，后者返回的是token的字符串列表
tokenizer.convert_ids_to_tokens([100, 101, 102, 103, 0])

['[UNK]', '[CLS]', '[SEP]', '[MASK]', '[PAD]']

**直接返回张量：**

In [17]:
tokenizer(text, padding="max_length", max_length=15, return_tensors="pt")

{'input_ids': tensor([[  101,  1045,  2293, 18750,  1998, 10938,  2121,  1012,   102,     0,
             0,     0,     0,     0,     0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]])}

In [18]:
tokenizer.encode(text, padding="max_length", max_length=15, return_tensors="pt")

tensor([[  101,  1045,  2293, 18750,  1998, 10938,  2121,  1012,   102,     0,
             0,     0,     0,     0,     0]])

**直接返回张量，且填充为15的长度**。

In [19]:
tokenizer.vocab_files_names

{'vocab_file': 'vocab.txt', 'tokenizer_file': 'tokenizer.json'}