In [19]:
# 导入数据库
from transformers import AutoTokenizer

In [20]:
# 分词编码

## 创建文本
text = "你好，今天过的怎样"

## 加载分词器（对应模型）
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pythia-70m") 

## 分词编码
encoded_text = tokenizer(text)["input_ids"]
encoded_text

[24553, 34439, 6238, 37248, 40120, 32004, 5225, 13258, 225, 43929]

In [21]:
# 分词解码
decoded_text=tokenizer.decode(encoded_text)
decoded_text

'你好，今天过的怎样'

In [22]:
# 列表分词编码
list_text = ["你好，今天过的怎样","还不错","你呢","也还行"]
encoded_text = tokenizer(list_text)
encoded_text["input_ids"]

[[24553, 34439, 6238, 37248, 40120, 32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97],
 [35724, 9078, 235, 16677]]

In [23]:
# 文字长度不一致，生成的编码长度也不一致，需要操作相同长度的编码tensor
# 需要padding填充，填充是一种处理不同长度文本编码的方式

## 指定0，作为填充词元，同时也是文本结束的次元
tokenizer.pad_token=tokenizer.eos_token 

## padding 填充
encoded_texts_longest=tokenizer(list_text,padding=True)
encoded_texts_longest ["input_ids"]

[[24553, 34439, 6238, 37248, 40120, 32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236, 0, 0, 0, 0, 0],
 [24553, 18617, 97, 0, 0, 0, 0, 0, 0, 0],
 [35724, 9078, 235, 16677, 0, 0, 0, 0, 0, 0]]

In [24]:
# 指令的长度是有限的，不能无限填充，除了填充之外，还有个截断操作 truncation=True

## 设置最大长度，对超过长度的进行截断
encoded_texts_truncation= tokenizer(list_text,max_length=5,truncation=True)
encoded_texts_truncation["input_ids"]

[[24553, 34439, 6238, 37248, 40120],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97],
 [35724, 9078, 235, 16677]]

In [25]:
# 往往文本中的重要信息都在右边，所以我们可以选择截断左边，防止重要信息被截断

## 设置左截断
tokenizer.truncation_side='left'

## 截断
encoded_texts_truncation_left= tokenizer(list_text,max_length=5,truncation=True)
encoded_texts_truncation_left["input_ids"]

[[32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97],
 [35724, 9078, 235, 16677]]

In [26]:
# 实际任务中，会同时开启填充和截断 

## 设置左截断
tokenizer.truncation_side='left'

## 开启填充和截断
encoded_texts_truncation_both= tokenizer(list_text,max_length=5,padding=True,truncation=True)
encoded_texts_truncation_both["input_ids"]

[[32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97, 0, 0],
 [35724, 9078, 235, 16677, 0]]

In [27]:
# 分词编码的最大长度是有限的，不能无限输入
max_length=2048 # 设置最大长度

# 最大长度分词
tokenizer_inputs=tokenizer(text,return_tensors="np",truncation=True,max_length=max_length)
tokenizer_inputs["input_ids"]

array([[24553, 34439,  6238, 37248, 40120, 32004,  5225, 13258,   225,
        43929]])