In [20]:
# 导入数据库
from transformers import AutoTokenizer

In [21]:
# 分词编码
text = "你好，今天过的怎样"

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/pythia-70m") #不同模型的分词编码器不同
encoded_text = tokenizer(text)["input_ids"]
encoded_text



[24553, 34439, 6238, 37248, 40120, 32004, 5225, 13258, 225, 43929]

In [22]:
# 分词解码
decoded_text=tokenizer.decode(encoded_text)
decoded_text

'你好，今天过的怎样'

In [23]:
# 列表编码
list_text = ["你好，今天过的怎样","还不错","你呢","也还行"]
encoded_text = tokenizer(list_text)
encoded_text["input_ids"]

[[24553, 34439, 6238, 37248, 40120, 32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97],
 [35724, 9078, 235, 16677]]

In [24]:
# 由于每段文字长度不一致，导致生成的编码长度也不一样，导致我们生成的tensor也不一样
# 我们需要使得编码的长度一样，操作相同长度的tensor
# 这时需要padding,也就是填充，填充是一种处理不同长度文本编码的方式

tokenizer.pad_token=tokenizer.eos_token #指定0词元，作为填充词元，同时也是文本结束的次元
encoded_texts_longest=tokenizer(list_text,padding=True)
encoded_texts_longest ["input_ids"]
# 可见，list中所有文本的长度都一致了，长度不对等的都被0填充了，一个编码就是一个词元

[[24553, 34439, 6238, 37248, 40120, 32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236, 0, 0, 0, 0, 0],
 [24553, 18617, 97, 0, 0, 0, 0, 0, 0, 0],
 [35724, 9078, 235, 16677, 0, 0, 0, 0, 0, 0]]

In [25]:
# 指令的长度是有限的，不能无限填充，除了填充之外，还有个截断操作
encoded_texts_truncation= tokenizer(list_text,max_length=5,truncation=True)
encoded_texts_truncation["input_ids"]

[[24553, 34439, 6238, 37248, 40120],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97],
 [35724, 9078, 235, 16677]]

In [26]:
# 但是往往文本中的重要信息都在右边，所以我们可以选择截断左边，防止重要信息被截断了
tokenizer.truncation_side='left'
encoded_texts_truncation_left= tokenizer(list_text,max_length=5,truncation=True)
encoded_texts_truncation_left["input_ids"]

[[32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97],
 [35724, 9078, 235, 16677]]

In [27]:
# 实际任务中，会同时开启填充和截断 
tokenizer.truncation_side='left'
encoded_texts_truncation_both= tokenizer(list_text,max_length=5,padding=True,truncation=True)
encoded_texts_truncation_both["input_ids"]

[[32004, 5225, 13258, 225, 43929],
 [9078, 235, 14274, 39915, 236],
 [24553, 18617, 97, 0, 0],
 [35724, 9078, 235, 16677, 0]]

In [28]:
# 实际使用中会设置分词编码器的最大长度
max_length=2048 # 设置最大长度

# 最大长度分词
tokenizer_inputs=tokenizer(text,return_tensors="np",truncation=True,max_length=max_length)
tokenizer_inputs["input_ids"]

array([[24553, 34439,  6238, 37248, 40120, 32004,  5225, 13258,   225,
        43929]])