In [1]:
from transformers import AutoTokenizer

# Llama-2-7b-chat-hf

## Load Model

In [19]:
model_path = "Llama-2-7b-chat-hf"

In [20]:
tokenizer = AutoTokenizer.from_pretrained(model_path)
tokenizer

LlamaTokenizerFast(name_or_path='Llama-2-7b-chat-hf', vocab_size=32000, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>'}, clean_up_tokenization_spaces=False),  added_tokens_decoder={
	0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
}

In [21]:
# https://so.gushiwen.cn/shiwenv_d75a706935de.aspx
# 九月九日忆山东兄弟
# 王维〔唐代〕
sequences = ["独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人。"]

In [22]:
tokenizer.all_special_ids

[1, 2, 0]

In [23]:
tokenizer.all_special_tokens

['<s>', '</s>', '<unk>']

In [24]:
tokenizer.bos_token, tokenizer.bos_token_id

('<s>', 1)

In [25]:
tokenizer.eos_token, tokenizer.eos_token_id

('</s>', 2)

In [26]:
tokenizer.unk_token, tokenizer.unk_token_id

('<unk>', 0)

In [27]:
tokenizer.pad_token, tokenizer.pad_token_id

(None, None)

In [28]:
tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token, tokenizer.pad_token_id

('</s>', 2)

In [29]:
tokenizer.vocab_size

32000

## tokenizer([sequence])

In [30]:
inputs = tokenizer(
    sequences,                          # 句子
    truncation = True,                  # 超出max_length截断处理
    padding = True,                     # 填充方式选择 [True, 'longest', 'max_length', 'do_not_pad']
    max_length = 8192,                  # 最长长度,不设置默认为模型最大长度
    add_special_tokens = True,          # text添加特殊key
    return_length = True,               # 返回有效长度
    return_overflowing_tokens = False,  # 返回所有的文本片段（由于文本比较长，默认情况下超过预设截断长度的token会被丢失。如果设置了return_overflowing_tokens=True则会返回所有的token片段）。
    return_tensors = "pt"               # 返回数据格式 np pt tf jax
)

print(inputs.keys())
print(inputs["input_ids"])      # 对应文字id
print(inputs["attention_mask"]) # 对应是否是文字
print(inputs["length"])         # 对应总长度长度

dict_keys(['input_ids', 'attention_mask', 'length'])
tensor([[    1, 29871,   234,   142,   175, 30505,   232,   191,   133, 30574,
         30573,   232,   191,   133, 31915, 30214, 31951,   236,   131,   165,
           231,   192,   182, 31669,   232,   131,   144, 31579,   231,   189,
           181, 30267,   236,   132,   168, 31043,   232,   136,   135,   232,
           191,   162, 31451, 30528, 31548, 30214,   236,   132,   144,   233,
           146,   149,   235,   143,   180,   235,   147,   187, 31022, 30287,
         30313, 30267]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])
tensor([62])


In [31]:
tokenizer.decode(inputs["input_ids"][0], skip_special_tokens=True)

'独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人。'

In [32]:
tokenizer.batch_decode(inputs["input_ids"], skip_special_tokens=True)

['独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人。']

## test decode

In [67]:
sequences[0]

'独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人。'

In [66]:
seq_len = len(sequences[0])
seq_len

32

In [64]:
ids = inputs["input_ids"][0]
ids

tensor([    1, 29871,   234,   142,   175, 30505,   232,   191,   133, 30574,
        30573,   232,   191,   133, 31915, 30214, 31951,   236,   131,   165,
          231,   192,   182, 31669,   232,   131,   144, 31579,   231,   189,
          181, 30267,   236,   132,   168, 31043,   232,   136,   135,   232,
          191,   162, 31451, 30528, 31548, 30214,   236,   132,   144,   233,
          146,   149,   235,   143,   180,   235,   147,   187, 31022, 30287,
        30313, 30267])

In [43]:
ids_len = len(inputs["input_ids"][0])
ids_len

62

### 直接解码

In [84]:
for end_id in range(1, ids_len+1):
    print(tokenizer.decode(ids[:end_id], skip_special_tokens=True))



�
��
独
独在
独在�
独在��
独在异
独在异乡
独在异乡为
独在异乡为�
独在异乡为��
独在异乡为异
独在异乡为异客
独在异乡为异客，
独在异乡为异客，每
独在异乡为异客，每�
独在异乡为异客，每��
独在异乡为异客，每逢
独在异乡为异客，每����
独在异乡为异客，每�����
独在异乡为异客，每逢佳
独在异乡为异客，每逢佳节
独在异乡为异客，每逢佳节�
独在异乡为异客，每逢佳节��
独在异乡为异客，每逢佳节倍
独在异乡为异客，每逢佳节倍思
独在异乡为异客，每逢佳节倍思�
独在异乡为异客，每逢佳节倍思��
独在异乡为异客，每逢佳节倍思亲
独在异乡为异客，每逢佳节倍思亲。
独在异乡为异客，每逢佳节倍思亲。�
独在异乡为异客，每逢佳节倍思亲。��
独在异乡为异客，每逢佳节倍思亲。遥
独在异乡为异客，每逢佳节倍思亲。遥知
独在异乡为异客，每逢佳节倍思亲。遥知�
独在异乡为异客，每逢佳节倍思亲。遥知��
独在异乡为异客，每逢佳节倍思亲。遥知兄
独在异乡为异客，每逢佳节倍思亲。遥知����
独在异乡为异客，每逢佳节倍思亲。遥知�����
独在异乡为异客，每逢佳节倍思亲。遥知兄弟
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，�
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，��
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，����
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，�����
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，�������
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，��������
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，����������
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，�����������
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少
独在异乡为异客，每逢佳节倍思亲。遥知

### 缓存解码

In [86]:
# 解码失败的token
fail_token = "�"
decode_result = ""
for end_id in range(1, ids_len+1):
    decode_result = tokenizer.decode(ids[:end_id], skip_special_tokens=True)
    if fail_token not in decode_result:
        print(decode_result)



独
独在
独在异
独在异乡
独在异乡为
独在异乡为异
独在异乡为异客
独在异乡为异客，
独在异乡为异客，每
独在异乡为异客，每逢
独在异乡为异客，每逢佳
独在异乡为异客，每逢佳节
独在异乡为异客，每逢佳节倍
独在异乡为异客，每逢佳节倍思
独在异乡为异客，每逢佳节倍思亲
独在异乡为异客，每逢佳节倍思亲。
独在异乡为异客，每逢佳节倍思亲。遥
独在异乡为异客，每逢佳节倍思亲。遥知
独在异乡为异客，每逢佳节倍思亲。遥知兄
独在异乡为异客，每逢佳节倍思亲。遥知兄弟
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人。


### 缓存解码优化

In [82]:
# 解码失败的token
fail_token = "�"
decode_result = ""
start_id = 0
for end_id in range(1, ids_len+1):
    # 每次只解码最小字词的token
    temp_result = tokenizer.decode(ids[start_id:end_id], skip_special_tokens=True)
    # print(temp_result)
    # 解码一个字/词成功后,start_id 后移,保存解码结果
    if fail_token not in temp_result:
        start_id = end_id
        decode_result += temp_result
        print(decode_result)



独
独在
独在异
独在异乡
独在异乡为
独在异乡为异
独在异乡为异客
独在异乡为异客，
独在异乡为异客，每
独在异乡为异客，每逢
独在异乡为异客，每逢佳
独在异乡为异客，每逢佳节
独在异乡为异客，每逢佳节倍
独在异乡为异客，每逢佳节倍思
独在异乡为异客，每逢佳节倍思亲
独在异乡为异客，每逢佳节倍思亲。
独在异乡为异客，每逢佳节倍思亲。遥
独在异乡为异客，每逢佳节倍思亲。遥知
独在异乡为异客，每逢佳节倍思亲。遥知兄
独在异乡为异客，每逢佳节倍思亲。遥知兄弟
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人
独在异乡为异客，每逢佳节倍思亲。遥知兄弟登高处，遍插茱萸少一人。
