# GenAI HW5: LLM Fine-tunning
该任务包含微调一个大语言模型使其能够写唐诗。
**TODOs**
1. 阅读作业幻灯片，确保你理解该作业的目标。
2. 保存一份本 Colab 笔记本的副本。
3. 按照本 Colab 笔记本中的步骤微调你的 LLM。
4. 使用达哥批改助教评估输出
5. 将结果更新到 NTU COOL
6. （可选）使用 [评分解析程序]() 检查你的分数


## 启动GPU
因为要微调模型，必须启动GPU，这样工作能够在合理的时间（1-2h）内完成✅。

In [2]:
import os
import sys
import argparse
import json
import warnings
import logging
warnings.filterwarnings("ignore")

import torch
import torch.nn as nn
import bitsandbytes as bnb
from datasets import load_dataset, load_from_disk
import transformers, datasets
from peft import PeftModel
from colorama import *

from tqdm import tqdm
from transformers import AutoTokenizer, AutoConfig, AutoModelForCausalLM, BitsAndBytesConfig
from transformers import GenerationConfig
from peft import (
    prepare_model_for_int8_training,
    LoraConfig,
    get_peft_model,
    get_peft_model_state_dict,
    prepare_model_for_kbit_training,
)

'NoneType' object has no attribute 'cadam32bit_grad_fp32'


### 填入随机种子
当引入微调过程时会引入随机性，填入随机种子可以使结果可复制

In [3]:
import torch.backends
'''
这段代码的作用是设置随机数种子以确保可重复性。
首先将变量 seed 设置为 42。
然后设置 PyTorch 的 cuDNN 后端为确定性模式并且关闭基准测试模式。
接着使用 torch.manual_seed (seed) 设置 CPU 上的随机数生成器的种子。
如果有可用的 GPU，则使用 torch.cuda.manual_seed_all (seed) 
设置所有 GPU 上的随机数生成器的种子。这样可以使得在不同的运行环境下，
代码的随机性结果保持一致，便于调试和复现实验结果。
'''
seed = 42
torch.backends.cudnn.dereministic = True
torch.backends.cudnn.benchmark = False
torch.manual_seed(seed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(seed)

### 定义一些有用的函数


In [4]:
# 生成训练资料
def generate_training_data(data_point):
    """
    1.目标
        - 该函数将数据（输入和输出的文本）转换成模型可以读懂的tokens

    2.参数
        - data_point: 输入的文本，字典类型，字段"instruction","input","output"都是str

    3.返回值
        - 一个包含模型输入标记、使模型具有因果性的注意力掩码以及相应输出目标的字典
    """
    # 构造完整的输入prompt
    prompt = f"""\
[INST] <<SYS>>
You are a helpful assistant and good at writing Tang poem. 你是一个乐于助人的助手而且擅长写唐诗。
<</SYS>>

{data_point["instruction"]}
{data_point["input"]}
"""
    # 计数输入的token数量
    # 即统计经过分词器后的
    len_user_prompt_tokens = (
        len(
            tokenizer(
                prompt,
                truncation=True,
                max_length=CUTOFF_LEN + 1,
                padding="max_length",
            )["input_ids"]
        ) - 1
    )
    # 将输入转化为tokens
    full_tokens = tokenizer(
        prompt + " " + data_point["output"] + "</s>",
        truncation=True, # 如果超过最大长度 截断处理
        max_length=CUTOFF_LEN + 1,
        padding="max_length",
    )["input_ids"][:-1]
    return {
        "input_ids": full_tokens, # 输入为样本的全部token
        "labels": [-100] * len_user_prompt_tokens + 
        full_tokens[len_user_prompt_tokens:], # 前半部分-100表示忽略，后半部分为实际输出的tokens
        "attention_mask" : [1] * (len(full_tokens)), # 全为1表示所有位置都参与注意力机制
    }

# 进行生成回复的评估
def evaluate(instruction, generation_config, max_len, input="", verbose=True):
    """
    1.目标
        - 该函数用于得到给定输入模型的输出

    2.参数
        - instruction: str, 让模型想做什么的描述
        - generation_config: dict, 模型生成配置，
          transformers.GenerationConfig类用于控制语言模型的文本生成过程。
          它允许用户指定各种参数，如生成的文本长度、生成策略、温度（temperature）设置等，
          从而根据具体的需求和场景定制文本生成的行为。
        - max_len: int, 模型输出最大长度
        - input: str, 模型输入的文本，被用于解决instruction
        - verbose: bool, 是否打印输出
    
    3.返回值
        - output: str, 根据输入和描述产生模型回复的模型输出的文本

    """
    # 构造全部prompt
    prompt = f"""
[INST] <<SYS>>
You are a helpful assistant and good at writing Tang poem. 你是一个乐于助人的助手而且擅长写唐诗。
<</SYS>>

{instruction}
{input}
[/INST]"""
    # 将提示文本转换为模型所需的数字表示
    inputs = tokenizer(prompt, return_tensors="pt")
    #input_ids = inputs["input_ids"].cuda() # 将输入转换为GPU上的张量
    input_ids = inputs["input_ids"]
    # 使用模型进行生成回复 使用的是大模型的generate函数
    generation_output = model.generate(
        input_ids=input_ids, # 输入文本的编码（描述+文本）
        generation_config=generation_config, # 生成配置
        return_dict_in_generate=True, # 返回字典
        output_scores=True, # 返回分数
        max_new_tokens=max_len, # 最大长度
    )
    # 将生成的回复解码（成文字）并打印出
    for s in generation_output.sequences:
        output = tokenizer.decode(s)
        output = output.split("[/INST]")[1].replace("</s>", "").replace("Assistant:", "").replace("Assistant", "").strip()
        if (verbose):
            print(output)
        
    return output

### 在微调之前下载模型并进行推理
#### 下载

In [5]:
#model_name = "../../chatglm3-6b/" # 暂时先用智谱的6b的大模型

#model_name = "MediaTek-Research/Breeze-7B-Instruct-v0_1" 
# 选择 MediaTek Breeze 7B 模型，因为 TAIDE 模型可能遇到下载次数过多无法访问。
# 实际上换其他的开源大模型一样可以，并不影响学习。

#model_name = "/content/taide_7b" # for colab
model_name = "../../taide_7b" # 要微调的大模型名称
# 等待未来下载成功吧
#!wget -O taide_7b.zip "https://www.dropbox.com/scl/fi/rlzdoidgejt9wiox88gz5/taide_7b.zip?rlkey=vtuc8xq7mq2d0dpuijxlb3jfj&dl=0"
#!unzip taide_7b.zip
#os.listdir("../../chatglm3-6b")

In [6]:
#!export HF_ENDPOINT=https://hf-mirror.com
#!huggingface-cli login --token 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

#### 推理
查看微调之前模型完成得怎么样

In [7]:
'''建议：不修改'''

cache_dir = "cache_file/fine_tuning_cache"

# 模型参数设置 加载模型的方式
nf4_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
)
try:
    # 从指定的模型名称或路径载入预训练的语言模型
    model = AutoModelForCausalLM.from_pretrained(
        pretrained_model_name_or_path=model_name, # 模型名称或路径，这里是路径
        cache_dir=cache_dir,
        quantization_config=nf4_config,
        low_cpu_mem_usage=True,
    )
except:
    print("模型加载出现了问题，可能是以下的问题之一: \n（1）在Mac上加载模型；\n（2）模型名称错误；\n（3）其他设置错误.")
# 遇到错误 查了一下大概率是mac上面无法以4bit或者8bit上加载模型
# 大概率需要用到GPU 呜呼呼 没有服务器寸步难行哦


# 设置名为“transformer”的日志记录器的日志级别为 ERROR。
# 这意味着只有严重错误级别及以上的日志消息会被记录下来，
# 而低于 ERROR 级别的日志消息（如 DEBUG、INFO 和 WARNING）将被忽略。
logging.getLogger("transformer").setLevel(logging.ERROR) 
# 创建tokenizer并设定结束符号（eos_token）
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    add_eos_token=True,
    cache_dir=cache_dir,
    quantization_config=nf4_config,
    padding_side="left",
)
tokenizer.pad_token = tokenizer.eos_token

# 设定模型推理时需要用到的decoding patameters
max_len = 128
generation_config = GenerationConfig(
    do_sample=True,         # 以采样的方式生成文本 适合诗歌
    tempture=0.1,           # 知识问答采用较低的温度
    num_beams=1,            # 束搜索宽度 
    top_p=0.3,              # 核采样阈值 避免不合理的词汇 并保证文本的随机性
    no_repeat_ngram_size=2, # 禁止重复2-gram
    pad_token_id=2,         # 填充token对应的id
)


模型加载出现了问题，可能是以下的问题之一: 
（1）在Mac上加载模型；
（2）模型名称错误；
（3）其他设置错误.


In [8]:
# 尝试不加那些限制参数 竟然成功了
model = AutoModelForCausalLM.from_pretrained(
        pretrained_model_name_or_path=model_name
)

进行推理

In [None]:
# 不建议更改

# 小样示例
test_tang_list = ['相見時難別亦難，東風無力百花殘。', '重帷深下莫愁堂，臥後清宵細細長。', '芳辰追逸趣，禁苑信多奇。']

# 为每个样本得到模型输出
demo_before_fintune = []
for tang in test_tang_list:
    demo_before_fintune.append(f"模型输入:\n以下是一首唐诗的第一句话，请用你的认知判断并完成整首诗。{tang}\n\n模型输出:\n"
                               +evaluate("以下是一首唐诗的第一句话，请用你的认知判断并完成整首诗。",
                                         generation_config=generation_config,
                                         max_len=max_len,
                                         input=tang,
                                         verbose=False
                                         ))
    
# 打印并存储结果到文件中
for idx in range(len(demo_before_fintune)):
    print(f"Example {idx + 1}")
    print(demo_before_fintune[idx])
    print("_" * 80)

# 2025/1/8 22:40 推理了30min也没有出现结果 用本地推理还是慢啊


#### 设置微调过程的超参数

In [9]:
'''建议修改下面的参数'''
num_train_data = 1040 # 设定用于训练的资料数量，可设置的最大值为5000，在大部分情况下希望训练资料越多越好
                      # 这会让模型看复哦更多样化的诗句，进而提升生成品质，但也会增加训练的时间
                      # 使用预设参数（1040）：fine-tuning大越需要25min，完整跑完所有cell大越需要50min
                      # 使用最大值（5000）：fine-tuning大越需要100min，完整跑完所有cell大越需要2h

In [10]:
'''必要情况下可以修改下面的代码'''

#output_dir = "/content/drive/MyDrive" # for colab
output_dir = "hm_save/hm5"
ckpt_dir = "hm_save/hm5_ckpt" # 设定model checkpoint存储目录
num_epoch = 1 # 设定训练的总Epoch数
LEARNING_RATE = 3e-4 # 学习率


In [11]:
'''不建议修改下买的代码'''

cache_dir = "cache_file/fine_tuning_cache" # 缓存目录
from_ckpt = False # 是否从checkpoint载入模型的权重
ckpt_name = None # 模型权重文件名
dataset_dir = "hm_dataset/GenAI-Hw5/Tang_training_data.json"
logging_steps = 20 # 20步输出一次训练日志
save_steps = 65 # 定义训练过程中每隔多少步骤保存一次模型
save_total_limit = 3 # 控制最多保留几个模型checkpoint
report_to = None # 设定上报与指标的目标，预设为无
MICRO_BATCH_SIZE = 4 # 定义小批次的大小
BATCH_SIZE = 16 # 定义一个批次的大小
GRADIENT_ACCUMULATION_STEPS = BATCH_SIZE // MICRO_BATCH_SIZE # 计算每个小皮刺累积的梯度布署
CUTOFF_LEN = 256 # 设定文本截断的最大长度

# LoRA微调参数（此lora非彼lora）
LORA_R = 8 # 设定LORA（Layer-wise Random Attention）的R值
LORA_ALPHA = 16 # 设定LORA的alpha值     
LORA_DROPOUT = 0.05 # 设定LORA的dropout值
VAL_SET_SIZE = 0 # 设定验证集大小 预设为无
TARGET_MODULES = [
    "q_proj",
    "up_proj",
    "o_proj",
    "k_proj",
    "down_proj",
    "gate_proj",
    "v_proj",
]# 设定目标膜组，这些膜组的权重将被保存为checkpoint文件

device_map = "auto" # 设定设备映射，auto表示自动映射
world_size= int(os.environ.get("WORLD_SIZE", 1)) # 获取环境变量WORLD_SIZE的值，如果没有设置，则默认为1
ddp = world_size != 1 # 根据world_size的值判断是否使用分布式训练
if ddp:
    device_map = {"": int(os.environ.get("LOCAL_RANK") or 0)}
    GRADIENT_ACCUMULATION_STEPS = GRADIENT_ACCUMULATION_STEPS // world_size


### 开始微调

In [None]:
'''不建议修改以下代码'''

# 创造输出路径
os.makedirs(output_dir, exist_ok=True)
os.makedirs(ckpt_dir, exist_ok=True)

# 根据from_ckpt标志，从checkpoint载入模型权重
if from_ckpt:
    print('Loading from checkpoint:', from_ckpt)
    model = PeftModel.from_pretrained(model, ckpt_name)

# 将模型准备好以使用INT8训练
# 这里估计在mac上也不会行得通
config = LoraConfig(
    r=LORA_R, # LORA rank           # LoRA的秩 控制低秩矩阵的维度
    lora_alpha=LORA_ALPHA,          # 学习率因子 影响LoRA层的学习速率
    target_modules=TARGET_MODULES,  # 指定需要应用的LoRA模块列表
    lora_dropout=LORA_DROPOUT,      # 设置LoRA层中的dropout概率
    bias="none",                    # 不使用偏执项
    task_type="CAUSAL_LM"           # 指定任务类型为因果语言模型
)
model = get_peft_model(model, config)

# 将tokenizer的padding token设定为0
# pad_token_id 是用于填充序列的特殊标记 ID
# 通常在处理不同长度的输入序列时使用，以确保所有序列具有相同的长度
tokenizer.pad_token_id = 0

# 加载并处理训练数据
with open(dataset_dir, "r", encoding = "utf-8") as f:
    data_json = json.load(f)

tmp_dataset = "hm_dataset/GenAI-Hw5/tmp_dataset.json"
with open(tmp_dataset, "w", encoding = "utf-8") as f:
    json.dump(data_json[:num_train_data], f, indent=2, ensure_ascii=False)

data = load_dataset(
    "json", 
    data_files=tmp_dataset, 
    download_mode="force_redownload"
    )

# 将训练数据分为训练集和验证集
if VAL_SET_SIZE > 0:
    train_val = data["train"].train_test_split(
        test_size=VAL_SET_SIZE,
        shuffle=True,
        seed=42,
    )
    train_data = train_val["train"].shuffle().map(generate_training_data)
    val_data = train_val["test"].shuffle().map(generate_training_data)
else:
    train_data = data["train"].shuffle().map(generate_training_data)
    val_data = None
#'''
# 使用Transformer Trainer进行模型训练
trainer = transformers.Trainer(
    model=model, # 要训练的模型
    train_dataset=train_data,
    eval_dataset=val_data,
    args=transformers.TrainingArguments(
        per_device_train_batch_size=MICRO_BATCH_SIZE,
        gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
        warmup_steps=50,
        num_train_epochs=num_epoch,
        learning_rate=LEARNING_RATE,
        #fp16=True, # 使用混合精度训练
        logging_steps=logging_steps,
        save_strategy="steps",
        save_steps=save_steps,
        output_dir=ckpt_dir,
        save_total_limit=save_total_limit,
        ddp_find_unused_parameters=False if ddp else None, # 是否使用DDP 控制梯度更新策略
        report_to=report_to,
    ),
    # 处理输入数据，不进行掩码语言建模
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),
)

# 仅用模型的cache功能
model.config.use_cache = False

# 若使用 Pytorch 2.0 以上版本且非 Windows 系统， 进行模型编译
if torch.__version__ >= "2" and sys.platform != "win32":
    model = torch.compile(model)
#'''

Generating train split: 0 examples [00:00, ? examples/s]

Map:   0%|          | 0/1040 [00:00<?, ? examples/s]

'\n# 使用Transformer Trainer进行模型训练\ntrainer = transformers.Trainer(\n    model=model, # 要训练的模型\n    train_dataset=train_data,\n    eval_dataset=val_data,\n    args=transformers.TrainingArguments(\n        per_device_train_batch_size=MICRO_BATCH_SIZE,\n        gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,\n        warmup_steps=50,\n        num_train_epochs=num_epoch,\n        learning_rate=LEARNING_RATE,\n        #fp16=True, # 使用混合精度训练\n        logging_steps=logging_steps,\n        save_strategy="steps",\n        save_steps=save_steps,\n        output_dir=ckpt_dir,\n        save_total_limit=save_total_limit,\n        ddp_find_unused_parameters=False if ddp else None, # 是否使用DDP 控制梯度更新策略\n        report_to=report_to,\n    ),\n    # 处理输入数据，不进行掩码语言建模\n    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False),\n)\n\n# 仅用模型的cache功能\nmodel.config.use_cache = False\n\n# 若使用 Pytorch 2.0 以上版本且非 Windows 系统， 进行模型编译\nif torch.__version__ >= "2" and sys.platform !=

##### 开始训练

In [None]:
# 开始训练模型
trainer.train()

# 将训练完的模型保存到指定的目录中
model.save_pretrained(ckpt_dir)

# 打印训练过程中可能缺失权重的警告信息
print("\n 如果上面有关于丢失关键词的警告，请忽略 :)")

#### 测试

首先加载微调模型ckpt

In [12]:
'''不建议修改下面代码'''

# 找到所有可用checkpoints
ckpts = []
for ckpt in os.listdir(ckpt_dir):
    if (ckpt.startswith("checkpoint-")):
        ckpts.append(ckpt)

# 罗列所有的checkpoints
ckpts = sorted(ckpts, key=lambda ckpt: int(ckpt.split("-")[-1]))
print("所有可用checkpoint: ")
print(" id: checkpoint name")
for (i, ckpt) in enumerate(ckpts):
    print(f"{i:>3} : {ckpt}")

所有可用checkpoint: 
 id: checkpoint name


In [None]:
'''下面的代码可以但是没必要更改'''

id_of_ckpt_to_use = -1 # 要用来进行推理的checkpoint的id（对应上一个cell输出的结果）
                       # 预设值-1指的是上列checkpoints中倒数第一个 也就是最后一个checkpoint
                       # 如果想要选择其他checkpoint 可以把-1改成其他的数字

ckpt_name = os.path.join(ckpt_dir, ckpts[id_of_ckpt_to_use])

In [13]:
'''下面的代码可以更改但是没必要'''
# 可以在这里调整encoding parameter，decoding parameter
max_len = 128 # 生成回复的最大长度
temperature = 0.1 # 设定生成回复的随机度 值越小生成的回复越稳定
top_p = 0.3 # Top-p(nucleus sampling)抽样的概率阈值 用于控制生成回复的多样性
#top_k = 3 # 调整Top-k值 以增加生成回复的多样性和避免生成重复的词条

In [None]:
'''不推荐下面的代码'''

test_data_path = "hm_dataset/GenAI-Hw5/Tang_testing_data.json"
output_path = os.path.join(output_dir, "results.txt")

cache_dir = "cache_dir\fine_tuing_cache" # 设定快取目录路径
seed = 42 # 设定随机种子 用于重现结果
no_repeat_ngram_size = 3 # 设定禁止重复Ngram的大小 用于避免生成重复片段

nf4_config = BitsAndBytesConfig(
    load_in_4bit=True, # 启用四位量化
    bnb_4bit_quant_type="nf4", # 指定量化类型为nf4
    bnb_4bit_use_double_quant=True, # 启用双重量化
    bnb_4bit_compute_dtype=torch.bfloat16, # 设置计算数据类型为bfloat16
)
# 这些配置通常用于优化模型在低精度硬件上的性能和内存使用

# 使用tokenizer将模型名称转换成模型可识的数组表示形式
tokenizer = AutoTokenizer.from_pretrained(
    pretrained_model_name_or_path=model_name, # 指定模型名称
    cache_dir=cache_dir, # 指定缓存目录
    quantization_config=nf4_config, # 应用量化配置
    use_fast=False,
)

# 从预训练模型载入模型并设定为8位整数（INT8）模型
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=nf4_config,
    device_map={"":0}, # 设定使用的设备 此处指定为GPU0
    cache_dir=cache_dir,
)

# 从指定的checkpoint早入模型权重
model = PeftModel.from_pretrained(model, ckpt_name, device_map={"":0})


##### 测试

In [None]:
'''不建议修改下面的代码'''

results = []

# 设定生成配置 包括随机度 束搜索等相关参数
generation_config = GenerationConfig(
    do_sample=True,
    temperature=temperature,
    num_beams=1,
    top_p=top_p,
    #top_k = top_k,
    no_repeat_ngram_size=no_repeat_ngram_size,
    pad_token_id=2,
)

# 读取测试资料
with open(test_data_path, "r", encoding="utf-8") as f:
    test_data = json.load(f)

# 对于每个测试资料进行预测 并存下结果
#'''
with open(output_path, "w", encoding="utf-8") as f:
    for (i, test_data) in enumerate(test_data):
        predict = evaluate(instruction=test_data["instruction"], 
                           generation_config=generation_config,
                           max_len=max_len,
                           input=test_data["input"],
                           verbose=False)
        f.write(f"{i+1}. " + test_data["input"] + predict + "\n")
        print(f"{i+1}. " + test_data["input"] + predict)
#'''

#### 查看微调模型如何比得上没有微调的模型

In [None]:
# 像之前一样使用相同的测试例子
test_tang_list = ['相見時難別亦難，東風無力百花殘。', '重帷深下莫愁堂，臥後清宵細細長。', '芳辰追逸趣，禁苑信多奇。']

# 在模型微调之前推理
demo_after_finetue = []
for tang in test_tang_list:
    demo_after_finetue.append(f"模型输入:\n以下是一首唐诗的第一句，请用你的知识判断并完成整首诗。{tang}\
                              \n\n模型输出:\n"+evaluate(instruction="以下是一首唐诗的第一句，请用你的知识判断并完成整首诗",
                                                       generation_config=generation_config,
                                                       max_len=max_len,
                                                       input=tang,
                                                       verbose=False))
    
    # 打印并存储结果到文本文件中
    for idx in range(len(demo_after_finetue)):
        print(f"Example {idx + 1}:")
        print(demo_after_finetue[idx])
        print("-"*80)

---
#### 分割线
下面是我自己的测试

In [21]:
test_data_path = "hm_dataset/GenAI-Hw5/Tang_testing_data.json"
output_path = os.path.join(output_dir, "results.txt")
with open(test_data_path, "r", encoding="utf-8") as f:
    test_data = json.load(f)

In [24]:
test_data[0]

{'instruction': '以下是一首唐詩的第一句話，請用你的知識判斷並完成整首詩。', 'input': '雪霽銀妝素，桔高映瓊枝。'}

In [None]:
'''在Mac上进行推理的简单函数'''

def easy_evaluate(instruction, max_len, input="", verbose=True):
    # construct full input prompt
    prompt = f"""\
[INST] <<SYS>>
You are a helpful assistant and good at writing Tang poem. 你是一個樂於助人的助手且擅長寫唐詩。
<</SYS>>

{instruction}
{input}
[/INST]"""
    # 將提示文本轉換為模型所需的數字表示形式
    inputs = tokenizer(prompt, return_tensors="pt")
    input_ids = inputs["input_ids"]
    # 使用模型進行生成回覆
    generation_output = model.generate(
        input_ids=input_ids,
        #generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        max_new_tokens=max_len,
    )
    # 將生成的回覆解碼並印出
    for s in generation_output.sequences:
        output = tokenizer.decode(s)
        output = output.split("[/INST]")[1].replace("</s>", "").replace("<s>", "").replace("Assistant:", "").replace("Assistant", "").strip()
        if (verbose):
            print(output)

    return output

output = easy_evaluate(instruction=test_data[0]["instruction"],
                       max_len=max_len,
                       input=test_data[0]["input"],
                       verbose=True)
# 推理速度怎么这么慢哪 二十多分钟都没推理完 难道真的是GPU才可以吗？😭

In [None]:
for name, param in model.named_parameters():
    print(f"Parameter name: {name}, Shape: {param.shape}")

In [15]:
print(model.config)

LlamaConfig {
  "_name_or_path": "../../taide_7b",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "attention_bias": false,
  "attention_dropout": 0.0,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 11008,
  "max_position_embeddings": 4096,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 32,
  "pretraining_tp": 1,
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "rope_theta": 10000.0,
  "tie_word_embeddings": false,
  "torch_dtype": "float16",
  "transformers_version": "4.38.2",
  "use_cache": true,
  "vocab_size": 56064
}



In [29]:
with open(dataset_dir, "r", encoding = "utf-8") as f:
    data_json = json.load(f)
    
prompt = f"""\
[INST] <<SYS>>
You are a helpful assistant and good at writing Tang poem. 你是一个乐于助人的助手而且擅长写唐诗。
<</SYS>>

{data_json[0]["instruction"]}
{data_json[0]["input"]}
"""

prompt

'[INST] <<SYS>>\nYou are a helpful assistant and good at writing Tang poem. 你是一个乐于助人的助手而且擅长写唐诗。\n<</SYS>>\n\n以下是一首唐詩的第一句話，請用你的知識判斷並完成整首詩。\n秦川雄帝宅，函谷壯皇居。\n'

In [31]:

s = tokenizer(
    prompt,
    truncation=True,
    max_length=CUTOFF_LEN + 1,
    padding="max_length",
)["input_ids"]

In [32]:
tokenizer.decode(s)

'</s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s></s><s> [INST] <<SYS>>\nYou are a helpful assistant and good at writing Tang poem. 你是一个乐于助人的助手而且擅长写唐诗。\n<</SYS>>\n\n以下是一首唐詩的第一句話，請用你的知識判斷並完成整首詩。\n秦川雄帝宅，函谷壯皇居。\n</s>'