有一个代码上的问题 #212

wujohns · 2023-05-06T07:52:33Z

在本工程中采用了以下方式重写 Trainer 的 save_model 方法：

class ModifiedTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False):
        return model(
            input_ids=inputs["input_ids"],
            labels=inputs["labels"],
        ).loss

    def save_model(self, output_dir=None, _internal_call=False):
        from transformers.trainer import TRAINING_ARGS_NAME

        os.makedirs(output_dir, exist_ok=True)
        torch.save(self.args, os.path.join(output_dir, TRAINING_ARGS_NAME))
        saved_params = {
            k: v.to("cpu") for k, v in self.model.named_parameters() if v.requires_grad
        }
        torch.save(saved_params, os.path.join(output_dir, "adapter_model.bin"))

但依据 peft 的实现原理，应该也可以采用以下更简便的方式来对 Trainer 的 save_mode 方法做重写：

class ModifiedTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False):
        return model(
            input_ids=inputs["input_ids"],
            labels=inputs["labels"],
        ).loss

    def save_model(self, output_dir=None, _internal_call=False):
        self.model.save_pretrained(output_dir)

这边想问一下这两者有什么区别吗，手动采取 torch 来存储 lora 模型参数和配置是由于这个场景下 save_pretrained 表现会有异常?
PS: 这里按照 self.model.save_pretrained(output_dir) 的方式（即第二种方式）跑了一下，发现没有训练部分以及训练后的推理都没有出现异常，所以比较好奇想问一下

The text was updated successfully, but these errors were encountered:

mymusise · 2023-05-08T01:38:24Z

应该几乎等价，后者应该更好，每个checkpoint里面还会存下config.json

wujohns · 2023-05-08T23:03:52Z

应该几乎等价，后者应该更好，每个checkpoint里面还会存下config.json

OK，感谢说明，lora 的训练效果还是挺不错的，loss 降低到 1 ~ 3 时风格迁移挺明显的，训练速度也挺快，不过对数据集的要求还是挺高的

dongteng · 2023-05-18T00:27:59Z

借楼，请问这个class ModifiedTrainer(Trainer): def compute_loss(self, model, inputs, return_outputs=False): return model( input_ids=inputs["input_ids"], labels=inputs["labels"], ).loss
loss的具体计算方式该怎么看呀

wujohns · 2023-05-18T00:32:30Z

借楼，请问这个class ModifiedTrainer(Trainer): def compute_loss(self, model, inputs, return_outputs=False): return model( input_ids=inputs["input_ids"], labels=inputs["labels"], ).loss loss的具体计算方式该怎么看呀

这块逻辑貌似是在 chatglm 的源码实现中来做的，具体应该可以看下 chatglm 的 huggingface 版本的 model 代码部分

ssgg-code · 2024-02-29T09:46:28Z

非常奇怪的一点，我直接改用self.model.save_pretrained(output_dir)有效，但是用源代码重写的save_model()保存的adapter.bin去加载lora模型，其生成结果和chatglm本身没有差距。我发现有不少人都遇到了相同的问题，不太能理解这种问题为什么对部分人存在。

wujohns closed this as completed May 8, 2023

frozenarctic mentioned this issue Jun 28, 2023

Lora微调chatglm-6b后chekpoint里面缺乏adapter_config.json文件 #250

Open

ssgg-code mentioned this issue Feb 29, 2024

关于保存的adapter_model.bin无实际推理效果的问题 #273

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

有一个代码上的问题 #212

有一个代码上的问题 #212

wujohns commented May 6, 2023

mymusise commented May 8, 2023

wujohns commented May 8, 2023

dongteng commented May 18, 2023

wujohns commented May 18, 2023

ssgg-code commented Feb 29, 2024

有一个代码上的问题 #212

有一个代码上的问题 #212

Comments

wujohns commented May 6, 2023

mymusise commented May 8, 2023

wujohns commented May 8, 2023

dongteng commented May 18, 2023

wujohns commented May 18, 2023

ssgg-code commented Feb 29, 2024