可能可以简化代码？ #6

WuNein · 2023-11-14T08:46:27Z

此处

Line 91 in ff73694

orthogonal_loss = 0.

由于这边是跟没有梯度的lora(old)来计算正交，那直接在上一步把lora（old）save为pth是不是可以避免修改peft库了

import torch

# 假设 self.model 是你的模型
stacked_params = {}

for name, param in self.model.named_parameters():
    if "lora_" in name:
        stacked_params[name] = param.data.clone()  # 使用 clone() 复制参数并避免共享内存

# 保存堆叠的参数到文件
torch.save(stacked_params, "path/to/stacked_params.pth")

然后在trainer类里面加载

# 初始化一个字典来存储匹配的模块和对应的参数
matched_modules = {} #load pth

for name, param in self.model.named_parameters():
    if "lora_A" in name:
          # 匹配的模块名称和对应的参数
          param_ = matched_modules[name]

          orthogonal_loss += torch.abs(torch.mm(param, param_.T)).sum()  # [r * dim] * [dim * r]
          break  # target modules have been matched

大致这个意思

是不是就可以避免修改PEFT代码，方便很多？

The text was updated successfully, but these errors were encountered:

cmnfriend · 2023-11-14T08:50:41Z

可以的！👍

WuNein · 2023-11-14T13:00:44Z

哦对，有个问题我不懂就问了：）懒得再翻您改的PEFT代码了（不是
既然说是当前LoRA在之前LoRA的正交方向上更新的；那么当前的LoRA大概率是merge之前LoRA，以此为基础继续训练的吧？我没理解错吧

DumoeDss · 2023-11-17T15:09:44Z

哦对，有个问题我不懂就问了：）懒得再翻您改的PEFT代码了（不是既然说是当前LoRA在之前LoRA的正交方向上更新的；那么当前的LoRA大概率是merge之前LoRA，以此为基础继续训练的吧？我没理解错吧

训练完会进行merge
#5 (comment)

WuNein · 2023-11-17T15:24:15Z

哦对，有个问题我不懂就问了：）懒得再翻您改的PEFT代码了（不是既然说是当前LoRA在之前LoRA的正交方向上更新的；那么当前的LoRA大概率是merge之前LoRA，以此为基础继续训练的吧？我没理解错吧

训练完会进行merge #5 (comment)

我的疑惑在新的task的lora初始化上面，既然说是最后合并的，我姑且认为是随机初始化的~毕竟代码上loss要保证两个lora_a是正交的。

DumoeDss · 2023-11-17T16:03:02Z

话说照着你这样修改的话，原本的l2_loss就没有了吗？
最终的loss = loss + orthogonal_loss * lamda_1吗？

WuNein · 2023-11-18T03:41:33Z

话说照着你这样修改的话，原本的l2_loss就没有了吗？最终的loss = loss + orthogonal_loss * lamda_1吗？

你自己加上就好了，又不冲突…… 只是我懒得写了

DumoeDss · 2023-11-18T08:18:20Z

话说照着你这样修改的话，原本的l2_loss就没有了吗？最终的loss = loss + orthogonal_loss * lamda_1吗？

你自己加上就好了，又不冲突…… 只是我懒得写了

是直接用matched_modules进行计算吗？

l2_loss = 0.
        for name, param in matched_modules:
            l2_loss += torch.norm(param, p=2)

WuNein · 2023-11-19T03:57:06Z

话说照着你这样修改的话，原本的l2_loss就没有了吗？最终的loss = loss + orthogonal_loss * lamda_1吗？

你自己加上就好了，又不冲突…… 只是我懒得写了

是直接用matched_modules进行计算吗？
l2_loss = 0.
        for name, param in matched_modules:
            l2_loss += torch.norm(param, p=2)

完全不对吧，

# l2-normalization for loranew_A/B
        l2_loss = 0.
        for name, param in self.model.named_parameters():
            if "loranew_" in name:
                l2_loss += torch.norm(param, p=2)

原本代码里面写的是新的loranew，那么简化代码以后目标是

# l2-normalization for loranew_A/B
        l2_loss = 0.
        for name, param in self.model.named_parameters():
            if "lora_" in name:
                l2_loss += torch.norm(param, p=2)

lora_ 就是原本的lora_new啊，l2正则肯定是对现在task的参数进行的啊

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

可能可以简化代码？ #6

可能可以简化代码？ #6

WuNein commented Nov 14, 2023

cmnfriend commented Nov 14, 2023

WuNein commented Nov 14, 2023 •

edited

Loading

DumoeDss commented Nov 17, 2023

WuNein commented Nov 17, 2023

DumoeDss commented Nov 17, 2023

WuNein commented Nov 18, 2023

DumoeDss commented Nov 18, 2023 •

edited

Loading

WuNein commented Nov 19, 2023

可能可以简化代码？ #6

可能可以简化代码？ #6

Comments

WuNein commented Nov 14, 2023

cmnfriend commented Nov 14, 2023

WuNein commented Nov 14, 2023 • edited Loading

DumoeDss commented Nov 17, 2023

WuNein commented Nov 17, 2023

DumoeDss commented Nov 17, 2023

WuNein commented Nov 18, 2023

DumoeDss commented Nov 18, 2023 • edited Loading

WuNein commented Nov 19, 2023

WuNein commented Nov 14, 2023 •

edited

Loading

DumoeDss commented Nov 18, 2023 •

edited

Loading