LoRA-Pro Implemention (#10146)

FireDog2 · web-flow · commit d67eaa42f1ed · 2025-05-28T19:25:24.000+08:00
* lorapro提交

* Fix issues in LoraPro tests and configuration

* Fix loRA-Pro test files bugs

* lorapro pr修改

* Trigger CI re-run
diff --git a/llm/docs/finetune.md b/llm/docs/finetune.md
@@ -236,6 +236,7 @@ python ./predict/reft_predictor.py \
 - `strategy_type`: 长序列扩展策略的类型，默认为 None。
 - `strategy_name`: 长序列扩展策略的具体名称，默认为 None。
 - `rope_scaling_factor`: 应用 RoPE 扩展策略时的缩放因子。
+- `lorapro`: 是否开启 LoRA-Pro 策略。
 </div>
 
 <summary>&emsp; 数据参数（DataArgument）</summary><div>
diff --git a/llm/run_finetune.py b/llm/run_finetune.py
@@ -14,6 +14,7 @@
 # import inspect
 import json
 import logging
+import math
 import os
 import sys
 from functools import partial
@@ -76,6 +77,7 @@
     init_chat_template,
 )
 from paddlenlp.utils.log import logger
+from paddlenlp.utils.optimizer import AdamWLoRAPro
 from paddlenlp.utils.tools import get_env_device
 
 # Fine-tune Environment Variables to support sharding stage1 overlap optimization.
@@ -447,6 +449,15 @@ def compute_metrics_do_generation(eval_preds):
     )
     trainable_parameters = [p for p in model.parameters() if not p.stop_gradient]
     trainer.set_optimizer_grouped_parameters(trainable_parameters)
+    if model_args.lorapro:
+        optimizer = AdamWLoRAPro(
+            learning_rate=training_args.learning_rate,
+            parameters=trainable_parameters,
+            weight_decay=training_args.weight_decay,
+            scaling_factor=model_args.lorapro_scaling_factor,
+            x_mode=model_args.lorapro_x_mode,
+        )
+        trainer.optimizer = optimizer
 
     # Train
     if training_args.do_train:
@@ -560,7 +571,13 @@ def create_peft_model(model_args, reft_args, training_args, dtype, model_config,
                 use_quick_lora=model_args.use_quick_lora,
                 lora_use_mixer=model_args.lora_use_mixer,
                 use_mora=model_args.use_mora,
+                lorapro=model_args.lorapro,
             )
+            if model_args.lorapro:
+                if model_args.rslora:
+                    model_args.lorapro_scaling_factor = lora_config.lora_alpha / math.sqrt(lora_config.r)
+                else:
+                    model_args.lorapro_scaling_factor = lora_config.lora_alpha / lora_config.r
             model = LoRAModel(model, lora_config)
         else:
             model = LoRAModel.from_pretrained(model=model, lora_path=model_args.lora_path)
diff --git a/paddlenlp/peft/lora/lora_config.py b/paddlenlp/peft/lora/lora_config.py
@@ -94,6 +94,7 @@ class LoRAConfig:
         default=False,
         metadata={"help": "Whether to use mos lora."},
     )
+    lorapro: bool = field(default=False, metadata={"help": "Whether to use LoRA-PRO"})
 
     def __post_init__(self):
         if self.use_quick_lora and self.lora_dropout > 0:
diff --git a/paddlenlp/peft/lora/lora_layers.py b/paddlenlp/peft/lora/lora_layers.py
@@ -65,6 +65,7 @@ def __init__(
         pissa: bool = False,
         lora_use_mixer: bool = False,
         use_mora: bool = False,
+        lorapro: bool = False,
         mp_moe: bool = False,
         is_distributed: bool = False,
         **kwargs
@@ -84,6 +85,7 @@ def __init__(
         self.merged = False
         self.pissa = pissa
         self.lora_use_mixer = lora_use_mixer
+        self.lorapro = lorapro
 
         # Actual trainable parameters
         if use_mora:  # reset the rank and create high rank matrix
diff --git a/paddlenlp/peft/lora/lora_model.py b/paddlenlp/peft/lora/lora_model.py
@@ -488,6 +488,7 @@ def _find_and_replace_module(self, model, module_name, lora_config):
                 use_mora=lora_config.use_mora,
                 mp_moe=getattr(module.weight, "mp_moe", False),
                 is_distributed=getattr(module.weight, "is_distributed", False),
+                lorapro=lora_config.lorapro,
             )
         elif isinstance(module, nn.Conv2D):
             lora_module = LoRAConv2D(
diff --git a/paddlenlp/trainer/trainer.py b/paddlenlp/trainer/trainer.py
@@ -2119,6 +2119,7 @@ def get_optimizer_cls_and_kwargs(args: TrainingArguments) -> Tuple[Any, Any]:
             optimizer_kwargs.update(adam_kwargs)
         else:
             raise ValueError(f"Trainer cannot instantiate unsupported optimizer: {args.optim}")
+
         return optimizer_cls, optimizer_kwargs
 
     def create_scheduler(self, num_training_steps: int):
diff --git a/paddlenlp/trl/model_config.py b/paddlenlp/trl/model_config.py
@@ -86,6 +86,17 @@ class ModelConfig:
     use_mora: bool = field(
         default=False, metadata={"help": "Whether to use MoRA: https://arxiv.org/pdf/2405.12130.pdf"}
     )
+    lorapro: bool = field(
+        default=False, metadata={"help": "Whether to use LoRA-Pro: https://arxiv.org/pdf/2407.18242"}
+    )
+    lorapro_x_mode: str = field(
+        default="zero",
+        metadata={"help": "X mode for AdamWLoRAPro optimizer (zero, sylvester, symmetry)."},
+    )
+    lorapro_scaling_factor: float = field(
+        default=2.0,
+        metadata={"help": "Scaling factor for AdamWLoRAPro optimizer."},
+    )
 
     # vera related parameters
     vera: bool = field(default=False, metadata={"help": "Whether to use vera technique"})
diff --git a/paddlenlp/utils/optimizer.py b/paddlenlp/utils/optimizer.py
@@ -11,11 +11,13 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
+import re
 import warnings
 
 import paddle
 from paddle import pir
 from paddle.base import core, framework
+from paddle.base.dygraph import base as imperative_base
 from paddle.base.framework import Variable, in_dynamic_or_pir_mode, in_pir_mode
 from paddle.base.libpaddle import DataType
 from paddle.optimizer.adamw import AdamW
@@ -583,3 +585,171 @@ def adamw_custom(
         moment2[:] = mom2
         beta1_pow[:], beta2_pow[:] = beta1 * beta1_pow[:], beta2 * beta2_pow[:]
         return
+
+
+class AdamWLoRAPro(AdamW):
+    def __init__(self, scaling_factor=2.0, x_mode="zero", *args, **kwargs):
+        super().__init__(*args, **kwargs)
+        assert scaling_factor is not None
+        if x_mode not in ["zero", "sylvester", "symmetry"]:
+            raise ValueError(
+                f"Invalid x_mode value: {x_mode}, " f"mode should be in ['zero', 'sylvester', 'symmetry']"
+            )
+        self.scaling_factor = scaling_factor
+        self.x_mode = x_mode
+
+    def _solve_sylvester(self, A, B, C, X=None):
+        if A.dtype in [paddle.bfloat16, paddle.float16]:
+            A = A.to("float32")
+            B = B.to("float32")
+            C = C.to("float32")
+        B = -B
+        m = tuple(B.shape)[-1]
+        n = tuple(A.shape)[-1]
+        R, U = paddle.linalg.eig(x=A)
+        S, V = paddle.linalg.eig(x=B)
+
+        CV = C @ V
+
+        U_real, U_imag = paddle.real(U), paddle.imag(U)
+        CV_real, CV_imag = paddle.real(CV), paddle.imag(CV)
+
+        n_dim = U_real.shape[0]
+
+        block_top = paddle.concat([U_real, -U_imag], axis=1)  # (n, 2n)
+        block_bot = paddle.concat([U_imag, U_real], axis=1)  # (n, 2n)
+        A_block = paddle.concat([block_top, block_bot], axis=0)  # (2n, 2n)
+        B_block = paddle.concat([CV_real, CV_imag], axis=0)  # (2n, m)
+
+        F_block = paddle.linalg.solve(A_block, B_block)  # [F_real; F_imag]
+
+        F_real = F_block[:n_dim, :]
+        F_imag = F_block[n_dim:, :]
+        F = paddle.complex(F_real, F_imag)
+
+        W = R[..., :, None] - S[..., None, :]
+        Y = F / W
+        try:
+            V_inv = paddle.linalg.inv(V)
+        except RuntimeError:
+            # Add regularization to handle singular matrices
+            epsilon = 1e-6 * paddle.mean(paddle.abs(V))
+            V_reg = V + epsilon * paddle.eye(V.shape[-1])
+            V_inv = paddle.linalg.inv(V_reg)
+        X = U[..., :n, :n] @ Y[..., :n, :m] @ V_inv[..., :m, :m]
+
+        if all(paddle.isreal(x.flatten()[0]) for x in [A, B, C]):
+            return paddle.real(X)
+        else:
+            return X
+
+    @imperative_base.no_grad
+    @framework.non_static_only
+    def step(self) -> None:
+        """
+        Execute the optimizer and update parameters once.
+
+        Returns:
+            None
+
+        Examples:
+            .. code-block:: python
+
+                >>> import paddle
+
+                >>> a = paddle.rand([2,13], dtype="float32")
+                >>> linear = paddle.nn.Linear(13, 5)
+                >>> # This can be any optimizer supported by dygraph.
+                >>> opt = paddle.optimizer.AdamW(learning_rate = 0.01,
+                ...                             parameters = linear.parameters())
+                >>> out = linear(a)
+                >>> out.backward()
+                >>> opt.step()
+                >>> opt.clear_grad()
+        """
+        if paddle.base.dygraph.base.in_to_static_mode():
+            self._declarative_step()
+            return
+
+        if not isinstance(self._parameter_list[0], dict):
+            param_id_to_idx = {id(param): idx for idx, param in enumerate(self._parameter_list)}
+
+            lora_params = {}
+            for idx, param in enumerate(self._parameter_list):
+                name = getattr(param, "name", f"param_{idx}")
+                match = re.match(r"lo_ra_linear_(\d+)\.w_(\d+)", name)
+                if match:
+                    layer_num = int(match.group(1))
+                    weight_type = match.group(2)
+                    if layer_num not in lora_params:
+                        lora_params[layer_num] = {}
+                    lora_params[layer_num][weight_type] = param
+
+            for layer_num, weights in lora_params.items():
+                if "1" in weights and "2" in weights:
+                    param_B = weights["1"]
+                    param_A = weights["2"]
+
+                    idx_B = param_id_to_idx[id(param_B)]
+                    idx_A = param_id_to_idx[id(param_A)]
+
+                    if param_A._grad_ivar() is not None and param_B._grad_ivar() is not None:
+                        A = param_A.detach()
+                        B = param_B.detach()
+                        grad_A = param_A._grad_ivar()
+                        grad_B = param_B._grad_ivar()
+
+                        delta = 1e-08
+                        AA_T = A @ A.T
+                        B_TB = B.T @ B
+                        AA_T_inv = paddle.linalg.pinv(AA_T + delta * paddle.eye(num_rows=AA_T.shape[0]))
+                        B_TB_inv = paddle.linalg.pinv(B_TB + delta * paddle.eye(num_rows=B_TB.shape[0]))
+
+                        if self.x_mode == "sylvester":
+                            X = self._solve_sylvester(
+                                B_TB, AA_T, -(1 / self.scaling_factor**2) * B_TB_inv @ grad_A @ A.T
+                            )
+                        elif self.x_mode == "symmetry":
+                            X = -0.5 * (1 / self.scaling_factor**2) * B_TB_inv @ B.T @ grad_B @ AA_T
+                        else:  # zero mode
+                            X = paddle.zeros(shape=(B_TB_inv.shape[0], B_TB_inv.shape[0]))
+
+                        X = X.clone().detach().cast(A.dtype)
+
+                        new_grad_A = (1 / self.scaling_factor**2) * B_TB_inv @ grad_A + X @ A
+                        new_grad_B = (1 / self.scaling_factor**2) * (
+                            (paddle.eye(num_rows=B.shape[0]) - B @ B_TB_inv @ B.T) @ grad_B @ AA_T_inv
+                        ) - B @ X
+
+                        self._parameter_list[idx_A]._grad_ivar()[:] = new_grad_A
+                        self._parameter_list[idx_B]._grad_ivar()[:] = new_grad_B
+
+            params_grads = []
+            for param in self._parameter_list:
+                if param.stop_gradient:
+                    continue
+                if param._grad_ivar() is not None:
+                    grad_var = param._grad_ivar()
+                    if framework.in_dygraph_mode():
+                        if (
+                            hasattr(grad_var, "is_selected_rows")
+                            and grad_var.is_selected_rows()
+                            and self.regularization is not None
+                        ):
+                            raise RuntimeError(
+                                "AdamW don't support weight_decay with sparse parameters, please set it to None."
+                            )
+                    else:
+                        if (
+                            hasattr(grad_var, "_is_sparse")
+                            and grad_var._is_sparse()
+                            and self.regularization is not None
+                        ):
+                            raise RuntimeError(
+                                "AdamW don't support weight_decay with sparse parameters, please set it to None."
+                            )
+                    params_grads.append((param, grad_var))
+
+                    self._apply_optimize(loss=None, startup_program=None, params_grads=params_grads)
+        else:
+            raise NotImplementedError("AdamWLoRAPro does not support parameter groups")
diff --git a/tests/fixtures/llm/lorapro.yaml b/tests/fixtures/llm/lorapro.yaml
diff --git a/tests/llm/test_lorapro.py b/tests/llm/test_lorapro.py
diff --git a/tests/peft/test_lorapro.py b/tests/peft/test_lorapro.py

Original file line number	Diff line number	Diff line change
`@@ -94,6 +94,7 @@ class LoRAConfig:`
`94`	`94`	`default=False,`
`95`	`95`	`metadata={"help": "Whether to use mos lora."},`
`96`	`96`	`)`
	`97`	`+ lorapro: bool = field(default=False, metadata={"help": "Whether to use LoRA-PRO"})`
`97`	`98`
`98`	`99`	`def __post_init__(self):`
`99`	`100`	`if self.use_quick_lora and self.lora_dropout > 0:`
Original file line number	Diff line number	Diff line change
`@@ -488,6 +488,7 @@ def _find_and_replace_module(self, model, module_name, lora_config):`
`488`	`488`	`use_mora=lora_config.use_mora,`
`489`	`489`	`mp_moe=getattr(module.weight, "mp_moe", False),`
`490`	`490`	`is_distributed=getattr(module.weight, "is_distributed", False),`
	`491`	`+ lorapro=lora_config.lorapro,`
`491`	`492`	`)`
`492`	`493`	`elif isinstance(module, nn.Conv2D):`
`493`	`494`	`lora_module = LoRAConv2D(`