PaddlePaddle · JunnYu · Feb 23, 2023 · Feb 22, 2023 · Feb 22, 2023 · Feb 22, 2023
diff --git a/paddlenlp/trainer/trainer.py b/paddlenlp/trainer/trainer.py
@@ -671,13 +671,15 @@ def train(
                     steps_in_epoch <= args.gradient_accumulation_steps
                     and (step + 1) == steps_in_epoch
                 ):
-
-                    # Maunally collect gradients
+                    # Maunally collect gradients when group_sharded_parallel can't accepts_dp_group
                     # Case 1: Use sharding stage 2/3 with dp
                     # Case 2: Use recompute and dp
                     # local_rank != -1 don't means dp in networks.
                     if self.sharding and ShardingOption.SHARD_OP not in self.args.sharding:
-                        if self.args.dp_degree > 1:
+                        accepts_dp_group = "dp_group" in set(
+                            inspect.signature(paddle.distributed.sharding.group_sharded_parallel).parameters.keys()
+                        )
+                        if self.args.dp_degree > 1 and not accepts_dp_group:
                             fused_allreduce_gradients(model.parameters(), fleet.get_hybrid_communicate_group())
                             if ShardingOption.FULL_SHARD in self.args.sharding:
                                 # Why need sync on parm again ?
@@ -1220,8 +1222,26 @@ def _wrap_model(self, model, training=True):
 
                 from paddle.distributed.sharding import group_sharded_parallel
 
+                # add dp_group and exclude_layer params
+                # https://www.paddlepaddle.org.cn/documentation/docs/zh/develop/api/paddle/distributed/sharding/group_sharded_parallel_cn.html#group-sharded-parallel
+                accepts_dp_group = "dp_group" in set(inspect.signature(group_sharded_parallel).parameters.keys())
+                accepts_exclude_layer = "exclude_layer" in set(
+                    inspect.signature(group_sharded_parallel).parameters.keys()
+                )
+                extra_kwargs = {}
+                if accepts_dp_group:
+                    extra_kwargs["dp_group"] = self.dp_group
+                if accepts_exclude_layer:
+                    extra_kwargs["exclude_layer"] = ["GroupNorm"]
+
                 model, optimizer, _ = group_sharded_parallel(
-                    model, self.optimizer, level=level, scaler=None, group=self.sharding_group, offload=cpu_offload
+                    model,
+                    self.optimizer,
+                    level=level,
+                    scaler=None,
+                    group=self.sharding_group,
+                    offload=cpu_offload,
+                    **extra_kwargs,
                 )
                 self.optimizer = optimizer