Fix some bug of sequence_parallel (#746)

* Add sequence parallel strategy support. 1. Add sequence parallel strategy for GPTModelHybrid 2. Output has been checked layer by layer both in forward and backward progress, and its loss curve of the beginning 5000 steps fits the peer 3. Performance is improved for about 10% with sequence_parallel strategy compared with pretrain_gpt_1.3B_mp8 * Add sequence_parallel_utils.py file * Fix some bug of sequence_parallel. 1. Add sequence_parallel option for GPTModel 2. When mp=1, sequence_parallel option should always be set False
PaddlePaddle · Sep 17, 2022 · d6c186d · d6c186d
1 parent 12fbfd2
commit d6c186d
Show file tree

Hide file tree

Showing 2 changed files with 7 additions and 2 deletions.
diff --git a/ppfleetx/models/language_model/gpt/dygraph/hybrid_model.py b/ppfleetx/models/language_model/gpt/dygraph/hybrid_model.py
@@ -646,6 +646,11 @@ def __init__(self,
         self.hidden_size = hidden_size
         self.vocab_size = vocab_size
 
+        hcg = fleet.get_hybrid_communicate_group()
+        mp_size = hcg.get_model_parallel_world_size() 
+        if mp_size <= 1:
+            sequence_parallel = False
+
         self.embeddings = GPTEmbeddings(
             vocab_size, hidden_size, hidden_dropout_prob,
             max_position_embeddings, type_vocab_size, self.initializer_range,

diff --git a/ppfleetx/models/language_model/gpt/dygraph/single_model.py b/ppfleetx/models/language_model/gpt/dygraph/single_model.py
@@ -486,10 +486,10 @@ def __init__(self,
                  use_recompute=False,
                  initializer_range=0.02,
                  fused_linear=False,
-                 recompute_granularity="full"):
+                 recompute_granularity="full",
+                 sequence_parallel=False):
 
         super(GPTModel, self).__init__()
-
         self.initializer_range = initializer_range
         self.hidden_size = hidden_size
         self.vocab_size = vocab_size