google · copybara-service · May 28, 2024 · May 9, 2024 · May 15, 2024
diff --git a/paxml/tasks/lm/params/nvidia.py b/paxml/tasks/lm/params/nvidia.py
@@ -750,12 +750,12 @@ class Grok(NVIDIA1_3B):
   DIMS_PER_HEAD = 128
   CHECKPOINT_POLICY = layers.AutodiffCheckpointType.SAVE_QKV_OUT_PROJ
   MODEL_DIMS = 6144
-  HIDDEN_DIMS = 49152
+  HIDDEN_DIMS = 32768
   COMBINE_QKV = False
   PERCORE_BATCH_SIZE = 1
   MAX_SEQ_LEN = 8192
   USE_FP8 = False
-  VOCAB_SIZE = 134144
+  VOCAB_SIZE = 131072
 
   NUM_EXPERTS = 8
   NUM_GROUPS = 256
@@ -769,6 +769,8 @@ class Grok(NVIDIA1_3B):
     ICI_MESH_SHAPE = [1, 1, 8, 1]
     DCN_MESH_SHAPE = [1, 32, 1, 1]
 
+  USE_ROPE = True
+
   def task(self) -> pax_fiddle.Config[tasks_lib.SingleTask]:
     task_p = super().task()
     task_p.train.num_train_steps = self.MAX_STEPS
@@ -812,6 +814,13 @@ def task(self) -> pax_fiddle.Config[tasks_lib.SingleTask]:
         mesh_axis_names=['replica', 'data', 'data_expert', 'mdl'],
         training_optimized=self.TRAINING_OPTIMIZED_SHARDING,
     )
+
+    stacked_p = task_p.model.lm_tpl.stacked_transformer_tpl.block
+    transformer_layer_p = stacked_p.transformer_layer_params_tpl
+    if self.USE_ROPE:
+        transformer_layer_p.tr_atten_tpl.use_rotary_position_emb = True
+        task_p.model.lm_tpl.position_emb_tpl = None
+
     return task_p
 
 
@@ -827,11 +836,11 @@ class Grok_Proxy(NVIDIA1_3B):
   DIMS_PER_HEAD = 128
   CHECKPOINT_POLICY = layers.AutodiffCheckpointType.SAVE_QKV_OUT_PROJ
   MODEL_DIMS = 6144
-  HIDDEN_DIMS = 49152
+  HIDDEN_DIMS = 32768
   COMBINE_QKV = False
   PERCORE_BATCH_SIZE = 1
   MAX_SEQ_LEN = 8192
-  VOCAB_SIZE = 134144
+  VOCAB_SIZE = 131072
   USE_FP8 = False
 
   NUM_EXPERTS = 8
@@ -846,6 +855,8 @@ class Grok_Proxy(NVIDIA1_3B):
     ICI_MESH_SHAPE = [1, 1, 8, 1]
     DCN_MESH_SHAPE = [1, 8, 1, 1]
 
+  USE_ROPE = True
+
   def task(self) -> pax_fiddle.Config[tasks_lib.SingleTask]:
     task_p = super().task()
     task_p.train.num_train_steps = self.MAX_STEPS
@@ -889,4 +900,11 @@ def task(self) -> pax_fiddle.Config[tasks_lib.SingleTask]:
         mesh_axis_names=['replica', 'data', 'data_expert', 'mdl'],
         training_optimized=self.TRAINING_OPTIMIZED_SHARDING,
     )
+
+    stacked_p = task_p.model.lm_tpl.stacked_transformer_tpl.block
+    transformer_layer_p = stacked_p.transformer_layer_params_tpl
+    if self.USE_ROPE:
+        transformer_layer_p.tr_atten_tpl.use_rotary_position_emb = True
+        task_p.model.lm_tpl.position_emb_tpl = None
+
     return task_p