modelscope · Jintao-Huang · Apr 16, 2026 · Apr 16, 2026 · gemini-code-assist · Apr 16, 2026
diff --git a/src/mcore_bridge/bridge/gpt_bridge.py b/src/mcore_bridge/bridge/gpt_bridge.py
@@ -375,7 +375,10 @@ def _get_weight(
             if not isinstance(tensor, (list, tuple)):
                 tensor = [tensor]
             if self._is_fp8_param(tensor[0]):
-                mg_scale_inv = [t._rowwise_scale_inv for t in tensor]
+                mg_scale_inv = [
+                    t._rowwise_scale_inv[..., :math.ceil(t._rowwise_data.shape[-1] / self.fp8_block_size)]
+                    for t in tensor
+                ]
                 tensor = [t._rowwise_data for t in tensor]
         del mg_weight
         if tensor is not None:
@@ -397,7 +400,6 @@ def _get_weight(
             mg_scale_inv = self._all_gather_tp(mg_scale_inv, tp_dim, is_expert)
             mg_scale_inv = self._broadcast_ep_pp(mg_scale_inv, is_expert)
             tensor = tensor.view(torch.float8_e4m3fn)
-            tensor = tensor.view(torch.float8_e4m3fn)
+            tensor = tensor.view(torch.float8_e4m3fn)
+            if mg_scale_inv is not None:
+                mg_scale_inv = mg_scale_inv[..., :math.ceil(tensor.shape[-1] / self.fp8_block_size)].contiguous()
-            tensor = tensor.view(torch.float8_e4m3fn)
+            tensor = tensor.view(torch.float8_e4m3fn)
+            if mg_scale_inv is not None:
+                mg_scale_inv = mg_scale_inv[..., :math.ceil(tensor.shape[-1] / self.fp8_block_size)].contiguous()
-            mg_scale_inv = mg_scale_inv[..., :math.ceil(tensor.shape[-1] / self.fp8_block_size)].contiguous()
         assert tensor is not None, f'mg_key: {mg_key}'
         if offset:
             assert mg_scale_inv is None, f'mg_key: {mg_key}'