modelscope · Jintao-Huang · Nov 13, 2025 · Nov 13, 2025 · Nov 13, 2025
diff --git a/swift/megatron/model/gpt_bridge.py b/swift/megatron/model/gpt_bridge.py
@@ -978,8 +978,9 @@ def _convert(self, mg_models, hf_state_dict, hf_prefix: str, to_mcore: bool, tqd
         else:
             yield from list(self._add_prefix(hf_state_dict, hf_prefix).items())
             hf_state_dict = {}
-        for layer_idx in tqdm(
-                range(self.args.num_layers), dynamic_ncols=True, desc=tqdm_desc, disable=self.disable_tqmd):
+        layer_idx = 0
+        prog_bar = tqdm(range(self.args.num_layers), dynamic_ncols=True, desc=tqdm_desc, disable=self.disable_tqmd)
+        while layer_idx < self.args.num_layers:
             lm_model = getattr(mg_model, 'language_model') if self.args.is_multimodal else mg_model
             if len(lm_model.decoder.layers) > 0:
                 start_idx = lm_model.decoder.layers[0].layer_number - 1
@@ -990,16 +991,20 @@ def _convert(self, mg_models, hf_state_dict, hf_prefix: str, to_mcore: bool, tqd
                 mg_layer = lm_model.decoder.layers[layer_idx - start_idx]
             else:
                 if to_mcore:
+                    layer_idx += 1
+                    prog_bar.update()
                     continue
                 else:
                     mg_layer = None
             if not to_mcore and self.pp_size > 1:
                 has_model = torch.tensor([mg_layer is not None], dtype=torch.bool, device='cuda')
                 dist.all_reduce(has_model, group=self.pp_group)
                 if not has_model:
-                    mg_model = next(mg_models)
+                    mg_model = next(mg_models)  # compat vpp
                     continue
             res = self._set_layer_state(mg_layer, hf_state_dict, f'{self.hf_layers_prefix}.', layer_idx, to_mcore)
+            layer_idx += 1
+            prog_bar.update()
             if to_mcore:
                 yield
             else:

diff --git a/swift/megatron/trainers/kto_trainer.py b/swift/megatron/trainers/kto_trainer.py
@@ -50,7 +50,7 @@ def _kto_get_logps(self, output_tensor, data, is_KL: bool, is_ref: bool, length:
         return self.get_logps(output, labels, packed_seq_params, packed_seq_params.num_samples)
 
     def loss_func(self, output_tensor, *, data, kl_data, label):
-        length = data['packed_seq_params'].cu_seqlens_q[-1]
+        length = data['packed_seq_params'].cu_seqlens_q[-1] // self.args.context_parallel_size
         policy_logps = self._kto_get_logps(output_tensor, data, False, False, length)
         ref_logps = self._kto_get_logps(output_tensor, data, False, True, length)
         if self.args.calculate_KL:
@@ -121,8 +121,7 @@ def forward_step(self, data_iterator, model):
         data.pop('loss_scale', None)
         kl_data.pop('loss_scale', None)
 
-        length = data['packed_seq_params'].cu_seqlens_q[-1]
-
+        length = data['packed_seq_params'].cu_seqlens_q[-1] // self.args.context_parallel_size
         with torch.no_grad(), self.null_ref_context() as ref_models:
             ref_model = ref_models[vp_stage or 0]
             if self.args.calculate_KL: