support output length truncated

ckl117 · ckl117 · commit 1e76d88e6526 · 2025-05-19T14:08:39.000+08:00
diff --git a/csrc/gpu/update_inputs_v2.cu b/csrc/gpu/update_inputs_v2.cu
@@ -44,6 +44,7 @@ __global__ void update_inputs_kernel_v2(
     const int input_ids_stride,
     const int end_length) {
   int thread_idx = threadIdx.x;
+  bool output_truncated = false;
   // update step_idx and stop_flags
   if (thread_idx < max_bsz) {
     bool stop_flag = stop_flags[thread_idx];
@@ -52,6 +53,7 @@ __global__ void update_inputs_kernel_v2(
     }
     if (step_idx[thread_idx] >= max_dec_len[thread_idx]) {
       stop_flags[thread_idx] = true;
+      output_truncated = true;
     }
   }
   __syncthreads();
@@ -61,8 +63,13 @@ __global__ void update_inputs_kernel_v2(
       if (seq_lens_this_time[thread_idx] == 0) {
         next_tokens[thread_idx] = -1;
       } else {
-        next_tokens[thread_idx] = end_ids[0];
-        kwargs_next_tokens[thread_idx] = end_ids[0];
+        if (output_truncated){
+          next_tokens[thread_idx] = -4; // -4 for truncated output.
+          kwargs_next_tokens[thread_idx] = -4;
+        }else{
+          next_tokens[thread_idx] = end_ids[0];
+          kwargs_next_tokens[thread_idx] = end_ids[0];
+        }
       }
     } else {
       kwargs_next_tokens[thread_idx] = next_tokens[thread_idx];
diff --git a/llm/predict/predictor.py b/llm/predict/predictor.py
@@ -1258,6 +1258,7 @@ def predict(self, input_texts: list[str], return_tokens=False):
                 outputs = self._infer(self.model_inputs)
                 outputs = outputs.numpy()
                 outputs[outputs == -1] = self.tokenizer.eos_token_id
+                outputs[outputs < 0] = self.tokenizer.pad_token_id
                 output_token.append(outputs)
         logger.info(f"running spend {time.time() - s_time}")
 
@@ -1568,6 +1569,7 @@ def send_task_to_queue(task_id):
             if flag_current_rank_run:
                 output_tokens = self.model_inputs["all_token_ids"].numpy()
                 output_tokens[output_tokens == -1] = self.tokenizer.eos_token_id
+                output_tokens[output_tokens < 0] = self.tokenizer.pad_token_id
                 if detokenize:
                     outputs = self.tokenizer.batch_decode(
                         output_tokens, skip_special_tokens=True, clean_up_tokenization_spaces=False
@@ -1786,6 +1788,7 @@ def predict(self, input_texts: list[str], return_tokens=False):
                 outputs = self.predictor.run(list(self.model_inputs.values()))[0]
                 outputs = outputs.numpy()
                 outputs[outputs == -1] = self.tokenizer.eos_token_id
+                outputs[outputs < 0] = self.tokenizer.pad_token_id
                 output_token.append(outputs)
         logger.info(f"running spend {time.time() - s_time}")
 
diff --git a/paddlenlp/trl/llm_utils.py b/paddlenlp/trl/llm_utils.py
@@ -689,6 +689,7 @@ def read_res(
         bsz = int(output_tensor[1, 0])
         output_numpy = output_tensor[2 : bsz + 2].numpy()
         output_numpy[output_numpy == -1] = tokenizer.eos_token_id
+        output_numpy[output_numpy < 0] = tokenizer.pad_token_id
         outputs.append(output_numpy)
         if int(output_tensor[0, 0]) == -1:
             break