Fix serving allocate block bug (#10101)

freeliuzc · web-flow · commit a286abc1063e · 2025-03-12T15:11:24.000+08:00
diff --git a/llm/server/server/server/engine/infer.py b/llm/server/server/server/engine/infer.py
@@ -32,12 +32,12 @@
 from server.engine.config import Config
 from server.utils import get_logger
 from task_queue_manager import TaskQueueManager
-from paddlenlp.trl import llm_utils
 
 from paddlenlp.experimental.transformers import (
     EagleProposer,
     InferenceWithReferenceProposer,
 )
+from paddlenlp.trl import llm_utils
 from paddlenlp.trl.llm_utils import get_rotary_position_embedding
 
 File_Path = os.path.realpath(sys.argv[0])
@@ -338,8 +338,12 @@ def init_inputs(self):
         self.share_inputs["need_block_len"] = paddle.full(shape=[1], fill_value=0, dtype="int32")
         self.share_inputs["used_list_len"] = paddle.full(shape=[self.args.max_batch_size], fill_value=0, dtype="int32")
         self.share_inputs["infer_seed"] = paddle.full(shape=[self.args.max_batch_size, 1], fill_value=0, dtype="int64")
-        free_list = list(range(int(self.args.max_block_num * self.args.block_ratio)))
+
+        free_list = list(
+            range(self.args.max_block_num - 1, int(self.args.max_block_num * self.args.block_ratio) - 1, -1)
+        )
         self.free_list_len = len(free_list)
+
         self.share_inputs["free_list"] = paddle.to_tensor(free_list, dtype="int32")
         self.share_inputs["free_list_len"] = paddle.full(shape=[1], fill_value=self.free_list_len, dtype="int32")