PaddlePaddle · Jiang-Jia-Jun · May 11, 2026 · May 9, 2026 · May 9, 2026 · May 9, 2026
diff --git a/fastdeploy/cache_manager/cache_transfer_manager.py b/fastdeploy/cache_manager/cache_transfer_manager.py
@@ -540,24 +540,28 @@ def _init_gpu_cache(self):
         logger.info("GPU KV cache is initialized")
 
     def _clear_gpu_cache(self):
+
         if self.create_cache_tensor:
             logger.debug("Waiting for gpu runner to unlink cuda ipc")
             while self.cache_ready_signal.value[self.rank] != 0:
                 time.sleep(0.1)
             logger.debug("Stop waiting! gpu runner has unlinked cuda ipc")
-            self.gpu_cache_kvs.clear()
-            self.gpu_cache_k_tensors.clear()
-            self.gpu_cache_v_tensors.clear()
-            if hasattr(self, "gpu_cache_scales_k_tensors"):
-                self.gpu_cache_scales_k_tensors.clear()
-            if hasattr(self, "gpu_cache_scales_v_tensors"):
-                self.gpu_cache_scales_v_tensors.clear()
-            paddle.set_flags({"FLAGS_selected_gpus": f"{self.device}"})
-            paddle.device.cuda.empty_cache()
         else:
             for name, tensor in self.gpu_cache_kvs.items():
                 unset_data_ipc(tensor, name, True, False)
             logger.debug("Successfully unlinked gpu caches cuda ipc")
+
+        self.gpu_cache_kvs.clear()
+        self.gpu_cache_k_tensors.clear()
+        self.gpu_cache_v_tensors.clear()
+        if hasattr(self, "gpu_cache_scales_k_tensors"):
+            self.gpu_cache_scales_k_tensors.clear()
+        if hasattr(self, "gpu_cache_scales_v_tensors"):
+            self.gpu_cache_scales_v_tensors.clear()
+        paddle.set_flags({"FLAGS_selected_gpus": f"{self.device}"})
+        paddle.device.cuda.empty_cache()
+
+        if not self.create_cache_tensor:
             self.cache_ready_signal.value[self.rank] = 0
 
         while np.sum(self.cache_ready_signal.value) != 0:

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
@@ -3010,10 +3010,17 @@ def clear_cache(self, profile=False):
             )
             local_rank = self.local_rank % self.parallel_config.tensor_parallel_size
 
-            if not create_cache_tensor:
-                for name, tensor in self.cache_kvs_map.items():
-                    unset_data_ipc(tensor, name, True, False)
-                self.cache_ready_signal.value[local_rank] = 0
+            if not profile:
+                if create_cache_tensor:
+                    if self.fd_config.cache_config.num_cpu_blocks > 0:
+                        logger.info("Waiting for cache transfer manager to unlink cuda ipc")
+                        while self.cache_ready_signal.value[local_rank] != 0:
+                            time.sleep(0.1)
+                        logger.info("Stop waiting! cache transfer manager has unlinked cuda ipc")
+                else:
+                    for name, tensor in self.cache_kvs_map.items():
+                        unset_data_ipc(tensor, name, True, False)
+                    self.cache_ready_signal.value[local_rank] = 0
 
         self.cache_kvs_map.clear()
         self.share_inputs.pop("caches", None)