vllm-project · vllm-bot · Sep 17, 2025 · Sep 16, 2025 · gemini-code-assist · Sep 16, 2025
@@ -465,9 +465,8 @@ def schedule(self) -> SchedulerOutput:
                             in self.vllm_config.model_config.model.lower()), (
                                 "Whisper is the only supported "
                                 "encoder-decoder model.")
-                    num_encoder_tokens = MULTIMODAL_REGISTRY.\
-                        get_encdec_max_encoder_len(
-                        self.vllm_config.model_config)
+                    num_encoder_tokens =\
+                        self.scheduler_config.max_num_encoder_input_tokens
-                    num_encoder_tokens =\
-                        self.scheduler_config.max_num_encoder_input_tokens
+                    num_encoder_tokens = MULTIMODAL_REGISTRY.\
+                        get_encdec_max_encoder_len(
+                        self.vllm_config.model_config)
 elif self.model_config.is_encoder_decoder: 
     self.scheduler_config.max_num_encoder_input_tokens = \ 
         MULTIMODAL_REGISTRY.get_encdec_max_encoder_len(self.model_config) 
-                    num_encoder_tokens =\
-                        self.scheduler_config.max_num_encoder_input_tokens
+                    num_encoder_tokens = MULTIMODAL_REGISTRY.\
+                        get_encdec_max_encoder_len(
+                        self.vllm_config.model_config)
 elif self.model_config.is_encoder_decoder: 
     self.scheduler_config.max_num_encoder_input_tokens = \ 
         MULTIMODAL_REGISTRY.get_encdec_max_encoder_len(self.model_config) 
                 else:
                     num_encoder_tokens = 0
 

@@ -11,7 +11,6 @@
 
 from vllm.config import VllmConfig
 from vllm.logger import init_logger
-from vllm.multimodal import MULTIMODAL_REGISTRY
 from vllm.utils import cdiv, get_dtype_size
 
 logger = init_logger(__name__)
@@ -230,8 +229,8 @@ class CrossAttentionSpec(AttentionSpec):
     def max_memory_usage_bytes(self, vllm_config: VllmConfig) -> int:
         # For cross-attention, we need to cache encoder states
         # Get encoder length (e.g., 1500 for Whisper).
-        max_encoder_len = MULTIMODAL_REGISTRY.\
-            get_encdec_max_encoder_len(vllm_config.model_config)
+        max_encoder_len = vllm_config.scheduler_config.\
+            max_num_encoder_input_tokens
         return cdiv(max_encoder_len, self.block_size) * self.page_size_bytes
 
 

@@ -234,8 +234,8 @@ def __init__(
         if self.model_config.is_encoder_decoder:
             # Maximum length of the encoder input, only for encoder-decoder
             # models.
-            self.max_encoder_len = self.mm_registry.\
-                get_encdec_max_encoder_len(model_config)
+            self.max_encoder_len = scheduler_config.\
+                            max_num_encoder_input_tokens
         else:
             self.max_encoder_len = 0