vllm-project · 22quinn · Nov 17, 2025 · Nov 13, 2025 · gemini-code-assist · Nov 13, 2025
@@ -729,7 +729,7 @@ def forward(
                     cu_seqlens_k=attn_metadata.prefill_metadata.query_start_loc,
                     max_seqlen_q=attn_metadata.prefill_metadata.max_query_len,
                     max_seqlen_k=attn_metadata.prefill_metadata.max_seq_len,
-                    min_seqlen_q=attn_metadata.prefill_metadata.min_query_len,
+                    min_seqlen_q=1,
-                    min_seqlen_q=1,
+                    # AITeR MHA kernel requires min_seqlen_q >= 1. Using
+                    # `attn_metadata.prefill_metadata.min_query_len` can be 0,
+                    # causing accuracy issues. See #28598.
+                    min_seqlen_q=1,
 min_query_len=query_lens_for_prefill.min().item(), 
 min_query_len=query_lens_for_extend.min().item(), 
 split_ret = split_decodes_prefills_and_extends( 
-                    min_seqlen_q=1,
+                    # AITeR MHA kernel requires min_seqlen_q >= 1. Using
+                    # `attn_metadata.prefill_metadata.min_query_len` can be 0,
+                    # causing accuracy issues. See #28598.
+                    min_seqlen_q=1,
 min_query_len=query_lens_for_prefill.min().item(), 
 min_query_len=query_lens_for_extend.min().item(), 
 split_ret = split_decodes_prefills_and_extends( 
                     dropout_p=0.0,
                     softmax_scale=self.scale,
                     causal=True,
@@ -759,7 +759,7 @@ def forward(
                     cu_seqlens_q=attn_metadata.extend_metadata.query_start_loc,
                     max_seqlen_q=attn_metadata.extend_metadata.max_query_len,
                     max_seqlen_k=attn_metadata.extend_metadata.max_seq_len,
-                    min_seqlen_q=attn_metadata.extend_metadata.min_query_len,
+                    min_seqlen_q=1,
-                    min_seqlen_q=1,
+                    # AITeR MHA kernel requires min_seqlen_q >= 1. Using
+                    # `attn_metadata.extend_metadata.min_query_len` can be 0,
+                    # causing accuracy issues. See #28598.
+                    min_seqlen_q=1,
-                    min_seqlen_q=1,
+                    # AITeR MHA kernel requires min_seqlen_q >= 1. Using
+                    # `attn_metadata.extend_metadata.min_query_len` can be 0,
+                    # causing accuracy issues. See #28598.
+                    min_seqlen_q=1,
                     block_table=attn_metadata.block_table[
                         num_decodes : num_decodes + num_extends
                     ],