vLLM Easier cudagraph integration #3

LucasWilkinson · 2025-08-05T00:01:19Z

This PR makes it easier to get a correct FlashMLA full cudagraph integration in vLLM where padding for cudagraph's happens after attention metadata data building (i.e. get_mla_metadata)

The changes

tile_scheduler_metadata0[0] = (now_idx >= batch_size ? -1 : now_idx);

and

if (begin_idx >= params.b || begin_idx < 0) return;

allows get_mla_metadata to be called with a smaller batch size than the graph was captured with since it now uses -1 to mark no-work tiles instead of params.b

The change

if (my_num_splits <= 1) {

makes it easier to pad out num_splits (cumulative) since we can just do:

self.cg_buf_num_splits[n:].fill_(num_splits[-1])

which pads with 0 split elements instead of have to pad with 1 split elements which is more complicated:

buffer_padding_size = self.cg_buf_num_splits.size(0) - n
self.cg_buf_num_splits[n:] = num_splits[-1] + 1 + torch.arange(buffer_padding_size)

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>

Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>

* Add files from deepseek-ai#54 Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * FP8 now extends base implementation Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Fix typo Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Update tests Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Add to build Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Fix installation Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Fix FLASH_MLA_DISABLE_FP8 flag Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Fix param matchup Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * typo Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Fix out dtype Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Fix IMA Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Extension name should be _flashmla_C Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Clean up Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Tighten FP8 error tolerance Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Add attribution to copied files Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Remove breakpoint Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> * Port cudagraph fix from #3 Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com> --------- Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>

LucasWilkinson added 2 commits August 4, 2025 19:55

use -1 for invalid tiles

75cb7a7

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>

easier num_splits

3edc935

Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>

LucasWilkinson mentioned this pull request Aug 5, 2025

[BugFix] Fix IMA FlashMLA full cuda-graph and DP + Update FlashMLA vllm-project/vllm#21691

Merged

4 tasks

tlrmchlsmth approved these changes Aug 5, 2025

View reviewed changes

tlrmchlsmth merged commit 0e43e77 into main Aug 5, 2025
1 check passed

MatthewBonanni added a commit to MatthewBonanni/FlashMLA that referenced this pull request Aug 12, 2025

Port cudagraph fix from vllm-project#3

ce68f28

Signed-off-by: Matthew Bonanni <mbonanni001@gmail.com>

LucasWilkinson mentioned this pull request Aug 28, 2025

[Attention]: Pad for cudagraphs before constructing attention metadata vllm-project/vllm#23789

Closed

1 task

LucasWilkinson mentioned this pull request Nov 12, 2025

[Core] Refactor padding logic and pad for CUDA graphs before attention metadata building vllm-project/vllm#28579

Merged

LucasWilkinson mentioned this pull request Nov 28, 2025

[Attention] Make split_decodes_and_prefills(..., require_uniform=True) support padding vllm-project/vllm#29644

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

vLLM Easier cudagraph integration #3

vLLM Easier cudagraph integration #3

Uh oh!

LucasWilkinson commented Aug 5, 2025 •

edited

Loading

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

vLLM Easier cudagraph integration #3

vLLM Easier cudagraph integration #3

Uh oh!

Conversation

LucasWilkinson commented Aug 5, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

LucasWilkinson commented Aug 5, 2025 •

edited

Loading