Add deep gemm with tma pre allocated #3287

AllentDan · 2025-03-19T13:39:02Z

Regression tests are required.

lmdeploy/pytorch/nn/linear.py

lmdeploy/pytorch/backends/cuda/blockedf8_modules.py

lmdeploy/pytorch/backends/base.py

lmdeploy/pytorch/backends/cuda/op_backend.py

lmdeploy/pytorch/nn/linear.py

grimoire · 2025-03-21T06:17:43Z

lmdeploy/pytorch/kernels/cuda/blocked_gemm_fp8.py

+    # Auto-tuning with compilation
+    from deep_gemm.jit_kernels.gemm import get_best_configs, get_num_sms, includes, jit_tuner, template
+    num_sms = get_num_sms()
+    block_m, block_n, num_stages, num_tma_multicast, smem_size = get_best_configs(m, n, k, 1, num_sms)


latest deepgemm return 6 values.
https://github.com/deepseek-ai/DeepGEMM/blob/3b3783d06cd4d06ac4ba048633e604151d1ee535/deep_gemm/jit_kernels/gemm.py#L111C5-L111C11

grimoire

LGTM, it would be better if we can add a logger.debug when dispatching gemm implementation.

AllentDan added 3 commits March 19, 2025 21:34

add deep gemm with tma pre allocated

da461eb

add comment

aded143

add comment

c66478b

lvhan028 added the enhancement label Mar 20, 2025

lvhan028 requested a review from grimoire March 20, 2025 13:17

grimoire reviewed Mar 20, 2025

View reviewed changes

lmdeploy/pytorch/nn/linear.py Outdated Show resolved Hide resolved

grimoire reviewed Mar 20, 2025

View reviewed changes

lmdeploy/pytorch/backends/cuda/blockedf8_modules.py Show resolved Hide resolved

AllentDan added 2 commits March 21, 2025 11:20

dispatch

b594944

no use_deep_gemm arg

d8b1216

grimoire reviewed Mar 21, 2025

View reviewed changes

lmdeploy/pytorch/backends/base.py Outdated Show resolved Hide resolved

grimoire reviewed Mar 21, 2025

View reviewed changes

lmdeploy/pytorch/backends/cuda/op_backend.py Outdated Show resolved Hide resolved

grimoire reviewed Mar 21, 2025

View reviewed changes

lmdeploy/pytorch/nn/linear.py Outdated Show resolved Hide resolved

AllentDan added 2 commits March 21, 2025 13:11

remove DeepGemmBlockedF8

1d97622

missed op type

0a8b76f

grimoire reviewed Mar 21, 2025

View reviewed changes

latest get_best_config

2ea6da3

grimoire approved these changes Mar 21, 2025

View reviewed changes

add a line of debug

bd7a034

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add deep gemm with tma pre allocated #3287

Add deep gemm with tma pre allocated #3287

AllentDan commented Mar 19, 2025 •

edited

Loading

grimoire Mar 21, 2025

grimoire left a comment

Add deep gemm with tma pre allocated #3287

Are you sure you want to change the base?

Add deep gemm with tma pre allocated #3287

Conversation

AllentDan commented Mar 19, 2025 • edited Loading

grimoire Mar 21, 2025

Choose a reason for hiding this comment

grimoire left a comment

Choose a reason for hiding this comment

AllentDan commented Mar 19, 2025 •

edited

Loading