From 5b9f3080ab87ffc79a79a1972d03b71bb6e218bb Mon Sep 17 00:00:00 2001
From: sufubao <1411045825@qq.com>
Date: Wed, 3 Sep 2025 15:02:27 +0800
Subject: [PATCH] Qwen configs

---
 ...num=1,use_fp8_w8a8=false}_NVIDIA_H200.json | 110 ++++++++++++++++++
 ...num=8,use_fp8_w8a8=false}_NVIDIA_H200.json | 110 ++++++++++++++++++
 2 files changed, 220 insertions(+)
 create mode 100644 lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=192,N=4096,expert_num=128,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=false}_NVIDIA_H200.json
 create mode 100644 lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=4096,N=384,expert_num=128,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=false}_NVIDIA_H200.json

diff --git a/lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=192,N=4096,expert_num=128,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=false}_NVIDIA_H200.json b/lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=192,N=4096,expert_num=128,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=false}_NVIDIA_H200.json
new file mode 100644
index 000000000..e16155639
--- /dev/null
+++ b/lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=192,N=4096,expert_num=128,mul_routed_weight=true,out_dtype=torch.bfloat16,topk_num=1,use_fp8_w8a8=false}_NVIDIA_H200.json
@@ -0,0 +1,110 @@
+{
+    "1024": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 64,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "128": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "131072": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 16,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "16384": {
+      "BLOCK_SIZE_K": 32,
+      "BLOCK_SIZE_M": 64,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 4,
+      "num_warps": 4
+    },
+    "2048": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 32,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 64,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "256": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 2,
+      "num_warps": 4
+    },
+    "32768": {
+      "BLOCK_SIZE_K": 32,
+      "BLOCK_SIZE_M": 64,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 32,
+      "NEED_TRANS": false,
+      "num_stages": 4,
+      "num_warps": 4
+    },
+    "512": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "64": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 64,
+      "GROUP_SIZE_M": 64,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "8": {
+      "BLOCK_SIZE_K": 32,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "800": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "8192": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 64,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 16,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    }
+  }
\ No newline at end of file
diff --git a/lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=4096,N=384,expert_num=128,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=false}_NVIDIA_H200.json b/lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=4096,N=384,expert_num=128,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=false}_NVIDIA_H200.json
new file mode 100644
index 000000000..2488ede5d
--- /dev/null
+++ b/lightllm/common/triton_utils/autotune_kernel_configs/triton_3.4.0/NVIDIA_H200/grouped_matmul:v1/{K=4096,N=384,expert_num=128,mul_routed_weight=false,out_dtype=torch.bfloat16,topk_num=8,use_fp8_w8a8=false}_NVIDIA_H200.json
@@ -0,0 +1,110 @@
+{
+    "1": {
+      "BLOCK_SIZE_K": 128,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 64,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 5,
+      "num_warps": 4
+    },
+    "100": {
+      "BLOCK_SIZE_K": 128,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 32,
+      "NEED_TRANS": false,
+      "num_stages": 2,
+      "num_warps": 4
+    },
+    "1024": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 16,
+      "NEED_TRANS": false,
+      "num_stages": 5,
+      "num_warps": 8
+    },
+    "128": {
+      "BLOCK_SIZE_K": 128,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 1,
+      "NEED_TRANS": false,
+      "num_stages": 2,
+      "num_warps": 8
+    },
+    "16": {
+      "BLOCK_SIZE_K": 128,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 64,
+      "NEED_TRANS": false,
+      "num_stages": 4,
+      "num_warps": 4
+    },
+    "16384": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 32,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 8
+    },
+    "2048": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 64,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 16,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 8
+    },
+    "256": {
+      "BLOCK_SIZE_K": 128,
+      "BLOCK_SIZE_M": 32,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 32,
+      "NEED_TRANS": false,
+      "num_stages": 2,
+      "num_warps": 4
+    },
+    "32": {
+      "BLOCK_SIZE_K": 128,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 64,
+      "GROUP_SIZE_M": 64,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "4096": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 128,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 16,
+      "NEED_TRANS": false,
+      "num_stages": 3,
+      "num_warps": 4
+    },
+    "64": {
+      "BLOCK_SIZE_K": 128,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 32,
+      "NEED_TRANS": false,
+      "num_stages": 2,
+      "num_warps": 4
+    },
+    "8": {
+      "BLOCK_SIZE_K": 64,
+      "BLOCK_SIZE_M": 16,
+      "BLOCK_SIZE_N": 128,
+      "GROUP_SIZE_M": 32,
+      "NEED_TRANS": false,
+      "num_stages": 5,
+      "num_warps": 4
+    }
+  }
\ No newline at end of file