Auto AWQ kernel selection for Transformers compat #2214

Qubitium · 2025-11-22T07:53:52Z

Add HF compatible hf_select_quant_linear_v2 api
Separate AWQ GEMM kernel into GEMM_TORCH GEMM_CUDA GEMM_TRITON

gptqmodel/nn_modules/qlinear/gemm_awq.py

tests/test_awq_fp16_matmul_heuristic.py

+                    pytest.skip(f"Triton backend is incompatible: {err}")
+            return torch.matmul(x, weight.to(x.dtype))
+
+    def run_fused_gemm():


Signed-off-by: ZX-ModelCloud <zx@modelcloud.ai>

gptqmodel/looper/awq_processor.py

                f"{duration:.3f}",
            )

+            linear_layer = linear_layer.cpu()


gptqmodel/nn_modules/qlinear/gemm_awq.py

+        # if self.padded_infeatures != self.in_features:
+        #     self.qweight.resize_(self.padded_infeatures // self.pack_dtype_bits * self.bits, self.out_features)
+        #     self.qzeros.resize_(
+        #         math.ceil(self.padded_infeatures / self.group_size),
+        #         self.out_features // self.pack_dtype_bits * self.bits


gptqmodel/nn_modules/qlinear/gemm_awq.py

+from ...utils.logger import setup_logger
+
+
+log = setup_logger()


gptqmodel/nn_modules/qlinear/gemm_awq.py

+log = setup_logger()
+
+awq_ext, msg = try_import("gptqmodel_awq_kernels")
+user_has_been_warned = False


Signed-off-by: ZX-ModelCloud <zx@modelcloud.ai>

Qubitium added 8 commits November 22, 2025 07:10

remove unused

6562e66

add hf_select_quant_linear_v2 for transformer compat

e303136

machete is not ready

77ff529

remove unused post_init

f45b57c

rename kernel files

a7f9285

use FORMAT enum

2761744

cleanup awq gemm/merge code

942332b

format

1657ba4

github-code-quality bot found potential problems Nov 23, 2025

View reviewed changes

gptqmodel/nn_modules/qlinear/gemm_awq.py Fixed Show fixed Hide fixed

cleanup

47822d6

github-code-quality bot found potential problems Nov 23, 2025

View reviewed changes

gptqmodel/nn_modules/qlinear/gemm_awq.py Fixed Show fixed Hide fixed

simplify

95d7b8b

github-code-quality bot found potential problems Nov 23, 2025

View reviewed changes

gptqmodel/nn_modules/qlinear/gemm_awq.py Fixed Show fixed Hide fixed

gptqmodel/nn_modules/qlinear/gemm_awq.py Fixed Show fixed Hide fixed

Qubitium added 5 commits November 23, 2025 09:43

separate triton kernel

f7d2ad6

cleanup

3946e1f

cleanup

d1cbe25

refractor

f5d3c59

refractor

ca3a8b8

github-code-quality bot found potential problems Nov 23, 2025

View reviewed changes

gptqmodel/nn_modules/qlinear/gemm_awq.py Fixed Show fixed Hide fixed

tests/test_awq_fp16_matmul_heuristic.py Fixed Show fixed Hide fixed

Qubitium added 2 commits November 23, 2025 13:22

update test

5aacbe6

add gemm_triton

78f1471

github-code-quality bot found potential problems Nov 23, 2025

View reviewed changes

tests/test_awq_fp16_matmul_heuristic.py

pytest.skip(f"Triton backend is incompatible: {err}")

return torch.matmul(x, weight.to(x.dtype))

def run_fused_gemm():

Qubitium mentioned this pull request Nov 24, 2025

[WIP] Fully deprecate AutoGPTQ and AutoAWQ for GPT-QModel huggingface/transformers#41567

Draft

fix empty named_childs

289fd93

Signed-off-by: ZX-ModelCloud <zx@modelcloud.ai>

Qubitium marked this pull request as draft November 24, 2025 06:39

add gemm_awq pack()

d11099b

Signed-off-by: ZX-ModelCloud <zx@modelcloud.ai>

github-code-quality bot found potential problems Nov 24, 2025

View reviewed changes

Qubitium and others added 2 commits November 25, 2025 02:39

for triton the dense matmul threshold is 128

969c490

add gemv_awq pack()

ac64c64

Signed-off-by: ZX-ModelCloud <zx@modelcloud.ai>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Auto AWQ kernel selection for Transformers compat #2214

Auto AWQ kernel selection for Transformers compat #2214

Uh oh!

Qubitium commented Nov 22, 2025 •

edited

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

		from ...utils.logger import setup_logger


		log = setup_logger()

Auto AWQ kernel selection for Transformers compat #2214

Are you sure you want to change the base?

Auto AWQ kernel selection for Transformers compat #2214

Uh oh!

Conversation

Qubitium commented Nov 22, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Qubitium commented Nov 22, 2025 •

edited

Loading