pytorch · cthi · Nov 24, 2025
diff --git a/fbgemm_gpu/experimental/gemm/triton_gemm/fp4_quantize.py b/fbgemm_gpu/experimental/gemm/triton_gemm/fp4_quantize.py
@@ -289,7 +289,7 @@ def triton_quantize_mx4_unpack(
         stochastic_casting (bool): Whether to use stochastic casting.
 
     Returns:
-        torch.Tensor: [M / 2] mx4 scaled tensor packed into in8
+        torch.Tensor: [M / 2] mx4 scaled tensor packed into uint8
         torch.Tensor: [M / group_size] mx4 shared exponents into int8
 
         eg.

diff --git a/fbgemm_gpu/experimental/gen_ai/bench/quantize_ops.py b/fbgemm_gpu/experimental/gen_ai/bench/quantize_ops.py
@@ -2385,7 +2385,7 @@ def quantize(self, x, w):
 
     def compute(self, xq, wq, x_scale, w_scale, global_scale):
         return torch.ops.fbgemm.f4f4bf16(
-            xq, wq, x_scale, w_scale, global_scale=global_scale, use_mx=False
+            xq, wq, x_scale, w_scale, global_scale=global_scale
         )
 
     def quantize_and_compute(self, x, w):
@@ -2471,7 +2471,7 @@ def quantize(self, x, w):
 
     def compute(self, xq, wq, x_scale, w_scale, global_scale):
         return torch.ops.fbgemm.f4f4bf16(
-            xq, wq, x_scale, w_scale, global_scale=global_scale, use_mx=False
+            xq, wq, x_scale, w_scale, global_scale=global_scale
         )
 
     def quantize_and_compute(self, x, w):