ModelCloud · Qubitium · Aug 20, 2025 · Aug 20, 2025
diff --git a/tests/models/model_test.py b/tests/models/model_test.py
@@ -82,6 +82,7 @@ class ModelTest(unittest.TestCase):
     SYM = True
 
     DISABLE_FLASH_ATTN = False
+    ACCEPT_USE_FLASH_ATTEN2_ARG = True
 
     INFERENCE_PROMPT = "The capital city of France is named"
     INFERENCE_RESULT_KEYWORDS = ["paris"]
@@ -186,7 +187,8 @@ def quantModel(self, model_id_or_path, trust_remote_code=False, torch_dtype="aut
             has_attn_implementation = Version(transformers.__version__) >= Version("4.46.0")
             if has_attn_implementation:
                 args["attn_implementation"] = "eager"
-            args["use_flash_attention_2"] = False
+            if self.ACCEPT_USE_FLASH_ATTEN2_ARG:
+                args["use_flash_attention_2"] = False
 
         log.info(f"args: {args}")
         model = GPTQModel.load(

diff --git a/tests/models/test_cohere2.py b/tests/models/test_cohere2.py
@@ -24,6 +24,7 @@ class TestCohere2(ModelTest):
     QUANT_ARC_MAX_DELTA_FLOOR_PERCENT = 0.15
     EVAL_BATCH_SIZE = 4
     DISABLE_FLASH_ATTN = True
+    ACCEPT_USE_FLASH_ATTEN2_ARG = False
 
     def test_cohere2(self):
         self.quant_lm_eval()
diff --git a/tests/models/test_gptj.py b/tests/models/test_gptj.py
@@ -25,6 +25,7 @@ class TestGptJ(ModelTest):
     TORCH_DTYPE = torch.float16
     INPUTS_MAX_LENGTH = 1024
     DISABLE_FLASH_ATTN = True
+    ACCEPT_USE_FLASH_ATTEN2_ARG = False
 
     def test_gptj(self):
         self.quant_lm_eval()