ModelCloud · Qubitium · Oct 30, 2025 · Oct 30, 2025 · Oct 30, 2025 · Oct 30, 2025
diff --git a/gptqmodel/models/definitions/base_qwen2_5_omni.py b/gptqmodel/models/definitions/base_qwen2_5_omni.py
@@ -62,7 +62,8 @@ def pre_quantize_generate_hook_start(self):
         if hasattr(self.model, "token2wav"):
             self.shell_module_materialize(self.model.token2wav, self.quantize_config.device)
         for layer in self.model.thinker.model.layers:
-            self.shell_module_materialize(layer.self_attn.rotary_emb, self.quantize_config.device)
+            if hasattr(layer.self_attn, "rotary_emb"):
+                self.shell_module_materialize(layer.self_attn.rotary_emb, self.quantize_config.device)
 
     def pre_quantize_generate_hook_end(self):
         if self.quantize_config.offload_to_disk:
@@ -103,7 +104,11 @@ def pre_quantize_generate_hook_end(self):
                                 )
 
             for layer in self.model.thinker.model.layers:
-                layer.self_attn.rotary_emb = layer.self_attn.rotary_emb.to(CPU)
+                if hasattr(layer.self_attn, "rotary_emb"):
+                    offload_to_disk(model=self.model.thinker.model,
+                                    module=layer.self_attn.rotary_emb,
+                                    disk_path=self.quantize_config.offload_to_disk_path,
+                                    )
 
             return
 

diff --git a/gptqmodel/models/loader.py b/gptqmodel/models/loader.py
@@ -617,7 +617,11 @@ def assign(mod, device_id):
             # 1–3. Assign input embeddings, layers, and ignored modules
             # -------------------------------------------------------------
             # Input embeddings → GPU 0
-            in_emb = model.get_input_embeddings() if hasattr(model, "get_input_embeddings") else None
+            try:
+                in_emb = model.get_input_embeddings()
+            except NotImplementedError:
+                log.warning("Model does not implement get_input_embeddings. Skipping input embeddings assignment.")
+                in_emb = None
             assign(in_emb, device_ids[0])
 
             # Alternating layers

diff --git a/tests/models/test_llama4.py b/tests/models/test_llama4.py
@@ -18,6 +18,7 @@ class TestLlama4(ModelTest):
         },
     }
     TRUST_REMOTE_CODE = False
+    USE_FLASH_ATTN = False
 
     def test_llama4(self):
         self.quant_lm_eval()