Add OVIS 2.5 Support #1981

Qubitium · 2025-10-04T05:34:51Z

Fix #1971

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium · 2025-10-04T20:08:34Z

@avtc I have added barriers so the main loop will wait for all threads to complete work before any forward and forward (replay). This may reduce your chance of OOM. Another toggle you can try is changing the cuda:per value in module_looper.py from 4 to 1 to only allow one work task per gpu:index device.

avtc · 2025-10-04T20:37:34Z

@Qubitium

Traceback (most recent call last):
  File "/home/ubuntu/Documents/Quantize/quantize-glm4.5-Air-gptqmodel-moe-prune-smart-4.py", line 462, in <module>
    from gptqmodel import GPTQModel, QuantizeConfig
  File "/home/ubuntu/git/avtc/GPTQModel/gptqmodel/__init__.py", line 11, in <module>
    from .models import GPTQModel, get_best_device
  File "/home/ubuntu/git/avtc/GPTQModel/gptqmodel/models/__init__.py", line 7, in <module>
    from .auto import MODEL_MAP, GPTQModel
  File "/home/ubuntu/git/avtc/GPTQModel/gptqmodel/models/auto.py", line 60, in <module>
    from .definitions.apertus import ApertusQModel  # noqa: E402
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/git/avtc/GPTQModel/gptqmodel/models/definitions/__init__.py", line 47, in <module>
    from .ovis2_5 import Ovis2_5QModel
ModuleNotFoundError: No module named 'gptqmodel.models.definitions.ovis2_5'

Qubitium · 2025-10-04T20:42:51Z

@avtc oof. comment that line out. Forgot to git add the new file.

avtc · 2025-10-04T20:58:45Z

Will check tomorrow

This reverts commit c145f31 Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

* Revert "Fix missing file (#1983)" This reverts commit 673a1cb. * Revert "Add OVIS 2.5 Support (#1981)" This reverts commit c145f31 Signed-off-by: Qubitium <Qubitium@modelcloud.ai> * format Signed-off-by: Qubitium <Qubitium@modelcloud.ai> * reduce usage of tctl.threadpool_limit Signed-off-by: Qubitium <Qubitium@modelcloud.ai> --------- Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium added 2 commits October 4, 2025 04:56

torch_dtype is deprecated

93097ed

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

normalize all torch_dtype to dtype even in model config

8937172

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium force-pushed the flash2-dtype branch from 0302e00 to 8937172 Compare October 4, 2025 05:47

Qubitium added 15 commits October 4, 2025 07:32

auto use flex attention if flash attention is not available/installed

daa5326

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

update

796794b

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

ci attn toggle

d9c5a62

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

remove flex attention support, too unstable

e5c78cc

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

fix ovis inference

3bf468a

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

1 thread per gpu

9866b38

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

fix post-quant ovis text only generation

95d3025

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

clear sampling parameters if do_sample is disabled in generation config

088928f

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

refract

f0ff264

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

disable do_sample when missing sampling params

27cf5d9

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

sync generation config logic from hf

459fb26

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

fix hung ctrl+c

769def6

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

wait for idle before start forwarding

161b4c8

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

fix regression in moe

4558bf8

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Add ovis 2.5 support

47ed2c7

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium changed the title ~~Flash2 dtype~~ Add OVIS 2.5 Support Oct 4, 2025

Qubitium added 2 commits October 4, 2025 19:55

cleanup

9139a7b

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

ruff

c496644

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium merged commit c145f31 into main Oct 4, 2025
5 checks passed

Qubitium deleted the flash2-dtype branch October 4, 2025 20:07

Qubitium added a commit that referenced this pull request Oct 6, 2025

Revert "Add OVIS 2.5 Support (#1981)"

af74466

This reverts commit c145f31 Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Add OVIS 2.5 Support #1981

Add OVIS 2.5 Support #1981

Uh oh!

Qubitium commented Oct 4, 2025 •

edited

Loading

Uh oh!

Uh oh!

Qubitium commented Oct 4, 2025 •

edited

Loading

Uh oh!

avtc commented Oct 4, 2025

Uh oh!

Qubitium commented Oct 4, 2025

Uh oh!

avtc commented Oct 4, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Add OVIS 2.5 Support #1981

Add OVIS 2.5 Support #1981

Uh oh!

Conversation

Qubitium commented Oct 4, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Qubitium commented Oct 4, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

avtc commented Oct 4, 2025

Uh oh!

Qubitium commented Oct 4, 2025

Uh oh!

avtc commented Oct 4, 2025

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Qubitium commented Oct 4, 2025 •

edited

Loading

Qubitium commented Oct 4, 2025 •

edited

Loading