reduce forwarding to minimal #1876

Qubitium · 2025-09-24T08:53:27Z

~26% quantization time reduction for test_qwen3_moe.py Smaller gains 8% for small test_llama3_2.py test.

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium added 3 commits September 24, 2025 08:52

reduce forwarding to minimal

bf5eac4

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

fix memory leak

174fdb9

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

auto_gc default to false (we may deprecate this)

9c826a7

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium marked this pull request as ready for review September 24, 2025 09:46

ruff

1cf8ed4

Signed-off-by: Qubitium <Qubitium@modelcloud.ai>

Qubitium merged commit 5741769 into main Sep 24, 2025
4 checks passed

Qubitium deleted the reduce-forwarding branch September 24, 2025 09:47

Provide feedback