feat: add support for Qwen3-Next model and add Flash Linear Kernels by AlpinDale · Pull Request #1510 · dphnAI/sonar

AlpinDale · 2025-09-10T13:26:20Z

Speeds are great.

Llama-3.1 70B, 8x 3090, TP=8:
E2E time: 12.89s, TTFT: 2.38s, Prefill: 1907 tokens (800.5 tokens/s), Decode: 306 tokens (29.1 tokens/s)

Qwen3-Next-80B-A3B, 8x 3090, TP=8:
E2E time: 4.33s, TTFT: 0.47s, Prefill: 1905 tokens (4051.1 tokens/s), Decode: 355 tokens (92.0 tokens/s)

AlpinDale added 3 commits September 10, 2025 13:24

feat: add support for Qwen3-Next model and add Flash Linear Kernels

ccc8515

fix: non-cuda-graph

22e5bb1

fix chat completions

e14114f

AlpinDale merged commit 5ffc240 into main Sep 10, 2025
0 of 4 checks passed

AlpinDale deleted the qwen3_next branch September 10, 2025 17:30

Provide feedback