Speed benchmarks of various LLMs #1544

magikRUKKOLA · 2026-03-29T03:49:52Z

magikRUKKOLA
Mar 29, 2026

// I went through the repos of vllm, sglang etc. (not the first time) and I was unable to find any info related to the speed benchmarks. So creating the separate discussion to keep the interesting performance data here.

Qwen3.5 397B IQ4_KSS

hardware: RTX 3090 FE x10 TDP ~~350W~~ 420W, DDR4 2666 MT/s ECC, AMD THREADRIPPER PRO 3995WX; ASROCK WRX80 Creator 2.0

UPDATE: Moved the GPUs to the GIGABYTE MC62-G40. That allowed to get the config with one x16 gpu and the rest with the x8. That improved the prefill (see the green graph below). So the GIGABYTE motherboards are recommended, not ASROCK.

UPDATE2: Installed the PLX 88096 switch to have more x16 GPUs.

version: 4437 (3a945af4)
built with cc (Debian 15.2.0-16) 15.2.0 for x86_64-linux-gnu

hybrid inference (single GPU, layer) / full offload (layer vs graph)

prefill-qwen3 5-397b-iq4_kss-full-offload-graph

decode-qwen3 5-397b-iq4_kss-full-offload-graph

llama-sweep-bench run command

Details

#!/usr/bin/env bash

ulimit -n 9999
ulimit -l unlimited

export CUDA_VISIBLE_DEVICES=4,9,3,8,2,0,1,7,5,6

/opt/ik_llama.cpp/ik_llama.cpp/build/bin/llama-sweep-bench \
    --warmup-batch \
    --model /opt/ubergarm/Qwen3.5-397B-A17B-GGUF/IQ4_KSS/mist.bin \
    --alias ubergarm/Qwen3.5-397B-A17B-IQ4_KSS \
    --ctx-size $((256 * 1024)) \
    -ctk q8_0 \
    -ctv q8_0 \
    -b $((2 * 1024)) -ub $((2 * 1024)) \
    --mlock \
    --temp 0.0 --top-k 0 --top-p 1.0 \
    -muge \
    -ger \
    -smgs \
    -sas \
    -mea 256 \
    -amb 256 \
    --graph-reduce-type f32 \
    --split-mode graph \
    --main-gpu 0 \
    --max-gpu 2 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --host 0.0.0.0 \
    --port 8080 \
    --log-enable \
    --logdir /var/log/ \
    --jinja \
    --reasoning-tokens none \
    --threads 1 \
    --keep -1 \
    --verbose-prompt --verbosity 2 \
    --ctx-checkpoints 1024 \
    --ctx-checkpoints-interval 256 \
    --cache-ram $((32 * 1024)) \
    --slot-save-path "$HOME/.cache/ik_llama.cpp/slot.bin" \
    --lookup-cache-dynamic "$HOME/.cache/ik_llama.cpp/slot.bin" \
    --slot-prompt-similarity 0.5 \
    --keep -1 \
    --metrics \
    -cuda fusion=1

/usr/share/doc/nvidia-cuda-toolkit/examples/bin/x86_64/linux/release/p2pBandwidthLatencyTest --p2p_read --sm_copy

Details

P2P Connectivity Matrix
     D\D     0     1     2     3     4     5     6     7     8     9
     0       1     1     1     1     1     1     1     1     1     1
     1       1     1     1     1     1     1     1     1     1     1
     2       1     1     1     1     1     1     1     1     1     1
     3       1     1     1     1     1     1     1     1     1     1
     4       1     1     1     1     1     1     1     1     1     1
     5       1     1     1     1     1     1     1     1     1     1
     6       1     1     1     1     1     1     1     1     1     1
     7       1     1     1     1     1     1     1     1     1     1
     8       1     1     1     1     1     1     1     1     1     1
     9       1     1     1     1     1     1     1     1     1     1
Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9 
     0 831.12   6.11   6.08   4.20   7.90   6.13   6.13   6.13   6.09   4.23 
     1   6.13 834.22   6.08   4.25   7.89   6.12   6.12   6.13   6.10   4.24 
     2   6.13   6.13 835.56   4.22   7.90   6.13   6.13   6.14   6.08   4.23 
     3   4.19   4.19   4.18 834.22   4.93   4.19   4.18   4.19   4.16   3.20 
     4   7.95   7.96   7.92   5.01 833.33   7.96   7.95   7.96   7.92   5.03 
     5   6.12   6.12   6.09   4.22   7.92 901.68   6.13   6.12   6.08   4.22 
     6   6.13   6.14   6.08   4.22   7.89   6.13 902.14   6.12   6.09   4.22 
     7   6.13   6.13   6.12   4.23   7.87   6.13   6.13 902.14   6.10   4.22 
     8   6.14   6.13   6.09   4.22   7.92   6.13   6.13   6.13 902.14   4.22 
     9   4.19   4.19   4.19   3.20   4.93   4.19   4.19   4.18   4.17 902.14 
Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9 
     0 902.59  13.20  13.20   6.60  13.21  13.20  13.20  13.19  13.19   6.60 
     1  13.20 902.66  13.19   6.60  13.17  13.20  13.19  13.20  13.20   6.60 
     2  13.20  13.20 903.18   6.60  13.21  13.20  13.20  13.20  13.20   6.60 
     3   6.58   6.59   6.60 902.66   6.60   6.60   6.60   6.60   6.60   6.60 
     4  13.20  13.20  13.20   6.60 901.62  13.20  13.20  13.20  13.20   6.60 
     5  13.18  13.20  13.20   6.60  13.21 901.62  13.20  13.19  13.19   6.60 
     6  13.20  13.20  13.20   6.60  13.21  13.20 903.70  13.20  13.20   6.60 
     7  13.20  13.20  13.20   6.60  13.18  13.20  13.18 903.18  13.20   6.60 
     8  13.20  13.20  13.20   6.60  13.21  13.20  13.20  13.20 903.18   6.60 
     9   6.58   6.58   6.60   6.60   6.58   6.58   6.60   6.60   6.60 902.66 
Unidirectional P2P=Enabled Bandwidth (P2P Reads) Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9 
     0 900.58  13.36  13.34   6.62   4.76   4.63   4.64   4.70   4.62   4.55 
     1  13.35 901.10  13.35   6.62   4.77   4.62   4.63   4.71   4.62   4.55 
     2  13.35  13.36 901.62   6.61   4.76   4.64   4.63   4.71   4.63   4.56 
     3   6.72   6.72   6.71 901.10   4.77   4.62   4.63   4.71   4.62   4.55 
     4   4.59   4.63   4.56   4.50 901.10  13.36   4.63   4.71   4.61   4.55 
     5   4.59   4.62   4.56   4.51  13.46 901.62   4.64   4.71   4.62   4.54 
     6   4.60   4.64   4.56   4.50   4.76   4.63 902.14  13.36  13.36   6.62 
     7   4.60   4.61   4.57   4.51   4.76   4.63  13.34 901.10  13.36   6.62 
     8   4.59   4.63   4.56   4.51   4.76   4.63  13.33  13.33 901.03   6.61 
     9   4.60   4.61   4.56   4.50   4.75   4.62   6.73   6.72   6.70 900.06 
Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9 
     0 906.85   8.96   9.02   6.17  11.34   8.98   8.96   8.99   9.00   6.15 
     1   8.91 907.38   9.00   6.15  11.33   9.02   8.89   8.98   9.02   6.15 
     2   8.96   8.91 907.11   6.15  11.28   8.90   8.92   8.94   8.91   6.15 
     3   5.98   5.95   5.94 907.11   6.94   5.96   5.98   5.99   5.96   4.68 
     4  11.73  11.75  11.78   7.36 907.11  11.49  11.76  11.77  11.75   7.36 
     5   8.96   8.92   9.00   6.16  10.94 907.84   9.00   8.95   9.02   6.16 
     6   9.00   9.01   8.91   6.15  11.31   8.93 907.84   9.01   8.97   6.16 
     7   8.86   8.95   9.02   6.15  11.30   8.96   8.95 907.64   9.02   6.15 
     8   8.90   8.93   8.96   6.14  11.29   8.83   8.93   8.93 906.59   6.16 
     9   5.98   5.98   5.97   4.70   6.94   5.98   5.98   5.99   5.97 906.85 
Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9 
     0 907.38  16.96  25.98  12.88  25.98  25.98  25.98  25.98  25.98  12.88 
     1  16.83 907.86  25.98  12.88  25.90  25.96  25.98  25.97  25.98  12.87 
     2  25.98  25.98 907.38   8.72  25.99  25.99  25.98  25.99  25.99  12.88 
     3  12.88  12.85   8.76 908.14  12.88  12.88  12.87  12.88  12.88  12.84 
     4  25.98  25.98  25.98  12.88 905.27  25.96  25.99  25.98  25.98  12.88 
     5  25.98  25.98  25.98  12.87  25.99 907.64  25.98  25.98  25.99  12.88 
     6  25.98  25.96  25.97  12.87  25.98  25.98 906.85  17.46  25.98  12.88 
     7  25.98  25.98  25.98  12.88  25.97  25.98  16.97 907.38  25.96  12.86 
     8  25.97  25.97  25.99  12.88  25.98  25.99  25.97  25.99 907.08   8.79 
     9  12.88  12.88  12.87  12.83  12.88  12.88  12.88  12.88   8.77 907.60 
P2P=Disabled Latency Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9 
     0   1.57  15.43  13.81  12.35  15.59  13.37  16.52  16.15  17.19  16.89 
     1  14.75   1.52  13.62  16.95  15.73  13.30  17.51  15.69  16.72  17.33 
     2  15.83  15.89   1.52  12.37  16.07  15.36  12.28  16.55  17.12  16.04 
     3  17.14  17.04  17.15   1.54  13.29  16.79  14.52  16.03  17.41  12.38 
     4  16.87  16.70  17.17  15.19   1.51  15.96  16.57  15.87  17.22  14.22 
     5  14.09  14.16  13.49  17.05  16.63   1.50  14.03  15.01  12.65  16.10 
     6  16.88  15.41  15.11  13.13  13.75  16.98   1.53  16.30  14.15  17.17 
     7  14.73  14.23  13.13  16.86  16.45  15.61  15.65   1.45  14.13  15.86 
     8  17.26  17.18  15.74  15.58  15.40  13.21  13.26  17.08   1.56  13.40 
     9  13.60  13.68  16.34  17.24  16.25  16.62  15.03  13.05  17.42   1.48 

   CPU     0      1      2      3      4      5      6      7      8      9 
     0   2.91   9.68   9.85   9.51   9.45   9.23   9.38   9.50   9.27   9.19 
     1   9.89   2.87   9.56   9.46   9.71   9.44   9.26   9.23   9.18   9.12 
     2   9.49   9.51   3.08   9.48   9.43   9.42   9.56   9.19   9.07   9.17 
     3   9.48   9.46   9.38   2.90   9.46   9.45   9.36   9.16   9.50   9.27 
     4   9.59   9.72   9.44   9.47   2.83   9.65   9.31   9.33   9.51   9.33 
     5   9.53   9.40   9.38   9.64   9.43   2.85   9.32   9.42   9.23   9.17 
     6   9.32   9.21   9.43   9.26   9.24   9.18   2.77   9.20   9.17   9.04 
     7   9.21   9.40   9.19   9.16   9.47   9.20   9.06   2.77   9.20   9.11 
     8   9.24   9.15   9.20   9.45   9.18   9.21   9.22   9.04   2.78   9.09 
     9   9.21   9.21   9.42   9.16   9.22   9.38   8.98   8.99   9.00   2.79 
P2P=Enabled Latency (P2P Writes) Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9 
     0   1.50   2.54   2.51   2.49   2.55   2.52   2.52   2.54   2.53   2.53 
     1   2.47   1.57   2.50   2.48   2.62   2.51   2.51   2.54   2.54   2.54 
     2   2.51   2.51   1.50   2.52   2.52   2.51   2.51   2.51   2.51   2.50 
     3   2.60   2.61   2.61   1.58   2.61   2.61   2.61   2.61   2.58   2.57 
     4   2.50   2.49   2.50   2.50   1.54   2.49   2.49   2.50   2.49   2.50 
     5   2.49   2.49   2.48   2.49   2.50   1.47   2.48   2.48   2.48   2.48 
     6   2.61   2.61   2.59   2.59   2.60   2.58   1.57   2.61   2.59   2.58 
     7   2.41   2.47   2.42   2.41   2.47   2.42   2.41   1.47   2.42   2.43 
     8   2.61   2.59   2.59   2.62   2.60   2.60   2.58   2.61   1.52   2.59 
     9   2.56   2.57   2.53   2.53   2.54   2.52   2.54   2.54   2.54   1.50 

   CPU     0      1      2      3      4      5      6      7      8      9 
     0   2.89   2.29   2.27   2.28   2.28   2.26   2.32   2.31   2.27   2.30 
     1   2.28   2.90   2.31   2.29   2.29   2.29   2.36   2.31   2.27   2.27 
     2   2.26   2.69   2.95   2.32   2.28   2.28   2.32   2.28   2.29   2.28 
     3   2.28   2.64   2.29   2.94   2.29   2.28   2.34   2.33   2.28   2.28 
     4   2.27   2.54   2.27   2.33   2.93   2.27   2.33   2.28   2.29   2.27 
     5   2.27   2.51   2.31   3.29   2.30   2.98   2.30   3.25   2.32   2.20 
     6   2.23   2.19   2.28   2.28   2.26   2.63   2.94   2.28   2.87   2.28 
     7   2.28   2.30   2.28   2.32   2.29   2.29   2.29   2.96   2.29   2.25 
     8   2.27   2.32   2.27   2.31   2.31   2.27   2.29   2.27   3.20   2.26 
     9   2.27   2.29   2.26   2.53   2.27   2.27   2.28   2.27   2.27   2.88 
P2P=Enabled Latency (P2P Reads) Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9 
     0   1.50   3.67   3.68   3.67   3.89   3.92   3.91   3.89   3.91   3.92 
     1   3.72   1.45   3.71   3.71   3.92   3.92   3.92   3.90   3.91   3.89 
     2   3.67   3.80   1.50   3.73   3.92   3.92   3.91   3.90   3.91   3.92 
     3   3.66   3.74   3.67   1.57   3.90   3.91   3.92   3.91   3.91   3.92 
     4   3.74   3.81   3.76   3.75   1.54   3.59   3.75   3.73   3.76   3.78 
     5   3.90   3.92   3.88   3.92   3.76   1.47   3.91   3.88   3.92   3.89 
     6   3.92   3.89   3.88   3.88   3.89   3.92   1.57   3.66   3.67   3.67 
     7   3.79   3.90   3.90   3.88   3.89   3.89   3.66   1.47   3.69   3.70 
     8   3.90   3.91   3.91   3.92   3.92   3.90   3.72   3.72   1.51   3.71 
     9   3.90   3.91   3.91   3.90   3.89   3.91   3.68   3.69   3.70   1.50 

   CPU     0      1      2      3      4      5      6      7      8      9 
     0   3.00   2.35   2.40   2.35   2.34   2.36   2.38   2.36   2.35   2.39 
     1   2.37   2.93   2.32   2.31   2.33   2.58   2.32   2.33   2.31   2.62 
     2   2.33   2.32   2.99   2.31   2.32   2.32   2.32   2.31   2.31   2.33 
     3   2.30   2.30   2.58   2.97   2.31   2.30   2.32   2.30   2.31   2.32 
     4   2.28   2.29   2.29   2.29   2.96   2.28   2.31   2.32   2.28   2.29 
     5   2.28   2.27   2.27   2.28   2.28   2.97   2.29   2.30   2.30   2.29 
     6   2.28   2.23   2.24   2.26   2.22   2.23   2.86   2.46   2.23   2.23 
     7   2.22   2.26   2.26   2.26   2.26   2.22   2.22   2.87   2.22   2.23 
     8   2.24   2.22   2.23   2.23   2.29   2.23   2.22   2.25   2.85   2.48 
     9   2.22   2.22   2.20   2.20   2.22   2.20   2.20   2.20   2.22   2.80 

NOTE: The CUDA Samples are not meant for performance measurements. Results may vary when GPU Boost is enabled.

updated for x16 and x8 rest:

Details

P2P Connectivity Matrix
     D\D     0     1     2     3     4     5     6     7     8     9
     0	     1     1     1     1     1     1     1     1     1     1
     1	     1     1     1     1     1     1     1     1     1     1
     2	     1     1     1     1     1     1     1     1     1     1
     3	     1     1     1     1     1     1     1     1     1     1
     4	     1     1     1     1     1     1     1     1     1     1
     5	     1     1     1     1     1     1     1     1     1     1
     6	     1     1     1     1     1     1     1     1     1     1
     7	     1     1     1     1     1     1     1     1     1     1
     8	     1     1     1     1     1     1     1     1     1     1
     9	     1     1     1     1     1     1     1     1     1     1
Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9
     0 899.54   6.11   6.09   7.90   6.03   6.04   6.11   6.11   6.11   6.12
     1   6.09 900.56   6.07   7.96   6.04   6.05   6.12   6.11   6.11   6.12
     2   6.12   6.12 903.18   7.91   6.05   6.08   6.12   6.10   6.12   6.12
     3   7.95   7.95   7.91 902.10   7.91   7.90   7.96   7.95   7.95   7.96
     4   6.10   6.13   6.09   7.97 901.62   6.09   6.11   6.13   6.11   6.12
     5   6.11   6.13   6.08   7.92   6.05 902.05   6.11   6.10   6.12   6.11
     6   6.13   6.12   6.09   7.98   6.08   6.06 901.62   6.10   6.11   6.13
     7   6.13   6.11   6.10   7.96   6.07   6.08   6.12 902.14   6.12   6.12
     8   6.07   6.11   6.06   7.91   6.05   6.05   6.10   6.08 902.14   6.09
     9   6.10   6.11   6.08   7.92   6.09   6.07   6.13   6.11   6.13 902.14
Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9
     0 902.66  13.17  13.17  13.19  13.17  13.17  13.17  13.17  13.13  13.17
     1  13.17 902.66  13.17  13.16  13.16  13.17  13.17  13.16  13.14  13.17
     2  13.17  13.17 903.69  13.19  13.17  13.17  13.17  13.17  13.11  13.17
     3  13.17  13.17  13.17 903.70  13.17  13.17  13.17  13.17  13.09  13.17
     4  13.17  13.17  13.17  13.19 902.14  13.17  13.17  13.17  13.15  13.17
     5  13.17  13.17  13.17  13.19  13.17 902.14  13.16  13.16  13.08  13.17
     6  13.15  13.17  13.17  13.19  13.17  13.17 902.66  13.17  13.15  13.17
     7  13.17  13.17  13.17  13.17  13.16  13.17  13.16 902.66  13.10  13.16
     8  13.00  13.06  13.11  13.09  13.09  13.11  13.08  13.08 902.66  12.90
     9  13.17  13.17  13.17  13.19  13.17  13.17  13.17  13.17  13.15 901.10
Unidirectional P2P=Enabled Bandwidth (P2P Reads) Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9
     0 901.62  13.34  13.34   4.83   4.73   4.73   4.64   4.66   4.64   4.69
     1  13.33 903.18  13.34   4.83   4.73   4.73   4.65   4.65   4.64   4.70
     2  13.30  13.29 902.14   4.79   4.69   4.69   4.61   4.62   4.57   4.61
     3   4.68   4.69   4.61 900.58  13.35   4.70   4.61   4.61   4.59   4.63
     4   4.67   4.69   4.60  13.29 902.14   4.69   4.61   4.62   4.55   4.64
     5   4.67   4.70   4.61   4.78   4.69 900.58  13.32  13.32   4.60   4.63
     6   4.71   4.75   4.66   4.83   4.71  13.34 902.66  13.34   4.62   4.70
     7   4.71   4.75   4.66   4.83   4.72  13.34  13.34 903.18   4.63   4.70
     8   4.71   4.74   4.66   4.77   4.68   4.74   4.64   4.65 899.02  13.30
     9   4.71   4.75   4.66   4.77   4.69   4.74   4.64   4.64  13.28 900.58
Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9
     0 906.85   8.94   8.97  11.32   8.98   8.97   8.95   8.92   8.94   8.88
     1   8.95 907.10   8.98  11.35   8.96   9.00   8.90   8.92   8.96   8.92
     2   8.92   8.99 907.08  11.30   8.88   8.96   8.92   8.94   8.85   8.90
     3  11.78  11.83  11.80 907.38  11.43  11.77  11.79  11.80  11.76  11.79
     4   8.90   8.94   8.92  11.13 907.38   8.98   8.96   8.93   8.92   8.89
     5   8.89   8.89   8.83  11.27   8.92 907.11   8.87   8.88   8.94   8.93
     6   8.93   9.04   9.02  11.33   8.99   8.95 907.60   8.84   8.85   8.92
     7   8.94   8.98   9.00  11.31   8.89   8.99   8.90 906.06   8.92   8.94
     8   8.91   8.87   8.94  11.29   8.92   8.91   8.90   8.94 908.17   9.00
     9   8.97   8.98   9.02  11.32   9.01   9.01   8.88   8.93   8.91 907.90
Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9
     0 906.32  16.75  25.93  25.93  25.89  25.89  25.93  25.93  25.91  25.92
     1  16.57 906.85  25.92  25.93  25.89  25.89  25.93  25.93  25.89  25.93
     2  25.92  25.93 907.10  25.93  25.89  25.89  25.93  25.92  25.80  25.93
     3  25.93  25.94  25.94 906.32  25.84  25.89  25.93  25.93  25.87  25.94
     4  25.88  25.88  25.88  25.89 906.06  25.88  25.87  25.89  25.88  25.89
     5  25.88  25.89  25.88  25.89  25.89 907.11  25.89  25.85  25.88  25.89
     6  25.94  25.92  25.93  25.94  25.89  25.89 907.90  17.30  25.86  25.94
     7  25.93  25.93  25.93  25.92  25.88  25.89  17.11 907.58  25.86  25.93
     8  25.88  25.77  25.76  25.80  25.87  25.87  25.84  25.88 906.82  17.02
     9  25.93  25.93  25.93  25.94  25.89  25.89  25.94  25.93  16.80 907.64
P2P=Disabled Latency Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9
     0   1.46  16.25  14.46  15.37  16.75  17.04  12.37  17.11  16.58  12.80
     1  15.68   1.52  17.18  14.87  17.49  16.19  13.13  17.35  15.54  12.29
     2  16.66  16.85   1.48  16.67  16.29  13.85  17.32  12.83  12.37  16.81
     3  16.31  14.65  16.91   1.56  14.75  17.15  14.69  17.18  15.35  14.81
     4  14.29  17.41  14.45  15.33   1.46  16.03  16.94  13.31  17.16  17.22
     5  13.98  14.35  16.55  16.95  17.43   1.54  13.31  13.30  13.31  13.31
     6  14.61  13.11  16.96  16.95  16.27  15.50   1.46  13.63  12.28  13.05
     7  15.38  13.21  17.50  16.67  14.07  16.34  17.42   1.51  14.37  13.60
     8  16.83  13.78  17.13  16.61  13.49  17.01  12.87  17.01   1.48  16.51
     9  16.47  17.02  16.45  14.20  12.30  16.36  16.96  14.24  13.55   1.50

   CPU     0      1      2      3      4      5      6      7      8      9
     0   3.21  10.32  10.46   9.87   9.77  10.01   9.65   9.94   9.60   9.58
     1  10.52   3.13  10.39   9.78   9.77   9.90   9.85  10.13   9.35   9.30
     2  10.02   9.67   2.96   9.42   9.89   9.81   9.85   9.99   9.45   9.40
     3   9.87   9.73  10.02   2.93   9.43   9.70   9.62   9.51   9.24   9.37
     4   9.44   9.73   9.59   9.06   2.94   9.50   9.54   9.47   9.16   9.07
     5   9.79  10.03   9.73   9.37   9.56   2.92   9.62   9.54   9.50   9.24
     6   9.93   9.65   9.65   9.55   9.06   9.33   2.91   9.80   9.24   9.36
     7   9.63   9.63   9.56   9.21   9.18   9.37   9.38   3.11   9.10   8.99
     8   9.34   9.55   9.22   8.90   9.11   9.10   9.07   9.09   2.73   8.81
     9   9.49   9.07   9.06   8.94   8.78   9.03   8.96   9.02   8.95   2.70
P2P=Enabled Latency (P2P Writes) Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9
     0   1.47   2.48   2.48   2.49   2.49   2.49   2.49   2.49   2.49   2.49
     1   2.49   1.54   2.49   2.49   2.49   2.49   2.50   2.49   2.49   2.49
     2   2.45   2.43   1.46   2.57   2.55   2.55   2.59   2.52   2.57   2.52
     3   2.49   2.49   2.48   1.54   2.48   2.48   2.49   2.49   2.49   2.49
     4   2.49   2.48   2.48   2.48   1.47   2.49   2.49   2.49   2.49   2.49
     5   2.55   2.56   2.55   2.54   2.54   1.51   2.57   2.52   2.54   2.54
     6   2.53   2.51   2.50   2.52   2.54   2.51   1.48   2.54   2.52   2.52
     7   2.50   2.49   2.50   2.52   2.50   2.48   2.52   1.48   2.51   2.49
     8   2.48   2.48   2.48   2.50   2.48   2.48   2.53   2.60   1.48   2.47
     9   2.49   2.49   2.50   2.48   2.49   2.49   2.49   2.48   2.49   1.47

   CPU     0      1      2      3      4      5      6      7      8      9
     0   2.97   2.29   2.29   2.26   2.26   2.26   2.26   2.27   2.26   2.28
     1   2.26   2.84   2.25   2.26   2.25   2.29   2.27   2.26   2.24   2.26
     2   2.27   2.27   2.90   2.23   2.24   2.28   2.25   2.25   2.24   2.26
     3   2.15   2.20   2.16   2.80   2.21   2.16   2.17   2.16   2.16   2.14
     4   2.20   2.18   2.15   2.20   2.79   2.14   2.44   2.16   2.16   2.18
     5   2.24   2.23   2.22   2.26   2.24   2.92   2.45   2.22   2.23   2.23
     6   2.27   2.47   2.23   2.24   2.28   2.28   3.12   2.22   2.23   2.22
     7   2.23   2.49   2.22   2.23   2.24   2.23   2.27   2.90   2.26   2.23
     8   2.13   2.47   2.14   2.15   2.15   2.14   2.38   2.14   2.83   2.13
     9   2.15   2.15   2.26   2.14   2.16   2.15   2.16   2.19   2.16   2.73
P2P=Enabled Latency (P2P Reads) Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9
     0   1.47   3.73   3.75   3.87   3.90   3.90   3.92   3.92   4.18   3.90
     1   3.71   1.54   3.72   3.92   3.92   3.89   3.93   3.89   3.93   3.85
     2   3.69   3.70   1.45   3.90   3.89   3.93   3.90   3.89   3.90   3.91
     3   3.79   3.78   3.86   1.54   3.71   3.85   3.88   3.87   4.11   3.76
     4   3.82   3.85   3.89   3.62   1.47   3.92   3.89   3.90   4.16   3.82
     5   3.90   3.91   3.90   3.90   3.93   1.51   3.79   3.71   4.15   3.91
     6   3.91   3.93   3.89   3.91   3.90   3.71   1.50   3.80   3.91   3.90
     7   3.92   3.91   3.92   3.90   3.93   3.75   3.75   1.47   4.03   3.90
     8   3.92   3.92   3.90   3.93   3.91   3.91   3.91   3.90   1.47   3.75
     9   3.90   3.90   3.92   3.89   3.89   3.91   3.91   3.91   3.77   1.47

   CPU     0      1      2      3      4      5      6      7      8      9
     0   3.58   2.58   2.56   2.56   2.55   2.62   2.60   2.55   2.82   2.60
     1   2.59   3.28   2.56   2.61   2.61   2.57   2.56   2.59   2.60   2.58
     2   2.84   2.60   3.36   2.57   2.56   2.56   2.60   2.65   2.56   2.63
     3   2.52   2.45   2.45   3.22   2.45   2.44   2.46   2.44   2.45   2.46
     4   2.44   2.44   2.46   2.43   3.23   2.71   2.44   2.43   2.45   2.79
     5   2.51   2.53   2.52   2.54   2.52   3.30   2.52   2.56   2.54   2.60
     6   2.53   2.51   2.53   2.51   2.53   2.80   3.29   2.51   2.53   2.54
     7   2.52   2.52   2.53   2.56   2.53   2.50   2.51   3.31   2.51   2.52
     8   2.40   2.43   2.42   2.42   2.42   2.42   2.43   2.42   3.20   2.43
     9   2.67   2.41   2.47   2.42   2.67   2.43   2.41   2.43   2.45   3.15

NOTE: The CUDA Samples are not meant for performance measurements. Results may vary when GPU Boost is enabled.

updated for five x16 and x8 rest via PLX 88096 switch:

Details

File: /root/p2p-11gpu.log

[P2P (Peer-to-Peer) GPU Bandwidth Latency Test]
Device: 0, NVIDIA GeForce RTX 3090, pciBusID: 5, pciDeviceID: 0, pciDomainID:0
Device: 1, NVIDIA GeForce RTX 3090, pciBusID: 8, pciDeviceID: 0, pciDomainID:0
Device: 2, NVIDIA GeForce RTX 3090, pciBusID: 9, pciDeviceID: 0, pciDomainID:0
Device: 3, NVIDIA GeForce RTX 3090, pciBusID: 14, pciDeviceID: 0, pciDomainID:0
Device: 4, NVIDIA GeForce RTX 3090, pciBusID: 21, pciDeviceID: 0, pciDomainID:0
Device: 5, NVIDIA GeForce RTX 3090, pciBusID: 22, pciDeviceID: 0, pciDomainID:0
Device: 6, NVIDIA GeForce RTX 3090, pciBusID: 23, pciDeviceID: 0, pciDomainID:0
Device: 7, NVIDIA GeForce RTX 3090, pciBusID: 41, pciDeviceID: 0, pciDomainID:0
Device: 8, NVIDIA GeForce RTX 3090, pciBusID: 42, pciDeviceID: 0, pciDomainID:0
Device: 9, NVIDIA GeForce RTX 3090, pciBusID: 43, pciDeviceID: 0, pciDomainID:0
Device: 10, NVIDIA GeForce RTX 3090, pciBusID: 61, pciDeviceID: 0, pciDomainID:0
Device=0 CAN Access Peer Device=1
Device=0 CAN Access Peer Device=2
Device=0 CAN Access Peer Device=3
Device=0 CAN Access Peer Device=4
Device=0 CAN Access Peer Device=5
Device=0 CAN Access Peer Device=6
Device=0 CAN Access Peer Device=7
Device=0 CAN Access Peer Device=8
Device=0 CAN Access Peer Device=9
Device=0 CAN Access Peer Device=10
Device=1 CAN Access Peer Device=0
Device=1 CAN Access Peer Device=2
Device=1 CAN Access Peer Device=3
Device=1 CAN Access Peer Device=4
Device=1 CAN Access Peer Device=5
Device=1 CAN Access Peer Device=6
Device=1 CAN Access Peer Device=7
Device=1 CAN Access Peer Device=8
Device=1 CAN Access Peer Device=9
Device=1 CAN Access Peer Device=10
Device=2 CAN Access Peer Device=0
Device=2 CAN Access Peer Device=1
Device=2 CAN Access Peer Device=3
Device=2 CAN Access Peer Device=4
Device=2 CAN Access Peer Device=5
Device=2 CAN Access Peer Device=6
Device=2 CAN Access Peer Device=7
Device=2 CAN Access Peer Device=8
Device=2 CAN Access Peer Device=9
Device=2 CAN Access Peer Device=10
Device=3 CAN Access Peer Device=0
Device=3 CAN Access Peer Device=1
Device=3 CAN Access Peer Device=2
Device=3 CAN Access Peer Device=4
Device=3 CAN Access Peer Device=5
Device=3 CAN Access Peer Device=6
Device=3 CAN Access Peer Device=7
Device=3 CAN Access Peer Device=8
Device=3 CAN Access Peer Device=9
Device=3 CAN Access Peer Device=10
Device=4 CAN Access Peer Device=0
Device=4 CAN Access Peer Device=1
Device=4 CAN Access Peer Device=2
Device=4 CAN Access Peer Device=3
Device=4 CAN Access Peer Device=5
Device=4 CAN Access Peer Device=6
Device=4 CAN Access Peer Device=7
Device=4 CAN Access Peer Device=8
Device=4 CAN Access Peer Device=9
Device=4 CAN Access Peer Device=10
Device=5 CAN Access Peer Device=0
Device=5 CAN Access Peer Device=1
Device=5 CAN Access Peer Device=2
Device=5 CAN Access Peer Device=3
Device=5 CAN Access Peer Device=4
Device=5 CAN Access Peer Device=6
Device=5 CAN Access Peer Device=7
Device=5 CAN Access Peer Device=8
Device=5 CAN Access Peer Device=9
Device=5 CAN Access Peer Device=10
Device=6 CAN Access Peer Device=0
Device=6 CAN Access Peer Device=1
Device=6 CAN Access Peer Device=2
Device=6 CAN Access Peer Device=3
Device=6 CAN Access Peer Device=4
Device=6 CAN Access Peer Device=5
Device=6 CAN Access Peer Device=7
Device=6 CAN Access Peer Device=8
Device=6 CAN Access Peer Device=9
Device=6 CAN Access Peer Device=10
Device=7 CAN Access Peer Device=0
Device=7 CAN Access Peer Device=1
Device=7 CAN Access Peer Device=2
Device=7 CAN Access Peer Device=3
Device=7 CAN Access Peer Device=4
Device=7 CAN Access Peer Device=5
Device=7 CAN Access Peer Device=6
Device=7 CAN Access Peer Device=8
Device=7 CAN Access Peer Device=9
Device=7 CAN Access Peer Device=10
Device=8 CAN Access Peer Device=0
Device=8 CAN Access Peer Device=1
Device=8 CAN Access Peer Device=2
Device=8 CAN Access Peer Device=3
Device=8 CAN Access Peer Device=4
Device=8 CAN Access Peer Device=5
Device=8 CAN Access Peer Device=6
Device=8 CAN Access Peer Device=7
Device=8 CAN Access Peer Device=9
Device=8 CAN Access Peer Device=10
Device=9 CAN Access Peer Device=0
Device=9 CAN Access Peer Device=1
Device=9 CAN Access Peer Device=2
Device=9 CAN Access Peer Device=3
Device=9 CAN Access Peer Device=4
Device=9 CAN Access Peer Device=5
Device=9 CAN Access Peer Device=6
Device=9 CAN Access Peer Device=7
Device=9 CAN Access Peer Device=8
Device=9 CAN Access Peer Device=10
Device=10 CAN Access Peer Device=0
Device=10 CAN Access Peer Device=1
Device=10 CAN Access Peer Device=2
Device=10 CAN Access Peer Device=3
Device=10 CAN Access Peer Device=4
Device=10 CAN Access Peer Device=5
Device=10 CAN Access Peer Device=6
Device=10 CAN Access Peer Device=7
Device=10 CAN Access Peer Device=8
Device=10 CAN Access Peer Device=9

***NOTE: In case a device doesn't have P2P access to other one, it falls back to normal memcopy procedure.
So you can see lesser Bandwidth (GB/s) and unstable Latency (us) in those cases.

P2P Connectivity Matrix
     D\D     0     1     2     3     4     5     6     7     8     9    10
     0	     1     1     1     1     1     1     1     1     1     1     1
     1	     1     1     1     1     1     1     1     1     1     1     1
     2	     1     1     1     1     1     1     1     1     1     1     1
     3	     1     1     1     1     1     1     1     1     1     1     1
     4	     1     1     1     1     1     1     1     1     1     1     1
     5	     1     1     1     1     1     1     1     1     1     1     1
     6	     1     1     1     1     1     1     1     1     1     1     1
     7	     1     1     1     1     1     1     1     1     1     1     1
     8	     1     1     1     1     1     1     1     1     1     1     1
     9	     1     1     1     1     1     1     1     1     1     1     1
    10	     1     1     1     1     1     1     1     1     1     1     1
Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10 
     0 899.54  11.07  11.12   7.88   7.97   7.97  11.28   7.95   7.93   7.95  11.24 
     1  11.12 902.14  11.11   7.89   7.92   7.94  11.26   7.93   7.93   7.97  11.22 
     2  11.12  11.12 901.10   7.90   7.93   7.94  11.28   7.92   7.95   7.96  11.23 
     3   7.88   7.88   7.88 836.01   6.08   6.11   7.90   6.13   6.09   6.12   7.91 
     4   7.86   7.86   7.86   6.06 901.62   6.08   7.88   6.13   6.07   6.10   7.88 
     5   7.85   7.87   7.87   6.05   6.11 902.14   7.93   6.13   6.05   6.13   7.90 
     6  11.16  11.18  11.14   7.90   7.96   7.96 902.04   7.96   7.94   7.96  11.23 
     7   7.83   7.85   7.86   6.05   6.10   6.12   7.90 900.63   6.06   6.13   7.89 
     8   7.86   7.87   7.86   6.02   6.10   6.11   7.90   6.13 900.58   6.10   7.91 
     9   7.87   7.86   7.89   6.05   6.09   6.11   7.89   6.13   6.07 900.06   7.92 
    10  11.08  11.17  11.11   7.90   7.95   7.96  11.30   7.95   7.94   7.96 900.58 
Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10 
     0 901.62  25.74  26.03  13.17  13.17  13.17  26.31  13.17  13.17  13.15  25.69 
     1  26.01 901.62  26.03  13.17  13.17  13.17  26.26  13.17  13.17  13.17  25.81 
     2  26.03  26.02 903.18  13.17  13.17  13.17  26.26  13.17  13.17  13.17  26.00 
     3  13.19  13.18  13.19 903.18  13.17  13.17  13.18  13.17  13.17  13.17  13.19 
     4  13.19  13.19  13.18  13.17 902.14  13.17  13.19  13.17  13.14  13.16  13.17 
     5  13.18  13.19  13.19  13.17  13.17 903.70  13.19  13.17  13.17  13.17  13.19 
     6  25.96  26.31  26.31  13.17  13.17  13.17 903.70  13.17  13.17  13.16  25.73 
     7  13.16  13.18  13.18  13.17  13.15  13.17  13.19 904.22  13.17  13.17  13.19 
     8  13.19  13.19  13.18  13.17  13.17  13.17  13.19  13.17 903.70  13.16  13.19 
     9  13.19  13.19  13.19  13.17  13.17  13.17  13.18  13.17  13.17 904.22  13.17 
    10  25.77  26.31  26.31  13.17  13.17  13.17  26.34  13.17  13.17  13.17 903.70 
Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10 
     0 906.59   8.62   8.76  11.31  11.72  11.72  16.30  11.74  11.72  11.73  16.42 
     1   8.26 907.38   8.67  11.34  11.72  11.75  16.45  11.73  11.75  11.73  16.35 
     2   8.73   8.54 906.85  11.32  11.71  11.73  16.49  11.74  11.74  11.73  16.35 
     3  10.88  10.88  10.87 907.63   8.91   8.91  11.30   8.84   8.89   8.90  11.30 
     4  11.30  11.29  11.28   8.96 907.05   8.98  11.01   8.96   8.89   8.89  11.34 
     5  11.25  11.30  11.28   8.99   8.91 907.64  11.00   8.93   8.94   8.92  11.31 
     6  16.48  16.63  16.52  11.70  11.52  11.51 907.38  11.77  11.74  11.72  16.59 
     7  11.25  11.29  11.28   8.99   8.84   8.96  11.34 907.11   8.87   8.99  11.33 
     8  11.25  11.28  11.29   8.91   8.89   8.89  11.34   8.94 906.78   8.95  11.31 
     9  11.24  11.29  11.30   8.97   8.94   8.94  11.33   8.96   8.88 907.90  11.31 
    10  16.51  16.59  16.54  11.74  11.77  11.77  16.58  11.75  11.78  11.78 907.58 
Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10 
     0 907.64  25.84  26.03  25.95  25.90  25.91  51.39  25.94  25.92  25.94  50.41 
     1  26.03 906.32  26.03  25.94  25.95  25.94  51.41  25.86  25.83  25.77  50.47 
     2  26.03  26.03 907.11  25.95  25.93  25.94  51.39  25.92  25.94  25.94  50.39 
     3  25.94  25.94  25.93 907.64  25.93  25.93  25.93  25.93  25.90  25.93  25.88 
     4  25.91  25.92  25.94  25.92 907.64  17.07  25.94  25.92  25.92  25.94  25.94 
     5  25.94  25.93  25.95  25.94  16.93 907.38  25.95  25.91  25.93  25.93  25.95 
     6  50.23  51.25  51.39  25.95  25.94  25.95 907.38  25.94  25.94  25.95  51.47 
     7  25.94  25.92  25.94  25.93  25.94  25.94  25.94 907.11  25.94  25.93  25.94 
     8  25.77  25.93  25.91  25.94  25.94  25.93  25.92  25.94 907.11  16.92  25.94 
     9  25.85  25.94  25.93  25.94  25.94  25.94  25.90  25.93  17.32 906.85  25.94 
    10  50.43  51.49  51.46  25.92  25.94  25.95  52.01  25.94  25.94  25.94 907.11 
P2P=Disabled Latency Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9     10 
     0   1.48  16.54  15.18  12.93  17.05  13.09  13.97  12.54  12.70  12.82  13.34 
     1  16.12   1.55  15.38  12.41  12.41  12.82  12.94  13.67  12.55  12.94  17.51 
     2  16.42  18.52   1.54  12.53  14.10  19.15  16.04  12.39  12.94  17.36  17.13 
     3  17.24  17.27  18.18   1.48  12.39  13.22  17.18  13.39  14.31  17.09  15.07 
     4  18.15  18.18  17.61  17.05   1.55  13.75  16.47  14.13  13.85  17.19  15.80 
     5  18.12  18.24  17.94  17.32  16.08   1.56  16.93  13.32  15.45  17.40  14.63 
     6  17.18  17.18  17.36  13.29  16.99  14.12   1.51  16.28  12.21  13.90  16.78 
     7  17.03  17.18  17.21  13.32  17.05  16.87  12.28   1.51  13.32  15.82  15.86 
     8  17.78  18.13  17.63  15.57  13.39  14.22  16.71  17.09   1.56  14.15  16.07 
     9  18.24  18.13  18.17  16.76  13.84  17.08  17.17  13.22  16.97   1.57  14.57 
    10  17.31  16.79  18.06  12.86  15.85  12.28  12.27  14.90  14.37  17.18   1.55 

   CPU     0      1      2      3      4      5      6      7      8      9     10 
     0   2.89   9.59   9.82   9.50   9.24   9.08   9.11   9.71   9.24   9.47   8.82 
     1   9.58   2.85   9.61   9.32   9.25   8.98   8.98   9.12   9.12   9.11   8.82 
     2   9.82   9.30   2.82   9.31   9.27   8.88   8.99   9.43   9.18   9.23   8.79 
     3   9.57   9.37   9.36   2.86   9.03   9.08   9.05   9.23   9.44   9.23   8.84 
     4   9.29   9.13   9.38   9.17   2.73   8.84   8.84   9.04   8.95   9.18   8.61 
     5   9.23   9.34   9.12   9.08   9.02   2.73   8.84   9.03   9.35   8.96   8.66 
     6   9.24   9.03   9.25   9.06   8.80   9.03   2.77   9.04   9.06   9.06   8.77 
     7   9.60   9.22   9.20   9.44   8.99   8.93   9.19   2.81   8.96   9.16   8.82 
     8   9.32   9.42   9.17   9.20   9.14   8.85   8.82   9.03   2.77   9.15   8.79 
     9   9.27   9.19   9.15   9.25   8.65   8.95   8.94   9.07   9.34   2.82   8.88 
    10   9.07   9.23   8.99   9.06   8.90   8.69   8.98   8.95   8.93   8.93   2.72 
P2P=Enabled Latency (P2P Writes) Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9     10 
     0   1.55   1.44   1.38   1.41   1.52   1.47   1.48   1.50   1.51   1.50   1.51 
     1   1.36   1.55   1.41   1.39   1.42   1.47   1.44   1.48   1.41   1.46   1.43 
     2   1.42   1.40   1.55   1.38   1.48   1.48   1.52   1.48   1.42   1.44   1.47 
     3   1.18   1.19   1.20   1.46   1.27   1.25   1.27   1.30   1.26   1.25   1.27 
     4   1.22   1.19   1.20   1.19   1.61   1.17   1.17   1.24   1.19   1.20   1.17 
     5   1.17   1.19   1.15   1.18   1.17   1.51   1.19   1.17   1.19   1.19   1.15 
     6   1.19   1.16   1.18   1.14   1.20   1.18   1.55   1.19   1.22   1.21   1.16 
     7   1.21   1.20   1.24   1.24   1.20   1.22   1.25   1.51   1.14   1.18   1.20 
     8   1.28   1.31   1.30   1.31   1.28   1.28   1.28   1.20   1.52   1.19   1.26 
     9   1.25   1.25   1.24   1.28   1.25   1.25   1.25   1.18   1.21   1.52   1.28 
    10   1.17   1.16   1.19   1.19   1.17   1.17   1.18   1.18   1.17   1.31   1.50 

   CPU     0      1      2      3      4      5      6      7      8      9     10 
     0   2.87   2.53   2.59   2.63   2.51   2.57   2.54   2.57   2.56   2.52   2.52 
     1   2.65   3.16   2.54   2.61   2.50   3.73   3.84   2.52   2.57   2.56   2.44 
     2   3.15   2.55   3.26   3.85   3.03   2.67   3.85   2.55   2.59   2.55   2.62 
     3   3.15   2.65   2.61   4.46   2.61   2.64   2.60   2.56   2.60   2.54   2.57 
     4   2.53   2.45   2.44   2.49   2.81   2.44   2.47   2.42   2.40   2.45   2.46 
     5   2.55   2.46   2.46   2.52   2.45   2.81   2.43   2.46   2.42   2.45   2.45 
     6   2.51   2.45   2.50   2.45   2.46   2.43   2.80   2.40   2.46   2.41   2.43 
     7   2.61   2.48   2.49   2.53   2.50   2.51   2.52   2.86   2.48   2.50   2.51 
     8   2.59   2.48   2.56   2.53   2.48   2.52   2.53   2.48   3.10   2.50   2.51 
     9   2.59   2.54   2.53   2.56   2.54   2.52   2.54   2.59   2.50   2.89   2.56 
    10   2.49   2.42   2.43   2.45   2.41   2.45   2.44   2.46   2.46   2.44   2.85 

NOTE: The CUDA Samples are not meant for performance measurements. Results may vary when GPU Boost is enabled.

logs

Details

File: qwen3.5-397b-iq4_kss-full-offload-graph.log

 
 main: n_kv_max = 262144, n_batch = 2048, n_ubatch = 2048, flash_attn = 1, n_gpu_layers = 99, n_threads = 1, n_threads_batch = 1
 
 |    PP |     TG |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |
 |-------|--------|--------|----------|----------|----------|----------|
 |  2048 |    512 |      0 |    1.574 |  1300.81 |    8.612 |    59.45 |
 |  2048 |    512 |   2048 |    1.610 |  1271.99 |    8.634 |    59.30 |
 |  2048 |    512 |   4096 |    1.617 |  1266.89 |    8.706 |    58.81 |
 |  2048 |    512 |   6144 |    1.635 |  1252.52 |    8.804 |    58.16 |
 |  2048 |    512 |   8192 |    1.677 |  1220.92 |    8.853 |    57.84 |
 |  2048 |    512 |  10240 |    1.687 |  1214.10 |    8.969 |    57.09 |
 |  2048 |    512 |  12288 |    1.699 |  1205.70 |    9.107 |    56.22 |
 |  2048 |    512 |  14336 |    1.714 |  1195.20 |    9.181 |    55.77 |
 |  2048 |    512 |  16384 |    1.733 |  1182.08 |    9.239 |    55.42 |
 |  2048 |    512 |  18432 |    1.759 |  1164.49 |    9.315 |    54.97 |
 |  2048 |    512 |  20480 |    1.794 |  1141.83 |    9.369 |    54.65 |
 |  2048 |    512 |  22528 |    1.802 |  1136.23 |    9.526 |    53.75 |
 |  2048 |    512 |  24576 |    1.824 |  1123.05 |    9.614 |    53.26 |
 |  2048 |    512 |  26624 |    1.835 |  1116.25 |    9.688 |    52.85 |
 |  2048 |    512 |  28672 |    1.870 |  1095.44 |    9.757 |    52.47 |
 |  2048 |    512 |  30720 |    1.893 |  1081.84 |    9.847 |    52.00 |
 |  2048 |    512 |  32768 |    1.935 |  1058.55 |    9.989 |    51.26 |
 |  2048 |    512 |  34816 |    1.955 |  1047.43 |   10.055 |    50.92 |
 |  2048 |    512 |  36864 |    1.950 |  1050.07 |   10.121 |    50.59 |
 |  2048 |    512 |  38912 |    1.984 |  1032.26 |   10.205 |    50.17 |
 |  2048 |    512 |  40960 |    2.028 |  1009.98 |   10.254 |    49.93 |
 |  2048 |    512 |  43008 |    2.033 |  1007.29 |   10.397 |    49.25 |
 |  2048 |    512 |  45056 |    2.069 |   989.98 |   10.481 |    48.85 |
 |  2048 |    512 |  47104 |    2.076 |   986.31 |   10.525 |    48.65 |
 |  2048 |    512 |  49152 |    2.103 |   973.99 |   10.584 |    48.37 |
 |  2048 |    512 |  51200 |    2.130 |   961.44 |   10.679 |    47.95 |
 |  2048 |    512 |  53248 |    2.157 |   949.26 |   10.870 |    47.10 |
 |  2048 |    512 |  55296 |    2.168 |   944.71 |   10.908 |    46.94 |
 |  2048 |    512 |  57344 |    2.203 |   929.63 |   10.985 |    46.61 |
 |  2048 |    512 |  59392 |    2.224 |   920.73 |   11.048 |    46.34 |
 |  2048 |    512 |  61440 |    2.252 |   909.46 |   11.116 |    46.06 |
 |  2048 |    512 |  63488 |    2.263 |   905.02 |   11.261 |    45.47 |
 |  2048 |    512 |  65536 |    2.298 |   891.27 |   11.359 |    45.07 |
 |  2048 |    512 |  67584 |    2.313 |   885.30 |   11.415 |    44.85 |
 |  2048 |    512 |  69632 |    2.353 |   870.26 |   11.508 |    44.49 |
 |  2048 |    512 |  71680 |    2.380 |   860.41 |   11.568 |    44.26 |
 |  2048 |    512 |  73728 |    2.397 |   854.29 |   11.738 |    43.62 |
 |  2048 |    512 |  75776 |    2.451 |   835.61 |   11.798 |    43.40 |
 |  2048 |    512 |  77824 |    2.429 |   843.31 |   11.906 |    43.00 |
 |  2048 |    512 |  79872 |    2.490 |   822.47 |   11.964 |    42.79 |
 |  2048 |    512 |  81920 |    2.491 |   822.13 |   12.023 |    42.59 |
 |  2048 |    512 |  83968 |    2.533 |   808.59 |   12.145 |    42.16 |
 |  2048 |    512 |  86016 |    2.532 |   808.76 |   12.292 |    41.65 |
 |  2048 |    512 |  88064 |    2.554 |   801.93 |   12.342 |    41.48 |
 |  2048 |    512 |  90112 |    2.591 |   790.46 |   12.435 |    41.18 |
 |  2048 |    512 |  92160 |    2.589 |   791.16 |   12.487 |    41.00 |
 |  2048 |    512 |  94208 |    2.642 |   775.06 |   12.626 |    40.55 |
 |  2048 |    512 |  96256 |    2.667 |   767.94 |   12.745 |    40.17 |
 |  2048 |    512 |  98304 |    2.713 |   755.00 |   12.778 |    40.07 |
 |  2048 |    512 | 100352 |    2.729 |   750.59 |   12.834 |    39.90 |
 |  2048 |    512 | 102400 |    2.744 |   746.28 |   12.942 |    39.56 |
 |  2048 |    512 | 104448 |    2.752 |   744.10 |   13.010 |    39.36 |
 |  2048 |    512 | 106496 |    2.767 |   740.03 |   13.184 |    38.84 |
 |  2048 |    512 | 108544 |    2.795 |   732.81 |   13.252 |    38.64 |
 |  2048 |    512 | 110592 |    2.842 |   720.66 |   13.300 |    38.50 |
 |  2048 |    512 | 112640 |    2.846 |   719.51 |   13.394 |    38.23 |
 |  2048 |    512 | 114688 |    2.880 |   711.04 |   13.442 |    38.09 |
 |  2048 |    512 | 116736 |    2.879 |   711.47 |   13.615 |    37.60 |
 |  2048 |    512 | 118784 |    2.901 |   706.07 |   13.697 |    37.38 |
 |  2048 |    512 | 120832 |    2.948 |   694.67 |   13.768 |    37.19 |
 |  2048 |    512 | 122880 |    2.967 |   690.23 |   13.834 |    37.01 |
 |  2048 |    512 | 124928 |    3.004 |   681.76 |   13.909 |    36.81 |
 |  2048 |    512 | 126976 |    2.994 |   683.98 |   14.047 |    36.45 |
 |  2048 |    512 | 129024 |    3.052 |   671.12 |   14.137 |    36.22 |
 |  2048 |    512 | 131072 |    3.044 |   672.71 |   14.242 |    35.95 |
 |  2048 |    512 | 133120 |    3.105 |   659.54 |   14.297 |    35.81 |
 |  2048 |    512 | 135168 |    3.086 |   663.74 |   14.354 |    35.67 |
 |  2048 |    512 | 137216 |    3.115 |   657.52 |   14.548 |    35.19 |
 |  2048 |    512 | 139264 |    3.142 |   651.84 |   14.591 |    35.09 |
 |  2048 |    512 | 141312 |    3.180 |   644.09 |   14.653 |    34.94 |
 |  2048 |    512 | 143360 |    3.181 |   643.74 |   14.725 |    34.77 |
 |  2048 |    512 | 145408 |    3.202 |   639.61 |   14.798 |    34.60 |
 |  2048 |    512 | 147456 |    3.270 |   626.26 |   14.951 |    34.24 |
 |  2048 |    512 | 149504 |    3.256 |   628.93 |   15.010 |    34.11 |
 |  2048 |    512 | 151552 |    3.289 |   622.71 |   15.085 |    33.94 |
 |  2048 |    512 | 153600 |    3.295 |   621.58 |   15.161 |    33.77 |
 |  2048 |    512 | 155648 |    3.317 |   617.34 |   15.218 |    33.64 |
 |  2048 |    512 | 157696 |    3.347 |   611.84 |   15.357 |    33.34 |
 |  2048 |    512 | 159744 |    3.372 |   607.40 |   15.441 |    33.16 |
 |  2048 |    512 | 161792 |    3.412 |   600.17 |   15.540 |    32.95 |
 |  2048 |    512 | 163840 |    3.428 |   597.40 |   15.589 |    32.84 |
 |  2048 |    512 | 165888 |    3.435 |   596.25 |   15.668 |    32.68 |
 |  2048 |    512 | 167936 |    3.473 |   589.66 |   15.728 |    32.55 |
 |  2048 |    512 | 169984 |    3.481 |   588.35 |   15.889 |    32.22 |
 |  2048 |    512 | 172032 |    3.518 |   582.18 |   15.949 |    32.10 |
 |  2048 |    512 | 174080 |    3.528 |   580.57 |   16.042 |    31.92 |
 |  2048 |    512 | 176128 |    3.544 |   577.92 |   16.086 |    31.83 |
 |  2048 |    512 | 178176 |    3.607 |   567.71 |   16.189 |    31.63 |
 |  2048 |    512 | 180224 |    3.598 |   569.23 |   16.328 |    31.36 |
 |  2048 |    512 | 182272 |    3.656 |   560.15 |   16.354 |    31.31 |
 |  2048 |    512 | 184320 |    3.643 |   562.13 |   16.418 |    31.19 |
 |  2048 |    512 | 186368 |    3.662 |   559.20 |   16.511 |    31.01 |
 |  2048 |    512 | 188416 |    3.683 |   556.12 |   16.622 |    30.80 |
 |  2048 |    512 | 190464 |    3.720 |   550.61 |   16.763 |    30.54 |
 |  2048 |    512 | 192512 |    3.736 |   548.21 |   16.841 |    30.40 |
 |  2048 |    512 | 194560 |    3.741 |   547.49 |   16.899 |    30.30 |
 |  2048 |    512 | 196608 |    3.804 |   538.44 |   16.965 |    30.18 |
 |  2048 |    512 | 198656 |    3.804 |   538.35 |   17.041 |    30.05 |
 |  2048 |    512 | 200704 |    3.851 |   531.80 |   17.190 |    29.79 |
 |  2048 |    512 | 202752 |    3.841 |   533.25 |   17.265 |    29.65 |
 |  2048 |    512 | 204800 |    3.862 |   530.26 |   17.336 |    29.53 |
 |  2048 |    512 | 206848 |    3.885 |   527.16 |   17.377 |    29.46 |
 |  2048 |    512 | 208896 |    3.905 |   524.39 |   17.463 |    29.32 |
 |  2048 |    512 | 210944 |    3.950 |   518.43 |   17.562 |    29.15 |
 |  2048 |    512 | 212992 |    3.954 |   518.00 |   17.657 |    29.00 |
 |  2048 |    512 | 215040 |    3.978 |   514.86 |   17.706 |    28.92 |
 |  2048 |    512 | 217088 |    4.017 |   509.78 |   17.855 |    28.68 |
 |  2048 |    512 | 219136 |    4.027 |   508.52 |   17.890 |    28.62 |
 |  2048 |    512 | 221184 |    4.053 |   505.28 |   18.054 |    28.36 |
 |  2048 |    512 | 223232 |    4.105 |   498.95 |   18.078 |    28.32 |
 |  2048 |    512 | 225280 |    4.088 |   500.97 |   18.177 |    28.17 |
 |  2048 |    512 | 227328 |    4.112 |   498.00 |   18.277 |    28.01 |
 |  2048 |    512 | 229376 |    4.173 |   490.77 |   18.315 |    27.96 |
 |  2048 |    512 | 231424 |    4.150 |   493.45 |   18.455 |    27.74 |
 |  2048 |    512 | 233472 |    4.200 |   487.62 |   18.558 |    27.59 |
 |  2048 |    512 | 235520 |    4.195 |   488.20 |   18.583 |    27.55 |
 |  2048 |    512 | 237568 |    4.234 |   483.68 |   18.633 |    27.48 |
 |  2048 |    512 | 239616 |    4.252 |   481.65 |   18.747 |    27.31 |
 |  2048 |    512 | 241664 |    4.272 |   479.37 |   18.862 |    27.14 |
 |  2048 |    512 | 243712 |    4.287 |   477.74 |   18.991 |    26.96 |
 |  2048 |    512 | 245760 |    4.323 |   473.80 |   19.017 |    26.92 |
 |  2048 |    512 | 247808 |    4.369 |   468.75 |   19.051 |    26.88 |
 |  2048 |    512 | 249856 |    4.360 |   469.72 |   19.169 |    26.71 |
 |  2048 |    512 | 251904 |    4.392 |   466.25 |   19.289 |    26.54 |
 |  2048 |    512 | 253952 |    4.404 |   465.08 |   19.390 |    26.41 |
 |  2048 |    512 | 256000 |    4.441 |   461.15 |   19.437 |    26.34 |
 |  2048 |    512 | 258048 |    4.446 |   460.66 |   19.544 |    26.20 |
 |  2048 |    512 | 260096 |    4.478 |   457.37 |   19.625 |    26.09 |

File: qwen3.5-397b-iq4_kss-full-offload-layer.log

 
 main: n_kv_max = 262144, n_batch = 1024, n_ubatch = 1024, flash_attn = 1, n_gpu_layers = 99, n_threads = 1, n_threads_batch = 1
 
 |    PP |     TG |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |
 |-------|--------|--------|----------|----------|----------|----------|
 |  1024 |    256 |      0 |    1.242 |   824.42 |    5.324 |    48.09 |
 |  1024 |    256 |   1024 |    1.266 |   809.08 |    5.313 |    48.18 |
 |  1024 |    256 |   2048 |    1.278 |   801.33 |    5.337 |    47.97 |
 |  1024 |    256 |   3072 |    1.290 |   793.88 |    5.358 |    47.78 |
 |  1024 |    256 |   4096 |    1.288 |   794.91 |    5.387 |    47.53 |
 |  1024 |    256 |   5120 |    1.316 |   778.39 |    5.439 |    47.07 |
 |  1024 |    256 |   6144 |    1.323 |   773.96 |    5.483 |    46.69 |
 |  1024 |    256 |   7168 |    1.319 |   776.15 |    5.518 |    46.39 |
 |  1024 |    256 |   8192 |    1.329 |   770.28 |    5.555 |    46.09 |
 |  1024 |    256 |   9216 |    1.340 |   764.19 |    5.604 |    45.69 |
 |  1024 |    256 |  10240 |    1.360 |   753.09 |    5.650 |    45.31 |
 |  1024 |    256 |  11264 |    1.361 |   752.62 |    5.717 |    44.78 |
 |  1024 |    256 |  12288 |    1.370 |   747.55 |    5.743 |    44.58 |
 |  1024 |    256 |  13312 |    1.382 |   740.99 |    5.777 |    44.32 |
 |  1024 |    256 |  14336 |    1.395 |   733.80 |    5.811 |    44.06 |
 |  1024 |    256 |  15360 |    1.396 |   733.78 |    5.849 |    43.77 |
 |  1024 |    256 |  16384 |    1.406 |   728.30 |    5.913 |    43.29 |
 |  1024 |    256 |  17408 |    1.411 |   725.72 |    5.937 |    43.12 |
 |  1024 |    256 |  18432 |    1.415 |   723.78 |    5.968 |    42.89 |
 |  1024 |    256 |  19456 |    1.435 |   713.60 |    6.005 |    42.63 |
 |  1024 |    256 |  20480 |    1.438 |   711.86 |    6.042 |    42.37 |
 |  1024 |    256 |  21504 |    1.451 |   705.86 |    6.115 |    41.86 |
 |  1024 |    256 |  22528 |    1.454 |   704.26 |    6.139 |    41.70 |
 |  1024 |    256 |  23552 |    1.469 |   697.19 |    6.165 |    41.52 |
 |  1024 |    256 |  24576 |    1.475 |   694.36 |    6.205 |    41.25 |
 |  1024 |    256 |  25600 |    1.487 |   688.77 |    6.247 |    40.98 |
 |  1024 |    256 |  26624 |    1.497 |   683.90 |    6.306 |    40.60 |
 |  1024 |    256 |  27648 |    1.511 |   677.56 |    6.335 |    40.41 |
 |  1024 |    256 |  28672 |    1.509 |   678.73 |    6.371 |    40.18 |
 |  1024 |    256 |  29696 |    1.551 |   660.09 |    6.402 |    39.98 |
 |  1024 |    256 |  30720 |    1.535 |   667.14 |    6.433 |    39.79 |
 |  1024 |    256 |  31744 |    1.547 |   662.06 |    6.516 |    39.29 |
 |  1024 |    256 |  32768 |    1.556 |   658.00 |    6.539 |    39.15 |
 |  1024 |    256 |  33792 |    1.560 |   656.41 |    6.570 |    38.97 |
 |  1024 |    256 |  34816 |    1.569 |   652.51 |    6.605 |    38.76 |
 |  1024 |    256 |  35840 |    1.588 |   644.74 |    6.643 |    38.54 |
 |  1024 |    256 |  36864 |    1.594 |   642.49 |    6.701 |    38.21 |
 |  1024 |    256 |  37888 |    1.610 |   635.87 |    6.730 |    38.04 |
 |  1024 |    256 |  38912 |    1.605 |   637.83 |    6.768 |    37.82 |
 |  1024 |    256 |  39936 |    1.629 |   628.70 |    6.803 |    37.63 |
 |  1024 |    256 |  40960 |    1.639 |   624.72 |    6.853 |    37.35 |
 |  1024 |    256 |  41984 |    1.634 |   626.54 |    6.909 |    37.05 |
 |  1024 |    256 |  43008 |    1.655 |   618.84 |    6.942 |    36.88 |
 |  1024 |    256 |  44032 |    1.662 |   616.21 |    6.977 |    36.69 |
 |  1024 |    256 |  45056 |    1.670 |   613.02 |    7.008 |    36.53 |
 |  1024 |    256 |  46080 |    1.680 |   609.63 |    7.046 |    36.33 |
 |  1024 |    256 |  47104 |    1.685 |   607.63 |    7.103 |    36.04 |
 |  1024 |    256 |  48128 |    1.700 |   602.49 |    7.154 |    35.79 |
 |  1024 |    256 |  49152 |    1.703 |   601.32 |    7.177 |    35.67 |
 |  1024 |    256 |  50176 |    1.721 |   595.09 |    7.204 |    35.54 |
 |  1024 |    256 |  51200 |    1.734 |   590.47 |    7.244 |    35.34 |
 |  1024 |    256 |  52224 |    1.733 |   590.83 |    7.296 |    35.09 |
 |  1024 |    256 |  53248 |    1.743 |   587.37 |    7.357 |    34.79 |
 |  1024 |    256 |  54272 |    1.762 |   581.12 |    7.388 |    34.65 |
 |  1024 |    256 |  55296 |    1.758 |   582.60 |    7.423 |    34.49 |
 |  1024 |    256 |  56320 |    1.792 |   571.35 |    7.453 |    34.35 |
 |  1024 |    256 |  57344 |    1.776 |   576.72 |    7.502 |    34.12 |
 |  1024 |    256 |  58368 |    1.800 |   568.99 |    7.562 |    33.85 |
 |  1024 |    256 |  59392 |    1.801 |   568.59 |    7.596 |    33.70 |
 |  1024 |    256 |  60416 |    1.813 |   564.84 |    7.630 |    33.55 |
 |  1024 |    256 |  61440 |    1.822 |   562.09 |    7.664 |    33.40 |
 |  1024 |    256 |  62464 |    1.831 |   559.25 |    7.707 |    33.22 |
 |  1024 |    256 |  63488 |    1.836 |   557.73 |    7.777 |    32.92 |
 |  1024 |    256 |  64512 |    1.843 |   555.62 |    7.808 |    32.79 |
 |  1024 |    256 |  65536 |    1.859 |   550.83 |    7.835 |    32.67 |
 |  1024 |    256 |  66560 |    1.878 |   545.20 |    7.894 |    32.43 |
 |  1024 |    256 |  67584 |    1.881 |   544.31 |    7.915 |    32.34 |
 |  1024 |    256 |  68608 |    1.903 |   538.15 |    7.980 |    32.08 |
 |  1024 |    256 |  69632 |    1.914 |   534.90 |    8.013 |    31.95 |
 |  1024 |    256 |  70656 |    1.908 |   536.63 |    8.051 |    31.80 |
 |  1024 |    256 |  71680 |    1.929 |   530.90 |    8.086 |    31.66 |
 |  1024 |    256 |  72704 |    1.929 |   530.80 |    8.132 |    31.48 |
 |  1024 |    256 |  73728 |    1.949 |   525.40 |    8.203 |    31.21 |
 |  1024 |    256 |  74752 |    1.955 |   523.86 |    8.229 |    31.11 |
 |  1024 |    256 |  75776 |    1.963 |   521.62 |    8.264 |    30.98 |
 |  1024 |    256 |  76800 |    1.966 |   520.90 |    8.296 |    30.86 |
 |  1024 |    256 |  77824 |    1.978 |   517.58 |    8.337 |    30.71 |
 |  1024 |    256 |  78848 |    2.000 |   511.96 |    8.423 |    30.39 |
 |  1024 |    256 |  79872 |    2.002 |   511.38 |    8.448 |    30.30 |
 |  1024 |    256 |  80896 |    2.023 |   506.18 |    8.478 |    30.19 |
 |  1024 |    256 |  81920 |    2.025 |   505.59 |    8.529 |    30.02 |
 |  1024 |    256 |  82944 |    2.030 |   504.42 |    8.551 |    29.94 |
 |  1024 |    256 |  83968 |    2.039 |   502.23 |    8.622 |    29.69 |
 |  1024 |    256 |  84992 |    2.050 |   499.39 |    8.656 |    29.58 |
 |  1024 |    256 |  86016 |    2.067 |   495.48 |    8.692 |    29.45 |
 |  1024 |    256 |  87040 |    2.060 |   497.00 |    8.726 |    29.34 |
 |  1024 |    256 |  88064 |    2.087 |   490.66 |    8.768 |    29.20 |
 |  1024 |    256 |  89088 |    2.089 |   490.20 |    8.814 |    29.05 |
 |  1024 |    256 |  90112 |    2.103 |   486.84 |    8.876 |    28.84 |
 |  1024 |    256 |  91136 |    2.117 |   483.69 |    8.905 |    28.75 |
 |  1024 |    256 |  92160 |    2.115 |   484.21 |    8.936 |    28.65 |
 |  1024 |    256 |  93184 |    2.135 |   479.55 |    8.976 |    28.52 |
 |  1024 |    256 |  94208 |    2.138 |   479.02 |    9.030 |    28.35 |
 |  1024 |    256 |  95232 |    2.146 |   477.25 |    9.092 |    28.16 |
 |  1024 |    256 |  96256 |    2.161 |   473.92 |    9.111 |    28.10 |
 |  1024 |    256 |  97280 |    2.166 |   472.87 |    9.126 |    28.05 |
 |  1024 |    256 |  98304 |    2.176 |   470.68 |    9.168 |    27.92 |
 |  1024 |    256 |  99328 |    2.187 |   468.17 |    9.211 |    27.79 |
 |  1024 |    256 | 100352 |    2.207 |   464.06 |    9.270 |    27.62 |
 |  1024 |    256 | 101376 |    2.217 |   461.85 |    9.299 |    27.53 |
 |  1024 |    256 | 102400 |    2.218 |   461.70 |    9.346 |    27.39 |
 |  1024 |    256 | 103424 |    2.230 |   459.17 |    9.375 |    27.31 |
 |  1024 |    256 | 104448 |    2.233 |   458.52 |    9.417 |    27.19 |
 |  1024 |    256 | 105472 |    2.239 |   457.45 |    9.479 |    27.01 |
 |  1024 |    256 | 106496 |    2.269 |   451.29 |    9.520 |    26.89 |
 |  1024 |    256 | 107520 |    2.254 |   454.34 |    9.565 |    26.77 |
 |  1024 |    256 | 108544 |    2.280 |   449.18 |    9.584 |    26.71 |
 |  1024 |    256 | 109568 |    2.292 |   446.80 |    9.625 |    26.60 |
 |  1024 |    256 | 110592 |    2.303 |   444.55 |    9.682 |    26.44 |
 |  1024 |    256 | 111616 |    2.303 |   444.58 |    9.717 |    26.35 |
 |  1024 |    256 | 112640 |    2.306 |   444.03 |    9.775 |    26.19 |
 |  1024 |    256 | 113664 |    2.320 |   441.33 |    9.797 |    26.13 |
 |  1024 |    256 | 114688 |    2.337 |   438.12 |    9.830 |    26.04 |
 |  1024 |    256 | 115712 |    2.351 |   435.62 |    9.894 |    25.88 |
 |  1024 |    256 | 116736 |    2.360 |   433.98 |    9.939 |    25.76 |
 |  1024 |    256 | 117760 |    2.366 |   432.76 |    9.977 |    25.66 |
 |  1024 |    256 | 118784 |    2.374 |   431.41 |   10.002 |    25.59 |
 |  1024 |    256 | 119808 |    2.379 |   430.40 |   10.037 |    25.50 |
 |  1024 |    256 | 120832 |    2.391 |   428.24 |   10.099 |    25.35 |
 |  1024 |    256 | 121856 |    2.402 |   426.31 |   10.134 |    25.26 |
 |  1024 |    256 | 122880 |    2.413 |   424.30 |   10.176 |    25.16 |
 |  1024 |    256 | 123904 |    2.421 |   423.05 |   10.207 |    25.08 |
 |  1024 |    256 | 124928 |    2.422 |   422.85 |   10.245 |    24.99 |
 |  1024 |    256 | 125952 |    2.436 |   420.35 |   10.310 |    24.83 |
 |  1024 |    256 | 126976 |    2.457 |   416.78 |   10.331 |    24.78 |
 |  1024 |    256 | 128000 |    2.453 |   417.46 |   10.378 |    24.67 |
 |  1024 |    256 | 129024 |    2.477 |   413.42 |   10.414 |    24.58 |
 |  1024 |    256 | 130048 |    2.482 |   412.50 |   10.442 |    24.52 |
 |  1024 |    256 | 131072 |    2.485 |   412.08 |   10.487 |    24.41 |
 |  1024 |    256 | 132096 |    2.496 |   410.32 |   10.547 |    24.27 |
 |  1024 |    256 | 133120 |    2.493 |   410.75 |   10.579 |    24.20 |
 |  1024 |    256 | 134144 |    2.521 |   406.25 |   10.628 |    24.09 |
 |  1024 |    256 | 135168 |    2.526 |   405.32 |   10.659 |    24.02 |
 |  1024 |    256 | 136192 |    2.539 |   403.27 |   10.685 |    23.96 |
 |  1024 |    256 | 137216 |    2.547 |   402.09 |   10.752 |    23.81 |
 |  1024 |    256 | 138240 |    2.552 |   401.29 |   10.795 |    23.71 |
 |  1024 |    256 | 139264 |    2.559 |   400.10 |   10.820 |    23.66 |
 |  1024 |    256 | 140288 |    2.570 |   398.50 |   10.858 |    23.58 |
 |  1024 |    256 | 141312 |    2.576 |   397.56 |   10.892 |    23.50 |
 |  1024 |    256 | 142336 |    2.587 |   395.83 |   10.956 |    23.37 |
 |  1024 |    256 | 143360 |    2.607 |   392.84 |   10.996 |    23.28 |
 |  1024 |    256 | 144384 |    2.618 |   391.11 |   11.028 |    23.21 |
 |  1024 |    256 | 145408 |    2.620 |   390.83 |   11.057 |    23.15 |
 |  1024 |    256 | 146432 |    2.632 |   389.07 |   11.094 |    23.08 |
 |  1024 |    256 | 147456 |    2.639 |   388.08 |   11.156 |    22.95 |
 |  1024 |    256 | 148480 |    2.650 |   386.39 |   11.204 |    22.85 |
 |  1024 |    256 | 149504 |    2.651 |   386.32 |   11.247 |    22.76 |
 |  1024 |    256 | 150528 |    2.662 |   384.61 |   11.270 |    22.72 |
 |  1024 |    256 | 151552 |    2.672 |   383.23 |   11.302 |    22.65 |
 |  1024 |    256 | 152576 |    2.677 |   382.51 |   11.365 |    22.53 |
 |  1024 |    256 | 153600 |    2.688 |   380.96 |   11.406 |    22.45 |
 |  1024 |    256 | 154624 |    2.701 |   379.08 |   11.440 |    22.38 |
 |  1024 |    256 | 155648 |    2.712 |   377.62 |   11.476 |    22.31 |
 |  1024 |    256 | 156672 |    2.726 |   375.68 |   11.508 |    22.25 |
 |  1024 |    256 | 157696 |    2.731 |   374.94 |   11.564 |    22.14 |
 |  1024 |    256 | 158720 |    2.730 |   375.07 |   11.602 |    22.07 |
 |  1024 |    256 | 159744 |    2.745 |   372.98 |   11.646 |    21.98 |
 |  1024 |    256 | 160768 |    2.762 |   370.77 |   11.672 |    21.93 |
 |  1024 |    256 | 161792 |    2.778 |   368.68 |   11.716 |    21.85 |
 |  1024 |    256 | 162816 |    2.779 |   368.53 |   11.757 |    21.77 |
 |  1024 |    256 | 163840 |    2.786 |   367.57 |   11.817 |    21.66 |
 |  1024 |    256 | 164864 |    2.793 |   366.61 |   11.834 |    21.63 |
 |  1024 |    256 | 165888 |    2.807 |   364.82 |   11.879 |    21.55 |
 |  1024 |    256 | 166912 |    2.825 |   362.54 |   11.908 |    21.50 |
 |  1024 |    256 | 167936 |    2.829 |   361.94 |   11.969 |    21.39 |
 |  1024 |    256 | 168960 |    2.838 |   360.76 |   12.016 |    21.31 |
 |  1024 |    256 | 169984 |    2.840 |   360.63 |   12.044 |    21.26 |
 |  1024 |    256 | 171008 |    2.857 |   358.41 |   12.091 |    21.17 |
 |  1024 |    256 | 172032 |    2.853 |   358.88 |   12.120 |    21.12 |
 |  1024 |    256 | 173056 |    2.871 |   356.63 |   12.155 |    21.06 |
 |  1024 |    256 | 174080 |    2.883 |   355.21 |   12.219 |    20.95 |
 |  1024 |    256 | 175104 |    2.888 |   354.51 |   12.253 |    20.89 |
 |  1024 |    256 | 176128 |    2.901 |   352.93 |   12.295 |    20.82 |
 |  1024 |    256 | 177152 |    2.905 |   352.52 |   12.328 |    20.77 |
 |  1024 |    256 | 178176 |    2.909 |   351.95 |   12.370 |    20.70 |
 |  1024 |    256 | 179200 |    2.933 |   349.12 |   12.420 |    20.61 |
 |  1024 |    256 | 180224 |    2.930 |   349.45 |   12.459 |    20.55 |
 |  1024 |    256 | 181248 |    2.955 |   346.54 |   12.482 |    20.51 |
 |  1024 |    256 | 182272 |    2.961 |   345.83 |   12.521 |    20.45 |
 |  1024 |    256 | 183296 |    2.964 |   345.44 |   12.557 |    20.39 |
 |  1024 |    256 | 184320 |    2.967 |   345.17 |   12.628 |    20.27 |
 |  1024 |    256 | 185344 |    2.992 |   342.26 |   12.656 |    20.23 |
 |  1024 |    256 | 186368 |    2.985 |   343.03 |   12.701 |    20.16 |
 |  1024 |    256 | 187392 |    3.009 |   340.35 |   12.727 |    20.11 |
 |  1024 |    256 | 188416 |    3.021 |   338.99 |   12.770 |    20.05 |
 |  1024 |    256 | 189440 |    3.006 |   340.64 |   12.826 |    19.96 |
 |  1024 |    256 | 190464 |    3.028 |   338.19 |   12.862 |    19.90 |
 |  1024 |    256 | 191488 |    3.047 |   336.12 |   12.896 |    19.85 |
 |  1024 |    256 | 192512 |    3.046 |   336.13 |   12.937 |    19.79 |
 |  1024 |    256 | 193536 |    3.062 |   334.42 |   12.966 |    19.74 |
 |  1024 |    256 | 194560 |    3.055 |   335.14 |   13.020 |    19.66 |
 |  1024 |    256 | 195584 |    3.077 |   332.77 |   13.060 |    19.60 |
 |  1024 |    256 | 196608 |    3.079 |   332.56 |   13.100 |    19.54 |
 |  1024 |    256 | 197632 |    3.093 |   331.06 |   13.138 |    19.49 |
 |  1024 |    256 | 198656 |    3.106 |   329.70 |   13.169 |    19.44 |
 |  1024 |    256 | 199680 |    3.114 |   328.82 |   13.223 |    19.36 |
 |  1024 |    256 | 200704 |    3.126 |   327.52 |   13.263 |    19.30 |
 |  1024 |    256 | 201728 |    3.126 |   327.54 |   13.295 |    19.26 |
 |  1024 |    256 | 202752 |    3.145 |   325.55 |   13.336 |    19.20 |
 |  1024 |    256 | 203776 |    3.151 |   324.94 |   13.368 |    19.15 |
 |  1024 |    256 | 204800 |    3.159 |   324.11 |   13.428 |    19.06 |
 |  1024 |    256 | 205824 |    3.170 |   323.04 |   13.471 |    19.00 |
 |  1024 |    256 | 206848 |    3.177 |   322.31 |   13.503 |    18.96 |
 |  1024 |    256 | 207872 |    3.192 |   320.76 |   13.534 |    18.92 |
 |  1024 |    256 | 208896 |    3.209 |   319.14 |   13.579 |    18.85 |
 |  1024 |    256 | 209920 |    3.212 |   318.81 |   13.633 |    18.78 |
 |  1024 |    256 | 210944 |    3.216 |   318.37 |   13.675 |    18.72 |
 |  1024 |    256 | 211968 |    3.219 |   318.15 |   13.701 |    18.69 |
 |  1024 |    256 | 212992 |    3.233 |   316.70 |   13.743 |    18.63 |
 |  1024 |    256 | 214016 |    3.244 |   315.70 |   13.795 |    18.56 |
 |  1024 |    256 | 215040 |    3.260 |   314.13 |   13.810 |    18.54 |
 |  1024 |    256 | 216064 |    3.269 |   313.21 |   13.869 |    18.46 |
 |  1024 |    256 | 217088 |    3.268 |   313.35 |   13.918 |    18.39 |
 |  1024 |    256 | 218112 |    3.279 |   312.29 |   13.968 |    18.33 |
 |  1024 |    256 | 219136 |    3.306 |   309.78 |   13.972 |    18.32 |
 |  1024 |    256 | 220160 |    3.295 |   310.81 |   14.011 |    18.27 |
 |  1024 |    256 | 221184 |    3.317 |   308.69 |   14.062 |    18.20 |
 |  1024 |    256 | 222208 |    3.320 |   308.47 |   14.085 |    18.17 |
 |  1024 |    256 | 223232 |    3.331 |   307.39 |   14.129 |    18.12 |
 |  1024 |    256 | 224256 |    3.332 |   307.35 |   14.172 |    18.06 |
 |  1024 |    256 | 225280 |    3.356 |   305.14 |   14.195 |    18.03 |
 |  1024 |    256 | 226304 |    3.357 |   305.08 |   14.256 |    17.96 |
 |  1024 |    256 | 227328 |    3.367 |   304.17 |   14.287 |    17.92 |
 |  1024 |    256 | 228352 |    3.379 |   303.07 |   14.330 |    17.86 |
 |  1024 |    256 | 229376 |    3.381 |   302.85 |   14.356 |    17.83 |
 |  1024 |    256 | 230400 |    3.388 |   302.20 |   14.393 |    17.79 |
 |  1024 |    256 | 231424 |    3.394 |   301.69 |   14.450 |    17.72 |
 |  1024 |    256 | 232448 |    3.410 |   300.33 |   14.492 |    17.66 |
 |  1024 |    256 | 233472 |    3.424 |   299.05 |   14.526 |    17.62 |
 |  1024 |    256 | 234496 |    3.423 |   299.15 |   14.561 |    17.58 |
 |  1024 |    256 | 235520 |    3.438 |   297.87 |   14.614 |    17.52 |
 |  1024 |    256 | 236544 |    3.456 |   296.32 |   14.655 |    17.47 |
 |  1024 |    256 | 237568 |    3.452 |   296.65 |   14.702 |    17.41 |
 |  1024 |    256 | 238592 |    3.466 |   295.48 |   14.727 |    17.38 |
 |  1024 |    256 | 239616 |    3.473 |   294.86 |   14.772 |    17.33 |
 |  1024 |    256 | 240640 |    3.477 |   294.51 |   14.797 |    17.30 |
 |  1024 |    256 | 241664 |    3.497 |   292.86 |   14.857 |    17.23 |
 |  1024 |    256 | 242688 |    3.500 |   292.59 |   14.893 |    17.19 |
 |  1024 |    256 | 243712 |    3.520 |   290.90 |   14.948 |    17.13 |
 |  1024 |    256 | 244736 |    3.518 |   291.06 |   14.963 |    17.11 |
 |  1024 |    256 | 245760 |    3.528 |   290.28 |   15.001 |    17.07 |
 |  1024 |    256 | 246784 |    3.537 |   289.49 |   15.043 |    17.02 |
 |  1024 |    256 | 247808 |    3.553 |   288.20 |   15.099 |    16.96 |
 |  1024 |    256 | 248832 |    3.559 |   287.73 |   15.134 |    16.92 |
 |  1024 |    256 | 249856 |    3.582 |   285.85 |   15.167 |    16.88 |
 |  1024 |    256 | 250880 |    3.576 |   286.37 |   15.205 |    16.84 |
 |  1024 |    256 | 251904 |    3.587 |   285.44 |   15.269 |    16.77 |
 |  1024 |    256 | 252928 |    3.589 |   285.34 |   15.298 |    16.73 |
 |  1024 |    256 | 253952 |    3.607 |   283.91 |   15.331 |    16.70 |
 |  1024 |    256 | 254976 |    3.623 |   282.64 |   15.369 |    16.66 |
 |  1024 |    256 | 256000 |    3.623 |   282.64 |   15.403 |    16.62 |
 |  1024 |    256 | 257024 |    3.632 |   281.97 |   15.447 |    16.57 |
 |  1024 |    256 | 258048 |    3.636 |   281.62 |   15.523 |    16.49 |
 |  1024 |    256 | 259072 |    3.640 |   281.32 |   15.538 |    16.48 |
 |  1024 |    256 | 260096 |    3.664 |   279.51 |   15.574 |    16.44 |
 |  1024 |    256 | 261120 |    3.681 |   278.18 |   15.618 |    16.39 |

File: qwen3.5-397b-iq4_kss-hybrid-layer.log

 
 main: n_kv_max = 262144, n_batch = 8192, n_ubatch = 8192, flash_attn = 1, n_gpu_layers = 99, n_threads = 64, n_threads_batch = 64
 
 |    PP |     TG |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |
 |-------|--------|--------|----------|----------|----------|----------|
 |  8192 |   2048 |      0 |   13.016 |   629.39 |  101.603 |    20.16 |
 |  8192 |   2048 |   8192 |   13.495 |   607.03 |  103.635 |    19.76 |
 |  8192 |   2048 |  16384 |   13.963 |   586.68 |  105.963 |    19.33 |
 |  8192 |   2048 |  24576 |   14.421 |   568.07 |  107.879 |    18.98 |
 |  8192 |   2048 |  32768 |   14.883 |   550.41 |  109.955 |    18.63 |
 |  8192 |   2048 |  40960 |   15.352 |   533.61 |  112.038 |    18.28 |
 |  8192 |   2048 |  49152 |   15.856 |   516.64 |  113.819 |    17.99 |
 |  8192 |   2048 |  57344 |   16.306 |   502.39 |  116.133 |    17.63 |
 |  8192 |   2048 |  65536 |   16.729 |   489.69 |  118.021 |    17.35 |
 |  8192 |   2048 |  73728 |   17.215 |   475.85 |  120.322 |    17.02 |
 |  8192 |   2048 |  81920 |   17.682 |   463.30 |  122.114 |    16.77 |
 |  8192 |   2048 |  90112 |   18.087 |   452.91 |  124.194 |    16.49 |
 |  8192 |   2048 |  98304 |   18.616 |   440.04 |  126.088 |    16.24 |
 |  8192 |   2048 | 106496 |   19.049 |   430.05 |  127.968 |    16.00 |
 |  8192 |   2048 | 114688 |   19.495 |   420.20 |  130.213 |    15.73 |
 |  8192 |   2048 | 122880 |   19.993 |   409.73 |  132.265 |    15.48 |
 |  8192 |   2048 | 131072 |   20.467 |   400.25 |  134.584 |    15.22 |
 |  8192 |   2048 | 139264 |   20.941 |   391.19 |  136.912 |    14.96 |
 |  8192 |   2048 | 147456 |   21.420 |   382.45 |  138.830 |    14.75 |
 |  8192 |   2048 | 155648 |   21.906 |   373.96 |  140.839 |    14.54 |
 |  8192 |   2048 | 163840 |   22.424 |   365.32 |  142.894 |    14.33 |
 |  8192 |   2048 | 172032 |   22.922 |   357.39 |  144.975 |    14.13 |
 |  8192 |   2048 | 180224 |   23.362 |   350.65 |  146.960 |    13.94 |
 |  8192 |   2048 | 188416 |   23.788 |   344.37 |  149.143 |    13.73 |
 |  8192 |   2048 | 196608 |   24.293 |   337.22 |  151.085 |    13.56 |
 |  8192 |   2048 | 204800 |   24.900 |   329.00 |  153.359 |    13.35 |
 |  8192 |   2048 | 212992 |   25.510 |   321.13 |  155.108 |    13.20 |
 |  8192 |   2048 | 221184 |   26.076 |   314.16 |  157.398 |    13.01 |
 |  8192 |   2048 | 229376 |   26.584 |   308.16 |  159.200 |    12.86 |
 |  8192 |   2048 | 237568 |   27.085 |   302.46 |  161.487 |    12.68 |
 |  8192 |   2048 | 245760 |   27.615 |   296.65 |  163.559 |    12.52 |
 |  8192 |   2048 | 253952 |   28.101 |   291.52 |  165.661 |    12.36 |

File: /root/utils/bench-10gpu-mist-3k_b-5x(x16)-5x(x8).log


main: n_kv_max = 260096, n_batch = 3072, n_ubatch = 3072, flash_attn = 1, n_gpu_layers = 99, n_threads = 1, n_threads_batch = 1

|    PP |     TG |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |
|-------|--------|--------|----------|----------|----------|----------|
|  3072 |    768 |      0 |    1.965 |  1563.50 |   13.081 |    58.71 |
|  3072 |    768 |   3072 |    2.028 |  1515.02 |   13.270 |    57.87 |
|  3072 |    768 |   6144 |    2.036 |  1508.78 |   13.411 |    57.27 |
|  3072 |    768 |   9216 |    2.080 |  1477.09 |   13.588 |    56.52 |
|  3072 |    768 |  12288 |    2.122 |  1447.61 |   13.855 |    55.43 |
|  3072 |    768 |  15360 |    2.172 |  1414.67 |   14.047 |    54.67 |
|  3072 |    768 |  18432 |    2.220 |  1383.85 |   14.178 |    54.17 |
|  3072 |    768 |  21504 |    2.262 |  1357.81 |   14.467 |    53.09 |
|  3072 |    768 |  24576 |    2.315 |  1327.24 |   14.592 |    52.63 |
|  3072 |    768 |  27648 |    2.355 |  1304.30 |   14.663 |    52.38 |
|  3072 |    768 |  30720 |    2.417 |  1271.17 |   14.751 |    52.07 |
|  3072 |    768 |  33792 |    2.457 |  1250.21 |   15.013 |    51.16 |
|  3072 |    768 |  36864 |    2.506 |  1226.01 |   15.121 |    50.79 |
|  3072 |    768 |  39936 |    2.544 |  1207.62 |   15.281 |    50.26 |
|  3072 |    768 |  43008 |    2.596 |  1183.19 |   15.579 |    49.30 |
|  3072 |    768 |  46080 |    2.639 |  1163.92 |   15.691 |    48.95 |
|  3072 |    768 |  49152 |    2.676 |  1147.78 |   15.839 |    48.49 |
|  3072 |    768 |  52224 |    2.729 |  1125.65 |   16.076 |    47.77 |
|  3072 |    768 |  55296 |    2.773 |  1107.90 |   16.215 |    47.36 |
|  3072 |    768 |  58368 |    2.820 |  1089.26 |   16.430 |    46.74 |
|  3072 |    768 |  61440 |    2.870 |  1070.41 |   16.552 |    46.40 |
|  3072 |    768 |  64512 |    2.904 |  1057.85 |   16.882 |    45.49 |
|  3072 |    768 |  67584 |    2.943 |  1043.77 |   16.966 |    45.27 |
|  3072 |    768 |  70656 |    2.994 |  1025.99 |   17.092 |    44.93 |
|  3072 |    768 |  73728 |    3.036 |  1011.98 |   17.458 |    43.99 |
|  3072 |    768 |  76800 |    3.082 |   996.80 |   17.552 |    43.76 |
|  3072 |    768 |  79872 |    3.120 |   984.76 |   17.686 |    43.42 |
|  3072 |    768 |  82944 |    3.171 |   968.70 |   17.721 |    43.34 |
|  3072 |    768 |  86016 |    3.198 |   960.47 |   18.045 |    42.56 |
|  3072 |    768 |  89088 |    3.254 |   944.15 |   18.244 |    42.10 |
|  3072 |    768 |  92160 |    3.297 |   931.86 |   18.386 |    41.77 |
|  3072 |    768 |  95232 |    3.340 |   919.82 |   18.678 |    41.12 |
|  3072 |    768 |  98304 |    3.389 |   906.56 |   18.804 |    40.84 |
|  3072 |    768 | 101376 |    3.424 |   897.07 |   18.925 |    40.58 |
|  3072 |    768 | 104448 |    3.467 |   886.16 |   19.136 |    40.13 |
|  3072 |    768 | 107520 |    3.505 |   876.48 |   19.334 |    39.72 |
|  3072 |    768 | 110592 |    3.559 |   863.16 |   19.512 |    39.36 |
|  3072 |    768 | 113664 |    3.603 |   852.57 |   19.650 |    39.08 |
|  3072 |    768 | 116736 |    3.643 |   843.23 |   19.947 |    38.50 |
|  3072 |    768 | 119808 |    3.683 |   834.16 |   20.095 |    38.22 |
|  3072 |    768 | 122880 |    3.729 |   823.86 |   20.210 |    38.00 |
|  3072 |    768 | 125952 |    3.775 |   813.76 |   20.469 |    37.52 |
|  3072 |    768 | 129024 |    3.814 |   805.35 |   20.716 |    37.07 |
|  3072 |    768 | 132096 |    3.863 |   795.25 |   20.747 |    37.02 |
|  3072 |    768 | 135168 |    3.899 |   787.87 |   20.929 |    36.70 |
|  3072 |    768 | 138240 |    3.952 |   777.31 |   21.251 |    36.14 |
|  3072 |    768 | 141312 |    3.988 |   770.27 |   21.344 |    35.98 |
|  3072 |    768 | 144384 |    4.028 |   762.63 |   21.478 |    35.76 |
|  3072 |    768 | 147456 |    4.080 |   752.88 |   21.712 |    35.37 |
|  3072 |    768 | 150528 |    4.126 |   744.58 |   21.908 |    35.06 |
|  3072 |    768 | 153600 |    4.160 |   738.39 |   22.009 |    34.89 |
|  3072 |    768 | 156672 |    4.202 |   731.00 |   22.215 |    34.57 |
|  3072 |    768 | 159744 |    4.246 |   723.56 |   22.465 |    34.19 |
|  3072 |    768 | 162816 |    4.300 |   714.36 |   22.608 |    33.97 |
|  3072 |    768 | 165888 |    4.327 |   710.00 |   22.678 |    33.87 |
|  3072 |    768 | 168960 |    4.382 |   701.11 |   22.965 |    33.44 |
|  3072 |    768 | 172032 |    4.425 |   694.24 |   23.114 |    33.23 |
|  3072 |    768 | 175104 |    4.465 |   688.01 |   23.239 |    33.05 |
|  3072 |    768 | 178176 |    4.519 |   679.82 |   23.400 |    32.82 |
|  3072 |    768 | 181248 |    4.547 |   675.68 |   23.585 |    32.56 |
|  3072 |    768 | 184320 |    4.604 |   667.30 |   23.739 |    32.35 |
|  3072 |    768 | 187392 |    4.637 |   662.50 |   23.947 |    32.07 |
|  3072 |    768 | 190464 |    4.693 |   654.57 |   24.152 |    31.80 |
|  3072 |    768 | 193536 |    4.799 |   640.19 |   24.284 |    31.63 |
|  3072 |    768 | 196608 |    4.784 |   642.17 |   24.433 |    31.43 |
|  3072 |    768 | 199680 |    4.820 |   637.30 |   24.693 |    31.10 |
|  3072 |    768 | 202752 |    4.876 |   630.01 |   24.814 |    30.95 |
|  3072 |    768 | 205824 |    4.923 |   624.00 |   25.000 |    30.72 |
|  3072 |    768 | 208896 |    4.975 |   617.47 |   25.158 |    30.53 |
|  3072 |    768 | 211968 |    5.010 |   613.23 |   25.381 |    30.26 |
|  3072 |    768 | 215040 |    5.069 |   605.98 |   25.558 |    30.05 |
|  3072 |    768 | 218112 |    5.120 |   599.98 |   25.606 |    29.99 |
|  3072 |    768 | 221184 |    5.162 |   595.11 |   25.913 |    29.64 |
|  3072 |    768 | 224256 |    5.220 |   588.50 |   26.048 |    29.48 |
|  3072 |    768 | 227328 |    5.217 |   588.87 |   26.189 |    29.32 |
|  3072 |    768 | 230400 |    5.274 |   582.46 |   26.341 |    29.16 |
|  3072 |    768 | 233472 |    5.341 |   575.19 |   26.607 |    28.86 |
|  3072 |    768 | 236544 |    5.384 |   570.61 |   26.725 |    28.74 |
|  3072 |    768 | 239616 |    5.460 |   562.64 |   26.893 |    28.56 |
|  3072 |    768 | 242688 |    5.486 |   559.94 |   27.186 |    28.25 |
|  3072 |    768 | 245760 |    5.525 |   556.00 |   27.247 |    28.19 |
|  3072 |    768 | 248832 |    5.581 |   550.46 |   27.421 |    28.01 |
|  3072 |    768 | 251904 |    5.635 |   545.13 |   27.662 |    27.76 |
|  3072 |    768 | 254976 |    5.656 |   543.10 |   27.761 |    27.66 |
failed to decode the batch, n_batch = 3072, ret = 1
main: llama_decode() failed

generate_svgs.sh (a dodgy script to generate svg out of llama-sweep-bench.sh)

Details

#!/bin/bash

# Script to generate decode.svg and prefill.svg from benchmark logs
# Accepts multiple log files as arguments
# Usage: ./generate_svgs.sh [log_file1] [log_file2] ... [log_fileN]

DEFAULT_LOGS=(
    "/opt/ubergarm/GLM-4.5-Air-GGUF/IQ1_KT/bench-sm-layer-f16.log"
    "/opt/ubergarm/GLM-4.5-Air-GGUF/IQ1_KT/bench-sm-graph-f16.log"
)

# Extended color palette for multiple sources
COLORS=(
    "#ea4612"  # red
    "#333333"  # blackish
    "#007bff"  # blue
    "#28a745"  # green
    "#ffc107"  # yellow
    "#6f42c1"  # purple
    "#20c997"  # teal
    "#fd7e14"  # orange
)

# Use provided arguments or defaults
if [ $# -eq 0 ]; then
    LOG_FILES=("${DEFAULT_LOGS[@]}")
else
    LOG_FILES=("$@")
fi

# Validate files
for log in "${LOG_FILES[@]}"; do
    if [ ! -f "$log" ]; then
        echo "Error: Log file not found: $log"
        exit 1
    fi
done

NUM_SOURCES=${#LOG_FILES[@]}
echo "Found $NUM_SOURCES source(s) to process..."

create_chart() {
    local chart_type="$1"
    local col output_file title
    
    if [ "$chart_type" = "decode" ]; then
        col=8
        title="Decode Speed Comparison (S_TG t/s)"
        output_file="decode.svg"
    else
        col=6
        title="Prefill Speed Comparison (S_PP t/s)"
        output_file="prefill.svg"
    fi
    
    echo "Generating $output_file..."
    
    # Process each source
    sources=()
    colors=()
    
    for i in "${!LOG_FILES[@]}"; do
        local log="${LOG_FILES[$i]}"
        local legend_name=$(basename "$log")
        sources+=("$legend_name")
        
        # Assign color from palette (cycle if more sources than colors)
        colors+=("${COLORS[$((i % ${#COLORS[@]}))]}")
        
        # Extract data
        awk -v col_num="$col" -F'|' '$4 ~ /^[[:space:]]*[0-9]/ {
            gsub(/ /, "");
            print $4, $(col_num)
        }' "$log" | sort -n > "/tmp/source_${i}_${chart_type}.dat"
        
        local count=$(wc -l < "/tmp/source_${i}_${chart_type}.dat")
        echo "  Source $((i+1)) (${legend_name}): $count data points"
    done
    
    # Export configuration to Python
    export chart_type title output_file NUM_SOURCES
    export SOURCES="${sources[*]}"
    export COLORS_LIST="${colors[*]}"
    
    for i in "${!LOG_FILES[@]}"; do
        export "DATA_FILE_$i=/tmp/source_${i}_${chart_type}.dat"
    done
    
    python3 << 'PYEOF'
import sys, os
import math

# Read configuration from environment
title = os.environ.get('title', 'Chart')
output_file = os.environ.get('output_file', 'output.svg')
chart_type = os.environ.get('chart_type', 'decode')
num_sources = int(os.environ.get('NUM_SOURCES', 0))

sources = os.environ.get('SOURCES', '').split()
colors_list = os.environ.get('COLORS_LIST', '').split()

if len(sources) != num_sources:
    print(f"Error: Expected {num_sources} sources but got {len(sources)}", file=sys.stderr)
    sys.exit(1)

# Read data from all sources
all_data = []
for i in range(num_sources):
    data_file = os.environ.get(f'DATA_FILE_{i}')
    if not data_file or not os.path.exists(data_file):
        print(f"Error: Data file for source {i} not found", file=sys.stderr)
        sys.exit(1)
    
    nkv_vals = []
    speed_vals = []
    with open(data_file, "r") as f:
        for line in f:
            parts = line.strip().split()
            if len(parts) >= 2:
                try:
                    nkv_vals.append(float(parts[0]))
                    speed_vals.append(float(parts[1]))
                except ValueError:
                    continue
    
    all_data.append({
        'name': sources[i],
        'color': colors_list[i % len(colors_list)],
        'nkv': nkv_vals,
        'speed': speed_vals
    })

# Remove empty datasets
all_data = [d for d in all_data if d['nkv']]

if not all_data:
    print("Error: No valid data points found", file=sys.stderr)
    sys.exit(1)

# Calculate global ranges
all_nkv = [val for d in all_data for val in d['nkv']]
all_speeds = [val for d in all_data for val in d['speed']]

max_kv = max(all_nkv) if all_nkv else 0
min_s = min(all_speeds) if all_speeds else 0
max_s = max(all_speeds) if all_speeds else 0
range_s = max_s - min_s

if range_s == 0:
    range_s = max_s * 0.1 if max_s > 0 else 1
    
# Add padding to speed range
min_s -= 0.05 * range_s
max_s += 0.05 * range_s
range_s = max_s - min_s

def scale_x(nkv):
    return 60 + (nkv / max_kv) * 720 if max_kv > 0 else 60

def scale_y(speed):
    if range_s == 0:
        return 190
    return 40 + ((max_s - speed) / range_s) * 300

# Generate SVG
with open(f"/tmp/{output_file}", 'w') as svg_out:
    svg_out.write('<?xml version="1.0" encoding="UTF-8"?>\n')
    svg_out.write('<svg width="800" height="400" viewBox="0 0 800 400" xmlns="http://www.w3.org/2000/svg">\n')

    # Background and title
    svg_out.write(f'  <rect width="800" height="400" fill="#f8f9fa"/>\n')
    svg_out.write(f'  <text x="400" y="25" text-anchor="middle" font-family="Arial, sans-serif" font-size="16" font-weight="bold" fill="#212529">{title}</text>\n')
    svg_out.write('  <text x="30" y="200" text-anchor="middle" font-family="Arial, sans-serif" font-size="12" fill="#495057" transform="rotate(-90 30 200)">Speed (tokens/second)</text>\n')
    svg_out.write('  <text x="400" y="385" text-anchor="middle" font-family="Arial, sans-serif" font-size="12" fill="#495057">N_KV (cache tokens)</text>\n')

    # Calculate Y-axis labels
    range_val = max_s - min_s
    if range_val <= 5:
        step = 1
    elif range_val <= 10:
        step = 2
    elif range_val <= 20:
        step = 4
    elif range_val <= 50:
        step = 8
    else:
        base_step = max(1, int(range_val / 6))
        if base_step <= 5:
            step = 4
        elif base_step <= 15:
            step = 16
        else:
            step = max(8, int(base_step / 2) * 3)
    
    label_min = math.floor(min_s / step) * step
    label_max = math.ceil(max_s / step) * step
    labels = []
    v = label_min
    while v <= label_max:
        if min_s - step <= v <= max_s + step:
            labels.append(v)
        v += step
    
    # Grid lines
    svg_out.write('  <g stroke="#e9ecef" stroke-width="1">\n')
    for speed_val in labels:
        y_pos = scale_y(speed_val)
        if 40 <= y_pos <= 340:
            svg_out.write(f'    <line x1="60" y1="{y_pos:.1f}" x2="780" y2="{y_pos:.1f}"/>\n')
    
    # Vertical grid lines
    svg_out.write('    <line x1="240" y1="40" x2="240" y2="340"/>\n')
    svg_out.write('    <line x1="420" y1="40" x2="420" y2="340"/>\n')
    svg_out.write('    <line x1="600" y1="40" x2="600" y2="340"/>\n')
    
    svg_out.write('  </g>\n')

    # Axes
    svg_out.write('  <g stroke="#212529" stroke-width="1.5">\n')
    svg_out.write('    <line x1="60" y1="340" x2="780" y2="340"/>\n')
    svg_out.write('    <line x1="60" y1="40" x2="60" y2="340"/>\n')
    svg_out.write('  </g>\n')

    # Plot border
    svg_out.write('  <rect x="60" y="40" width="720" height="300" fill="none" stroke="#6c757d" stroke-width="1.5" opacity="0.7"/>\n')

    # Axis labels
    svg_out.write('  <g font-family="Arial, sans-serif" font-size="10" fill="#495057">\n')
    
    # X-axis labels
    svg_out.write('    <text x="60" y="360" text-anchor="middle">0</text>\n')
    if max_kv >= 10000:
        for pos in [240, 420, 600, 780]:
            label_val = int((pos - 60) * max_kv / 720)
            svg_out.write(f'    <text x="{pos}" y="360" text-anchor="middle">{int(label_val / 1000)}K</text>\n')
    elif max_kv > 0:
        for pos, fraction in [(240, 1/4), (420, 1/2), (600, 3/4), (780, 1)]:
            label_val = int(max_kv * fraction)
            svg_out.write(f'    <text x="{pos}" y="360" text-anchor="middle">{label_val}</text>\n')

    # Y-axis labels
    for speed_val in labels:
        y_pos = scale_y(speed_val)
        if 40 <= y_pos <= 340:
            val_str = int(speed_val) if abs(speed_val - round(speed_val)) < 0.01 else f"{speed_val:.1f}"
            svg_out.write(f'    <text x="50" y="{y_pos:.1f}" text-anchor="end">{val_str}</text>\n')
    
    svg_out.write('  </g>\n')

    # Polylines for each source
    for data in all_data:
        if not data['nkv']:
            continue
            
        points = []
        for i in range(len(data['nkv'])):
            x = scale_x(data['nkv'][i])
            y = scale_y(data['speed'][i])
            points.append(f"{x:.1f},{y:.1f}")
        
        svg_out.write(f'  <!-- {data["name"]} -->\n')
        svg_out.write(f'  <polyline fill="none" stroke="{data["color"]}" stroke-width="2.5" points="{" ".join(points)}"/>\n')

    # Legend
    svg_out.write('  <g font-family="Arial, sans-serif" font-size="11">\n')
    
    legend_x_start = 540
    legend_y_base = 55
    legend_row_height = 20
    legend_col_width = 120
    
    for i, data in enumerate(all_data):
        if not data['nkv']:
            continue
            
        #row = i // 2  # Two columns per row
        #col = i % 2
        row = i
        col = 0
        x_rect = legend_x_start + col * legend_col_width
        y_offset = row * legend_row_height
        
        # Skip if out of bounds
        if x_rect > 750:
            continue
            
        svg_out.write(f'    <rect x="{x_rect}" y="{legend_y_base + y_offset - 5}" width="12" height="3" fill="{data["color"]}" rx="1"/>\n')
        svg_out.write(f'    <text x="{x_rect + 18}" y="{legend_y_base + y_offset}" fill="#212529">{data["name"]}</text>\n')
    
    svg_out.write('  </g>\n')

    svg_out.write('</svg>\n')
PYEOF
    
    if [ $? -eq 0 ]; then
        mv -f "/tmp/${output_file}" "$output_file"
        echo "  Done: $output_file created with $(printf '%s' "${sources[@]}" | wc -w) datasets"
    fi
}

# Generate both charts
create_chart decode
create_chart prefill

# Cleanup
rm -f /tmp/source_*.dat 2>/dev/null
ls -lh decode.svg prefill.svg 2>/dev/null || echo "SVG files not created"
echo
echo "SVG files generated!"

FNsi · 2026-03-30T03:26:57Z

FNsi
Mar 30, 2026

I have a simple question, eypc 9654 96 core seems cheaper than 10*3090... I guess, the speed will be close or surpass the 'full offload layer' layer one???

4 replies

magikRUKKOLA Mar 30, 2026
Author

@FNsi

I have a simple question, eypc 9654 96 core seems cheaper than 10*3090...

DDR5-4800 MT/s ?

Well, lets compare.

https://huggingface.co/ubergarm/Qwen3.5-397B-A17B-GGUF/discussions/4

PP TG N_KV T_PP s S_PP t/s T_TG s S_TG t/s
4096 1024 0 17.380 235.67 37.590 27.24

That's 56C QYFS and 8 channel DDR5-4800 MT/s and a single GPU (5090?). Suppose EPYC have x 1.5 performance. Then we will have about 500 tps prefill and 42 tps decode. I doubt it will beat 1300 tps prefill and 60 tps decode.

That said, the maintenance of the 12 sticks of DDR5 is much easier lol. The tower of RTX 3090 with Noctua Redux'es from each side of every GPU does look pretty funny.

FNsi Mar 30, 2026

no clue but seems nice only if the ddr5 price drop back to last year otherwise 😂

magikRUKKOLA Mar 30, 2026
Author

no clue but seems nice only if the ddr5 price drop back to last year otherwise 😂

Yeah, last time I bought DDR5-4800 MT/s ECC price was about 250 EUR per 32GB stick.
I still have have 32 of those and wondering what CPUs to get.

Its either going to be double QYFS or double EPYC (not sure which one).

FNsi Mar 30, 2026

I was the guy think 2*48g is enough at that time 🤷🏿 what a waste...

magikRUKKOLA · 2026-03-30T08:51:20Z

magikRUKKOLA
Mar 30, 2026
Author

GLM5 smol-IQ2_KL

10 x RTX 3090 (the first GPU is x16); split mode: layer;

log

Details

PP	TG	N_KV	T_PP s	S_PP t/s	T_TG s	S_TG t/s
2048	512	0	4.043	506.60	20.133	25.43
2048	512	2048	4.671	438.45	21.342	23.99
2048	512	4096	5.409	378.62	22.003	23.27
2048	512	6144	5.960	343.63	22.310	22.95
2048	512	8192	6.760	302.98	23.354	21.92
2048	512	10240	7.342	278.96	23.696	21.61
2048	512	12288	7.852	260.81	24.693	20.73
2048	512	14336	8.364	244.86	25.058	20.43
2048	512	16384	8.922	229.55	26.041	19.66
2048	512	18432	10.170	201.38	26.425	19.38
2048	512	20480	10.798	189.67	27.411	18.68
2048	512	22528	11.262	181.85	27.794	18.42
2048	512	24576	11.908	171.98	28.766	17.80
2048	512	26624	12.391	165.28	29.172	17.55
2048	512	28672	12.943	158.23	30.081	17.02
2048	512	30720	13.499	151.71	30.527	16.77
2048	512	32768	14.228	143.94	31.467	16.27
2048	512	34816	14.894	137.50	31.859	16.07
2048	512	36864	15.337	133.53	32.812	15.60
2048	512	38912	15.898	128.82	33.247	15.40
2048	512	40960	16.501	124.12	34.199	14.97
2048	512	43008	16.946	120.86	34.611	14.79
2048	512	45056	17.303	118.36	35.561	14.40
2048	512	47104	17.962	114.02	35.943	14.24
2048	512	49152	18.610	110.05	36.922	13.87
2048	512	51200	19.355	105.81	37.381	13.70
2048	512	53248	19.606	104.46	38.356	13.35
2048	512	55296	20.161	101.58	38.835	13.18
2048	512	57344	20.723	98.83	39.893	12.83
2048	512	59392	21.225	96.49	40.238	12.72
2048	512	61440	21.948	93.31	41.230	12.42
2048	512	63488	22.484	91.09	41.688	12.28

0 replies

magikRUKKOLA · 2026-03-30T18:46:15Z

magikRUKKOLA
Mar 30, 2026
Author

Qwen3.5-27B-GGUF/IQ5_KS

Two RTX 3090 EVGA x16; The dynamic TDP is used to keep the GPUs lower than 80C (hence the zig-zags).

logs

Details

graph:

PP	TG	N_KV	T_PP s	S_PP t/s	T_TG s	S_TG t/s
2048	512	0	0.956	2142.28	9.329	54.88
2048	512	2048	0.986	2077.58	9.474	54.04
2048	512	4096	0.992	2063.58	9.687	52.85
2048	512	6144	1.012	2022.86	9.843	52.02
2048	512	8192	1.035	1979.42	10.005	51.17
2048	512	10240	1.058	1935.16	10.190	50.25
2048	512	12288	1.083	1891.19	10.392	49.27
2048	512	14336	1.031	1987.24	10.386	49.30
2048	512	16384	1.050	1949.82	10.340	49.52
2048	512	18432	1.066	1921.09	10.500	48.76
2048	512	20480	1.087	1884.63	10.657	48.04
2048	512	22528	1.106	1851.38	10.778	47.50
2048	512	24576	1.129	1814.48	10.916	46.90
2048	512	26624	1.151	1778.78	11.078	46.22
2048	512	28672	1.177	1739.84	11.248	45.52
2048	512	30720	1.204	1701.48	11.434	44.78
2048	512	32768	1.140	1797.15	11.394	44.94
2048	512	34816	1.159	1767.25	11.299	45.32
2048	512	36864	1.182	1733.00	11.474	44.62
2048	512	38912	1.205	1700.21	11.623	44.05
2048	512	40960	1.231	1663.58	11.752	43.57
2048	512	43008	1.253	1633.98	11.899	43.03
2048	512	45056	1.282	1597.62	12.070	42.42
2048	512	47104	1.310	1563.74	12.263	41.75
2048	512	49152	1.240	1651.38	12.330	41.52
2048	512	51200	1.259	1626.91	12.155	42.12
2048	512	53248	1.282	1596.98	12.336	41.50
2048	512	55296	1.307	1567.31	12.449	41.13
2048	512	57344	1.333	1536.15	12.588	40.67
2048	512	59392	1.364	1501.63	12.765	40.11
2048	512	61440	1.394	1468.98	12.957	39.51
2048	512	63488	1.425	1437.42	13.150	38.94
2048	512	65536	1.345	1522.81	12.987	39.42
2048	512	67584	1.367	1497.67	13.008	39.36
2048	512	69632	1.391	1472.12	13.196	38.80
2048	512	71680	1.418	1444.23	13.336	38.39
2048	512	73728	1.449	1413.33	13.490	37.96
2048	512	75776	1.480	1383.93	13.664	37.47
2048	512	77824	1.517	1349.72	13.858	36.95
2048	512	79872	1.433	1428.80	13.796	37.11
2048	512	81920	1.454	1408.50	13.753	37.23
2048	512	83968	1.480	1384.06	13.912	36.80
2048	512	86016	1.507	1359.03	14.094	36.33
2048	512	88064	1.541	1329.17	14.249	35.93
2048	512	90112	1.577	1298.42	14.429	35.48
2048	512	92160	1.622	1262.71	14.625	35.01
2048	512	94208	1.513	1353.20	14.456	35.42
2048	512	96256	1.609	1272.65	14.499	35.31
2048	512	98304	1.616	1267.20	14.925	34.31
2048	512	100352	1.619	1264.93	14.960	34.23
2048	512	102400	1.643	1246.24	15.036	34.05
2048	512	104448	1.687	1213.73	15.251	33.57
2048	512	106496	1.583	1293.93	15.364	33.32
2048	512	108544	1.607	1274.14	15.079	33.95
2048	512	110592	1.750	1170.24	15.326	33.41
2048	512	112640	1.741	1176.28	15.686	32.64
2048	512	114688	1.727	1186.10	15.725	32.56
2048	512	116736	1.764	1160.75	15.843	32.32
2048	512	118784	1.769	1157.85	16.056	31.89
2048	512	120832	1.681	1218.56	15.707	32.60
2048	512	122880	1.863	1099.20	16.074	31.85
2048	512	124928	1.812	1130.53	16.388	31.24
2048	512	126976	1.797	1139.63	16.184	31.64
2048	512	129024	1.846	1109.35	16.394	31.23
2048	512	131072	1.762	1162.22	16.667	30.72
2048	512	133120	1.753	1168.12	16.381	31.26
2048	512	135168	1.969	1040.05	16.808	30.46
2048	512	137216	1.908	1073.41	17.105	29.93
2048	512	139264	1.887	1085.56	16.845	30.39
2048	512	141312	1.942	1054.68	17.057	30.02
2048	512	143360	1.797	1139.89	17.180	29.80
2048	512	145408	2.068	990.43	17.007	30.11
2048	512	147456	1.981	1033.75	17.605	29.08
2048	512	149504	1.931	1060.77	17.384	29.45
2048	512	151552	1.980	1034.60	17.549	29.18
2048	512	153600	2.042	1002.87	17.759	28.83
2048	512	155648	1.927	1062.83	17.546	29.18
2048	512	157696	2.153	951.40	17.830	28.72
2048	512	159744	2.058	994.93	18.162	28.19
2048	512	161792	2.025	1011.12	17.961	28.51
2048	512	163840	2.090	979.86	18.290	27.99
2048	512	165888	1.936	1057.87	18.299	27.98
2048	512	167936	2.189	935.53	18.413	27.81
2048	512	169984	2.073	988.08	18.541	27.61
2048	512	172032	2.083	983.28	18.446	27.76
2048	512	174080	2.142	956.06	18.664	27.43
2048	512	176128	2.003	1022.34	18.963	27.00
2048	512	178176	2.321	882.47	18.768	27.28
2048	512	180224	2.170	943.87	19.239	26.61
2048	512	182272	2.141	956.76	19.011	26.93
2048	512	184320	2.212	926.03	19.201	26.67
2048	512	186368	2.081	984.24	19.526	26.22
2048	512	188416	2.329	879.37	19.220	26.64
2048	512	190464	2.245	912.30	19.653	26.05
2048	512	192512	2.216	924.22	19.481	26.28
2048	512	194560	2.277	899.34	19.756	25.92
2048	512	196608	2.131	961.08	19.935	25.68
2048	512	198656	2.365	865.88	19.847	25.80
2048	512	200704	2.290	894.40	20.123	25.44
2048	512	202752	2.287	895.36	20.043	25.55
2048	512	204800	2.361	867.34	20.251	25.28
2048	512	206848	2.196	932.59	20.380	25.12
2048	512	208896	2.473	828.14	20.561	24.90
2048	512	210944	2.342	874.59	20.542	24.92
2048	512	212992	2.357	868.94	20.628	24.82
2048	512	215040	2.450	835.91	20.825	24.59
2048	512	217088	2.372	863.46	20.789	24.63
2048	512	219136	2.450	835.88	20.976	24.41
2048	512	221184	2.406	851.11	21.089	24.28
2048	512	223232	2.466	830.42	21.202	24.15
2048	512	225280	2.366	865.67	21.365	23.96
2048	512	227328	2.514	814.53	21.243	24.10
2048	512	229376	2.461	832.20	21.469	23.85
2048	512	231424	2.481	825.56	21.558	23.75
2048	512	233472	2.572	796.21	21.824	23.46
2048	512	235520	2.381	860.00	21.743	23.55
2048	512	237568	2.609	785.08	22.000	23.27
2048	512	239616	2.523	811.73	21.976	23.30
2048	512	241664	2.587	791.56	22.041	23.23
2048	512	243712	2.419	846.79	22.287	22.97
2048	512	245760	2.768	739.87	22.510	22.74
2048	512	247808	2.563	799.04	22.425	22.83
2048	512	249856	2.625	780.20	22.458	22.80
2048	512	251904	2.739	747.67	22.660	22.59
2048	512	253952	2.916	702.23	22.754	22.50
2048	512	256000	2.649	772.99	22.810	22.45
2048	512	258048	2.696	759.58	22.821	22.44
2048	512	260096	2.761	741.76	22.970	22.29

layer:

PP	TG	N_KV	T_PP s	S_PP t/s	T_TG s	S_TG t/s
2048	512	0	1.368	1496.67	13.641	37.53
2048	512	2048	1.416	1445.88	13.805	37.09
2048	512	4096	1.458	1404.41	14.084	36.35
2048	512	6144	1.509	1357.25	14.348	35.68
2048	512	8192	1.566	1307.67	14.678	34.88
2048	512	10240	1.605	1276.11	14.927	34.30
2048	512	12288	1.502	1363.41	14.900	34.36
2048	512	14336	1.549	1322.42	15.112	33.88
2048	512	16384	1.599	1280.95	15.404	33.24
2048	512	18432	1.654	1238.11	15.634	32.75
2048	512	20480	1.714	1194.75	15.836	32.33
2048	512	22528	1.785	1147.16	16.095	31.81
2048	512	24576	1.640	1248.69	16.181	31.64
2048	512	26624	1.687	1214.27	16.344	31.33
2048	512	28672	1.744	1174.28	16.549	30.94
2048	512	30720	1.799	1138.10	16.778	30.52
2048	512	32768	1.872	1093.88	17.073	29.99
2048	512	34816	1.738	1178.07	17.335	29.54
2048	512	36864	1.788	1145.68	17.290	29.61
2048	512	38912	1.841	1112.70	17.497	29.26
2048	512	40960	1.905	1075.07	17.792	28.78
2048	512	43008	1.971	1038.92	18.029	28.40
2048	512	45056	2.064	992.29	18.270	28.02
2048	512	47104	1.898	1079.16	18.332	27.93
2048	512	49152	1.958	1046.14	18.531	27.63
2048	512	51200	2.019	1014.53	18.758	27.30
2048	512	53248	2.100	975.44	18.985	26.97
2048	512	55296	2.190	935.36	19.238	26.61
2048	512	57344	2.019	1014.29	19.410	26.38
2048	512	59392	2.083	983.12	19.530	26.22
2048	512	61440	2.145	954.73	19.751	25.92
2048	512	63488	2.229	918.64	19.999	25.60
2048	512	65536	2.327	879.94	20.399	25.10
2048	512	67584	2.137	958.41	20.337	25.18
2048	512	69632	2.209	926.98	20.489	24.99
2048	512	71680	2.288	895.18	20.761	24.66
2048	512	73728	2.392	856.15	21.074	24.30
2048	512	75776	2.215	924.78	21.335	24.00
2048	512	77824	2.278	899.00	21.343	23.99
2048	512	79872	2.362	867.23	21.596	23.71
2048	512	81920	2.457	833.58	21.861	23.42
2048	512	83968	2.579	794.19	22.135	23.13
2048	512	86016	2.354	869.94	22.188	23.08
2048	512	88064	2.433	841.77	22.377	22.88
2048	512	90112	2.534	808.11	22.693	22.56
2048	512	92160	2.647	773.67	22.945	22.31
2048	512	94208	2.436	840.81	23.073	22.19
2048	512	96256	2.527	810.55	23.219	22.05
2048	512	98304	2.622	781.05	23.525	21.76
2048	512	100352	2.733	749.24	23.753	21.56
2048	512	102400	2.532	808.98	23.925	21.40
2048	512	104448	2.618	782.31	24.028	21.31
2048	512	106496	2.724	751.89	24.335	21.04
2048	512	108544	2.852	718.01	24.595	20.82
2048	512	110592	2.633	777.72	24.745	20.69
2048	512	112640	2.731	749.77	24.913	20.55
2048	512	114688	2.830	723.62	25.264	20.27
2048	512	116736	3.007	681.15	25.459	20.11
2048	512	118784	2.749	745.13	25.530	20.05
2048	512	120832	2.842	720.71	25.712	19.91
2048	512	122880	2.986	685.97	26.010	19.68
2048	512	124928	2.968	690.12	26.296	19.47
2048	512	126976	2.856	716.97	26.316	19.46
2048	512	129024	2.984	686.26	26.568	19.27
2048	512	131072	3.146	651.05	26.868	19.06
2048	512	133120	2.888	709.03	27.022	18.95
2048	512	135168	3.000	682.58	27.161	18.85
2048	512	137216	3.146	651.05	27.395	18.69
2048	512	139264	3.333	614.51	27.737	18.46
2048	512	141312	3.035	674.84	27.769	18.44
2048	512	143360	3.159	648.29	28.021	18.27
2048	512	145408	3.323	616.37	28.248	18.13
2048	512	147456	3.076	665.83	28.443	18.00
2048	512	149504	3.194	641.27	28.618	17.89
2048	512	151552	3.355	610.50	28.857	17.74
2048	512	153600	3.124	655.59	29.066	17.61
2048	512	155648	3.237	632.59	29.282	17.49
2048	512	157696	3.380	605.97	29.460	17.38
2048	512	159744	3.586	571.12	29.668	17.26
2048	512	161792	3.279	624.63	29.742	17.21
2048	512	163840	3.432	596.65	30.135	16.99
2048	512	165888	3.648	561.46	30.403	16.84
2048	512	167936	3.354	610.58	30.385	16.85
2048	512	169984	3.487	587.40	30.568	16.75
2048	512	172032	3.710	552.01	30.854	16.59
2048	512	174080	3.393	603.59	31.007	16.51
2048	512	176128	3.546	577.57	31.171	16.43
2048	512	178176	3.775	542.52	31.419	16.30
2048	512	180224	3.461	591.70	31.662	16.17
2048	512	182272	3.633	563.79	31.809	16.10
2048	512	184320	3.861	530.44	32.039	15.98
2048	512	186368	3.534	579.56	32.236	15.88
2048	512	188416	3.711	551.91	32.420	15.79
2048	512	190464	3.963	516.81	32.705	15.65
2048	512	192512	3.612	567.03	32.807	15.61
2048	512	194560	3.806	538.06	33.015	15.51
2048	512	196608	4.065	503.85	33.289	15.38
2048	512	198656	3.706	552.60	33.398	15.33
2048	512	200704	3.912	523.46	33.598	15.24
2048	512	202752	4.186	489.27	33.865	15.12
2048	512	204800	3.809	537.73	33.993	15.06
2048	512	206848	4.033	507.81	34.239	14.95
2048	512	208896	3.740	547.63	34.487	14.85
2048	512	210944	3.920	522.41	34.596	14.80
2048	512	212992	4.170	491.15	34.843	14.69
2048	512	215040	3.849	532.11	35.065	14.60
2048	512	217088	4.053	505.34	35.144	14.57
2048	512	219136	4.299	476.39	35.416	14.46
2048	512	221184	3.977	514.93	35.612	14.38
2048	512	223232	4.195	488.25	35.846	14.28
2048	512	225280	4.088	501.00	36.111	14.18
2048	512	227328	4.117	497.46	36.123	14.17
2048	512	229376	4.353	470.43	36.451	14.05
2048	512	231424	4.067	503.54	36.707	13.95
2048	512	233472	4.260	480.71	36.765	13.93
2048	512	235520	4.533	451.81	37.001	13.84
2048	512	237568	4.196	488.11	37.181	13.77
2048	512	239616	4.426	462.75	37.458	13.67
2048	512	241664	4.142	494.42	37.658	13.60
2048	512	243712	4.344	471.40	37.732	13.57
2048	512	245760	4.651	440.35	38.071	13.45
2048	512	247808	4.302	476.09	38.221	13.40
2048	512	249856	4.534	451.74	38.396	13.33
2048	512	251904	4.272	479.41	38.631	13.25
2048	512	253952	4.472	457.98	38.755	13.21
2048	512	256000	4.792	427.39	39.040	13.11
2048	512	258048	4.424	462.94	39.177	13.07
2048	512	260096	4.685	437.11	39.379	13.00

1 reply

FNsi Mar 31, 2026

That drops so quickly...

magikRUKKOLA · 2026-03-31T17:26:53Z

magikRUKKOLA
Mar 31, 2026
Author

AesSedai/Kimi-K2.5/Q4_X

*its basically for the illustrative purposes. The previous benchmark ( https://huggingface.co/AesSedai/Kimi-K2.5-GGUF/discussions/7#69c9120d934491df89a986b1 ) with 8x3090 partial offload came with the result:

Generation: ~7–8 tokens/sec
Prefill (prompt processing): ~26–27 tokens/sec

That seems to be very slow. So the below shows that running a hybrid inference just with a head offloaded works much better.

So here is how becomes actually more-or-less usable:

hardware:

2xEPYC 7B13; NPS=0; DDR4-2933 ECC (2666 overclocked; timings are auto; command rate=1T); single RTX 3090 EVGA

command:

Details

GGML_CUDA_NO_PINNED=1 numactl --interleave=all /opt/ik_llama.cpp/ik_llama.cpp/build/bin/llama-sweep-bench \
    --warmup-batch \
    -f /opt/ik_llama.cpp/wiki.test.raw \
    --model /opt/AesSedai/Kimi-K2.5/Q4_X/Kimi-K2.5-Q4_X-00001-of-00014.gguf \
    --alias AesSedai/Kimi-K2.5-GGUF \
    -b $((1 * 1024)) -ub $((1 * 1024)) \
    --ctx-size $((128 * 1024)) \
    --mlock \
    --temp 0.0 --top-k 0 --top-p 1.0 \
    -ctk f16 \
    -ctv f16 \
    -khad -vhad \
    -amb 256 \
    -muge \
    --merge-qkv \
    --split-mode layer \
    --cpu-moe \
    --graph-reduce-type f16 \
    --threads 128 \
    --gpu-layers 99 \
    --host 0.0.0.0 \
    --port 8080 \
    --log-enable \
    --logdir /var/log/ \
    --jinja \
    --chat-template-file /opt/AesSedai/Kimi-K2.5/Q4_X/chat_template.jinja \
    --special \
    --verbose-prompt --verbosity 2 \
    --prompt-cache "$HOME/.cache/ik_llama.cpp/prompt-cache.bin" --prompt-cache-all \
    --slot-save-path "$HOME/.cache/ik_llama.cpp/slot.bin" \
    --lookup-cache-dynamic "$HOME/.cache/ik_llama.cpp/slot.bin" \
    --keep -1 \
    --slot-prompt-similarity 0.35 \
    --metrics \
    -cuda fusion=1

0 replies

magikRUKKOLA · 2026-04-25T22:44:13Z

magikRUKKOLA
Apr 25, 2026
Author

bartowski Qwen3.6-27b Q8_0

hardware: 2 x RTX 3090.

0 replies

magikRUKKOLA · 2026-05-26T11:08:28Z

magikRUKKOLA
May 26, 2026
Author

Kimi-K2.6-THIREUS-1.825bpw

recipe:

Details

blk\..*\.attn_k_b\.weight=q6_0
blk\..*\.attn_kv_a_mqa\.weight=q6_0
blk\..*\.attn_kv_a_norm\.weight=f32
blk\..*\.attn_norm\.weight=f32
blk\..*\.attn_output\.weight=q6_0
blk\..*\.attn_q_a\.weight=q6_0
blk\..*\.attn_q_a_norm\.weight=f32
blk\..*\.attn_q_b\.weight=q6_0
blk\..*\.attn_v_b\.weight=q6_0
blk\..*\.exp_probs_b\.bias=f32
blk\..*\.ffn_down\.weight=q8_0
blk\..*\.ffn_down_exps\.weight=iq1_kt
blk\..*\.ffn_down_shexp\.weight=q8_0
blk\..*\.ffn_gate\.weight=q8_0
blk\..*\.ffn_gate_exps\.weight=iq1_kt
blk\..*\.ffn_gate_inp\.weight=f32
blk\..*\.ffn_gate_shexp\.weight=q8_0
blk\..*\.ffn_norm\.weight=f32
blk\..*\.ffn_up\.weight=q8_0
blk\..*\.ffn_up_exps\.weight=iq1_kt
blk\..*\.ffn_up_shexp\.weight=q8_0
output\.weight=q6_0
output_norm\.weight=f32
token_embd\.weight=q8_0

ppl:

Final estimate: PPL over 568 chunks for n_ctx=512 = 3.3257 +/- 0.01612

note: 13 GPUs, 200W TDP limited, overclocked; 1kb batch for the graph with 96k ctx and 4kb batch for the layer with 256k ctx

prefill-bench-kimi-k26-1 825bpw-200w-q5_0-kv-graph-1kb

decode-bench-kimi-k26-1 825bpw-200w-q5_0-kv-graph-1kb

logs:

Details

File: /root/utils/bench-kimi-k26-1.825bpw-200w-q5_0-kv-graph-1kb.log


     main: n_kv_max = 98304, n_batch = 1024, n_ubatch = 1024, flash_attn = 1, n_gpu_layers = 99, n_threads = 1, n_threads_batch = 1

       |    PP |     TG |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |
|-------|--------|--------|----------|----------|----------|----------|
|  1024 |    256 |      0 |    2.656 |   385.51 |    7.091 |    36.10 |
|  1024 |    256 |   1024 |    2.484 |   412.31 |    7.267 |    35.23 |
|  1024 |    256 |   2048 |    2.478 |   413.26 |    7.389 |    34.65 |
|  1024 |    256 |   3072 |    2.492 |   410.95 |    7.472 |    34.26 |
|  1024 |    256 |   4096 |    2.487 |   411.82 |    7.662 |    33.41 |
|  1024 |    256 |   5120 |    2.516 |   406.96 |    7.716 |    33.18 |
|  1024 |    256 |   6144 |    2.534 |   404.11 |    7.765 |    32.97 |
|  1024 |    256 |   7168 |    2.551 |   401.36 |    7.838 |    32.66 |
|  1024 |    256 |   8192 |    2.571 |   398.24 |    7.913 |    32.35 |
|  1024 |    256 |   9216 |    2.569 |   398.54 |    8.002 |    31.99 |
|  1024 |    256 |  10240 |    2.584 |   396.35 |    8.088 |    31.65 |
|  1024 |    256 |  11264 |    2.604 |   393.24 |    8.182 |    31.29 |
|  1024 |    256 |  12288 |    2.619 |   391.02 |    8.237 |    31.08 |
|  1024 |    256 |  13312 |    2.596 |   394.45 |    8.306 |    30.82 |
|  1024 |    256 |  14336 |    2.647 |   386.89 |    8.397 |    30.49 |
|  1024 |    256 |  15360 |    2.652 |   386.15 |    8.501 |    30.12 |
|  1024 |    256 |  16384 |    2.661 |   384.86 |    8.836 |    28.97 |
|  1024 |    256 |  17408 |    2.698 |   379.56 |    9.004 |    28.43 |
|  1024 |    256 |  18432 |    2.676 |   382.65 |    9.073 |    28.22 |
|  1024 |    256 |  19456 |    2.711 |   377.72 |    9.110 |    28.10 |
|  1024 |    256 |  20480 |    2.721 |   376.35 |    9.216 |    27.78 |
|  1024 |    256 |  21504 |    2.730 |   375.11 |    9.303 |    27.52 |
|  1024 |    256 |  22528 |    2.736 |   374.25 |    9.372 |    27.32 |
|  1024 |    256 |  23552 |    2.763 |   370.64 |    9.434 |    27.14 |
|  1024 |    256 |  24576 |    2.796 |   366.29 |    9.478 |    27.01 |
|  1024 |    256 |  25600 |    2.781 |   368.28 |    9.530 |    26.86 |
|  1024 |    256 |  26624 |    2.815 |   363.80 |    9.603 |    26.66 |
|  1024 |    256 |  27648 |    2.829 |   361.94 |    9.639 |    26.56 |
|  1024 |    256 |  28672 |    2.825 |   362.52 |    9.682 |    26.44 |
|  1024 |    256 |  29696 |    2.862 |   357.76 |    9.738 |    26.29 |
|  1024 |    256 |  30720 |    2.867 |   357.12 |    9.800 |    26.12 |
|  1024 |    256 |  31744 |    2.884 |   355.08 |    9.859 |    25.97 |
|  1024 |    256 |  32768 |    2.890 |   354.32 |   10.170 |    25.17 |
|  1024 |    256 |  33792 |    2.883 |   355.16 |   10.338 |    24.76 |
|  1024 |    256 |  34816 |    2.911 |   351.78 |   10.450 |    24.50 |
|  1024 |    256 |  35840 |    2.948 |   347.38 |   10.502 |    24.38 |
|  1024 |    256 |  36864 |    2.932 |   349.23 |   10.535 |    24.30 |
|  1024 |    256 |  37888 |    2.948 |   347.31 |   10.649 |    24.04 |
|  1024 |    256 |  38912 |    2.968 |   345.00 |   10.736 |    23.84 |
|  1024 |    256 |  39936 |    3.009 |   340.35 |   10.791 |    23.72 |
|  1024 |    256 |  40960 |    3.005 |   340.79 |   10.825 |    23.65 |
|  1024 |    256 |  41984 |    3.018 |   339.34 |   10.883 |    23.52 |
|  1024 |    256 |  43008 |    3.055 |   335.14 |   10.940 |    23.40 |
|  1024 |    256 |  44032 |    3.048 |   335.96 |   10.996 |    23.28 |
|  1024 |    256 |  45056 |    3.072 |   333.36 |   11.037 |    23.19 |
|  1024 |    256 |  46080 |    3.089 |   331.54 |   11.103 |    23.06 |
|  1024 |    256 |  47104 |    3.089 |   331.45 |   11.157 |    22.94 |
|  1024 |    256 |  48128 |    3.112 |   329.09 |   11.218 |    22.82 |
|  1024 |    256 |  49152 |    3.132 |   326.90 |   11.521 |    22.22 |
|  1024 |    256 |  50176 |    3.173 |   322.69 |   11.711 |    21.86 |
|  1024 |    256 |  51200 |    3.152 |   324.82 |   11.790 |    21.71 |
|  1024 |    256 |  52224 |    3.187 |   321.32 |   11.845 |    21.61 |
|  1024 |    256 |  53248 |    3.216 |   318.37 |   11.925 |    21.47 |
|  1024 |    256 |  54272 |    3.234 |   316.68 |   12.021 |    21.30 |
|  1024 |    256 |  55296 |    3.231 |   316.94 |   12.091 |    21.17 |
|  1024 |    256 |  56320 |    3.274 |   312.72 |   12.156 |    21.06 |
|  1024 |    256 |  57344 |    3.275 |   312.64 |   12.204 |    20.98 |
|  1024 |    256 |  58368 |    3.298 |   310.50 |   12.244 |    20.91 |
|  1024 |    256 |  59392 |    3.320 |   308.47 |   12.296 |    20.82 |
|  1024 |    256 |  60416 |    3.320 |   308.43 |   12.357 |    20.72 |
|  1024 |    256 |  61440 |    3.354 |   305.27 |   12.425 |    20.60 |
|  1024 |    256 |  62464 |    3.353 |   305.37 |   12.475 |    20.52 |
|  1024 |    256 |  63488 |    3.390 |   302.09 |   12.551 |    20.40 |
|  1024 |    256 |  64512 |    3.401 |   301.07 |   12.595 |    20.33 |
|  1024 |    256 |  65536 |    3.427 |   298.80 |   12.913 |    19.83 |
|  1024 |    256 |  66560 |    3.424 |   299.08 |   13.082 |    19.57 |
|  1024 |    256 |  67584 |    3.435 |   298.15 |   13.146 |    19.47 |
|  1024 |    256 |  68608 |    3.464 |   295.63 |   13.246 |    19.33 |
|  1024 |    256 |  69632 |    3.481 |   294.16 |   13.314 |    19.23 |
|  1024 |    256 |  70656 |    3.545 |   288.85 |   13.378 |    19.14 |
|  1024 |    256 |  71680 |    3.508 |   291.90 |   13.462 |    19.02 |
|  1024 |    256 |  72704 |    3.528 |   290.27 |   13.504 |    18.96 |
|  1024 |    256 |  73728 |    3.566 |   287.12 |   13.566 |    18.87 |
|  1024 |    256 |  74752 |    3.583 |   285.80 |   13.618 |    18.80 |
|  1024 |    256 |  75776 |    3.613 |   283.42 |   13.676 |    18.72 |
|  1024 |    256 |  76800 |    3.650 |   280.57 |   13.753 |    18.61 |
|  1024 |    256 |  77824 |    3.655 |   280.13 |   13.838 |    18.50 |
|  1024 |    256 |  78848 |    3.670 |   279.02 |   13.863 |    18.47 |
|  1024 |    256 |  79872 |    3.693 |   277.29 |   13.974 |    18.32 |
|  1024 |    256 |  80896 |    3.696 |   277.05 |   13.995 |    18.29 |
|  1024 |    256 |  81920 |    3.716 |   275.60 |   14.299 |    17.90 |
|  1024 |    256 |  82944 |    3.742 |   273.64 |   14.460 |    17.70 |
|  1024 |    256 |  83968 |    3.743 |   273.58 |   14.586 |    17.55 |
|  1024 |    256 |  84992 |    3.755 |   272.67 |   14.602 |    17.53 |
|  1024 |    256 |  86016 |    3.821 |   268.00 |   14.692 |    17.42 |
|  1024 |    256 |  87040 |    3.839 |   266.75 |   14.757 |    17.35 |
|  1024 |    256 |  88064 |    3.866 |   264.84 |   14.866 |    17.22 |
|  1024 |    256 |  89088 |    3.863 |   265.10 |   14.912 |    17.17 |
|  1024 |    256 |  90112 |    3.875 |   264.27 |   14.986 |    17.08 |
|  1024 |    256 |  91136 |    3.909 |   261.96 |   15.024 |    17.04 |
|  1024 |    256 |  92160 |    3.907 |   262.11 |   15.073 |    16.98 |
|  1024 |    256 |  93184 |    3.943 |   259.70 |   15.154 |    16.89 |
|  1024 |    256 |  94208 |    3.962 |   258.48 |   15.210 |    16.83 |
|  1024 |    256 |  95232 |    4.017 |   254.91 |   15.287 |    16.75 |
|  1024 |    256 |  96256 |    3.980 |   257.32 |   15.363 |    16.66 |
|  1024 |    256 |  97280 |    3.996 |   256.25 |   15.389 |    16.64 |

llama_print_timings:        load time =   94517.75 ms
llama_print_timings:      sample time =       0.00 ms /     1 runs   (    0.00 ms per token,      inf tokens per second)
llama_print_timings: prompt eval time =  304519.27 ms / 98304 tokens (    3.10 ms per token,   322.82 tokens per second)
llama_print_timings:        eval time = 1097968.56 ms / 24576 runs   (   44.68 ms per token,    22.38 tokens per second)
llama_print_timings:       total time = 1402583.50 ms / 122880 tokens
~ggml_backend_cuda_context: have 197 graphs
~ggml_backend_cuda_context: have 198 graphs
~ggml_backend_cuda_context: have 198 graphs
~ggml_backend_cuda_context: have 198 graphs

File: /root/utils/bench-kimi-k26-200w-q5_0-kv.1.825bpw-layer-4kb.log

 
 main: n_kv_max = 262144, n_batch = 4096, n_ubatch = 4096, flash_attn = 1, n_gpu_layers = 99, n_threads = 1, n_threads_batch = 1
 
 |    PP |     TG |   N_KV |   T_PP s | S_PP t/s |   T_TG s | S_TG t/s |
 |-------|--------|--------|----------|----------|----------|----------|
 |  4096 |    128 |      0 |   11.542 |   354.88 |    3.797 |    33.71 |
 |  4096 |    128 |   4096 |   13.576 |   301.70 |    4.182 |    30.61 |
 |  4096 |    128 |   8192 |   16.276 |   251.66 |    4.450 |    28.77 |
 |  4096 |    128 |  12288 |   18.093 |   226.39 |    4.714 |    27.15 |
 |  4096 |    128 |  16384 |   19.826 |   206.60 |    4.993 |    25.64 |
 |  4096 |    128 |  20480 |   21.840 |   187.54 |    5.263 |    24.32 |
 |  4096 |    128 |  24576 |   23.674 |   173.01 |    5.553 |    23.05 |
 |  4096 |    128 |  28672 |   25.732 |   159.18 |    5.805 |    22.05 |
 |  4096 |    128 |  32768 |   27.616 |   148.32 |    6.075 |    21.07 |
 |  4096 |    128 |  36864 |   29.596 |   138.40 |    6.354 |    20.15 |
 |  4096 |    128 |  40960 |   31.817 |   128.74 |    6.645 |    19.26 |
 |  4096 |    128 |  45056 |   33.591 |   121.94 |    6.909 |    18.53 |
 |  4096 |    128 |  49152 |   35.893 |   114.12 |    7.175 |    17.84 |
 |  4096 |    128 |  53248 |   37.559 |   109.06 |    7.455 |    17.17 |
 |  4096 |    128 |  57344 |   39.517 |   103.65 |    7.722 |    16.58 |
 |  4096 |    128 |  61440 |   41.720 |    98.18 |    7.989 |    16.02 |
 |  4096 |    128 |  65536 |   43.664 |    93.81 |    8.298 |    15.43 |
 |  4096 |    128 |  69632 |   45.661 |    89.71 |    8.539 |    14.99 |
 |  4096 |    128 |  73728 |   47.740 |    85.80 |    8.818 |    14.52 |
 |  4096 |    128 |  77824 |   49.633 |    82.53 |    9.090 |    14.08 |
 |  4096 |    128 |  81920 |   51.543 |    79.47 |    9.359 |    13.68 |
 |  4096 |    128 |  86016 |   53.748 |    76.21 |    9.605 |    13.33 |
 |  4096 |    128 |  90112 |   55.637 |    73.62 |    9.901 |    12.93 |
 |  4096 |    128 |  94208 |   57.732 |    70.95 |   10.164 |    12.59 |
 |  4096 |    128 |  98304 |   59.801 |    68.49 |   10.445 |    12.25 |
 |  4096 |    128 | 102400 |   61.864 |    66.21 |   10.709 |    11.95 |
 |  4096 |    128 | 106496 |   63.894 |    64.11 |   10.976 |    11.66 |
 |  4096 |    128 | 110592 |   65.889 |    62.17 |   11.243 |    11.39 |
 |  4096 |    128 | 114688 |   67.900 |    60.32 |   11.512 |    11.12 |
 |  4096 |    128 | 118784 |   69.866 |    58.63 |   11.784 |    10.86 |
 |  4096 |    128 | 122880 |   70.191 |    58.36 |   12.062 |    10.61 |
 |  4096 |    128 | 126976 |   72.275 |    56.67 |   12.329 |    10.38 |
 |  4096 |    128 | 131072 |   74.201 |    55.20 |   12.585 |    10.17 |
 |  4096 |    128 | 135168 |   76.045 |    53.86 |   13.020 |     9.83 |
 |  4096 |    128 | 139264 |   77.033 |    53.17 |   13.354 |     9.59 |
 |  4096 |    128 | 143360 |   79.035 |    51.83 |   13.585 |     9.42 |
 |  4096 |    128 | 147456 |   79.615 |    51.45 |   14.051 |     9.11 |
 |  4096 |    128 | 151552 |   81.511 |    50.25 |   14.348 |     8.92 |
 |  4096 |    128 | 155648 |   83.672 |    48.95 |   14.606 |     8.76 |
 |  4096 |    128 | 159744 |   86.501 |    47.35 |   14.552 |     8.80 |
 |  4096 |    128 | 163840 |   87.925 |    46.58 |   14.851 |     8.62 |
 |  4096 |    128 | 167936 |   92.645 |    44.21 |   15.085 |     8.49 |
 |  4096 |    128 | 172032 |   91.368 |    44.83 |   15.404 |     8.31 |
 |  4096 |    128 | 176128 |   93.414 |    43.85 |   15.731 |     8.14 |
 |  4096 |    128 | 180224 |   96.913 |    42.26 |   15.917 |     8.04 |
 |  4096 |    128 | 184320 |   97.395 |    42.06 |   16.223 |     7.89 |
 |  4096 |    128 | 188416 |   99.872 |    41.01 |   16.508 |     7.75 |
 |  4096 |    128 | 192512 |  100.832 |    40.62 |   16.966 |     7.54 |
 |  4096 |    128 | 196608 |  103.295 |    39.65 |   17.248 |     7.42 |
 |  4096 |    128 | 200704 |  105.732 |    38.74 |   17.539 |     7.30 |
 |  4096 |    128 | 204800 |  106.972 |    38.29 |   17.711 |     7.23 |
 |  4096 |    128 | 208896 |  109.212 |    37.50 |   18.021 |     7.10 |
 |  4096 |    128 | 212992 |  110.569 |    37.04 |   18.173 |     7.04 |

@davidsyoung

FYI above is the comparison of Kimi-K2.6 1.825bpw quant graph vs layer split mode.

5 replies

davidsyoung May 26, 2026

Do you have all of the settings used? Did you run out of vram for the longer context with graph?

magikRUKKOLA May 26, 2026
Author

Do you have all of the settings used?

Yes, I do have all the settings etc. Which ones do you need?

run command:

export CUDA_VISIBLE_DEVICES="0,1,2,3,4,5,6,7,8,9,10,11,12"

/opt/ik_llama.cpp/ik_llama.cpp/build/bin/llama-server \
    -f /opt/ik_llama.cpp/wiki.test.raw \
    --model /opt/THIREUS/Kimi-K2.6/smol-IQ1-KT-mist.bin/Kimi-K2.6-THIREUS-mist.bin-SPECIAL_TENSOR-00001-of-01097.gguf \
    --alias THIREUS/Kimi-K2.6-smol-IQ1-KT-mist.bin \
    --gpu-fit-margin 12,1600 \
    -b $((2 * 512)) -ub $((2 * 512)) \
    --ctx-size $((96 * 1024)) \
    --fit \
    --temp 0.0 --top-k 0 --top-p 1.0 \
    -ctk q5_0 \
    -ctv q8_0 \
    -amb 16 \
    -mea 16 \
    -wgt 1 \
    -muge \
    --mlock \
    --merge-qkv \
    --split-mode graph \
    --graph-reduce-type f16 \
    --threads 1 \
    -sas \
    --gpu-layers 99 \
    --host 0.0.0.0 \
    --port 8080 \
    --log-enable \
    --logdir /var/log/ \
    --jinja \
    --special \
    --prompt-cache "$HOME/.cache/ik_llama.cpp/prompt-cache.bin" --prompt-cache-all \
    --slot-save-path "$HOME/.cache/ik_llama.cpp/slot.bin" \
    --lookup-cache-dynamic "$HOME/.cache/ik_llama.cpp/slot.bin" \
    --keep -1 \
    --slot-prompt-similarity 0.35 \
    --metrics \
    -cuda fusion=1

Did you run out of vram for the longer context with graph?

Well, yes. 13 GPUs can't hold the full context. 96k ctx is the largest ctx with q5_0 k-cache I could use. So:


Estimated model buffer size per device:
    Device 0:  18642.06 MiB
    Device 1:  18621.26 MiB
    Device 2:  18640.71 MiB
    Device 3:  19078.37 MiB
    Device 4:  18650.41 MiB
    Device 5:  18625.42 MiB
    Device 6:  18636.54 MiB
    Device 7:  18629.57 MiB
    Device 8:  18648.34 MiB
    Device 9:  18630.98 MiB
    Device 10:  18626.82 MiB
    Device 11:  18640.01 MiB
    Device 12:  17717.42 MiB
No tensors in buffer type CUDA0
No tensors in buffer type CUDA1
No tensors in buffer type CUDA2
No tensors in buffer type CUDA3
No tensors in buffer type CUDA4
No tensors in buffer type CUDA5
No tensors in buffer type CUDA6
No tensors in buffer type CUDA7
No tensors in buffer type CUDA8
No tensors in buffer type CUDA9
No tensors in buffer type CUDA10
No tensors in buffer type CUDA11
llm_load_tensors: offloading 61 repeating layers to GPU
llm_load_tensors: offloading non-repeating layers to GPU
llm_load_tensors: offloaded 62/62 layers to GPU
llm_load_tensors:  CUDA_Host buffer size =  1190.00 MiB
llm_load_tensors: CUDA_Split buffer size = 241766.99 MiB
llm_load_tensors:     CUDA12 buffer size =   910.03 MiB

...


llama_kv_cache_init: KV cache size per device (MLA replicated):
    Device 0:  2264.62 MiB
    Device 1:  2264.62 MiB
    Device 2:  2264.62 MiB
    Device 3:  2264.62 MiB
    Device 4:  2227.5 MiB
    Device 5:  2227.5 MiB
    Device 6:  2264.62 MiB
    Device 7:  2264.62 MiB
    Device 8:  2264.62 MiB
    Device 9:  2264.62 MiB
    Device 10:  2264.62 MiB
    Device 11:  2264.62 MiB
    Device 12:  2264.62 MiB
llama_init_from_model: KV self size  = 2264.62 MiB, c^KV (q5_0): 2264.62 MiB, kv^T: not used
llama_init_from_model:  CUDA_Host  output buffer size =     0.62 MiB
llama_init_from_model:      CUDA0 compute buffer size =  1598.00 MiB
llama_init_from_model:      CUDA1 compute buffer size =  1296.00 MiB
llama_init_from_model:      CUDA2 compute buffer size =  1310.00 MiB
llama_init_from_model:      CUDA3 compute buffer size =  1296.00 MiB
llama_init_from_model:      CUDA4 compute buffer size =  1324.00 MiB
llama_init_from_model:      CUDA5 compute buffer size =  1310.00 MiB
llama_init_from_model:      CUDA6 compute buffer size =  1310.00 MiB
llama_init_from_model:      CUDA7 compute buffer size =  1296.00 MiB
llama_init_from_model:      CUDA8 compute buffer size =  1310.00 MiB
llama_init_from_model:      CUDA9 compute buffer size =  1296.00 MiB
llama_init_from_model:     CUDA10 compute buffer size =  1296.00 MiB
llama_init_from_model:     CUDA11 compute buffer size =  1310.00 MiB
llama_init_from_model:     CUDA12 compute buffer size =  1338.00 MiB
llama_init_from_model:  CUDA_Host compute buffer size =   220.01 MiB

So its about 2.3GB + 1.3GB per GPU. So 3.6GB per GPU goes for the KV (K?) cache. Also there is 450 MB reserved per GPU for the. And another 1GB for the buffer. So overall about 19GB per GPU left for the weights. It doesn't seem to be possible to fit any KV-cache larger than that. Of course one could use q4_0 and lower, but there is significant PPL hit so I would rather not use it.

magikRUKKOLA May 26, 2026
Author

@davidsyoung

hardware: two 6-slimSAS slot PEX 88096 -- one is working in x8x8 mode at PCIe 4.0 x16 slot of the mobo and provides six x8 GPUs. Another one, contrary, provides for the three x16 GPUs. Also got two risers and one bifurcation x16 to two x8 slimSAS slots/x8 GPUs.

Details

nvidia-smi topo -m
	GPU0	GPU1	GPU2	GPU3	GPU4	GPU5	GPU6	GPU7	GPU8	GPU9	GPU10	GPU11	GPU12	CPU Affinity	NUMA AffinityGPU NUMA ID
GPU0	 X 	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	0-127	0		N/A
GPU1	NODE	 X 	PHB	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	0-127	0		N/A
GPU2	NODE	PHB	 X 	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	0-127	0		N/A
GPU3	NODE	NODE	NODE	 X 	PIX	PXB	PXB	PXB	PXB	PHB	PHB	PHB	NODE	0-127	0		N/A
GPU4	NODE	NODE	NODE	PIX	 X 	PXB	PXB	PXB	PXB	PHB	PHB	PHB	NODE	0-127	0		N/A
GPU5	NODE	NODE	NODE	PXB	PXB	 X 	PIX	PIX	PIX	PHB	PHB	PHB	NODE	0-127	0		N/A
GPU6	NODE	NODE	NODE	PXB	PXB	PIX	 X 	PIX	PIX	PHB	PHB	PHB	NODE	0-127	0		N/A
GPU7	NODE	NODE	NODE	PXB	PXB	PIX	PIX	 X 	PIX	PHB	PHB	PHB	NODE	0-127	0		N/A
GPU8	NODE	NODE	NODE	PXB	PXB	PIX	PIX	PIX	 X 	PHB	PHB	PHB	NODE	0-127	0		N/A
GPU9	NODE	NODE	NODE	PHB	PHB	PHB	PHB	PHB	PHB	 X 	PXB	PXB	NODE	0-127	0		N/A
GPU10	NODE	NODE	NODE	PHB	PHB	PHB	PHB	PHB	PHB	PXB	 X 	PIX	NODE	0-127	0		N/A
GPU11	NODE	NODE	NODE	PHB	PHB	PHB	PHB	PHB	PHB	PXB	PIX	 X 	NODE	0-127	0		N/A
GPU12	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	NODE	 X 	0-127	0		N/A


P2P Connectivity Matrix
     D\D     0     1     2     3     4     5     6     7     8     9    10    11    12
     0	     1     1     1     1     1     1     1     1     1     1     1     1     1
     1	     1     1     1     1     1     1     1     1     1     1     1     1     1
     2	     1     1     1     1     1     1     1     1     1     1     1     1     1
     3	     1     1     1     1     1     1     1     1     1     1     1     1     1
     4	     1     1     1     1     1     1     1     1     1     1     1     1     1
     5	     1     1     1     1     1     1     1     1     1     1     1     1     1
     6	     1     1     1     1     1     1     1     1     1     1     1     1     1
     7	     1     1     1     1     1     1     1     1     1     1     1     1     1
     8	     1     1     1     1     1     1     1     1     1     1     1     1     1
     9	     1     1     1     1     1     1     1     1     1     1     1     1     1
    10	     1     1     1     1     1     1     1     1     1     1     1     1     1
    11	     1     1     1     1     1     1     1     1     1     1     1     1     1
    12	     1     1     1     1     1     1     1     1     1     1     1     1     1
Unidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10     11     12
     0 831.56   7.91   7.91   7.84   7.85   7.82   7.85   7.84   7.86  11.12  11.29  11.27  11.17
     1   7.97 833.78   6.08   6.10   6.09   6.07   6.05   6.11   6.13   7.86   7.87   7.87   7.91
     2   7.92   6.10 901.62   6.13   6.14   6.12   6.09   6.09   6.13   7.86   7.87   7.88   7.91
     3   7.85   6.11   6.09 901.10   6.05   6.04   6.06   6.08   6.06   7.86   7.89   7.92   7.79
     4   7.79   6.12   6.09   6.06 902.66   6.04   6.07   6.05   6.05   7.89   7.91   7.92   7.84
     5   7.80   6.11   6.09   6.05   6.05 834.67   6.06   6.04   6.02   7.85   7.85   7.95   7.80
     6   7.81   6.10   6.10   6.02   6.06   6.04 834.67   6.05   6.02   7.84   7.93   7.93   7.80
     7   7.83   6.11   6.10   6.03   6.05   6.03   6.04 901.62   6.04   7.92   7.85   7.89   7.78
     8   7.81   6.12   6.08   6.05   6.06   6.03   6.04   6.03 900.58   7.88   7.92   7.85   7.79
     9  11.24   7.93   7.94   7.84   7.84   7.82   7.84   7.81   7.83 902.14  11.12  11.12  11.23
    10  11.23   7.93   7.90   7.83   7.84   7.81   7.83   7.82   7.83  11.12 901.10  11.12  11.20
    11  11.26   7.96   7.94   7.83   7.84   7.82   7.84   7.81   7.83  11.11  11.11 900.58  11.21
    12  11.26   7.94   7.94   7.87   7.87   7.86   7.87   7.86   7.87  11.22  11.26  11.35 901.10
Unidirectional P2P=Enabled Bandwidth (P2P Writes) Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10     11     12
     0 901.53  13.16  13.15  13.17  13.17  13.17  13.17  13.17  13.15  26.30  26.29  26.32  25.73
     1  13.19 903.70  13.17  13.17  13.17  13.17  13.17  13.17  13.17  13.19  13.17  13.19  13.19
     2  13.19  13.17 902.14  13.17  13.17  13.15  13.17  13.17  13.17  13.18  13.19  13.18  13.19
     3  13.17  13.17  13.17 903.18  12.97  12.98  12.97  12.98  12.98  13.18  13.18  13.18  13.15
     4  13.13  13.16  13.07  12.97 903.18  12.98  12.98  12.98  12.98  13.18  13.18  13.18  13.17
     5  13.17  13.17  13.17  12.98  12.98 903.70  12.97  12.98  12.97  13.17  13.17  13.18  13.16
     6  13.14  13.17  13.16  12.98  12.98  12.98 902.14  12.98  12.98  13.18  13.18  13.18  13.18
     7  13.17  13.16  13.13  12.97  12.98  12.98  12.97 902.66  12.97  13.17  13.18  13.18  13.18
     8  13.17  13.08  13.17  12.98  12.98  12.98  12.98  12.98 903.20  13.17  13.17  13.18  13.17
     9  25.82  13.17  13.17  13.17  13.17  13.17  13.17  13.17  13.17 904.22  26.04  26.05  25.83
    10  25.72  13.16  13.16  13.17  13.17  13.15  13.16  13.17  13.17  26.04 902.66  26.04  25.70
    11  25.98  13.17  13.17  13.17  13.17  13.17  13.17  13.17  13.17  26.05  26.04 902.14  25.69
    12  25.98  13.17  13.17  13.17  13.17  13.16  13.17  13.17  13.17  26.31  26.31  26.31 902.14
Bidirectional P2P=Disabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10     11     12
     0 906.63  11.75  11.76  11.65  11.62  11.65  11.57  11.64  11.66  16.59  16.63  16.64  16.57
     1  11.33 907.35   8.89   8.90   8.94   8.92   8.78   8.82   8.98  11.27  11.28  11.29  11.33
     2  11.32   8.89 907.36   8.88   8.94   8.91   8.88   8.86   8.90  11.26  11.26  11.28  11.33
     3  11.30   8.90   8.87 906.85   4.80   4.68   4.67   4.64   4.69  10.78  10.81  10.77  11.26
     4  11.27   8.91   8.90   4.82 907.11   4.71   4.67   4.71   4.72  10.78  10.81  10.83  11.25
     5  11.25   8.90   8.91   4.70   4.71 906.85   4.81   4.67   4.67  10.81  10.84  10.82  11.26
     6  11.28   8.92   8.90   4.67   4.68   4.80 907.64   4.70   4.65  10.80  10.81  10.83  11.28
     7  11.26   8.89   8.91   4.64   4.67   4.67   4.67 907.38   4.83  10.80  10.83  10.84  11.27
     8  11.28   8.88   8.90   4.68   4.70   4.67   4.67   4.83 907.11  10.81  10.81  10.82  11.27
     9  16.39  11.72  11.72  10.79  10.79  10.78  10.81  10.81  10.80 907.38   8.97   8.59  16.45
    10  16.34  11.73  11.73  10.80  10.82  10.79  10.81  10.79  10.82   8.66 907.38   8.56  16.39
    11  16.42  11.77  11.75  10.80  10.83  10.80  10.83  10.80  10.81   8.19   8.51 907.38  16.35
    12  16.53  11.76  11.74  11.58  11.57  11.58  11.58  11.59  11.58  16.58  16.57  16.72 907.04
Bidirectional P2P=Enabled Bandwidth Matrix (GB/s)
   D\D     0      1      2      3      4      5      6      7      8      9     10     11     12
     0 907.11  25.93  25.95  25.94  25.94  25.94  25.93  25.94  25.89  51.42  51.24  51.22  51.38
     1  25.94 907.37  17.09  25.76  25.79  25.80  25.80  25.75  25.74  25.91  25.93  25.94  25.94
     2  25.93  16.90 907.11  25.95  25.71  25.89  25.72  25.91  25.90  25.95  25.95  25.93  25.95
     3  25.95  25.78  25.76 907.11  12.98  12.98  12.98  12.97  12.97  25.95  25.95  25.95  25.93
     4  25.94  25.83  25.79  12.98 906.85  12.98  12.98  12.98  12.97  25.92  25.94  25.95  25.94
     5  25.93  25.75  25.77  12.98  12.98 907.38  12.98  12.98  12.98  25.92  25.94  25.95  25.94
     6  25.94  25.82  25.83  12.98  12.98  12.98 908.17  12.98  12.98  25.94  25.93  25.94  25.94
     7  25.93  25.78  25.91  12.98  12.98  12.98  12.98 906.59  12.98  25.95  25.93  25.92  25.89
     8  25.93  25.77  25.83  12.98  12.98  12.98  12.98  12.98 906.58  25.95  25.95  25.95  25.94
     9  51.01  25.92  25.88  25.93  25.95  25.95  25.95  25.95  25.94 907.90  26.04  26.04  50.89
    10  50.37  25.91  25.87  25.95  25.95  25.95  25.95  25.95  25.95  26.05 906.59  26.04  50.36
    11  50.69  25.93  25.93  25.95  25.95  25.95  25.95  25.95  25.95  26.05  26.05 906.59  50.87
    12  50.99  25.94  25.95  25.85  25.92  25.91  25.88  25.89  25.90  51.32  51.27  51.27 906.85
P2P=Disabled Latency Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9     10     11     12
     0   1.51  13.54  16.43  18.17  18.19  18.20  18.30  18.25  17.13  17.38  17.29  18.07  15.54
     1  16.26   1.47  12.39  18.38  18.34  18.26  18.18  17.96  17.29  17.54  17.54  17.49  16.88
     2  16.35  17.12   1.52  18.09  17.32  17.50  17.46  17.48  18.34  18.18  18.08  18.29  13.30
     3  13.38  13.29  16.94   1.48  18.24  18.89  16.76  18.73  16.16  17.02  16.80  16.85  18.49
     4  16.74  14.05  13.61  15.63   1.48  17.01  18.61  16.31  16.16  17.05  17.17  15.72  17.36
     5  17.77  13.92  12.82  16.52  15.75   1.57  18.84  16.14  15.85  17.02  15.87  17.04  17.39
     6  12.94  12.44  16.17  18.30  16.70  16.60   1.46  16.13  17.05  15.89  16.97  17.09  17.84
     7  13.17  12.79  19.26  17.19  16.37  18.83  15.99   1.57  17.50  16.36  17.67  16.65  12.45
     8  13.39  12.86  16.69  16.48  16.54  15.70  18.72  16.31   1.55  19.09  18.96  18.30  12.95
     9  12.51  14.69  12.93  16.11  14.76  17.13  15.27  16.51  15.72   1.51  15.86  17.89  17.55
    10  18.25  15.48  16.17  16.85  17.90  15.79  16.94  18.16  14.24  19.59   1.57  18.12  15.38
    11  17.14  12.89  15.20  16.09  16.72  16.35  16.29  16.60  18.96  15.21  16.49   1.59  15.20
    12  12.29  13.97  17.06  17.89  17.17  18.18  17.54  17.29  17.38  17.98  17.21  18.17   1.51

   CPU     0      1      2      3      4      5      6      7      8      9     10     11     12
     0   3.41  10.52  10.36  10.45  10.43  10.43  10.58  10.28  10.39  10.51  10.26  10.20   9.85
     1  10.53   3.21  10.13  10.11  10.34  10.12  10.15  10.25   9.99  10.04   9.94   9.93   9.53
     2  10.57  10.43   3.16  10.25  10.21  10.45  10.09  10.15  10.13  10.31  10.00  10.04   9.82
     3  10.58  10.13  10.17   3.19  10.25  10.19  10.48  10.18  10.17  10.40  10.16  10.07   9.71
     4  10.79  10.11  10.25  10.19   3.20  10.28  10.24  10.39  10.11  10.13  10.56  10.07   9.72
     5  10.70  10.07  10.10  10.44  10.55   3.20  10.24  10.44  10.14  10.14  10.30  10.14   9.75
     6  10.66   9.94  10.11  10.41  10.22  10.16   3.20  10.26  10.50  10.17  10.18  10.33   9.74
     7  10.69   9.93  10.03  10.38  10.16  10.18  10.48   3.21  10.49  11.35  11.36  10.13   9.70
     8  10.38  10.16  10.53  10.07  10.36  10.12  10.19  10.44   3.21  10.20  10.15  10.13   9.96
     9  10.29  10.21  10.08  10.10  10.35  10.09  10.10  10.32  10.10   3.19  10.11  10.39   9.77
    10  10.29  10.18   9.94  10.02  10.33  10.11  10.11  10.08  10.08  10.09   3.19  10.14  10.06
    11  10.27   9.92  10.24  10.02  10.03  10.28  10.09  10.02  10.28  10.04  10.15   3.21  10.07
    12  10.04   9.65   9.74   9.84   9.80  10.14   9.84   9.88  10.04   9.84   9.88  10.09   3.12
P2P=Enabled Latency (P2P Writes) Matrix (us)
   GPU     0      1      2      3      4      5      6      7      8      9     10     11     12
     0   1.45   1.27   1.29   1.25   1.25   1.23   1.27   1.22   1.25   1.22   1.27   1.22   1.27
     1   1.18   1.57   1.18   1.19   1.19   1.18   1.14   1.18   1.17   1.18   1.22   1.19   1.15
     2   1.24   1.16   1.47   1.25   1.25   1.27   1.29   1.24   1.25   1.27   1.25   1.24   1.26
     3   1.56   1.51   1.50   1.57   1.37   1.39   1.42   1.42   1.43   1.38   1.43   1.37   1.50
     4   1.49   1.52   1.46   1.37   1.46   1.44   1.44   1.39   1.43   1.37   1.39   1.39   1.44
     5   1.46   1.48   1.51   1.46   1.46   1.55   1.40   1.41   1.45   1.40   1.42   1.41   1.47
     6   1.51   1.47   1.52   1.46   1.41   1.39   1.55   1.40   1.41   1.42   1.42   1.46   1.49
     7   1.52   1.52   1.52   1.39   1.40   1.44   1.44   1.46   1.38   1.40   1.39   1.42   1.50
     8   1.54   1.53   1.55   1.41   1.39   1.39   1.38   1.44   1.51   1.39   1.41   1.44   1.56
     9   1.51   1.50   1.51   1.44   1.44   1.41   1.44   1.41   1.43   1.47   1.44   1.41   1.46
    10   1.51   1.53   1.50   1.43   1.44   1.47   1.42   1.42   1.48   1.47   1.54   1.44   1.51
    11   1.51   1.56   1.50   1.42   1.42   1.42   1.39   1.40   1.43   1.43   1.42   1.52   1.53
    12   1.21   1.18   1.18   1.21   1.21   1.20   1.24   1.19   1.21   1.17   1.19   1.19   1.47

   CPU     0      1      2      3      4      5      6      7      8      9     10     11     12
     0   3.32   2.96   3.01   2.97   2.97   2.97   2.96   2.99   2.96   2.95   3.00   2.97   2.96
     1   3.29   3.27   2.91   2.89   2.90   3.18   2.87   2.86   2.83   2.89   2.86   2.88   2.84
     2   3.00   3.20   3.25   2.89   2.90   2.92   2.96   2.89   2.90   2.95   2.96   2.90   2.88
     3   2.97   2.89   2.87   3.30   2.86   2.89   2.83   2.88   2.88   2.84   2.86   3.08   2.85
     4   2.97   2.91   3.21   2.89   3.30   2.89   2.82   3.07   2.86   2.89   2.87   2.88   2.84
     5   2.98   2.89   2.89   2.91   2.88   3.30   2.86   2.90   2.87   2.85   2.90   2.88   2.84
     6   2.97   2.90   2.90   3.14   2.85   2.89   3.20   2.82   3.10   2.85   2.88   2.87   2.88
     7   2.97   2.89   2.93   2.88   2.91   2.92   2.89   3.30   2.88   2.90   2.91   2.91   2.89
     8   3.01   2.90   2.94   2.91   3.12   2.92   2.90   2.92   3.30   3.15   2.91   2.91   2.94
     9   3.05   2.93   2.94   2.96   2.93   2.93   2.93   2.95   2.91   3.29   2.95   2.96   2.90
    10   3.03   2.96   2.95   2.91   2.93   3.19   2.95   2.93   2.92   2.94   3.29   2.96   2.91
    11   3.05   3.19   2.98   2.95   2.93   2.97   2.95   2.95   2.96   2.94   2.99   3.32   2.95
    12   2.88   2.79   2.77   2.78   2.78   2.80   3.05   2.84   2.77   2.80   2.83   2.79   3.21

Why this way and not another? Well, its ... a complicated story which should start with a fact that the heatsink at one of the PEX 88096 became so hot it desoldered itself into two parts. So I had to glue the Noctua coolers on top of the turbo-fan of the PEX 88096 boards. That altered the way I can connect the other GPUs. etc.

magikRUKKOLA May 26, 2026
Author

@davidsyoung

Do you want to check it out yourself? I can provide you the remote SSH access so you can use the machine for the test if the machine is free (that is, if Iwan doesn't work there).

magikRUKKOLA May 26, 2026
Author

@davidsyoung

So basically ... the full 256k ctx q5_0 for Kimi-K2.6 is about 6GB. So if we have, say, 13 GPUs, we have to get a difference between the current 2.3GB for the 96k ctx and the 6GB. So, the delta is about 4GB. That means that we have to "sacrifice" the 4GB of VRAM of each GPU for the KV-cache instead of weights. So 4 x 13 = 52. So now each GPU uses about 19GB for weights. Minus 4GB and we have about 15GB per GPU we can use for the weights. So 52 / 15 ~= 3. So I would have to add another three GPUs (to the total of 16) to handle the 256k ctx for the smallest Kimi-K2.6 quant, yep.

[EDIT]:

RTX 6000 PRO would not have such problems, of course. :) Even RTX 5090 with 32GB seems much better option than RTX 3090 heh. So, possibly, 12-channel DDR5 is the most efficient way to overcome these hurdles (I am glad I got about 1TB of it in the beginning of the year lol). Well, we will see.

Speed benchmarks of various LLMs #1544

Uh oh!

Uh oh!

magikRUKKOLA Mar 29, 2026

Replies: 6 comments · 10 replies

Uh oh!

FNsi Mar 30, 2026

Uh oh!

Uh oh!

magikRUKKOLA Mar 30, 2026 Author

Uh oh!

FNsi Mar 30, 2026

Uh oh!

magikRUKKOLA Mar 30, 2026 Author

Uh oh!

FNsi Mar 30, 2026

Uh oh!

Uh oh!

magikRUKKOLA Mar 30, 2026 Author

Uh oh!

magikRUKKOLA Mar 30, 2026 Author

Uh oh!

FNsi Mar 31, 2026

Uh oh!

Uh oh!

magikRUKKOLA Mar 31, 2026 Author

Uh oh!

magikRUKKOLA Apr 25, 2026 Author

Uh oh!

Uh oh!

magikRUKKOLA May 26, 2026 Author

Uh oh!

davidsyoung May 26, 2026

Uh oh!

Uh oh!

magikRUKKOLA May 26, 2026 Author

Uh oh!

Uh oh!

magikRUKKOLA May 26, 2026 Author

Uh oh!

magikRUKKOLA May 26, 2026 Author

Uh oh!

Uh oh!

magikRUKKOLA May 26, 2026 Author

magikRUKKOLA
Mar 29, 2026

Replies: 6 comments 10 replies

FNsi
Mar 30, 2026

magikRUKKOLA Mar 30, 2026
Author

magikRUKKOLA Mar 30, 2026
Author

magikRUKKOLA
Mar 30, 2026
Author

magikRUKKOLA
Mar 30, 2026
Author

magikRUKKOLA
Mar 31, 2026
Author

magikRUKKOLA
Apr 25, 2026
Author

magikRUKKOLA
May 26, 2026
Author

magikRUKKOLA May 26, 2026
Author

magikRUKKOLA May 26, 2026
Author

magikRUKKOLA May 26, 2026
Author

magikRUKKOLA May 26, 2026
Author