Skip to content

AArch64 status

[bot] vpirogov edited this page Jun 4, 2026 · 809 revisions

AArch64 Testing Status

Unit test results

c6g

✅ unit tests passed

c7g

✅ unit tests passed

c8g

✅ unit tests passed

Performance test results

c7g

problem oneDNN (v3.11) time(ms) oneDNN (a3b4e3) time(ms) speedup (>1 is faster)
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 1536x384
0.0608 0.0334 $${\color{green}1.82\times}$$
eltwise dt=bf16 alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --dt=bf16 --alg=gelu-erf --alpha=0 --beta=0 1536x384
0.0657 0.0464 $${\color{green}1.42\times}$$
eltwise alg=exp--mode=P --max-ms-per-prb=300 --eltwise --alg=exp --alpha=0 --beta=0 384x384
0.0103 0.00696 $${\color{green}1.47\times}$$
eltwise alg=exp-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=exp-dst --alpha=0 --beta=0 384x384
0.0103 0.00708 $${\color{green}1.45\times}$$
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 384x384
0.0166 0.00977 $${\color{green}1.7\times}$$
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-tanh --alpha=0 --beta=0 384x384
0.0181 0.0134 $${\color{green}1.35\times}$$
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh --alpha=0 --beta=0 384x384
0.0137 0.0103 $${\color{green}1.33\times}$$
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh-dst --alpha=0 --beta=0 384x384
0.0137 0.0103 $${\color{green}1.33\times}$$
eltwise alg=exp--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=exp --alpha=0 --beta=0 384x384
0.0103 0.00684 $${\color{green}1.5\times}$$
eltwise alg=exp-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=exp-dst --alpha=0 --beta=0 384x384
0.0103 0.00684 $${\color{green}1.5\times}$$
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-erf --alpha=0 --beta=0 384x384
0.0166 0.00977 $${\color{green}1.7\times}$$
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-tanh --alpha=0 --beta=0 384x384
0.0181 0.0134 $${\color{green}1.35\times}$$
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh --alpha=0 --beta=0 384x384
0.0137 0.0103 $${\color{green}1.33\times}$$
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh-dst --alpha=0 --beta=0 384x384
0.0137 0.0103 $${\color{green}1.33\times}$$
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --alg=elu --alpha=-2 --beta=0 384x384
0.0107 0.00757 $${\color{green}1.42\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --alg=swish --alpha=-2 --beta=0 384x384
0.0179 0.00977 $${\color{green}1.84\times}$$
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=elu --alpha=-2 --beta=0 384x384
0.0107 0.00757 $${\color{green}1.42\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=swish --alpha=-2 --beta=0 384x384
0.0181 0.00977 $${\color{green}1.85\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15
0.00269 0.00391 $${\color{red}0.688\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15
0.00269 0.00391 $${\color{red}0.688\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15
0.00269 0.00391 $${\color{red}0.688\times}$$
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15
0.00269 0.00391 $${\color{red}0.688\times}$$

c8g

problem oneDNN (v3.11) time(ms) oneDNN (e87b5d) time(ms) speedup (>1 is faster)
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 112x2048:2048x1000-n"resnet:ip1*1"
2.02 0.46 $${\color{green}4.38\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 64x2048:2048x1000-n"resnet-sparse:ip1*1"
0.875 0.264 $${\color{green}3.32\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.102 0.0254 $${\color{green}4.01\times}$$
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.229 0.00977 $${\color{green}23.5\times}$$
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.225 0.00928 $${\color{green}24.3\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.0834 0.0264 $${\color{green}3.16\times}$$
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.201 0.00879 $${\color{green}22.9\times}$$
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.199 0.00854 $${\color{green}23.3\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
11.1 3.25 $${\color{green}3.41\times}$$
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
24 0.978 $${\color{green}24.5\times}$$
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
23.5 0.961 $${\color{green}24.5\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
8.06 3.25 $${\color{green}2.48\times}$$
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
20.1 0.729 $${\color{green}27.6\times}$$
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
19.8 0.713 $${\color{green}27.8\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --attr-fpmath=bf16 112x2048:2048x1000-n"resnet:ip1*1"
2.02 0.46 $${\color{green}4.38\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --attr-fpmath=bf16 64x2048:2048x1000-n"resnet-sparse:ip1*1"
0.875 0.264 $${\color{green}3.32\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x64:12x64x128-n"encoder:QK-matmul:12"
0.103 0.0254 $${\color{green}4.06\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x128:12x128x64-n"encoder:WV-matmul:12"
0.0837 0.0264 $${\color{green}3.18\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x64:1536x64x128-n"encoder:QK-matmul:12"
11.1 3.25 $${\color{green}3.42\times}$$
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x128:1536x128x64-n"encoder:WV-matmul:12"
8.07 3.25 $${\color{green}2.48\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
12.1 10.7 $${\color{green}1.14\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
12.1 10.7 $${\color{green}1.13\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
12.2 10.8 $${\color{green}1.13\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1"
12.2 10.8 $${\color{green}1.13\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
3.06 2.7 $${\color{green}1.13\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
3.07 2.7 $${\color{green}1.14\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
3.08 2.72 $${\color{green}1.13\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a"
3.08 2.72 $${\color{green}1.13\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
13.3 11.3 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
13.3 11.3 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
13.4 11.4 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1"
13.4 11.4 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
3.31 2.79 $${\color{green}1.19\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
3.31 2.79 $${\color{green}1.19\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
3.33 2.81 $${\color{green}1.19\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a"
3.33 2.81 $${\color{green}1.19\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
14.8 12.6 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
14.8 12.6 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
14.9 12.7 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1"
14.9 12.7 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
3.69 3.14 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
3.69 3.14 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
3.72 3.16 $${\color{green}1.18\times}$$
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a"
3.72 3.16 $${\color{green}1.18\times}$$
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 1536x384
0.105 0.0337 $${\color{green}3.13\times}$$
eltwise dt=bf16 alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --dt=bf16 --alg=gelu-erf --alpha=0 --beta=0 1536x384
0.117 0.0789 $${\color{green}1.49\times}$$
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 384x384
0.0276 0.00952 $${\color{green}2.9\times}$$
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-tanh --alpha=0 --beta=0 384x384
0.0251 0.0183 $${\color{green}1.37\times}$$
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh --alpha=0 --beta=0 384x384
0.0225 0.0134 $${\color{green}1.67\times}$$
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh-dst --alpha=0 --beta=0 384x384
0.0225 0.0134 $${\color{green}1.67\times}$$
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-erf --alpha=0 --beta=0 384x384
0.0276 0.00952 $${\color{green}2.9\times}$$
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-tanh --alpha=0 --beta=0 384x384
0.0251 0.0183 $${\color{green}1.37\times}$$
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh --alpha=0 --beta=0 384x384
0.0225 0.0134 $${\color{green}1.67\times}$$
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh-dst --alpha=0 --beta=0 384x384
0.0225 0.0134 $${\color{green}1.67\times}$$
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --alg=elu --alpha=-2 --beta=0 384x384
0.0103 0.00928 $${\color{green}1.11\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --alg=swish --alpha=-2 --beta=0 384x384
0.0266 0.0129 $${\color{green}2.06\times}$$
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=elu --alpha=-2 --beta=0 384x384
0.0103 0.00928 $${\color{green}1.11\times}$$
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=swish --alpha=-2 --beta=0 384x384
0.0266 0.0129 $${\color{green}2.06\times}$$
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA4b4a 384x384
0.00391 0.00439 $${\color{red}0.889\times}$$
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15
0.0798 0.0938 $${\color{red}0.852\times}$$

Clone this wiki locally