-
Notifications
You must be signed in to change notification settings - Fork 1.1k
AArch64 status
[bot] vpirogov edited this page Jun 4, 2026
·
809 revisions
✅ unit tests passed
✅ unit tests passed
✅ unit tests passed
| problem | oneDNN (v3.11) time(ms) | oneDNN (a3b4e3) time(ms) | speedup (>1 is faster) |
|---|---|---|---|
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 1536x384 |
0.0608 | 0.0334 | |
eltwise dt=bf16 alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --dt=bf16 --alg=gelu-erf --alpha=0 --beta=0 1536x384 |
0.0657 | 0.0464 | |
eltwise alg=exp--mode=P --max-ms-per-prb=300 --eltwise --alg=exp --alpha=0 --beta=0 384x384 |
0.0103 | 0.00696 | |
eltwise alg=exp-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=exp-dst --alpha=0 --beta=0 384x384 |
0.0103 | 0.00708 | |
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 384x384 |
0.0166 | 0.00977 | |
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-tanh --alpha=0 --beta=0 384x384 |
0.0181 | 0.0134 | |
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh --alpha=0 --beta=0 384x384 |
0.0137 | 0.0103 | |
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh-dst --alpha=0 --beta=0 384x384 |
0.0137 | 0.0103 | |
eltwise alg=exp--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=exp --alpha=0 --beta=0 384x384 |
0.0103 | 0.00684 | |
eltwise alg=exp-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=exp-dst --alpha=0 --beta=0 384x384 |
0.0103 | 0.00684 | |
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-erf --alpha=0 --beta=0 384x384 |
0.0166 | 0.00977 | |
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-tanh --alpha=0 --beta=0 384x384 |
0.0181 | 0.0134 | |
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh --alpha=0 --beta=0 384x384 |
0.0137 | 0.0103 | |
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh-dst --alpha=0 --beta=0 384x384 |
0.0137 | 0.0103 | |
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --alg=elu --alpha=-2 --beta=0 384x384 |
0.0107 | 0.00757 | |
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --alg=swish --alpha=-2 --beta=0 384x384 |
0.0179 | 0.00977 | |
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=elu --alpha=-2 --beta=0 384x384 |
0.0107 | 0.00757 | |
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=swish --alpha=-2 --beta=0 384x384 |
0.0181 | 0.00977 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15 |
0.00269 | 0.00391 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=axb --dtag=axb 8x256x15x15 |
0.00269 | 0.00391 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx4b --dtag=aBx4b 8x256x15x15 |
0.00269 | 0.00391 | |
reorder sdt=s8 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=s8 --ddt=s8 --stag=aBx8b --dtag=aBx8b 8x256x15x15 |
0.00269 | 0.00391 |
| problem | oneDNN (v3.11) time(ms) | oneDNN (e87b5d) time(ms) | speedup (>1 is faster) |
|---|---|---|---|
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 112x2048:2048x1000-n"resnet:ip1*1" |
2.02 | 0.46 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 64x2048:2048x1000-n"resnet-sparse:ip1*1" |
0.875 | 0.264 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12" |
0.102 | 0.0254 | |
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 12x128x64:12x64x128-n"encoder:QK-matmul:12" |
0.229 | 0.00977 | |
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 12x128x64:12x64x128-n"encoder:QK-matmul:12" |
0.225 | 0.00928 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 12x128x128:12x128x64-n"encoder:WV-matmul:12" |
0.0834 | 0.0264 | |
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 12x128x128:12x128x64-n"encoder:WV-matmul:12" |
0.201 | 0.00879 | |
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 12x128x128:12x128x64-n"encoder:WV-matmul:12" |
0.199 | 0.00854 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12" |
11.1 | 3.25 | |
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 1536x128x64:1536x64x128-n"encoder:QK-matmul:12" |
24 | 0.978 | |
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 1536x128x64:1536x64x128-n"encoder:QK-matmul:12" |
23.5 | 0.961 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 1536x128x128:1536x128x64-n"encoder:WV-matmul:12" |
8.06 | 3.25 | |
matmul dt=s8:s8:f32 bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 --bia-dt=f32 --bia-mask=4 1536x128x128:1536x128x64-n"encoder:WV-matmul:12" |
20.1 | 0.729 | |
matmul dt=s8:s8:f32--mode=P --max-ms-per-prb=300 --matmul --dt=s8:s8:f32 1536x128x128:1536x128x64-n"encoder:WV-matmul:12" |
19.8 | 0.713 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --attr-fpmath=bf16 112x2048:2048x1000-n"resnet:ip1*1" |
2.02 | 0.46 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --attr-fpmath=bf16 64x2048:2048x1000-n"resnet-sparse:ip1*1" |
0.875 | 0.264 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x64:12x64x128-n"encoder:QK-matmul:12" |
0.103 | 0.0254 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 12x128x128:12x128x64-n"encoder:WV-matmul:12" |
0.0837 | 0.0264 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x64:1536x64x128-n"encoder:QK-matmul:12" |
11.1 | 3.25 | |
matmul bia-dt=f32--mode=P --max-ms-per-prb=300 --matmul --bia-dt=f32 --bia-mask=4 --attr-fpmath=bf16 1536x128x128:1536x128x64-n"encoder:WV-matmul:12" |
8.07 | 3.25 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
12.1 | 10.7 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
12.1 | 10.7 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
12.2 | 10.8 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc512oh28kh1sh2ph0n"resnet-50:res3a-branch1" |
12.2 | 10.8 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
3.06 | 2.7 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
3.07 | 2.7 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
3.08 | 2.72 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic256ih56oc128oh28kh1sh2ph0n"resnet-50:res3a-branch2a" |
3.08 | 2.72 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
13.3 | 11.3 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
13.3 | 11.3 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
13.4 | 11.4 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc1024oh14kh1sh2ph0n"resnet-50:res4a-branch1" |
13.4 | 11.4 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
3.31 | 2.79 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
3.31 | 2.79 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
3.33 | 2.81 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic512ih28oc256oh14kh1sh2ph0n"resnet-50:res4a-branch2a" |
3.33 | 2.81 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
14.8 | 12.6 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
14.8 | 12.6 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
14.9 | 12.7 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc2048oh7kh1sh2ph0n"resnet-50:res5a-branch1" |
14.9 | 12.7 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
3.69 | 3.14 | |
conv--mode=P --max-ms-per-prb=300 --conv --dir=FWD-D --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
3.69 | 3.14 | |
conv--mode=P --max-ms-per-prb=300 --conv g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
3.72 | 3.16 | |
conv--mode=P --max-ms-per-prb=300 --conv --attr-fpmath=bf16 g1mb50ic1024ih14oc512oh7kh1sh2ph0n"resnet-50:res5a-branch2a" |
3.72 | 3.16 | |
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 1536x384 |
0.105 | 0.0337 | |
eltwise dt=bf16 alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --dt=bf16 --alg=gelu-erf --alpha=0 --beta=0 1536x384 |
0.117 | 0.0789 | |
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-erf --alpha=0 --beta=0 384x384 |
0.0276 | 0.00952 | |
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=gelu-tanh --alpha=0 --beta=0 384x384 |
0.0251 | 0.0183 | |
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh --alpha=0 --beta=0 384x384 |
0.0225 | 0.0134 | |
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --alg=tanh-dst --alpha=0 --beta=0 384x384 |
0.0225 | 0.0134 | |
eltwise alg=gelu-erf--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-erf --alpha=0 --beta=0 384x384 |
0.0276 | 0.00952 | |
eltwise alg=gelu-tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=gelu-tanh --alpha=0 --beta=0 384x384 |
0.0251 | 0.0183 | |
eltwise alg=tanh--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh --alpha=0 --beta=0 384x384 |
0.0225 | 0.0134 | |
eltwise alg=tanh-dst--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=tanh-dst --alpha=0 --beta=0 384x384 |
0.0225 | 0.0134 | |
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --alg=elu --alpha=-2 --beta=0 384x384 |
0.0103 | 0.00928 | |
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --alg=swish --alpha=-2 --beta=0 384x384 |
0.0266 | 0.0129 | |
eltwise alg=elu--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=elu --alpha=-2 --beta=0 384x384 |
0.0103 | 0.00928 | |
eltwise alg=swish--mode=P --max-ms-per-prb=300 --eltwise --tag=axb --alg=swish --alpha=-2 --beta=0 384x384 |
0.0266 | 0.0129 | |
reorder sdt=f32 ddt=bf16--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=bf16 --stag=ab --dtag=BA4b4a 384x384 |
0.00391 | 0.00439 | |
reorder sdt=f32 ddt=s8--mode=P --max-ms-per-prb=300 --reorder --allow-enum-tags-only=false --sdt=f32 --ddt=s8 --stag=abx --dtag=abx 8x256x15x15 |
0.0798 | 0.0938 |