[Flow] Do not propagate reshape when it's blocking unpack+generic fusion #16930

hanhanW · 2024-03-29T01:20:15Z

It saves up to 20% number of dispatches in the benchmark suite.

github-actions · 2024-03-29T02:13:49Z

Abbreviated Benchmark Summary

@ commit c2c1b4f9283fc60be7a91e7e2c09c461dcbdf9c5 (vs. base cc2ef92a232e4b6de9b845b6854d4d8667a6162b)

Data-Tiling Comparison Table

Click to show

Name	No-DT (baseline)	DT-Only	DT-UK
BertForMaskedLMTF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	215.100 (1.0X)	N/A	N/A
BertLargePTBatch1(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	654.343 (1.0X)	N/A	N/A
BertLargeTF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	225.067
DeepLabV3_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	8.641
DeepLabV3_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	31.494 (1.0X)	N/A	N/A
EfficientNetV2STF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	34.031
EfficientNetV2STF(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	270.810 (1.0X)	N/A	N/A
EfficientNet_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	5.249
EfficientNet_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	26.045 (1.0X)	N/A	N/A
Falcon7bGptqPT(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	4148.745
Falcon7bInt4GptqPT(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[30-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	20523.160 (1.0X)	N/A	N/A
GPT2_117M_TF_1X1XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	8.608
GPT2_117M_TF_1X1XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	69.926 (1.0X)	N/A	N/A
GPT2_117M_TF_1X4XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	7.960
GPT2_117M_TF_1X4XI32(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	89.415 (1.0X)	N/A	N/A
MiniLML12H384Uncased(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	12.582
MiniLML12H384Uncased(stablehlo) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	78.759 (1.0X)	N/A	N/A
MobileBertSquad_fp16(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	58.895
MobileBertSquad_fp16(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	180.963 (1.0X)	N/A	N/A
MobileBertSquad_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	59.130
MobileBertSquad_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	178.495 (1.0X)	N/A	N/A
MobileBertSquad_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[15-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	64.995
MobileBertSquad_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	481.281 (1.0X)	N/A	N/A
MobileNetV1_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	5.059
MobileNetV1_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	27.599 (1.0X)	N/A	N/A
MobileNetV2_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	4.888
MobileNetV2_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	11.583 (1.0X)	N/A	N/A
MobileNetV2_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	5.572
MobileNetV2_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	21.079 (1.0X)	N/A	N/A
MobileNetV3Small_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	3.199
MobileNetV3Small_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	2.795 (1.0X)	N/A	N/A
MobileSSD_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	9.519
MobileSSD_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	34.663 (1.0X)	N/A	N/A
PersonDetect_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	0.677
PersonDetect_int8(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.736 (1.0X)	N/A	N/A
PoseNet_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[8-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	5.245
PoseNet_fp32(tflite) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_task(embedded_elf)[1-thread,full-inference,default-flags] with default @ c2-standard-60[cpu]	17.872 (1.0X)	N/A	N/A
matmul_1x256x2048_i8_i4_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.065 (1.0X)	N/A	N/A
matmul_1x256x2048_i8_i8_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	0.042 (1.0X)	N/A	N/A
matmul_256x256x2048_i8_i4_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	7.435
matmul_256x256x2048_i8_i8_i32_tile_config_default(linalg) [x86_64-cascadelake-linux_gnu-llvm_cpu] local_sync(embedded_elf)[full-inference,default-flags] with default @ c2-standard-60[cpu]	N/A	N/A	1.979

No improved or regressed benchmarks 🏖️

Regressed Total Dispatch Sizes 🚩

Benchmark Name	Total Dispatch Size (bytes)
EfficientNet\_int8(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][default-flags,dt-uk,compile-stats]	240144 (vs. 103888, 131.16%↑)
EfficientNet\_int8(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][experimental-flags,dt-only,compile-stats]	260128 (vs. 123920, 109.92%↑)
PersonDetect\_int8(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][default-flags,dt-uk,compile-stats]	92704 (vs. 51328, 80.61%↑)

[Top 3 out of 21 results showed]

Improved Total Dispatch Sizes 🎉

Benchmark Name	Total Dispatch Size (bytes)
Vit\_int8(tflite) [armv8.2-a-generic-linux\_android29-llvm\_cpu][default-flags,dt-uk,compile-stats]	147664 (vs. 160144, 7.79%↓)
Vit\_int8(tflite) [armv8.2-a-generic-linux\_android29-llvm\_cpu][experimental-flags,dt-only,compile-stats]	147640 (vs. 159864, 7.65%↓)
GPT2\_117M\_TF\_1X4XI32(stablehlo) [armv8.2-a-generic-linux\_android29-llvm\_cpu][default-flags,dt-uk,compile-stats]	12272 (vs. 13184, 6.92%↓)

[Top 3 out of 6 results showed]

Regressed Total Artifact Sizes 🚩

Benchmark Name	Total Artifact Size (bytes)
PersonDetect\_int8(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][default-flags,dt-uk,compile-stats]	358981 (vs. 319877, 12.22%↑)
PersonDetect\_int8(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][experimental-flags,dt-only,compile-stats]	369285 (vs. 330437, 11.76%↑)

Improved Stream IR Dispatch Count (# of cmd.dispatch ops) 🎉

Benchmark Name	Stream IR Dispatch Count (# of cmd.dispatch ops)
EfficientNet\_int8(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][experimental-flags,dt-only,compile-stats]	147 (vs. 186, 20.97%↓)
EfficientNet\_int8(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][default-flags,dt-uk,compile-stats]	147 (vs. 186, 20.97%↓)
PoseNet\_fp32(tflite) [x86\_64-cascadelake-linux\_gnu-llvm\_cpu][default-flags,dt-uk,compile-stats]	79 (vs. 98, 19.39%↓)

[Top 3 out of 48 results showed]

For more information:

Source Workflow Run

hanhanW · 2024-03-29T19:16:28Z

okay, so this does not only fix the regression, but also improves number of dispatches for other models.

hanhanW · 2024-03-29T22:05:30Z

compiler/src/iree/compiler/Dialect/Flow/Transforms/FusionOfTensorOps.cpp

+            return isa<linalg::LinalgOp, tensor::UnPackOp>(
+                reshapeOp.getSrc().getDefiningOp());


Do we also add UnSetEncoding op to the list?

MaheshRavishankar

Nice and simple change! Thanks!

[Flow] Do not propagate reshape when it's blocking unpack+generic fusion

c4e99e8

hanhanW added benchmarks:x86_64 Run default x86_64 benchmarks benchmarks:android-cpu Run default Android CPU benchmarks labels Mar 29, 2024

add a lit test

29ec254

hanhanW marked this pull request as ready for review March 29, 2024 19:15

hanhanW requested a review from MaheshRavishankar as a code owner March 29, 2024 19:15

hanhanW commented Mar 29, 2024

View reviewed changes

add unset_encoding op to the list

2cb5172

MaheshRavishankar approved these changes Apr 2, 2024

View reviewed changes

hanhanW merged commit 05ff73f into iree-org:main Apr 2, 2024
58 checks passed

hanhanW deleted the hanhan-fix-iree-issue-16835 branch April 2, 2024 18:19

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Flow] Do not propagate reshape when it's blocking unpack+generic fusion #16930

[Flow] Do not propagate reshape when it's blocking unpack+generic fusion #16930

hanhanW commented Mar 29, 2024 •

edited

github-actions bot commented Mar 29, 2024 •

edited

hanhanW commented Mar 29, 2024

hanhanW Mar 29, 2024

MaheshRavishankar left a comment

		return isa<linalg::LinalgOp, tensor::UnPackOp>(
		reshapeOp.getSrc().getDefiningOp());

[Flow] Do not propagate reshape when it's blocking unpack+generic fusion #16930

[Flow] Do not propagate reshape when it's blocking unpack+generic fusion #16930

Conversation

hanhanW commented Mar 29, 2024 • edited

github-actions bot commented Mar 29, 2024 • edited

Abbreviated Benchmark Summary

Data-Tiling Comparison Table

Regressed Total Dispatch Sizes 🚩

Improved Total Dispatch Sizes 🎉

Regressed Total Artifact Sizes 🚩

Improved Stream IR Dispatch Count (# of cmd.dispatch ops) 🎉

hanhanW commented Mar 29, 2024

hanhanW Mar 29, 2024

Choose a reason for hiding this comment

MaheshRavishankar left a comment

Choose a reason for hiding this comment

hanhanW commented Mar 29, 2024 •

edited

github-actions bot commented Mar 29, 2024 •

edited