[AMDGPU][ISel] Set trunc store action to expand for v4f32->v4bf16 #90427

shiltian · 2024-04-29T03:12:27Z

No description provided.

llvmbot · 2024-04-29T03:12:57Z

@llvm/pr-subscribers-backend-amdgpu

Author: Shilei Tian (shiltian)

Changes

Full diff: https://github.com/llvm/llvm-project/pull/90427.diff

2 Files Affected:

(modified) llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp (+1)
(added) llvm/test/CodeGen/AMDGPU/fp_trunc_store_bf16.ll (+39)

diff --git a/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp b/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
index 7993b63121110c..c49d6c63cb3f82 100644
--- a/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
@@ -316,6 +316,7 @@ AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,
   setTruncStoreAction(MVT::v2f32, MVT::v2f16, Expand);
   setTruncStoreAction(MVT::v3f32, MVT::v3f16, Expand);
   setTruncStoreAction(MVT::v4f32, MVT::v4f16, Expand);
+  setTruncStoreAction(MVT::v4f32, MVT::v4bf16, Expand);
   setTruncStoreAction(MVT::v8f32, MVT::v8f16, Expand);
   setTruncStoreAction(MVT::v16f32, MVT::v16f16, Expand);
   setTruncStoreAction(MVT::v32f32, MVT::v32f16, Expand);
diff --git a/llvm/test/CodeGen/AMDGPU/fp_trunc_store_bf16.ll b/llvm/test/CodeGen/AMDGPU/fp_trunc_store_bf16.ll
new file mode 100644
index 00000000000000..ae92bf8a5f17ac
--- /dev/null
+++ b/llvm/test/CodeGen/AMDGPU/fp_trunc_store_bf16.ll
@@ -0,0 +1,39 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 4
+; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx90a %s -o - | FileCheck %s
+
+define void @square(<4 x float> %num, ptr addrspace(1) %p) {
+; CHECK-LABEL: square:
+; CHECK:       ; %bb.0: ; %entry
+; CHECK-NEXT:    s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
+; CHECK-NEXT:    v_bfe_u32 v6, v2, 16, 1
+; CHECK-NEXT:    s_movk_i32 s4, 0x7fff
+; CHECK-NEXT:    v_add3_u32 v6, v6, v2, s4
+; CHECK-NEXT:    v_or_b32_e32 v7, 0x400000, v2
+; CHECK-NEXT:    v_cmp_u_f32_e32 vcc, v2, v2
+; CHECK-NEXT:    v_cndmask_b32_e32 v2, v6, v7, vcc
+; CHECK-NEXT:    v_bfe_u32 v6, v3, 16, 1
+; CHECK-NEXT:    v_add3_u32 v6, v6, v3, s4
+; CHECK-NEXT:    v_or_b32_e32 v7, 0x400000, v3
+; CHECK-NEXT:    v_cmp_u_f32_e32 vcc, v3, v3
+; CHECK-NEXT:    v_cndmask_b32_e32 v3, v6, v7, vcc
+; CHECK-NEXT:    s_mov_b32 s5, 0x7060302
+; CHECK-NEXT:    v_perm_b32 v3, v3, v2, s5
+; CHECK-NEXT:    v_bfe_u32 v2, v0, 16, 1
+; CHECK-NEXT:    v_add3_u32 v2, v2, v0, s4
+; CHECK-NEXT:    v_or_b32_e32 v6, 0x400000, v0
+; CHECK-NEXT:    v_cmp_u_f32_e32 vcc, v0, v0
+; CHECK-NEXT:    v_cndmask_b32_e32 v0, v2, v6, vcc
+; CHECK-NEXT:    v_bfe_u32 v2, v1, 16, 1
+; CHECK-NEXT:    v_add3_u32 v2, v2, v1, s4
+; CHECK-NEXT:    v_or_b32_e32 v6, 0x400000, v1
+; CHECK-NEXT:    v_cmp_u_f32_e32 vcc, v1, v1
+; CHECK-NEXT:    v_cndmask_b32_e32 v1, v2, v6, vcc
+; CHECK-NEXT:    v_perm_b32 v2, v1, v0, s5
+; CHECK-NEXT:    global_store_dwordx2 v[4:5], v[2:3], off
+; CHECK-NEXT:    s_waitcnt vmcnt(0)
+; CHECK-NEXT:    s_setpc_b64 s[30:31]
+entry:
+  %conv = fptrunc <4 x float> %num to <4 x bfloat>
+  store <4 x bfloat> %conv, ptr addrspace(1) %p, align 8
+  ret void
+}

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

rampitec

The produced code is huge IMO, given the simplicity of the operation, but this is not a problem of the vector expand action itself.

shiltian · 2024-04-29T13:09:38Z

The produced code is huge IMO, given the simplicity of the operation, but this is not a problem of the vector expand action itself.

How can we improve it?

llvm/test/CodeGen/AMDGPU/fp_trunc_store_bf16.ll

…vm#90427) Change-Id: Ia02d069252adb654fbbe669a1f3061caeb0040d2

shiltian requested review from arsenm, jayfoad and rampitec April 29, 2024 03:12

llvmbot added the backend:AMDGPU label Apr 29, 2024

changpeng reviewed Apr 29, 2024

View reviewed changes

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp Show resolved Hide resolved

[AMDGPU][ISel] Set trunc store action to expand for v4f32->v4bf16

db5449b

shiltian force-pushed the fp-trunc-store branch from f5e82bc to db5449b Compare April 29, 2024 03:31

rampitec approved these changes Apr 29, 2024

View reviewed changes

shiltian merged commit 8e17c84 into llvm:main Apr 29, 2024
3 of 4 checks passed

arsenm reviewed Apr 29, 2024

View reviewed changes

llvm/test/CodeGen/AMDGPU/fp_trunc_store_bf16.ll Show resolved Hide resolved

shiltian deleted the fp-trunc-store branch April 29, 2024 17:30

searlmc1 pushed a commit to ROCm/llvm-project that referenced this pull request May 2, 2024

[AMDGPU][ISel] Set trunc store action to expand for v4f32->v4bf16 (ll…

77da2f7

…vm#90427) Change-Id: Ia02d069252adb654fbbe669a1f3061caeb0040d2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[AMDGPU][ISel] Set trunc store action to expand for v4f32->v4bf16 #90427

[AMDGPU][ISel] Set trunc store action to expand for v4f32->v4bf16 #90427

shiltian commented Apr 29, 2024

llvmbot commented Apr 29, 2024

rampitec left a comment

shiltian commented Apr 29, 2024

[AMDGPU][ISel] Set trunc store action to expand for v4f32->v4bf16 #90427

[AMDGPU][ISel] Set trunc store action to expand for v4f32->v4bf16 #90427

Conversation

shiltian commented Apr 29, 2024

llvmbot commented Apr 29, 2024

rampitec left a comment

Choose a reason for hiding this comment

shiltian commented Apr 29, 2024