Expand Up
@@ -54,31 +54,29 @@ define i64 @sdiv64(i64 %a, i64 %b) {
; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v16, v14, vcc
; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9
; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v11, vcc
; GFX9-NEXT: v_add_co_u32_e64 v5, s[4:5] , v5, v9
; GFX9-NEXT: v_addc_co_u32_e64 v9 , vcc, v6, v10, s[4:5]
; GFX9-NEXT: v_mul_lo_u32 v11 , v7, v9
; GFX9-NEXT: v_add_co_u32_e32 v5, vcc , v5, v9
; GFX9-NEXT: v_addc_co_u32_e32 v6 , vcc, v6, v10, vcc
; GFX9-NEXT: v_mul_lo_u32 v9 , v7, v6
; GFX9-NEXT: v_mul_lo_u32 v8, v8, v5
; GFX9-NEXT: v_mul_hi_u32 v12 , v7, v5
; GFX9-NEXT: v_mul_hi_u32 v10 , v7, v5
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v5
; GFX9-NEXT: v_add_u32_e32 v6, v6, v10
; GFX9-NEXT: v_add3_u32 v8, v12, v11, v8
; GFX9-NEXT: v_mul_lo_u32 v13, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v16, v5, v7
; GFX9-NEXT: v_mul_hi_u32 v17, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v12, v9, v7
; GFX9-NEXT: v_mul_lo_u32 v7, v9, v7
; GFX9-NEXT: v_mul_hi_u32 v11, v9, v8
; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v16, v13
; GFX9-NEXT: v_addc_co_u32_e32 v16, vcc, v15, v17, vcc
; GFX9-NEXT: v_mul_lo_u32 v8, v9, v8
; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v13, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v16, v12, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v11, v14, vcc
; GFX9-NEXT: v_add3_u32 v8, v10, v9, v8
; GFX9-NEXT: v_mul_lo_u32 v11, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v12, v5, v7
; GFX9-NEXT: v_mul_hi_u32 v13, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v10, v6, v7
; GFX9-NEXT: v_mul_lo_u32 v7, v6, v7
; GFX9-NEXT: v_mul_hi_u32 v9, v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v12, v11
; GFX9-NEXT: v_addc_co_u32_e32 v12, vcc, v15, v13, vcc
; GFX9-NEXT: v_mul_lo_u32 v8, v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v11, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v12, v10, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v9, v14, vcc
; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v8
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v15, v9, vcc
; GFX9-NEXT: v_addc_co_u32_e64 v6, vcc, v6, v8, s[4:5]
; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v7
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v8 , vcc
; GFX9-NEXT: v_ashrrev_i32_e32 v7, 31, v1
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v7
; GFX9-NEXT: v_xor_b32_e32 v0, v0, v7
Expand Down
Expand Up
@@ -217,31 +215,29 @@ define i64 @udiv64(i64 %a, i64 %b) {
; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v12, vcc
; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v13, v10, vcc
; GFX9-NEXT: v_add_co_u32_e64 v4, s[4:5] , v4, v8
; GFX9-NEXT: v_addc_co_u32_e64 v8 , vcc, v5, v9, s[4:5]
; GFX9-NEXT: v_mul_lo_u32 v10 , v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc , v4, v8
; GFX9-NEXT: v_addc_co_u32_e32 v5 , vcc, v5, v9, vcc
; GFX9-NEXT: v_mul_lo_u32 v8 , v6, v5
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4
; GFX9-NEXT: v_mul_hi_u32 v11 , v6, v4
; GFX9-NEXT: v_mul_hi_u32 v9 , v6, v4
; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4
; GFX9-NEXT: v_add_u32_e32 v5, v5, v9
; GFX9-NEXT: v_add3_u32 v7, v11, v10, v7
; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7
; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6
; GFX9-NEXT: v_mul_hi_u32 v15, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v14, v8, v7
; GFX9-NEXT: v_mul_lo_u32 v7, v8, v7
; GFX9-NEXT: v_mul_hi_u32 v14, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10
; GFX9-NEXT: v_mul_hi_u32 v11, v8, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v8, v6
; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v13, v15, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v13, v14, vcc
; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v15, v11 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v14 , v12, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8 , v12, vcc
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc
; GFX9-NEXT: v_addc_co_u32_e64 v5, vcc, v5, v7, s[4:5]
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7 , vcc
; GFX9-NEXT: v_mul_lo_u32 v6, v0, v5
; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4
; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5
Expand Down
Expand Up
@@ -375,31 +371,29 @@ define i64 @srem64(i64 %a, i64 %b) {
; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v13, vcc
; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v14, v10, vcc
; GFX9-NEXT: v_add_co_u32_e64 v4, s[4:5] , v4, v8
; GFX9-NEXT: v_addc_co_u32_e64 v8 , vcc, v5, v9, s[4:5]
; GFX9-NEXT: v_mul_lo_u32 v10 , v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc , v4, v8
; GFX9-NEXT: v_addc_co_u32_e32 v5 , vcc, v5, v9, vcc
; GFX9-NEXT: v_mul_lo_u32 v8 , v6, v5
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4
; GFX9-NEXT: v_mul_hi_u32 v11 , v6, v4
; GFX9-NEXT: v_mul_hi_u32 v9 , v6, v4
; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4
; GFX9-NEXT: v_add_u32_e32 v5, v5, v9
; GFX9-NEXT: v_add3_u32 v7, v11, v10, v7
; GFX9-NEXT: v_mul_lo_u32 v12, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v15, v4, v6
; GFX9-NEXT: v_mul_hi_u32 v16, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v11, v8, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v8, v6
; GFX9-NEXT: v_mul_hi_u32 v10, v8, v7
; GFX9-NEXT: v_add_co_u32_e32 v12, vcc, v15, v12
; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v14, v16, vcc
; GFX9-NEXT: v_mul_lo_u32 v7, v8, v7
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v12, v6
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v15, v11, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v10, v13, vcc
; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7
; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6
; GFX9-NEXT: v_mul_hi_u32 v12, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10
; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v14, v12, vcc
; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8, v13, vcc
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v14, v8, vcc
; GFX9-NEXT: v_addc_co_u32_e64 v5, vcc, v5, v7, s[4:5]
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7 , vcc
; GFX9-NEXT: v_ashrrev_i32_e32 v6, 31, v1
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v6
; GFX9-NEXT: v_xor_b32_e32 v0, v0, v6
Expand Down
Expand Up
@@ -534,31 +528,29 @@ define i64 @urem64(i64 %a, i64 %b) {
; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v12, vcc
; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v13, v10, vcc
; GFX9-NEXT: v_add_co_u32_e64 v4, s[4:5] , v4, v8
; GFX9-NEXT: v_addc_co_u32_e64 v8 , vcc, v5, v9, s[4:5]
; GFX9-NEXT: v_mul_lo_u32 v10 , v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc , v4, v8
; GFX9-NEXT: v_addc_co_u32_e32 v5 , vcc, v5, v9, vcc
; GFX9-NEXT: v_mul_lo_u32 v8 , v6, v5
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4
; GFX9-NEXT: v_mul_hi_u32 v11 , v6, v4
; GFX9-NEXT: v_mul_hi_u32 v9 , v6, v4
; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4
; GFX9-NEXT: v_add_u32_e32 v5, v5, v9
; GFX9-NEXT: v_add3_u32 v7, v11, v10, v7
; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7
; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6
; GFX9-NEXT: v_mul_hi_u32 v15, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v14, v8, v7
; GFX9-NEXT: v_mul_lo_u32 v7, v8, v7
; GFX9-NEXT: v_mul_hi_u32 v14, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10
; GFX9-NEXT: v_mul_hi_u32 v11, v8, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v8, v6
; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v13, v15, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v13, v14, vcc
; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v15, v11 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v14 , v12, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8 , v12, vcc
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc
; GFX9-NEXT: v_addc_co_u32_e64 v5, vcc, v5, v7, s[4:5]
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7 , vcc
; GFX9-NEXT: v_mul_lo_u32 v6, v0, v5
; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4
; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5
Expand Down
Expand Up
@@ -815,31 +807,29 @@ define <2 x i64> @sdivrem64(i64 %a, i64 %b) {
; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v16, v14, vcc
; GFX9-NEXT: v_add_co_u32_e32 v9, vcc, v10, v9
; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v11, vcc
; GFX9-NEXT: v_add_co_u32_e64 v5, s[4:5] , v5, v9
; GFX9-NEXT: v_addc_co_u32_e64 v9 , vcc, v6, v10, s[4:5]
; GFX9-NEXT: v_mul_lo_u32 v11 , v7, v9
; GFX9-NEXT: v_add_co_u32_e32 v5, vcc , v5, v9
; GFX9-NEXT: v_addc_co_u32_e32 v6 , vcc, v6, v10, vcc
; GFX9-NEXT: v_mul_lo_u32 v9 , v7, v6
; GFX9-NEXT: v_mul_lo_u32 v8, v8, v5
; GFX9-NEXT: v_mul_hi_u32 v12 , v7, v5
; GFX9-NEXT: v_mul_hi_u32 v10 , v7, v5
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v5
; GFX9-NEXT: v_add_u32_e32 v6, v6, v10
; GFX9-NEXT: v_add3_u32 v8, v12, v11, v8
; GFX9-NEXT: v_mul_lo_u32 v13, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v16, v5, v7
; GFX9-NEXT: v_mul_hi_u32 v17, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v12, v9, v7
; GFX9-NEXT: v_mul_lo_u32 v7, v9, v7
; GFX9-NEXT: v_mul_hi_u32 v11, v9, v8
; GFX9-NEXT: v_add_co_u32_e32 v13, vcc, v16, v13
; GFX9-NEXT: v_addc_co_u32_e32 v16, vcc, v15, v17, vcc
; GFX9-NEXT: v_mul_lo_u32 v8, v9, v8
; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v13, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v16, v12, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v11, v14, vcc
; GFX9-NEXT: v_add3_u32 v8, v10, v9, v8
; GFX9-NEXT: v_mul_lo_u32 v11, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v12, v5, v7
; GFX9-NEXT: v_mul_hi_u32 v13, v5, v8
; GFX9-NEXT: v_mul_hi_u32 v10, v6, v7
; GFX9-NEXT: v_mul_lo_u32 v7, v6, v7
; GFX9-NEXT: v_mul_hi_u32 v9, v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v11, vcc, v12, v11
; GFX9-NEXT: v_addc_co_u32_e32 v12, vcc, v15, v13, vcc
; GFX9-NEXT: v_mul_lo_u32 v8, v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v11, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v12, v10, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v9, v14, vcc
; GFX9-NEXT: v_add_co_u32_e32 v7, vcc, v7, v8
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v15, v9, vcc
; GFX9-NEXT: v_addc_co_u32_e64 v6, vcc, v6, v8, s[4:5]
; GFX9-NEXT: v_add_co_u32_e32 v5, vcc, v5, v7
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, 0, v6 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v6, v8 , vcc
; GFX9-NEXT: v_ashrrev_i32_e32 v7, 31, v1
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, v0, v7
; GFX9-NEXT: v_xor_b32_e32 v0, v0, v7
Expand Down
Expand Up
@@ -998,31 +988,29 @@ define <2 x i64> @udivrem64(i64 %a, i64 %b) {
; GFX9-NEXT: v_addc_co_u32_e32 v10, vcc, v15, v12, vcc
; GFX9-NEXT: v_add_co_u32_e32 v8, vcc, v9, v8
; GFX9-NEXT: v_addc_co_u32_e32 v9, vcc, v13, v10, vcc
; GFX9-NEXT: v_add_co_u32_e64 v4, s[4:5] , v4, v8
; GFX9-NEXT: v_addc_co_u32_e64 v8 , vcc, v5, v9, s[4:5]
; GFX9-NEXT: v_mul_lo_u32 v10 , v6, v8
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc , v4, v8
; GFX9-NEXT: v_addc_co_u32_e32 v5 , vcc, v5, v9, vcc
; GFX9-NEXT: v_mul_lo_u32 v8 , v6, v5
; GFX9-NEXT: v_mul_lo_u32 v7, v7, v4
; GFX9-NEXT: v_mul_hi_u32 v11 , v6, v4
; GFX9-NEXT: v_mul_hi_u32 v9 , v6, v4
; GFX9-NEXT: v_mul_lo_u32 v6, v6, v4
; GFX9-NEXT: v_add_u32_e32 v5, v5, v9
; GFX9-NEXT: v_add3_u32 v7, v11, v10, v7
; GFX9-NEXT: v_add3_u32 v7, v9, v8, v7
; GFX9-NEXT: v_mul_lo_u32 v10, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v11, v4, v6
; GFX9-NEXT: v_mul_hi_u32 v15, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v14, v8, v7
; GFX9-NEXT: v_mul_lo_u32 v7, v8, v7
; GFX9-NEXT: v_mul_hi_u32 v14, v4, v7
; GFX9-NEXT: v_mul_hi_u32 v9, v5, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v5, v6
; GFX9-NEXT: v_mul_hi_u32 v8, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v10, vcc, v11, v10
; GFX9-NEXT: v_mul_hi_u32 v11, v8, v6
; GFX9-NEXT: v_mul_lo_u32 v6, v8, v6
; GFX9-NEXT: v_addc_co_u32_e32 v15, vcc, v13, v15, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v11, vcc, v13, v14, vcc
; GFX9-NEXT: v_mul_lo_u32 v7, v5, v7
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v10, v6
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v15, v11 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v14 , v12, vcc
; GFX9-NEXT: v_addc_co_u32_e32 v6, vcc, v11, v9 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v8, vcc, v8 , v12, vcc
; GFX9-NEXT: v_add_co_u32_e32 v6, vcc, v6, v7
; GFX9-NEXT: v_addc_co_u32_e32 v7, vcc, v13, v8, vcc
; GFX9-NEXT: v_addc_co_u32_e64 v5, vcc, v5, v7, s[4:5]
; GFX9-NEXT: v_add_co_u32_e32 v4, vcc, v4, v6
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, 0, v5 , vcc
; GFX9-NEXT: v_addc_co_u32_e32 v5, vcc, v5, v7 , vcc
; GFX9-NEXT: v_mul_lo_u32 v6, v0, v5
; GFX9-NEXT: v_mul_hi_u32 v7, v0, v4
; GFX9-NEXT: v_mul_hi_u32 v8, v0, v5
Expand Down