diff --git a/llvm/test/CodeGen/X86/bfloat.ll b/llvm/test/CodeGen/X86/bfloat.ll
index 684e2921b789e..7bccd6ba088ac 100644
--- a/llvm/test/CodeGen/X86/bfloat.ll
+++ b/llvm/test/CodeGen/X86/bfloat.ll
@@ -1,9 +1,9 @@
 ; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
 ; RUN: llc < %s -mtriple=i686-linux-gnu -mattr=avx512bf16,avx512fp16,avx512vl | FileCheck %s --check-prefixes=X86
-; RUN: llc < %s -mtriple=x86_64-linux-gnu | FileCheck %s --check-prefixes=CHECK,SSE2
-; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avx512bf16,avx512vl | FileCheck %s --check-prefixes=CHECK,AVX,F16,BF16
-; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avx512bf16,avx512fp16,avx512vl | FileCheck %s --check-prefixes=CHECK,AVX,F16,FP16
-; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avxneconvert,f16c | FileCheck %s --check-prefixes=CHECK,AVX,BF16,AVXNC
+; RUN: llc < %s -mtriple=x86_64-linux-gnu | FileCheck %s --check-prefixes=X64,SSE2
+; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avx512bf16,avx512vl | FileCheck %s --check-prefixes=X64,AVX,AVX512,AVX512BF16
+; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avx512bf16,avx512fp16,avx512vl | FileCheck %s --check-prefixes=X64,AVX,AVX512,AVX512FP16
+; RUN: llc < %s -mtriple=x86_64-linux-gnu -mattr=avxneconvert,f16c | FileCheck %s --check-prefixes=X64,AVX,AVXNC
 
 define void @add(ptr %pa, ptr %pb, ptr %pc) nounwind {
 ; X86-LABEL: add:
@@ -39,18 +39,18 @@ define void @add(ptr %pa, ptr %pb, ptr %pc) nounwind {
 ; SSE2-NEXT:    popq %rbx
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: add:
-; F16:       # %bb.0:
-; F16-NEXT:    movzwl (%rsi), %eax
-; F16-NEXT:    shll $16, %eax
-; F16-NEXT:    vmovd %eax, %xmm0
-; F16-NEXT:    movzwl (%rdi), %eax
-; F16-NEXT:    shll $16, %eax
-; F16-NEXT:    vmovd %eax, %xmm1
-; F16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
-; F16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; F16-NEXT:    vpextrw $0, %xmm0, (%rdx)
-; F16-NEXT:    retq
+; AVX512-LABEL: add:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    movzwl (%rsi), %eax
+; AVX512-NEXT:    shll $16, %eax
+; AVX512-NEXT:    vmovd %eax, %xmm0
+; AVX512-NEXT:    movzwl (%rdi), %eax
+; AVX512-NEXT:    shll $16, %eax
+; AVX512-NEXT:    vmovd %eax, %xmm1
+; AVX512-NEXT:    vaddss %xmm0, %xmm1, %xmm0
+; AVX512-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512-NEXT:    vpextrw $0, %xmm0, (%rdx)
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: add:
 ; AVXNC:       # %bb.0:
@@ -98,17 +98,29 @@ define bfloat @add2(bfloat %a, bfloat %b) nounwind {
 ; SSE2-NEXT:    popq %rax
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: add2:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    vmovw %xmm1, %ecx
-; FP16-NEXT:    shll $16, %ecx
-; FP16-NEXT:    vmovd %ecx, %xmm0
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm1
-; FP16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
-; FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: add2:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %eax
+; AVX512BF16-NEXT:    vpextrw $0, %xmm1, %ecx
+; AVX512BF16-NEXT:    shll $16, %ecx
+; AVX512BF16-NEXT:    vmovd %ecx, %xmm0
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm1
+; AVX512BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
+; AVX512BF16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: add2:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    vmovw %xmm1, %ecx
+; AVX512FP16-NEXT:    shll $16, %ecx
+; AVX512FP16-NEXT:    vmovd %ecx, %xmm0
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm1
+; AVX512FP16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
+; AVX512FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: add2:
 ; AVXNC:       # %bb.0:
@@ -189,34 +201,63 @@ define void @add_double(ptr %pa, ptr %pb, ptr %pc) nounwind {
 ; SSE2-NEXT:    popq %rbp
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: add_double:
-; FP16:       # %bb.0:
-; FP16-NEXT:    pushq %rbp
-; FP16-NEXT:    pushq %r14
-; FP16-NEXT:    pushq %rbx
-; FP16-NEXT:    movq %rdx, %rbx
-; FP16-NEXT:    movq %rsi, %r14
-; FP16-NEXT:    vmovsd {{.*#+}} xmm0 = mem[0],zero
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovw %xmm0, %ebp
-; FP16-NEXT:    vmovsd {{.*#+}} xmm0 = mem[0],zero
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm0
-; FP16-NEXT:    shll $16, %ebp
-; FP16-NEXT:    vmovd %ebp, %xmm1
-; FP16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
-; FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm0
-; FP16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
-; FP16-NEXT:    vmovsd %xmm0, (%rbx)
-; FP16-NEXT:    popq %rbx
-; FP16-NEXT:    popq %r14
-; FP16-NEXT:    popq %rbp
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: add_double:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    pushq %rbp
+; AVX512BF16-NEXT:    pushq %r14
+; AVX512BF16-NEXT:    pushq %rbx
+; AVX512BF16-NEXT:    movq %rdx, %rbx
+; AVX512BF16-NEXT:    movq %rsi, %r14
+; AVX512BF16-NEXT:    vmovq {{.*#+}} xmm0 = mem[0],zero
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %ebp
+; AVX512BF16-NEXT:    vmovq {{.*#+}} xmm0 = mem[0],zero
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %eax
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm0
+; AVX512BF16-NEXT:    shll $16, %ebp
+; AVX512BF16-NEXT:    vmovd %ebp, %xmm1
+; AVX512BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
+; AVX512BF16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512BF16-NEXT:    vmovd %xmm0, %eax
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm0
+; AVX512BF16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
+; AVX512BF16-NEXT:    vmovsd %xmm0, (%rbx)
+; AVX512BF16-NEXT:    popq %rbx
+; AVX512BF16-NEXT:    popq %r14
+; AVX512BF16-NEXT:    popq %rbp
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: add_double:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    pushq %rbp
+; AVX512FP16-NEXT:    pushq %r14
+; AVX512FP16-NEXT:    pushq %rbx
+; AVX512FP16-NEXT:    movq %rdx, %rbx
+; AVX512FP16-NEXT:    movq %rsi, %r14
+; AVX512FP16-NEXT:    vmovsd {{.*#+}} xmm0 = mem[0],zero
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovw %xmm0, %ebp
+; AVX512FP16-NEXT:    vmovsd {{.*#+}} xmm0 = mem[0],zero
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm0
+; AVX512FP16-NEXT:    shll $16, %ebp
+; AVX512FP16-NEXT:    vmovd %ebp, %xmm1
+; AVX512FP16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
+; AVX512FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm0
+; AVX512FP16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
+; AVX512FP16-NEXT:    vmovsd %xmm0, (%rbx)
+; AVX512FP16-NEXT:    popq %rbx
+; AVX512FP16-NEXT:    popq %r14
+; AVX512FP16-NEXT:    popq %rbp
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: add_double:
 ; AVXNC:       # %bb.0:
@@ -310,30 +351,55 @@ define double @add_double2(double %da, double %db) nounwind {
 ; SSE2-NEXT:    popq %rbx
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: add_double2:
-; FP16:       # %bb.0:
-; FP16-NEXT:    pushq %rbx
-; FP16-NEXT:    subq $16, %rsp
-; FP16-NEXT:    vmovsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovw %xmm0, %ebx
-; FP16-NEXT:    vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload
-; FP16-NEXT:    # xmm0 = mem[0],zero
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm0
-; FP16-NEXT:    shll $16, %ebx
-; FP16-NEXT:    vmovd %ebx, %xmm1
-; FP16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
-; FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm0
-; FP16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
-; FP16-NEXT:    addq $16, %rsp
-; FP16-NEXT:    popq %rbx
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: add_double2:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    pushq %rbx
+; AVX512BF16-NEXT:    subq $16, %rsp
+; AVX512BF16-NEXT:    vmovsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %ebx
+; AVX512BF16-NEXT:    vmovq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Folded Reload
+; AVX512BF16-NEXT:    # xmm0 = mem[0],zero
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %eax
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm0
+; AVX512BF16-NEXT:    shll $16, %ebx
+; AVX512BF16-NEXT:    vmovd %ebx, %xmm1
+; AVX512BF16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
+; AVX512BF16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512BF16-NEXT:    vmovd %xmm0, %eax
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm0
+; AVX512BF16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
+; AVX512BF16-NEXT:    addq $16, %rsp
+; AVX512BF16-NEXT:    popq %rbx
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: add_double2:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    pushq %rbx
+; AVX512FP16-NEXT:    subq $16, %rsp
+; AVX512FP16-NEXT:    vmovsd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovw %xmm0, %ebx
+; AVX512FP16-NEXT:    vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload
+; AVX512FP16-NEXT:    # xmm0 = mem[0],zero
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm0
+; AVX512FP16-NEXT:    shll $16, %ebx
+; AVX512FP16-NEXT:    vmovd %ebx, %xmm1
+; AVX512FP16-NEXT:    vaddss %xmm0, %xmm1, %xmm0
+; AVX512FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm0
+; AVX512FP16-NEXT:    vcvtss2sd %xmm0, %xmm0, %xmm0
+; AVX512FP16-NEXT:    addq $16, %rsp
+; AVX512FP16-NEXT:    popq %rbx
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: add_double2:
 ; AVXNC:       # %bb.0:
@@ -393,15 +459,15 @@ define void @add_constant(ptr %pa, ptr %pc) nounwind {
 ; SSE2-NEXT:    popq %rbx
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: add_constant:
-; F16:       # %bb.0:
-; F16-NEXT:    movzwl (%rdi), %eax
-; F16-NEXT:    shll $16, %eax
-; F16-NEXT:    vmovd %eax, %xmm0
-; F16-NEXT:    vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
-; F16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; F16-NEXT:    vpextrw $0, %xmm0, (%rsi)
-; F16-NEXT:    retq
+; AVX512-LABEL: add_constant:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    movzwl (%rdi), %eax
+; AVX512-NEXT:    shll $16, %eax
+; AVX512-NEXT:    vmovd %eax, %xmm0
+; AVX512-NEXT:    vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
+; AVX512-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512-NEXT:    vpextrw $0, %xmm0, (%rsi)
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: add_constant:
 ; AVXNC:       # %bb.0:
@@ -439,14 +505,23 @@ define bfloat @add_constant2(bfloat %a) nounwind {
 ; SSE2-NEXT:    popq %rax
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: add_constant2:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm0
-; FP16-NEXT:    vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
-; FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: add_constant2:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %eax
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm0
+; AVX512BF16-NEXT:    vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
+; AVX512BF16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: add_constant2:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm0
+; AVX512FP16-NEXT:    vaddss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
+; AVX512FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: add_constant2:
 ; AVXNC:       # %bb.0:
@@ -467,10 +542,10 @@ define void @store_constant(ptr %pc) nounwind {
 ; X86-NEXT:    movw $16256, (%eax) # imm = 0x3F80
 ; X86-NEXT:    retl
 ;
-; CHECK-LABEL: store_constant:
-; CHECK:       # %bb.0:
-; CHECK-NEXT:    movw $16256, (%rdi) # imm = 0x3F80
-; CHECK-NEXT:    retq
+; X64-LABEL: store_constant:
+; X64:       # %bb.0:
+; X64-NEXT:    movw $16256, (%rdi) # imm = 0x3F80
+; X64-NEXT:    retq
   store bfloat 1.0, ptr %pc
   ret void
 }
@@ -484,11 +559,11 @@ define void @fold_ext_trunc(ptr %pa, ptr %pc) nounwind {
 ; X86-NEXT:    movw %cx, (%eax)
 ; X86-NEXT:    retl
 ;
-; CHECK-LABEL: fold_ext_trunc:
-; CHECK:       # %bb.0:
-; CHECK-NEXT:    movzwl (%rdi), %eax
-; CHECK-NEXT:    movw %ax, (%rsi)
-; CHECK-NEXT:    retq
+; X64-LABEL: fold_ext_trunc:
+; X64:       # %bb.0:
+; X64-NEXT:    movzwl (%rdi), %eax
+; X64-NEXT:    movw %ax, (%rsi)
+; X64-NEXT:    retq
   %a = load bfloat, ptr %pa
   %ext = fpext bfloat %a to float
   %trunc = fptrunc float %ext to bfloat
@@ -502,9 +577,9 @@ define bfloat @fold_ext_trunc2(bfloat %a) nounwind {
 ; X86-NEXT:    vmovsh {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero
 ; X86-NEXT:    retl
 ;
-; CHECK-LABEL: fold_ext_trunc2:
-; CHECK:       # %bb.0:
-; CHECK-NEXT:    retq
+; X64-LABEL: fold_ext_trunc2:
+; X64:       # %bb.0:
+; X64-NEXT:    retq
   %ext = fpext bfloat %a to float
   %trunc = fptrunc float %ext to bfloat
   ret bfloat %trunc
@@ -526,11 +601,17 @@ define bfloat @fold_from_half(half %a) nounwind {
 ; SSE2-NEXT:    popq %rax
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: fold_from_half:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vcvtsh2ss %xmm0, %xmm0, %xmm0
-; FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: fold_from_half:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vcvtph2ps %xmm0, %xmm0
+; AVX512BF16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: fold_from_half:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vcvtsh2ss %xmm0, %xmm0, %xmm0
+; AVX512FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: fold_from_half:
 ; AVXNC:       # %bb.0:
@@ -561,21 +642,29 @@ define half @fold_to_half(bfloat %a) nounwind {
 ; SSE2-NEXT:    popq %rax
 ; SSE2-NEXT:    retq
 ;
-; BF16-LABEL: fold_to_half:
-; BF16:       # %bb.0:
-; BF16-NEXT:    vpextrw $0, %xmm0, %eax
-; BF16-NEXT:    shll $16, %eax
-; BF16-NEXT:    vmovd %eax, %xmm0
-; BF16-NEXT:    vcvtps2ph $4, %xmm0, %xmm0
-; BF16-NEXT:    retq
-;
-; FP16-LABEL: fold_to_half:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm0
-; FP16-NEXT:    vcvtss2sh %xmm0, %xmm0, %xmm0
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: fold_to_half:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %eax
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm0
+; AVX512BF16-NEXT:    vcvtps2ph $4, %xmm0, %xmm0
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: fold_to_half:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm0
+; AVX512FP16-NEXT:    vcvtss2sh %xmm0, %xmm0, %xmm0
+; AVX512FP16-NEXT:    retq
+;
+; AVXNC-LABEL: fold_to_half:
+; AVXNC:       # %bb.0:
+; AVXNC-NEXT:    vpextrw $0, %xmm0, %eax
+; AVXNC-NEXT:    shll $16, %eax
+; AVXNC-NEXT:    vmovd %eax, %xmm0
+; AVXNC-NEXT:    vcvtps2ph $4, %xmm0, %xmm0
+; AVXNC-NEXT:    retq
   %ext = fpext bfloat %a to float
   %trunc = fptrunc float %ext to half
   ret half %trunc
@@ -587,9 +676,9 @@ define bfloat @bitcast_from_half(half %a) nounwind {
 ; X86-NEXT:    vmovsh {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero
 ; X86-NEXT:    retl
 ;
-; CHECK-LABEL: bitcast_from_half:
-; CHECK:       # %bb.0:
-; CHECK-NEXT:    retq
+; X64-LABEL: bitcast_from_half:
+; X64:       # %bb.0:
+; X64-NEXT:    retq
   %bc = bitcast half %a to bfloat
   ret bfloat %bc
 }
@@ -600,9 +689,9 @@ define half @bitcast_to_half(bfloat %a) nounwind {
 ; X86-NEXT:    vmovsh {{.*#+}} xmm0 = mem[0],zero,zero,zero,zero,zero,zero,zero
 ; X86-NEXT:    retl
 ;
-; CHECK-LABEL: bitcast_to_half:
-; CHECK:       # %bb.0:
-; CHECK-NEXT:    retq
+; X64-LABEL: bitcast_to_half:
+; X64:       # %bb.0:
+; X64-NEXT:    retq
   %bc = bitcast bfloat %a to half
   ret half %bc
 }
@@ -753,16 +842,16 @@ define <8 x bfloat> @addv(<8 x bfloat> %a, <8 x bfloat> %b) nounwind {
 ; SSE2-NEXT:    popq %rbp
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: addv:
-; F16:       # %bb.0:
-; F16-NEXT:    vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
-; F16-NEXT:    vpslld $16, %ymm1, %ymm1
-; F16-NEXT:    vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-; F16-NEXT:    vpslld $16, %ymm0, %ymm0
-; F16-NEXT:    vaddps %ymm1, %ymm0, %ymm0
-; F16-NEXT:    vcvtneps2bf16 %ymm0, %xmm0
-; F16-NEXT:    vzeroupper
-; F16-NEXT:    retq
+; AVX512-LABEL: addv:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
+; AVX512-NEXT:    vpslld $16, %ymm1, %ymm1
+; AVX512-NEXT:    vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+; AVX512-NEXT:    vpslld $16, %ymm0, %ymm0
+; AVX512-NEXT:    vaddps %ymm1, %ymm0, %ymm0
+; AVX512-NEXT:    vcvtneps2bf16 %ymm0, %xmm0
+; AVX512-NEXT:    vzeroupper
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: addv:
 ; AVXNC:       # %bb.0:
@@ -791,16 +880,22 @@ define <2 x bfloat> @pr62997(bfloat %a, bfloat %b) {
 ; SSE2-NEXT:    punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
 ; SSE2-NEXT:    retq
 ;
-; BF16-LABEL: pr62997:
-; BF16:       # %bb.0:
-; BF16-NEXT:    vpextrw $0, %xmm1, %eax
-; BF16-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm0
-; BF16-NEXT:    retq
+; AVX512BF16-LABEL: pr62997:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vpextrw $0, %xmm1, %eax
+; AVX512BF16-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm0
+; AVX512BF16-NEXT:    retq
 ;
-; FP16-LABEL: pr62997:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
-; FP16-NEXT:    retq
+; AVX512FP16-LABEL: pr62997:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
+; AVX512FP16-NEXT:    retq
+;
+; AVXNC-LABEL: pr62997:
+; AVXNC:       # %bb.0:
+; AVXNC-NEXT:    vpextrw $0, %xmm1, %eax
+; AVXNC-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm0
+; AVXNC-NEXT:    retq
   %1 = insertelement <2 x bfloat> undef, bfloat %a, i64 0
   %2 = insertelement <2 x bfloat> %1, bfloat %b, i64 1
   ret <2 x bfloat> %2
@@ -820,10 +915,10 @@ define <32 x bfloat> @pr63017() {
 ; SSE2-NEXT:    xorps %xmm3, %xmm3
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: pr63017:
-; F16:       # %bb.0:
-; F16-NEXT:    vxorps %xmm0, %xmm0, %xmm0
-; F16-NEXT:    retq
+; AVX512-LABEL: pr63017:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vxorps %xmm0, %xmm0, %xmm0
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: pr63017:
 ; AVXNC:       # %bb.0:
@@ -1077,11 +1172,17 @@ define <32 x bfloat> @pr63017_2() nounwind {
 ; SSE2-NEXT:    popq %r14
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: pr63017_2:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vpbroadcastw {{.*#+}} zmm0 = [-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0]
-; FP16-NEXT:    vmovdqu16 (%rax), %zmm0 {%k1}
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: pr63017_2:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vpbroadcastw {{.*#+}} zmm0 = [49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024,49024]
+; AVX512BF16-NEXT:    vmovdqu16 (%rax), %zmm0 {%k1}
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: pr63017_2:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vpbroadcastw {{.*#+}} zmm0 = [-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0,-1.875E+0]
+; AVX512FP16-NEXT:    vmovdqu16 (%rax), %zmm0 {%k1}
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: pr63017_2:
 ; AVXNC:       # %bb.0:
@@ -1118,12 +1219,19 @@ define <32 x bfloat> @pr62997_3(<32 x bfloat> %0, bfloat %1) {
 ; SSE2-NEXT:    movsd {{.*#+}} xmm0 = xmm4[0],xmm0[1]
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: pr62997_3:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vmovw %xmm1, %eax
-; FP16-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm1
-; FP16-NEXT:    vinserti32x4 $0, %xmm1, %zmm0, %zmm0
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: pr62997_3:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vpextrw $0, %xmm1, %eax
+; AVX512BF16-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm1
+; AVX512BF16-NEXT:    vinserti32x4 $0, %xmm1, %zmm0, %zmm0
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: pr62997_3:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vmovw %xmm1, %eax
+; AVX512FP16-NEXT:    vpinsrw $1, %eax, %xmm0, %xmm1
+; AVX512FP16-NEXT:    vinserti32x4 $0, %xmm1, %zmm0, %zmm0
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: pr62997_3:
 ; AVXNC:       # %bb.0:
@@ -1206,11 +1314,11 @@ define <16 x float> @pr64460_3(<16 x bfloat> %a) {
 ; SSE2-NEXT:    movdqa %xmm4, %xmm1
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: pr64460_3:
-; F16:       # %bb.0:
-; F16-NEXT:    vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
-; F16-NEXT:    vpslld $16, %zmm0, %zmm0
-; F16-NEXT:    retq
+; AVX512-LABEL: pr64460_3:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
+; AVX512-NEXT:    vpslld $16, %zmm0, %zmm0
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: pr64460_3:
 ; AVXNC:       # %bb.0:
@@ -1248,12 +1356,12 @@ define <8 x double> @pr64460_4(<8 x bfloat> %a) {
 ; SSE2-NEXT:    movaps %xmm4, %xmm0
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: pr64460_4:
-; F16:       # %bb.0:
-; F16-NEXT:    vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
-; F16-NEXT:    vpslld $16, %ymm0, %ymm0
-; F16-NEXT:    vcvtps2pd %ymm0, %zmm0
-; F16-NEXT:    retq
+; AVX512-LABEL: pr64460_4:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
+; AVX512-NEXT:    vpslld $16, %ymm0, %ymm0
+; AVX512-NEXT:    vcvtps2pd %ymm0, %zmm0
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: pr64460_4:
 ; AVXNC:       # %bb.0:
@@ -1301,12 +1409,12 @@ define <4 x bfloat> @fptrunc_v4f32(<4 x float> %a) nounwind {
 ; SSE2-NEXT:    addq $72, %rsp
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: fptrunc_v4f32:
-; F16:       # %bb.0:
-; F16-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
-; F16-NEXT:    vcvtneps2bf16 %ymm0, %xmm0
-; F16-NEXT:    vzeroupper
-; F16-NEXT:    retq
+; AVX512-LABEL: fptrunc_v4f32:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    # kill: def $xmm0 killed $xmm0 def $ymm0
+; AVX512-NEXT:    vcvtneps2bf16 %ymm0, %xmm0
+; AVX512-NEXT:    vzeroupper
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: fptrunc_v4f32:
 ; AVXNC:       # %bb.0:
@@ -1387,11 +1495,11 @@ define <8 x bfloat> @fptrunc_v8f32(<8 x float> %a) nounwind {
 ; SSE2-NEXT:    popq %rbp
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: fptrunc_v8f32:
-; F16:       # %bb.0:
-; F16-NEXT:    vcvtneps2bf16 %ymm0, %xmm0
-; F16-NEXT:    vzeroupper
-; F16-NEXT:    retq
+; AVX512-LABEL: fptrunc_v8f32:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vcvtneps2bf16 %ymm0, %xmm0
+; AVX512-NEXT:    vzeroupper
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: fptrunc_v8f32:
 ; AVXNC:       # %bb.0:
@@ -1526,10 +1634,10 @@ define <16 x bfloat> @fptrunc_v16f32(<16 x float> %a) nounwind {
 ; SSE2-NEXT:    popq %rbp
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: fptrunc_v16f32:
-; F16:       # %bb.0:
-; F16-NEXT:    vcvtneps2bf16 %zmm0, %ymm0
-; F16-NEXT:    retq
+; AVX512-LABEL: fptrunc_v16f32:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vcvtneps2bf16 %zmm0, %ymm0
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: fptrunc_v16f32:
 ; AVXNC:       # %bb.0:
@@ -1666,63 +1774,138 @@ define <8 x bfloat> @fptrunc_v8f64(<8 x double> %a) nounwind {
 ; SSE2-NEXT:    popq %rbp
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: fptrunc_v8f64:
-; FP16:       # %bb.0:
-; FP16-NEXT:    subq $184, %rsp
-; FP16-NEXT:    vmovupd %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
-; FP16-NEXT:    vextractf128 $1, %ymm0, %xmm0
-; FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vshufpd {{.*#+}} xmm0 = xmm0[1,0]
-; FP16-NEXT:    vzeroupper
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
-; FP16-NEXT:    # xmm0 = mem[1,0]
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
-; FP16-NEXT:    # kill: def $xmm0 killed $xmm0 killed $zmm0
-; FP16-NEXT:    vzeroupper
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
-; FP16-NEXT:    vextractf32x4 $2, %zmm0, %xmm0
-; FP16-NEXT:    vmovapd %xmm0, (%rsp) # 16-byte Spill
-; FP16-NEXT:    vshufpd {{.*#+}} xmm0 = xmm0[1,0]
-; FP16-NEXT:    vzeroupper
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vmovaps (%rsp), %xmm0 # 16-byte Reload
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovaps %xmm0, (%rsp) # 16-byte Spill
-; FP16-NEXT:    vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
-; FP16-NEXT:    vextractf32x4 $3, %zmm0, %xmm0
-; FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vshufpd {{.*#+}} xmm0 = xmm0[1,0]
-; FP16-NEXT:    vzeroupper
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
-; FP16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
-; FP16-NEXT:    callq __truncdfbf2@PLT
-; FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
-; FP16-NEXT:    # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
-; FP16-NEXT:    vmovdqa (%rsp), %xmm1 # 16-byte Reload
-; FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
-; FP16-NEXT:    # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
-; FP16-NEXT:    vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
-; FP16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
-; FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
-; FP16-NEXT:    # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
-; FP16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
-; FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm2, %xmm2 # 16-byte Folded Reload
-; FP16-NEXT:    # xmm2 = xmm2[0],mem[0],xmm2[1],mem[1],xmm2[2],mem[2],xmm2[3],mem[3]
-; FP16-NEXT:    vpunpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
-; FP16-NEXT:    vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
-; FP16-NEXT:    addq $184, %rsp
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: fptrunc_v8f64:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    pushq %rbp
+; AVX512BF16-NEXT:    pushq %r15
+; AVX512BF16-NEXT:    pushq %r14
+; AVX512BF16-NEXT:    pushq %r13
+; AVX512BF16-NEXT:    pushq %r12
+; AVX512BF16-NEXT:    pushq %rbx
+; AVX512BF16-NEXT:    subq $184, %rsp
+; AVX512BF16-NEXT:    vmovups %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
+; AVX512BF16-NEXT:    # kill: def $xmm0 killed $xmm0 killed $zmm0
+; AVX512BF16-NEXT:    vzeroupper
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512BF16-NEXT:    vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
+; AVX512BF16-NEXT:    # xmm0 = mem[1,0]
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512BF16-NEXT:    vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
+; AVX512BF16-NEXT:    vextractf128 $1, %ymm0, %xmm0
+; AVX512BF16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512BF16-NEXT:    vshufpd {{.*#+}} xmm0 = xmm0[1,0]
+; AVX512BF16-NEXT:    vzeroupper
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512BF16-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
+; AVX512BF16-NEXT:    vextractf32x4 $2, %zmm0, %xmm0
+; AVX512BF16-NEXT:    vmovaps %xmm0, (%rsp) # 16-byte Spill
+; AVX512BF16-NEXT:    vzeroupper
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512BF16-NEXT:    vpermilpd $1, (%rsp), %xmm0 # 16-byte Folded Reload
+; AVX512BF16-NEXT:    # xmm0 = mem[1,0]
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vmovapd %xmm0, (%rsp) # 16-byte Spill
+; AVX512BF16-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
+; AVX512BF16-NEXT:    vextractf32x4 $3, %zmm0, %xmm0
+; AVX512BF16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512BF16-NEXT:    vzeroupper
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512BF16-NEXT:    vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
+; AVX512BF16-NEXT:    # xmm0 = mem[1,0]
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %ebx
+; AVX512BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %ebp
+; AVX512BF16-NEXT:    vmovdqa (%rsp), %xmm0 # 16-byte Reload
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %r14d
+; AVX512BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %r15d
+; AVX512BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %r12d
+; AVX512BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %r13d
+; AVX512BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512BF16-NEXT:    callq __truncdfbf2@PLT
+; AVX512BF16-NEXT:    vpextrw $0, %xmm0, %eax
+; AVX512BF16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512BF16-NEXT:    vpinsrw $1, %r13d, %xmm0, %xmm0
+; AVX512BF16-NEXT:    vpinsrw $2, %eax, %xmm0, %xmm0
+; AVX512BF16-NEXT:    vpinsrw $3, %r12d, %xmm0, %xmm0
+; AVX512BF16-NEXT:    vpinsrw $4, %r15d, %xmm0, %xmm0
+; AVX512BF16-NEXT:    vpinsrw $5, %r14d, %xmm0, %xmm0
+; AVX512BF16-NEXT:    vpinsrw $6, %ebp, %xmm0, %xmm0
+; AVX512BF16-NEXT:    vpinsrw $7, %ebx, %xmm0, %xmm0
+; AVX512BF16-NEXT:    addq $184, %rsp
+; AVX512BF16-NEXT:    popq %rbx
+; AVX512BF16-NEXT:    popq %r12
+; AVX512BF16-NEXT:    popq %r13
+; AVX512BF16-NEXT:    popq %r14
+; AVX512BF16-NEXT:    popq %r15
+; AVX512BF16-NEXT:    popq %rbp
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: fptrunc_v8f64:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    subq $184, %rsp
+; AVX512FP16-NEXT:    vmovupd %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
+; AVX512FP16-NEXT:    vextractf128 $1, %ymm0, %xmm0
+; AVX512FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vshufpd {{.*#+}} xmm0 = xmm0[1,0]
+; AVX512FP16-NEXT:    vzeroupper
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
+; AVX512FP16-NEXT:    # xmm0 = mem[1,0]
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
+; AVX512FP16-NEXT:    # kill: def $xmm0 killed $xmm0 killed $zmm0
+; AVX512FP16-NEXT:    vzeroupper
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
+; AVX512FP16-NEXT:    vextractf32x4 $2, %zmm0, %xmm0
+; AVX512FP16-NEXT:    vmovapd %xmm0, (%rsp) # 16-byte Spill
+; AVX512FP16-NEXT:    vshufpd {{.*#+}} xmm0 = xmm0[1,0]
+; AVX512FP16-NEXT:    vzeroupper
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vmovaps (%rsp), %xmm0 # 16-byte Reload
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovaps %xmm0, (%rsp) # 16-byte Spill
+; AVX512FP16-NEXT:    vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload
+; AVX512FP16-NEXT:    vextractf32x4 $3, %zmm0, %xmm0
+; AVX512FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vshufpd {{.*#+}} xmm0 = xmm0[1,0]
+; AVX512FP16-NEXT:    vzeroupper
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
+; AVX512FP16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
+; AVX512FP16-NEXT:    callq __truncdfbf2@PLT
+; AVX512FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0, %xmm0 # 16-byte Folded Reload
+; AVX512FP16-NEXT:    # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
+; AVX512FP16-NEXT:    vmovdqa (%rsp), %xmm1 # 16-byte Reload
+; AVX512FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
+; AVX512FP16-NEXT:    # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
+; AVX512FP16-NEXT:    vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
+; AVX512FP16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
+; AVX512FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
+; AVX512FP16-NEXT:    # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1],xmm1[2],mem[2],xmm1[3],mem[3]
+; AVX512FP16-NEXT:    vmovdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
+; AVX512FP16-NEXT:    vpunpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm2, %xmm2 # 16-byte Folded Reload
+; AVX512FP16-NEXT:    # xmm2 = xmm2[0],mem[0],xmm2[1],mem[1],xmm2[2],mem[2],xmm2[3],mem[3]
+; AVX512FP16-NEXT:    vpunpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
+; AVX512FP16-NEXT:    vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
+; AVX512FP16-NEXT:    addq $184, %rsp
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: fptrunc_v8f64:
 ; AVXNC:       # %bb.0:
@@ -1817,10 +2000,10 @@ define <32 x bfloat> @test_v8bf16_v32bf16(ptr %0) {
 ; SSE2-NEXT:    movaps %xmm0, %xmm3
 ; SSE2-NEXT:    retq
 ;
-; F16-LABEL: test_v8bf16_v32bf16:
-; F16:       # %bb.0:
-; F16-NEXT:    vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
-; F16-NEXT:    retq
+; AVX512-LABEL: test_v8bf16_v32bf16:
+; AVX512:       # %bb.0:
+; AVX512-NEXT:    vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
+; AVX512-NEXT:    retq
 ;
 ; AVXNC-LABEL: test_v8bf16_v32bf16:
 ; AVXNC:       # %bb.0:
@@ -1959,13 +2142,21 @@ define float @trunc_ext(float %a) nounwind {
 ; SSE2-NEXT:    popq %rax
 ; SSE2-NEXT:    retq
 ;
-; FP16-LABEL: trunc_ext:
-; FP16:       # %bb.0:
-; FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
-; FP16-NEXT:    vmovw %xmm0, %eax
-; FP16-NEXT:    shll $16, %eax
-; FP16-NEXT:    vmovd %eax, %xmm0
-; FP16-NEXT:    retq
+; AVX512BF16-LABEL: trunc_ext:
+; AVX512BF16:       # %bb.0:
+; AVX512BF16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512BF16-NEXT:    vmovd %xmm0, %eax
+; AVX512BF16-NEXT:    shll $16, %eax
+; AVX512BF16-NEXT:    vmovd %eax, %xmm0
+; AVX512BF16-NEXT:    retq
+;
+; AVX512FP16-LABEL: trunc_ext:
+; AVX512FP16:       # %bb.0:
+; AVX512FP16-NEXT:    vcvtneps2bf16 %xmm0, %xmm0
+; AVX512FP16-NEXT:    vmovw %xmm0, %eax
+; AVX512FP16-NEXT:    shll $16, %eax
+; AVX512FP16-NEXT:    vmovd %eax, %xmm0
+; AVX512FP16-NEXT:    retq
 ;
 ; AVXNC-LABEL: trunc_ext:
 ; AVXNC:       # %bb.0:
@@ -2042,14 +2233,14 @@ define bfloat @PR108936(x86_fp80 %0) nounwind {
 ; X86-NEXT:    addl $12, %esp
 ; X86-NEXT:    retl
 ;
-; CHECK-LABEL: PR108936:
-; CHECK:       # %bb.0:
-; CHECK-NEXT:    subq $24, %rsp
-; CHECK-NEXT:    fldt {{[0-9]+}}(%rsp)
-; CHECK-NEXT:    fstpt (%rsp)
-; CHECK-NEXT:    callq __truncxfbf2@PLT
-; CHECK-NEXT:    addq $24, %rsp
-; CHECK-NEXT:    retq
+; X64-LABEL: PR108936:
+; X64:       # %bb.0:
+; X64-NEXT:    subq $24, %rsp
+; X64-NEXT:    fldt {{[0-9]+}}(%rsp)
+; X64-NEXT:    fstpt (%rsp)
+; X64-NEXT:    callq __truncxfbf2@PLT
+; X64-NEXT:    addq $24, %rsp
+; X64-NEXT:    retq
   %2 = fptrunc x86_fp80 %0 to bfloat
   ret bfloat %2
 }
@@ -2064,12 +2255,12 @@ define bfloat @PR115710(fp128 %0) nounwind {
 ; X86-NEXT:    addl $28, %esp
 ; X86-NEXT:    retl
 ;
-; CHECK-LABEL: PR115710:
-; CHECK:       # %bb.0:
-; CHECK-NEXT:    pushq %rax
-; CHECK-NEXT:    callq __trunctfbf2@PLT
-; CHECK-NEXT:    popq %rax
-; CHECK-NEXT:    retq
+; X64-LABEL: PR115710:
+; X64:       # %bb.0:
+; X64-NEXT:    pushq %rax
+; X64-NEXT:    callq __trunctfbf2@PLT
+; X64-NEXT:    popq %rax
+; X64-NEXT:    retq
   %2 = fptrunc fp128 %0 to bfloat
   ret bfloat %2
 }