Mitigated poor compressstore performance on AMD Zen 4

Zen 4's compressstore AVX512 implementation is highly inefficient (throughput of 50-70). Emulating it using `compress` & `storeu` separately is, in fact, faster than the native operation. To choose between the native/emulated, a `SW_VCOMPRESS` flag can be passed to the make file (`SW_COMPRESS=1 make`)
natmaurice · Feb 16, 2023 · 41d03b2 · 41d03b2 · mr-c · Feb 17, 2023
1 parent 7d7591c
commit 41d03b2
Show file tree

Hide file tree

Showing 4 changed files with 81 additions and 10 deletions.
diff --git a/Makefile b/Makefile
@@ -11,6 +11,7 @@ GTEST_LIB	= gtest
 GTEST_INCLUDE	= /usr/local/include
 CXXFLAGS	+= -I$(SRCDIR) -I$(GTEST_INCLUDE) -I$(UTILS)
 LD_FLAGS	= -L /usr/local/lib -l $(GTEST_LIB) -l pthread
+SW_VCOMPRESS    ?= 0
 
 all : test bench
 
@@ -21,7 +22,7 @@ test: $(TESTDIR)/main.cpp $(TESTOBJS) $(SRCS)
 		$(CXX) tests/main.cpp $(TESTOBJS) $(CXXFLAGS) $(LD_FLAGS) -o testexe
 
 bench: $(BENCHDIR)/main.cpp $(SRCS)
-		$(CXX) $(BENCHDIR)/main.cpp $(CXXFLAGS) -march=icelake-client -O3 -o benchexe
+		$(CXX) $(BENCHDIR)/main.cpp $(CXXFLAGS) -march=icelake-client -O3 -DSW_VCOMPRESS=$(SW_VCOMPRESS) -o benchexe
 
 clean:
 		rm -f $(TESTDIR)/*.o testexe benchexe
diff --git a/src/avx512-16bit-qsort.hpp b/src/avx512-16bit-qsort.hpp
@@ -8,6 +8,8 @@
 #define AVX512_QSORT_16BIT
 
 #include "avx512-common-qsort.h"
+#include <immintrin.h>
+#include <x86intrin.h>
 
 /*
  * Constants used in sorting 32 elements in a ZMM registers. Based on Bitonic
@@ -103,7 +105,15 @@ struct zmm_vector<float16> {
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
         // AVX512_VBMI2
-        return _mm512_mask_compressstoreu_epi16(mem, mask, x);
+
+#if SW_VCOMPRESS
+	opmask_t store_mask = _pext_u32(-1, mask);
+	_mm512_mask_storeu_epi16(mem, store_mask, _mm512_maskz_compress_epi16(mask, x));
+#else
+	_mm512_mask_compressstoreu_epi16(mem, mask, x);
+#endif // SW_VCOMPRESS
+
+        //return 
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {
@@ -218,7 +228,14 @@ struct zmm_vector<int16_t> {
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
         // AVX512_VBMI2
-        return _mm512_mask_compressstoreu_epi16(mem, mask, x);
+
+#if SW_VCOMPRESS
+	opmask_t store_mask = _pext_u32(-1, mask);
+	_mm512_mask_storeu_epi16(mem, store_mask, _mm512_maskz_compress_epi16(mask, x));
+#else 
+        _mm512_mask_compressstoreu_epi16(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {
@@ -315,7 +332,14 @@ struct zmm_vector<uint16_t> {
     }
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
-        return _mm512_mask_compressstoreu_epi16(mem, mask, x);
+
+#if SW_VCOMPRESS
+        opmask_t store_mask = _pext_u32(-1, mask);
+        _mm512_mask_storeu_epi16(mem, store_mask, _mm512_maskz_compress_epi16(mask, x));
+#else 
+        _mm512_mask_compressstoreu_epi16(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {

diff --git a/src/avx512-32bit-qsort.hpp b/src/avx512-32bit-qsort.hpp
@@ -9,6 +9,8 @@
 #define AVX512_QSORT_32BIT
 
 #include "avx512-common-qsort.h"
+#include <immintrin.h>
+#include <x86intrin.h>
 
 /*
  * Constants used in sorting 16 elements in a ZMM registers. Based on Bitonic
@@ -68,7 +70,14 @@ struct zmm_vector<int32_t> {
     }
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
-        return _mm512_mask_compressstoreu_epi32(mem, mask, x);
+
+#if SW_VCOMPRESS
+        opmask_t store_mask = _pext_u32(-1, mask);
+        _mm512_mask_storeu_epi32(mem, store_mask, _mm512_maskz_compress_epi32(mask, x));
+#else 
+        _mm512_mask_compressstoreu_epi32(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {
@@ -174,7 +183,14 @@ struct zmm_vector<uint32_t> {
     }
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
-        return _mm512_mask_compressstoreu_epi32(mem, mask, x);
+
+#if SW_VCOMPRESS
+        opmask_t store_mask = _pext_u32(-1, mask);
+        _mm512_mask_storeu_epi32(mem, store_mask, _mm512_maskz_compress_epi32(mask, x));
+#else 
+        _mm512_mask_compressstoreu_epi32(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {
@@ -277,7 +293,14 @@ struct zmm_vector<float> {
     }
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
-        return _mm512_mask_compressstoreu_ps(mem, mask, x);
+
+#if SW_VCOMPRESS
+        opmask_t store_mask = _pext_u32(-1, mask);
+        _mm512_mask_storeu_ps(mem, store_mask, _mm512_maskz_compress_ps(mask, x));
+#else
+        _mm512_mask_compressstoreu_ps(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {

diff --git a/src/avx512-64bit-qsort.hpp b/src/avx512-64bit-qsort.hpp
@@ -8,6 +8,8 @@
 #define AVX512_QSORT_64BIT
 
 #include "avx512-common-qsort.h"
+#include <immintrin.h>
+#include <x86intrin.h>
 
 /*
  * Constants used in sorting 8 elements in a ZMM registers. Based on Bitonic
@@ -76,7 +78,14 @@ struct zmm_vector<int64_t> {
     }
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
-        return _mm512_mask_compressstoreu_epi64(mem, mask, x);
+
+#if SW_VCOMPRESS
+        opmask_t store_mask = _pext_u32(-1, mask);
+	_mm512_mask_storeu_epi64(mem, store_mask, _mm512_maskz_compress_epi64(mask, x));
+#else
+        _mm512_mask_compressstoreu_epi64(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {
@@ -178,7 +187,14 @@ struct zmm_vector<uint64_t> {
     }
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
-        return _mm512_mask_compressstoreu_epi64(mem, mask, x);
+
+#if SW_VCOMPRESS
+        opmask_t store_mask = _pext_u32(-1, mask);
+	_mm512_mask_storeu_epi64(mem, store_mask, _mm512_maskz_compress_epi64(mask, x));
+#else 
+        _mm512_mask_compressstoreu_epi64(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {
@@ -280,7 +296,14 @@ struct zmm_vector<double> {
     }
     static void mask_compressstoreu(void *mem, opmask_t mask, zmm_t x)
     {
-        return _mm512_mask_compressstoreu_pd(mem, mask, x);
+
+#if SW_VCOMPRESS
+        opmask_t store_mask = _pext_u32(-1, mask);
+	_mm512_mask_storeu_pd(mem, store_mask, _mm512_maskz_compress_pd(mask, x));
+#else 
+        _mm512_mask_compressstoreu_pd(mem, mask, x);
+#endif // SW_VCOMPRESS
+
     }
     static zmm_t mask_loadu(zmm_t x, opmask_t mask, void const *mem)
     {