dealii · kronbichler · Sep 28, 2022 · Sep 29, 2022 · Sep 29, 2022 · kronbichler
diff --git a/include/deal.II/base/vectorization.h b/include/deal.II/base/vectorization.h
@@ -1162,8 +1162,9 @@ class VectorizedArray<double, 8>
     // work around a warning with gcc-12 about an uninitialized initial state
     // for gather by starting with a zero guess, even though all lanes will be
     // overwritten
-    __m512d  zero = {};
-    __mmask8 mask = 0xFF;
+    __m512d       zero    = {};
+    const __m256i invalid = _mm256_set1_epi32(numbers::invalid_unsigned_int);
+    __mmask8      mask    = _mm256_cmpneq_epu32_mask(invalid, index);
 
     data = _mm512_mask_i32gather_pd(zero, mask, index, base_ptr, 8);
   }
@@ -1195,8 +1196,10 @@ class VectorizedArray<double, 8>
     // API allows aliasing between different vector types.
     const __m256 index_val =
       _mm256_loadu_ps(reinterpret_cast<const float *>(offsets));
-    const __m256i index = *reinterpret_cast<const __m256i *>(&index_val);
-    _mm512_i32scatter_pd(base_ptr, index, data, 8);
+    const __m256i index   = *reinterpret_cast<const __m256i *>(&index_val);
+    const __m256i invalid = _mm256_set1_epi32(numbers::invalid_unsigned_int);
+    __mmask8      mask    = _mm256_cmpneq_epu32_mask(invalid, index);
+    _mm512_mask_i32scatter_pd(base_ptr, mask, index, data, 8);
   }
 
   /**
@@ -1727,8 +1730,9 @@ class VectorizedArray<float, 16>
     // work around a warning with gcc-12 about an uninitialized initial state
     // for gather by starting with a zero guess, even though all lanes will be
     // overwritten
-    __m512    zero = {};
-    __mmask16 mask = 0xFFFF;
+    __m512        zero    = {};
+    const __m512i invalid = _mm512_set1_epi32(numbers::invalid_unsigned_int);
+    __mmask16     mask    = _mm512_cmpneq_epu32_mask(invalid, index);
 
     data = _mm512_mask_i32gather_ps(zero, mask, index, base_ptr, 4);
   }
@@ -1760,8 +1764,10 @@ class VectorizedArray<float, 16>
     // API allows aliasing between different vector types.
     const __m512 index_val =
       _mm512_loadu_ps(reinterpret_cast<const float *>(offsets));
-    const __m512i index = *reinterpret_cast<const __m512i *>(&index_val);
-    _mm512_i32scatter_ps(base_ptr, index, data, 4);
+    const __m512i index   = *reinterpret_cast<const __m512i *>(&index_val);
+    const __m512i invalid = _mm512_set1_epi32(numbers::invalid_unsigned_int);
+    __mmask16     mask    = _mm512_cmpneq_epu32_mask(invalid, index);
+    _mm512_mask_i32scatter_ps(base_ptr, mask, index, data, 4);
   }
 
   /**
@@ -2404,9 +2410,14 @@ class VectorizedArray<double, 4>
     // for gather by starting with a zero guess, even though all lanes will be
     // overwritten
     __m256d zero = _mm256_setzero_pd();
-    __m256d mask = _mm256_cmp_pd(zero, zero, _CMP_EQ_OQ);
-
-    data = _mm256_mask_i32gather_pd(zero, base_ptr, index, mask, 8);
+    __m256i invalid =
+      _mm256_set1_epi64x((long long)numbers::invalid_unsigned_int);
+    __m256i index64      = _mm256_cvtepu32_epi64(index);
+    __m256i inverse_mask = _mm256_cmpeq_epi64(index64, invalid);
+    __m256i mask = _mm256_xor_si256(_mm256_set1_epi64x(-1LL), inverse_mask);
+
+    data = _mm256_mask_i32gather_pd(
+      zero, base_ptr, index, *reinterpret_cast<__m256d *>(&mask), 8);
 #    else
     for (unsigned int i = 0; i < 4; ++i)
       *(reinterpret_cast<double *>(&data) + i) = base_ptr[offsets[i]];
@@ -2430,8 +2441,10 @@ class VectorizedArray<double, 4>
   scatter(const unsigned int *offsets, double *base_ptr) const
   {
     // no scatter operation in AVX/AVX2
+    DEAL_II_OPENMP_SIMD_PRAGMA
     for (unsigned int i = 0; i < 4; ++i)
-      base_ptr[offsets[i]] = *(reinterpret_cast<const double *>(&data) + i);
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        base_ptr[offsets[i]] = *(reinterpret_cast<const double *>(&data) + i);
   }
 
   /**
@@ -2652,12 +2665,18 @@ vectorized_transpose_and_store(const bool                        add_into,
   // remainder loop of work that does not divide by 4
   if (add_into)
     for (unsigned int i = 4 * n_chunks; i < n_entries; ++i)
-      for (unsigned int v = 0; v < 4; ++v)
-        out[offsets[v] + i] += in[i][v];
+      {
+        DEAL_II_OPENMP_SIMD_PRAGMA
+        for (unsigned int v = 0; v < 4; ++v)
+          out[offsets[v] + i] += in[i][v];
+      }
   else
     for (unsigned int i = 4 * n_chunks; i < n_entries; ++i)
-      for (unsigned int v = 0; v < 4; ++v)
-        out[offsets[v] + i] = in[i][v];
+      {
+        DEAL_II_OPENMP_SIMD_PRAGMA
+        for (unsigned int v = 0; v < 4; ++v)
+          out[offsets[v] + i] = in[i][v];
+      }
 }
 
 
@@ -2720,12 +2739,18 @@ vectorized_transpose_and_store(const bool                        add_into,
   // remainder loop of work that does not divide by 4
   if (add_into)
     for (unsigned int i = 4 * n_chunks; i < n_entries; ++i)
-      for (unsigned int v = 0; v < 4; ++v)
-        out[v][i] += in[i][v];
+      {
+        DEAL_II_OPENMP_SIMD_PRAGMA
+        for (unsigned int v = 0; v < 4; ++v)
+          out[v][i] += in[i][v];
+      }
   else
     for (unsigned int i = 4 * n_chunks; i < n_entries; ++i)
-      for (unsigned int v = 0; v < 4; ++v)
-        out[v][i] = in[i][v];
+      {
+        DEAL_II_OPENMP_SIMD_PRAGMA
+        for (unsigned int v = 0; v < 4; ++v)
+          out[v][i] = in[i][v];
+      }
 }
 
 
@@ -2927,13 +2952,18 @@ class VectorizedArray<float, 8>
     // work around a warning with gcc-12 about an uninitialized initial state
     // for gather by starting with a zero guess, even though all lanes will be
     // overwritten
-    __m256 zero = _mm256_setzero_ps();
-    __m256 mask = _mm256_cmp_ps(zero, zero, _CMP_EQ_OQ);
+    __m256  zero         = _mm256_setzero_ps();
+    __m256i invalid      = _mm256_set1_epi32(numbers::invalid_unsigned_int);
+    __m256i inverse_mask = _mm256_cmpeq_epi32(index, invalid);
+    __m256i mask         = _mm256_xor_si256(invalid, inverse_mask);
 
-    data = _mm256_mask_i32gather_ps(zero, base_ptr, index, mask, 4);
+    data = _mm256_mask_i32gather_ps(
+      zero, base_ptr, index, *reinterpret_cast<__m256 *>(&mask), 4);
 #    else
+    DEAL_II_OPENMP_SIMD_PRAGMA
     for (unsigned int i = 0; i < 8; ++i)
-      *(reinterpret_cast<float *>(&data) + i) = base_ptr[offsets[i]];
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        *(reinterpret_cast<float *>(&data) + i) = base_ptr[offsets[i]];
 #    endif
   }
 
@@ -2954,8 +2984,10 @@ class VectorizedArray<float, 8>
   scatter(const unsigned int *offsets, float *base_ptr) const
   {
     // no scatter operation in AVX/AVX2
+    DEAL_II_OPENMP_SIMD_PRAGMA
     for (unsigned int i = 0; i < 8; ++i)
-      base_ptr[offsets[i]] = *(reinterpret_cast<const float *>(&data) + i);
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        base_ptr[offsets[i]] = *(reinterpret_cast<const float *>(&data) + i);
   }
 
   /**
@@ -3489,7 +3521,8 @@ class VectorizedArray<double, 2>
   gather(const double *base_ptr, const unsigned int *offsets)
   {
     for (unsigned int i = 0; i < 2; ++i)
-      *(reinterpret_cast<double *>(&data) + i) = base_ptr[offsets[i]];
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        *(reinterpret_cast<double *>(&data) + i) = base_ptr[offsets[i]];
   }
 
   /**
@@ -3509,7 +3542,8 @@ class VectorizedArray<double, 2>
   scatter(const unsigned int *offsets, double *base_ptr) const
   {
     for (unsigned int i = 0; i < 2; ++i)
-      base_ptr[offsets[i]] = *(reinterpret_cast<const double *>(&data) + i);
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        base_ptr[offsets[i]] = *(reinterpret_cast<const double *>(&data) + i);
   }
 
   /**
@@ -3937,7 +3971,8 @@ class VectorizedArray<float, 4>
   gather(const float *base_ptr, const unsigned int *offsets)
   {
     for (unsigned int i = 0; i < 4; ++i)
-      *(reinterpret_cast<float *>(&data) + i) = base_ptr[offsets[i]];
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        *(reinterpret_cast<float *>(&data) + i) = base_ptr[offsets[i]];
   }
 
   /**
@@ -3957,7 +3992,8 @@ class VectorizedArray<float, 4>
   scatter(const unsigned int *offsets, float *base_ptr) const
   {
     for (unsigned int i = 0; i < 4; ++i)
-      base_ptr[offsets[i]] = *(reinterpret_cast<const float *>(&data) + i);
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        base_ptr[offsets[i]] = *(reinterpret_cast<const float *>(&data) + i);
   }
 
   /**
@@ -4395,7 +4431,8 @@ class VectorizedArray<double, 2>
   gather(const double *base_ptr, const unsigned int *offsets)
   {
     for (unsigned int i = 0; i < 2; ++i)
-      *(reinterpret_cast<double *>(&data) + i) = base_ptr[offsets[i]];
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        *(reinterpret_cast<double *>(&data) + i) = base_ptr[offsets[i]];
   }
 
   /**
@@ -4406,7 +4443,8 @@ class VectorizedArray<double, 2>
   scatter(const unsigned int *offsets, double *base_ptr) const
   {
     for (unsigned int i = 0; i < 2; ++i)
-      base_ptr[offsets[i]] = *(reinterpret_cast<const double *>(&data) + i);
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        base_ptr[offsets[i]] = *(reinterpret_cast<const double *>(&data) + i);
   }
 
   /**
@@ -4642,7 +4680,8 @@ class VectorizedArray<float, 4>
   gather(const float *base_ptr, const unsigned int *offsets)
   {
     for (unsigned int i = 0; i < 4; ++i)
-      *(reinterpret_cast<float *>(&data) + i) = base_ptr[offsets[i]];
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        *(reinterpret_cast<float *>(&data) + i) = base_ptr[offsets[i]];
   }
 
   /**
@@ -4653,7 +4692,8 @@ class VectorizedArray<float, 4>
   scatter(const unsigned int *offsets, float *base_ptr) const
   {
     for (unsigned int i = 0; i < 4; ++i)
-      base_ptr[offsets[i]] = *(reinterpret_cast<const float *>(&data) + i);
+      if (offsets[i] != numbers::invalid_unsigned_int)
+        base_ptr[offsets[i]] = *(reinterpret_cast<const float *>(&data) + i);
   }
 
   /**

diff --git a/include/deal.II/matrix_free/dof_info.templates.h b/include/deal.II/matrix_free/dof_info.templates.h
@@ -105,6 +105,15 @@ namespace internal
                       goto no_constraint;
                     }
 
+                  // case with zero-constrained DoF: Append invalid number,
+                  // this will be handled by the read functions
+                  if (n_entries == 0)
+                    {
+                      dof_indices.push_back(numbers::invalid_unsigned_int);
+                      constraint_iterator.first++;
+                      continue;
+                    }
+
                   // append a new index to the indicators
                   constraint_indicator.push_back(constraint_iterator);
                   constraint_indicator.back().second =
@@ -409,14 +418,15 @@ namespace internal
                                       n_components]
                              .first;
                      ++it)
-                  {
-                    const unsigned int myindex =
-                      dof_indices[it] / chunk_size_zero_vector;
-                    if (touched_first_by[myindex] ==
-                        numbers::invalid_unsigned_int)
-                      touched_first_by[myindex] = chunk;
-                    touched_last_by[myindex] = chunk;
-                  }
+                  if (dof_indices[it] != numbers::invalid_unsigned_int)
+                    {
+                      const unsigned int myindex =
+                        dof_indices[it] / chunk_size_zero_vector;
+                      if (touched_first_by[myindex] ==
+                          numbers::invalid_unsigned_int)
+                        touched_first_by[myindex] = chunk;
+                      touched_last_by[myindex] = chunk;
+                    }
               }
             if (faces.size() > 0)
               {
@@ -433,14 +443,16 @@ namespace internal
                                  it !=
                                  row_starts[(cell + 1) * n_components].first;
                                  ++it)
-                              {
-                                const unsigned int myindex =
-                                  dof_indices[it] / chunk_size_zero_vector;
-                                if (touched_first_by[myindex] ==
-                                    numbers::invalid_unsigned_int)
-                                  touched_first_by[myindex] = chunk;
-                                touched_last_by[myindex] = chunk;
-                              }
+                              if (dof_indices[it] !=
+                                  numbers::invalid_unsigned_int)
+                                {
+                                  const unsigned int myindex =
+                                    dof_indices[it] / chunk_size_zero_vector;
+                                  if (touched_first_by[myindex] ==
+                                      numbers::invalid_unsigned_int)
+                                    touched_first_by[myindex] = chunk;
+                                  touched_last_by[myindex] = chunk;
+                                }
                           };
 
                         fill_touched_by_for_cell(faces[face].cells_interior[v]);