NVIDIA · bernhardmgruber · Mar 9, 2026 · Mar 5, 2026 · Mar 6, 2026 · Mar 6, 2026
@@ -236,7 +236,7 @@ squadStoreBulkSync(Squad squad, CpAsyncOobInfo<OutputT> cpAsyncOobInfo, const ::
 
     constexpr ::cuda::std::uint16_t byteMask  = 0xFFFF;
     const ::cuda::std::uint16_t byteMaskStart = byteMask << cpAsyncOobInfo.smemStartSkipBytes;
-    const ::cuda::std::uint16_t byteMaskEnd   = byteMask >> (16 - cpAsyncOobInfo.smemEndBytesAfter16BBoundary);
+    const ::cuda::std::uint16_t byteMaskEnd   = byteMask >> (16 - cpAsyncOobInfo.smemEndBytesAfter16BBoundary) % 16;
     // byteMaskStart contains zeroes at the left
 #  if _CCCL_CUDA_COMPILER(NVCC, >=, 13, 2)
     const ::cuda::std::uint16_t byteMaskSmall = byteMaskStart & byteMaskEnd;

@@ -410,6 +410,12 @@ struct DispatchScan
   template <typename ActivePolicyT>
   CUB_RUNTIME_FUNCTION _CCCL_HOST _CCCL_FORCEINLINE cudaError_t __invoke_lookahead_algorithm(ActivePolicyT)
   {
+    if (num_items == 0)
+    {
+      temp_storage_bytes = 1; // just fulfill the contract that CUB always requires some temporary storage
+      return cudaSuccess;
+    }
+
     using InputT          = ::cuda::std::iter_value_t<InputIteratorT>;
     using OutputT         = ::cuda::std::iter_value_t<OutputIteratorT>;
     using WarpspeedPolicy = typename ActivePolicyT::WarpspeedPolicy;

@@ -39,7 +39,7 @@ C2H_TEST("Device scan works with all device interfaces", "[scan][device]", value
   constexpr offset_t max_num_items = 8192;
 
   const auto offset    = GENERATE_COPY(values({0, 1, 3, 4, 7, 8, 11, 12, 16}), take(3, random(0, max_offset)));
-  const auto num_items = GENERATE_COPY(values({1, max_num_items}), take(64, random(0, max_num_items)));
+  const auto num_items = GENERATE_COPY(values({0, 1, max_num_items}), take(64, random(2, max_num_items - 1)));
 
   CAPTURE(num_items, offset);