ROCm
diff --git a/‎api/rppt_tensor_color_augmentations.h
Lines changed: 2 additions & 2 deletions b/‎api/rppt_tensor_color_augmentations.h
Lines changed: 2 additions & 2 deletions
diff --git a/‎api/rppt_tensor_geometric_augmentations.h
Lines changed: 4 additions & 4 deletions b/‎api/rppt_tensor_geometric_augmentations.h
Lines changed: 4 additions & 4 deletions
diff --git a/‎src/include/common/cpu/rpp_cpu_simd_load_store.hpp
Lines changed: 69 additions & 62 deletions b/‎src/include/common/cpu/rpp_cpu_simd_load_store.hpp
Lines changed: 69 additions & 62 deletions
diff --git a/‎src/modules/tensor/cpu/kernel/blend.cpp
Lines changed: 6 additions & 0 deletions b/‎src/modules/tensor/cpu/kernel/blend.cpp
Lines changed: 6 additions & 0 deletions
diff --git a/‎src/modules/tensor/cpu/kernel/brightness.cpp
Lines changed: 16 additions & 4 deletions b/‎src/modules/tensor/cpu/kernel/brightness.cpp
Lines changed: 16 additions & 4 deletions
@@ -148,7 +148,7 @@ RppStatus rppt_gamma_correction_gpu(RppPtr_t srcPtr, RpptDescPtr srcDescPtr, Rpp
  * \retval RPP_SUCCESS Successful completion.
  * \retval RPP_ERROR* Unsuccessful completion.
  */
-RppStatus rppt_blend_host(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, Rpp32f *alpha, RpptROIPtr roiTensorPtrSrc, RpptRoiType roiType, rppHandle_t rppHandle);
+RppStatus rppt_blend_host(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, Rpp32f *alphaTensor, RpptROIPtr roiTensorPtrSrc, RpptRoiType roiType, rppHandle_t rppHandle);
 
 #ifdef GPU_SUPPORT
 /*! \brief Blend augmentation on HIP backend for a NCHW/NHWC layout tensor
@@ -171,7 +171,7 @@ RppStatus rppt_blend_host(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDes
  * \retval RPP_SUCCESS Successful completion.
  * \retval RPP_ERROR* Unsuccessful completion.
  */
-RppStatus rppt_blend_gpu(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, Rpp32f *alpha, RpptROIPtr roiTensorPtrSrc, RpptRoiType roiType, rppHandle_t rppHandle);
+RppStatus rppt_blend_gpu(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, Rpp32f *alphaTensor, RpptROIPtr roiTensorPtrSrc, RpptRoiType roiType, rppHandle_t rppHandle);
 #endif // GPU_SUPPORT
 
 /*! \brief Color Twist augmentation on HOST backend for a NCHW/NHWC layout tensor
 
@@ -500,7 +500,7 @@ RppStatus rppt_slice_gpu(RppPtr_t srcPtr, RpptGenericDescPtr srcGenericDescPtr,
  * \param [in] srcDescPtr source tensor descriptor (Restrictions - numDims = 4, offsetInBytes >= 0, dataType = U8/F16/F32/I8, layout = NCHW/NHWC, c = 1/3)
  * \param [out] dstPtr destination tensor in HOST memory
  * \param [in] dstDescPtr destination tensor descriptor (Restrictions - numDims = 4, offsetInBytes >= 0, dataType = U8/F16/F32/I8, layout = NCHW/NHWC, c = same as that of srcDescPtr)
- * \param [in] roiTensorPtrSrc ROI data in HOST memory, for each image in source tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
+ * \param [in] roiTensorPtrDst ROI data in HOST memory, for each image in destination tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
  * \param [in] cropRoiTensor crop co-ordinates in HOST memory, for each image in source tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
  * \param [in] patchRoiTensor patch co-ordinates in HOST memory, for each image in source tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
  * \param [in] roiType ROI type used (RpptRoiType::XYWH or RpptRoiType::LTRB)
@@ -509,7 +509,7 @@ RppStatus rppt_slice_gpu(RppPtr_t srcPtr, RpptGenericDescPtr srcGenericDescPtr,
  * \retval RPP_SUCCESS Successful completion.
  * \retval RPP_ERROR* Unsuccessful completion.
  */
-RppStatus rppt_crop_and_patch_host(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, RpptROIPtr roiTensorPtrDst, RpptROIPtr cropRoi, RpptROIPtr patchRoi, RpptRoiType roiType, rppHandle_t rppHandle);
+RppStatus rppt_crop_and_patch_host(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, RpptROIPtr roiTensorPtrDst, RpptROIPtr cropRoiTensor, RpptROIPtr patchRoiTensor, RpptRoiType roiType, rppHandle_t rppHandle);
 
 #ifdef GPU_SUPPORT
 /*! \brief Crop and Patch augmentation on HIP backend for a NCHW/NHWC layout tensor
@@ -526,7 +526,7 @@ RppStatus rppt_crop_and_patch_host(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescP
  * \param [in] srcDescPtr source tensor descriptor (Restrictions - numDims = 4, offsetInBytes >= 0, dataType = U8/F16/F32/I8, layout = NCHW/NHWC, c = 1/3)
  * \param [out] dstPtr destination tensor in HIP memory
  * \param [in] dstDescPtr destination tensor descriptor (Restrictions - numDims = 4, offsetInBytes >= 0, dataType = U8/F16/F32/I8, layout = NCHW/NHWC, c = same as that of srcDescPtr)
- * \param [in] roiTensorPtrSrc ROI data in HIP memory, for each image in source tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
+ * \param [in] roiTensorPtrDst ROI data in HIP memory, for each image in destination tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
  * \param [in] cropRoiTensor crop co-ordinates in HIP memory, for each image in source tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
  * \param [in] patchRoiTensor patch co-ordinates in HIP memory, for each image in source tensor (2D tensor of size batchSize * 4, in either format - XYWH(xy.x, xy.y, roiWidth, roiHeight) or LTRB(lt.x, lt.y, rb.x, rb.y))
  * \param [in] roiType ROI type used (RpptRoiType::XYWH or RpptRoiType::LTRB)
@@ -535,7 +535,7 @@ RppStatus rppt_crop_and_patch_host(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescP
  * \retval RPP_SUCCESS Successful completion.
  * \retval RPP_ERROR* Unsuccessful completion.
  */
-RppStatus rppt_crop_and_patch_gpu(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, RpptROIPtr roiTensorPtrDst, RpptROIPtr cropRoi, RpptROIPtr patchRoi, RpptRoiType roiType, rppHandle_t rppHandle);
+RppStatus rppt_crop_and_patch_gpu(RppPtr_t srcPtr1, RppPtr_t srcPtr2, RpptDescPtr srcDescPtr, RppPtr_t dstPtr, RpptDescPtr dstDescPtr, RpptROIPtr roiTensorPtrDst, RpptROIPtr cropRoiTensor, RpptROIPtr patchRoiTensor, RpptRoiType roiType, rppHandle_t rppHandle);
 #endif // GPU_SUPPORT
 
 /*! \brief Flip voxel augmentation HOST
 
@@ -169,17 +169,37 @@ const __m256i avx_pxMaskR = _mm256_setr_epi8(0, 0x80, 0x80, 3, 0x80, 0x80, 6, 0x
 const __m256i avx_pxMaskG = _mm256_setr_epi8(0x80, 1, 0x80, 0x80, 4, 0x80, 0x80, 7, 0x80, 0x80, 10, 0x80, 0x80, 13, 0x80, 0x80, 16, 0x80, 0x80, 19, 0x80, 0x80, 22, 0x80, 0x80, 25, 0x80, 0x80, 28, 0x80, 0x80, 0x80);
 const __m256i avx_pxMaskB = _mm256_setr_epi8(0x80, 0x80, 2, 0x80, 0x80, 5, 0x80, 0x80, 8, 0x80, 0x80, 11, 0x80, 0x80, 14, 0x80, 0x80, 17, 0x80, 0x80, 20, 0x80, 0x80, 23, 0x80, 0x80, 26, 0x80, 0x80, 29, 0x80, 0x80);
 
+// Union for handling 128-bit SIMD data (SSE).
+union RppSIMD128
+{
+    __m128i  m128iVal;
+    __m128   m128Val;
+    char     i8[16];
+    short    i16[8];
+    int      i32[4];
+    float    f32[4];
+};
+
+// Union for handling 256-bit SIMD data (AVX).
+union RppSIMD256
+{
+    __m256i  m256iVal;
+    __m256   m256Val;
+    unsigned char u8[32];
+    short    i16[16];
+    int      i32[8];
+    float    f32[8];
+};
+
 // Print helpers
 
-inline void rpp_mm_print_epi8(__m128i vPrintArray)
+inline void rpp_mm_print_epi8(__m128i *v)
 {
-    char printArray[16];
-    _mm_storeu_si128((__m128i *)printArray, vPrintArray);
+    RppSIMD128 u;
+    u.m128iVal = v[0];
     printf("\n");
-    for (int ct = 0; ct < 16; ct++)
-    {
-        printf("%d ", printArray[ct]);
-    }
+    for (int i = 0; i < 16; ++i)
+        printf("%d ", u.i8[i]);
 }
 
 inline void rpp_storeu_si32(void *__p,
@@ -198,93 +218,80 @@ inline void rpp_storeu_si64(void *__p,
   ((struct __storeu_si64 *)__p)->__v = ((__v2di)__b)[0];
 }
 
-inline void rpp_mm_print_epi32(__m128i vPrintArray)
+inline void rpp_mm_print_epi16(__m128i *v)
 {
-    int printArray[4];
-    _mm_storeu_si128((__m128i *)printArray, vPrintArray);
+    RppSIMD128 u;
+    u.m128iVal = v[0];
     printf("\n");
-    for (int ct = 0; ct < 4; ct++)
-    {
-        printf("%d ", printArray[ct]);
-    }
+    for (int i = 0; i < 8; ++i)
+        printf("%hd ", u.i16[i]);
 }
 
-inline void rpp_mm_print_epi16(__m128i vPrintArray)
+inline void rpp_mm_print_epi32(__m128i *v)
 {
-    unsigned short int printArray[8];
-    _mm_storeu_si128((__m128i *)printArray, vPrintArray);
+    RppSIMD128 u;
+    u.m128iVal = v[0];
     printf("\n");
-    for (int ct = 0; ct < 8; ct++)
-    {
-        printf("%hu ", printArray[ct]);
-    }
+    for (int i = 0; i < 4; ++i)
+        printf("%d ", u.i32[i]);
 }
 
-inline void rpp_mm_print_ps(__m128 vPrintArray)
+inline void rpp_mm_print_ps(__m128 *v)
 {
-    float printArray[4];
-    _mm_storeu_ps(printArray, vPrintArray);
+    RppSIMD128 u;
+    u.m128Val = v[0];
     printf("\n");
-    for (int ct = 0; ct < 4; ct++)
-    {
-        printf("%0.6f ", printArray[ct]);
-    }
+    for (int i = 0; i < 4; ++i)
+        printf("%0.6f ", u.f32[i]);
 }
 
-inline void rpp_mm256_print_epi8(__m256i vPrintArray)
+
+inline void rpp_mm256_print_epi8(__m256i *v)
 {
-    unsigned char printArray[32];
-    _mm256_storeu_si256((__m256i *)printArray, vPrintArray);
+    RppSIMD256 u;
+    u.m256iVal = v[0];
     printf("\n");
-    for (int ct = 0; ct < 32; ct++)
-    {
-        printf("%d ", (unsigned char)printArray[ct]);
-    }
+    for (int i = 0; i < 32; ++i)
+        printf("%u ", u.u8[i]);
 }
 
-inline void rpp_mm256_print_epi32(__m256i vPrintArray)
+inline void rpp_mm256_print_epi16(__m256i *v)
 {
-    int printArray[8];
-    _mm256_storeu_si256((__m256i *)printArray, vPrintArray);
+    RppSIMD256 u;
+    u.m256iVal = v[0];
     printf("\n");
-    for (int ct = 0; ct < 8; ct++)
-    {
-        printf("%d ", printArray[ct]);
-    }
+    for (int i = 0; i < 16; ++i)
+        printf("%hd ", u.i16[i]);
 }
 
-inline void rpp_mm256_print_epi16(__m256i vPrintArray)
+inline void rpp_mm256_print_epi32(__m256i *v)
 {
-    unsigned short int printArray[8];
-    _mm256_storeu_si256((__m256i *)printArray, vPrintArray);
+    RppSIMD256 u;
+    u.m256iVal = v[0];
     printf("\n");
-    for (int ct = 0; ct < 16; ct++)
-    {
-        printf("%hu ", printArray[ct]);
-    }
+    for (int i = 0; i < 8; ++i)
+        printf("%d ", u.i32[i]);
 }
 
-inline void rpp_mm256_print_ps(__m256 vPrintArray)
+inline void rpp_mm256_print_ps(__m256 *v)
 {
-    float printArray[8];
-    _mm256_storeu_ps(printArray, vPrintArray);
+    RppSIMD256 u;
+    u.m256Val = v[0];
     printf("\n");
-    for (int ct = 0; ct < 8; ct++)
-    {
-        printf("%0.6f ", printArray[ct]);
-    }
+    for (int i = 0; i < 8; ++i)
+        printf("%0.6f ", u.f32[i]);
 }
 
-inline __m256 rpp_pixel_check_0to1_avx(__m256 p)
+inline void rpp_pixel_check_0to1(__m256 *p, Rpp32s numVectors)
 {
-    p = _mm256_min_ps(_mm256_max_ps(p, avx_p0), avx_p1);
-    return p;
+    for (int i = 0; i < numVectors; i++)
+        p[i] = _mm256_min_ps(_mm256_max_ps(p[i], avx_p0), avx_p1);
 }
 
-inline __m128 rpp_pixel_check_0to1_sse(__m128 p)
+inline void rpp_pixel_check_0to1(__m128 *p, Rpp32s numVectors)
 {
-    p = _mm_min_ps(_mm_max_ps(p, xmm_p0), xmm_p1);
-    return p;
+    for (int i = 0; i < numVectors; i++)
+        p[i] = _mm_min_ps(_mm_max_ps(p[i], xmm_p0), xmm_p1);
 }
 
 inline void rpp_saturate64_0to1_avx(__m256 *p)
 
@@ -572,6 +572,8 @@ RppStatus blend_f16_f16_host_tensor(Rpp16f *srcPtr1,
                     p1[0] = _mm_fmadd_ps(_mm_sub_ps(p1[0], p2[0]), pMul, p2[0]);    // alpha-blending adjustment
                     p1[1] = _mm_fmadd_ps(_mm_sub_ps(p1[1], p2[1]), pMul, p2[1]);    // alpha-blending adjustment
                     p1[2] = _mm_fmadd_ps(_mm_sub_ps(p1[2], p2[2]), pMul, p2[2]);    // alpha-blending adjustment
+                    //Boundary checks for f16
+                    rpp_pixel_check_0to1(p1, 3);
                     rpp_simd_store(rpp_store12_f32pln3_to_f32pln3, dstPtrTemp_ps, dstPtrTemp_ps + 4, dstPtrTemp_ps + 8, p1);    // simd stores
 
                     for(int cnt = 0; cnt < 4; cnt++)
@@ -656,6 +658,8 @@ RppStatus blend_f16_f16_host_tensor(Rpp16f *srcPtr1,
                     p1[0] = _mm_fmadd_ps(_mm_sub_ps(p1[0], p2[0]), pMul, p2[0]);    // alpha-blending adjustment
                     p1[1] = _mm_fmadd_ps(_mm_sub_ps(p1[1], p2[1]), pMul, p2[1]);    // alpha-blending adjustment
                     p1[2] = _mm_fmadd_ps(_mm_sub_ps(p1[2], p2[2]), pMul, p2[2]);    // alpha-blending adjustment
+                    //boundary checks for f16
+                    rpp_pixel_check_0to1(p1, 3);
                     rpp_simd_store(rpp_store12_f32pln3_to_f32pkd3, dstPtrTemp_ps, p1);    // simd stores
 
                     for(int cnt = 0; cnt < 12; cnt++)
@@ -731,6 +735,8 @@ RppStatus blend_f16_f16_host_tensor(Rpp16f *srcPtr1,
                         rpp_simd_load(rpp_load4_f32_to_f32, srcPtr1Temp_ps, p1);    // simd loads
                         rpp_simd_load(rpp_load4_f32_to_f32, srcPtr2Temp_ps, p2);    // simd loads
                         p1[0] = _mm_fmadd_ps(_mm_sub_ps(p1[0], p2[0]), pMul, p2[0]);    // alpha-blending adjustment
+                        //boundary checks for f16
+                        rpp_pixel_check_0to1(p1, 1);
                         rpp_simd_store(rpp_store4_f32_to_f32, dstPtrTemp_ps, p1);    // simd stores
 
                         for(int cnt = 0; cnt < 4; cnt++)
 
@@ -52,9 +52,9 @@ inline void compute_brightness_48_host(__m128 *p, __m128 *pBrightnessParams)
 
 inline void compute_brightness_24_host(__m256 *p, __m256 *pBrightnessParams)
 {
-    p[0] = rpp_pixel_check_0to1_avx(_mm256_fmadd_ps(p[0], pBrightnessParams[0], pBrightnessParams[1]));    // brightness adjustment
-    p[1] = rpp_pixel_check_0to1_avx(_mm256_fmadd_ps(p[1], pBrightnessParams[0], pBrightnessParams[1]));    // brightness adjustment
-    p[2] = rpp_pixel_check_0to1_avx(_mm256_fmadd_ps(p[2], pBrightnessParams[0], pBrightnessParams[1]));    // brightness adjustment
+    p[0] = _mm256_fmadd_ps(p[0], pBrightnessParams[0], pBrightnessParams[1]);    // brightness adjustment
+    p[1] = _mm256_fmadd_ps(p[1], pBrightnessParams[0], pBrightnessParams[1]);    // brightness adjustment
+    p[2] = _mm256_fmadd_ps(p[2], pBrightnessParams[0], pBrightnessParams[1]);    // brightness adjustment
 }
 
 inline void compute_brightness_24_host(__m128 *p, __m128 *pBrightnessParams)
@@ -90,7 +90,7 @@ inline void compute_brightness_12_host(__m128 *p, __m128 *pBrightnessParams)
 
 inline void compute_brightness_8_host(__m256 *p, __m256 *pBrightnessParams)
 {
-    p[0] = rpp_pixel_check_0to1_avx(_mm256_fmadd_ps(p[0], pBrightnessParams[0], pBrightnessParams[1]));    // brightness adjustment
+    p[0] = _mm256_fmadd_ps(p[0], pBrightnessParams[0], pBrightnessParams[1]);    // brightness adjustment
 }
 
 inline void compute_brightness_8_host(__m128 *p, __m128 *pBrightnessParams)
@@ -395,6 +395,8 @@ RppStatus brightness_f32_f32_host_tensor(Rpp32f *srcPtr,
                     __m256 p[3];
                     rpp_simd_load(rpp_load24_f32pkd3_to_f32pln3_avx, srcPtrTemp, p);    // simd loads
                     compute_brightness_24_host(p, pBrightnessParams);  // brightness adjustment
+                    //Boundary check for f32
+                    rpp_pixel_check_0to1(p, 3);
                     rpp_simd_store(rpp_store24_f32pln3_to_f32pln3_avx, dstPtrTempR, dstPtrTempG, dstPtrTempB, p);    // simd stores
 #else
                     __m128 p[3];
@@ -450,6 +452,8 @@ RppStatus brightness_f32_f32_host_tensor(Rpp32f *srcPtr,
                     __m256 p[3];
                     rpp_simd_load(rpp_load24_f32pln3_to_f32pln3_avx, srcPtrTempR, srcPtrTempG, srcPtrTempB, p);    // simd loads
                     compute_brightness_24_host(p, pBrightnessParams);  // brightness adjustment
+                    //Boundary check for f32
+                    rpp_pixel_check_0to1(p, 3);
                     rpp_simd_store(rpp_store24_f32pln3_to_f32pkd3_avx, dstPtrTemp, p);    // simd stores
 #else
                     __m128 p[4];
@@ -506,6 +510,8 @@ RppStatus brightness_f32_f32_host_tensor(Rpp32f *srcPtr,
 
                         rpp_simd_load(rpp_load8_f32_to_f32_avx, srcPtrTemp, p);    // simd loads
                         compute_brightness_8_host(p, pBrightnessParams);  // brightness adjustment
+                        //Boundary check for f32
+                        rpp_pixel_check_0to1(p, 1);
                         rpp_simd_store(rpp_store8_f32_to_f32_avx, dstPtrTemp, p);    // simd stores
 #else
                         __m128 p[1];
@@ -621,6 +627,8 @@ RppStatus brightness_f16_f16_host_tensor(Rpp16f *srcPtr,
                     __m256 p[3];
                     rpp_simd_load(rpp_load24_f32pkd3_to_f32pln3_avx, srcPtrTemp_ps, p);    // simd loads
                     compute_brightness_24_host(p, pBrightnessParams);  // brightness adjustment
+                    //Boundary check for f16
+                    rpp_pixel_check_0to1(p, 3);
                     rpp_simd_store(rpp_store24_f32pln3_to_f32pln3_avx, dstPtrTempR_ps, dstPtrTempG_ps, dstPtrTempB_ps, p);    // simd stores
 #else
                     __m128 p[3];
@@ -692,6 +700,8 @@ RppStatus brightness_f16_f16_host_tensor(Rpp16f *srcPtr,
                     __m256 p[3];
                     rpp_simd_load(rpp_load24_f32pln3_to_f32pln3_avx, srcPtrTempR_ps, srcPtrTempG_ps, srcPtrTempB_ps, p);    // simd loads
                     compute_brightness_24_host(p, pBrightnessParams);  // brightness adjustment
+                    //Boundary check for f16
+                    rpp_pixel_check_0to1(p, 3);
                     rpp_simd_store(rpp_store24_f32pln3_to_f32pkd3_avx, dstPtrTemp_ps, p);    // simd stores
 #else
                     __m128 p[4];
@@ -756,6 +766,8 @@ RppStatus brightness_f16_f16_host_tensor(Rpp16f *srcPtr,
 
                         rpp_simd_load(rpp_load8_f32_to_f32_avx, srcPtrTemp_ps, p);    // simd loads
                         compute_brightness_8_host(p, pBrightnessParams);  // brightness adjustment
+                        //Boundary check for f16
+                        rpp_pixel_check_0to1(p, 1);
                         rpp_simd_store(rpp_store8_f32_to_f32_avx, dstPtrTemp_ps, p);    // simd stores
 #else
                         __m128 p[1];