neon mlal qs8 rsum accumulating microkernels

PiperOrigin-RevId: 634412279
google · May 16, 2024 · 9d12551 · 9d12551
1 parent a34d83b
commit 9d12551
Show file tree

Hide file tree

Showing 22 changed files with 1,430 additions and 59 deletions.
diff --git a/cmake/gen/neon_microkernels.cmake b/cmake/gen/neon_microkernels.cmake
@@ -684,6 +684,14 @@ SET(ALL_NEON_MICROKERNEL_SRCS
   src/qs8-requantization/qs8-requantization-rndna-neon.c
   src/qs8-requantization/qs8-requantization-rndnu-neon-mull.c
   src/qs8-requantization/qs8-requantization-rndnu-neon-qdmulh.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16-acc2.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc2.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc4.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64-acc2.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64-acc4.c
+  src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64.c
   src/qs8-vadd/gen/qs8-vadd-minmax-neon-ld64-u8.c
   src/qs8-vadd/gen/qs8-vadd-minmax-neon-ld64-u16.c
   src/qs8-vadd/gen/qs8-vadd-minmax-neon-ld64-u24.c

diff --git a/gen/neon_microkernels.bzl b/gen/neon_microkernels.bzl
@@ -680,6 +680,14 @@ ALL_NEON_MICROKERNEL_SRCS = [
     "src/qs8-requantization/qs8-requantization-rndna-neon.c",
     "src/qs8-requantization/qs8-requantization-rndnu-neon-mull.c",
     "src/qs8-requantization/qs8-requantization-rndnu-neon-qdmulh.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16-acc2.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc2.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc4.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64-acc2.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64-acc4.c",
+    "src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64.c",
     "src/qs8-vadd/gen/qs8-vadd-minmax-neon-ld64-u8.c",
     "src/qs8-vadd/gen/qs8-vadd-minmax-neon-ld64-u16.c",
     "src/qs8-vadd/gen/qs8-vadd-minmax-neon-ld64-u24.c",

diff --git a/scripts/generate-qs8-rsum.sh b/scripts/generate-qs8-rsum.sh
@@ -8,3 +8,15 @@
 tools/xngen src/qs8-rsum/scalar.c.in -D CHANNEL_TILE=1 -D ACCUMULATORS=1 -D REQUANTIZATION=FP32 -D VARIANT=IMAGIC -D WASM=0 -o src/qs8-rsum/gen/qs8-rdsum-minmax-fp32-scalar-imagic-u1-acc1.c &
 tools/xngen src/qs8-rsum/scalar.c.in -D CHANNEL_TILE=2 -D ACCUMULATORS=1 -D REQUANTIZATION=FP32 -D VARIANT=IMAGIC -D WASM=0 -o src/qs8-rsum/gen/qs8-rdsum-minmax-fp32-scalar-imagic-u2-acc1.c &
 tools/xngen src/qs8-rsum/scalar.c.in -D CHANNEL_TILE=4 -D ACCUMULATORS=1 -D REQUANTIZATION=FP32 -D VARIANT=IMAGIC -D WASM=0 -o src/qs8-rsum/gen/qs8-rdsum-minmax-fp32-scalar-imagic-u4-acc1.c &
+
+################################## ARM NEON ###################################
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=1 -D CHANNEL_TILE=16  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16.c &
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=1 -D CHANNEL_TILE=32  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32.c &
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=1 -D CHANNEL_TILE=64  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64.c &
+
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=2 -D CHANNEL_TILE=16  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16-acc2.c &
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=2 -D CHANNEL_TILE=32  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc2.c &
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=2 -D CHANNEL_TILE=64  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64-acc2.c &
+
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=4 -D CHANNEL_TILE=32  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc4.c &
+tools/xngen src/qs8-rsum/neon-mlal.c.in -D ACCUMULATORS=4 -D CHANNEL_TILE=64  -D REQUANTIZATION=FP32 -D ARMV8=0 -o src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u64-acc4.c &
diff --git a/src/microparams-init.c b/src/microparams-init.c
@@ -1125,6 +1125,12 @@ size_t xnn_init_qs8_avgpool_minmax_fp32_neon_params(
   params->fp32_neon.magic_bias_less_output_zero_point = INT32_C(0x4B400000) - (int32_t) output_zero_point;
   params->fp32_neon.output_min = output_min;
   params->fp32_neon.output_max = output_max;
+  for (uint32_t i = 0; i < 7; i++) {
+    params->fp32_neon.mask_table[i] = 1;
+  }
+  for (uint32_t i = 7; i < 14; i++) {
+    params->fp32_neon.mask_table[i] = 0;
+  }
   return sizeof(params->fp32_neon);
 }
 

diff --git a/src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16-acc2.c b/src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16-acc2.c
@@ -0,0 +1,85 @@
+// Auto-generated file. Do not edit!
+//   Template: src/qs8-rsum/neon-mlal.c.in
+//   Generator: tools/xngen
+//
+// Copyright 2024 Google LLC
+//
+// This source code is licensed under the BSD-style license found in the
+// LICENSE file in the root directory of this source tree.
+
+#include <assert.h>
+
+#include <arm_neon.h>
+
+#include <xnnpack/common.h>
+#include <xnnpack/math.h>
+#include <xnnpack/reduce.h>
+
+void xnn_qs8_rsum_minmax_fp32_ukernel__neon_mlal_u16_acc2(
+    size_t batch,
+    const int8_t* input,
+    int8_t* output,
+    const union xnn_qs8_avgpool_minmax_params params[restrict XNN_MIN_ELEMENTS(1)])
+{
+  assert(batch != 0);
+  assert(input != NULL);
+  assert(output != NULL);
+
+  int8x8_t vone = vdup_n_s8(1);
+  int num_batches = batch  >> 9;
+  int32x4_t vacc0 = vmovq_n_s32(0);
+  int32x4_t vacc1 = vmovq_n_s32(0);
+  for (; num_batches > 0; --num_batches) {
+    int16x8_t vacc16_0 = vmovq_n_s16(0);
+    int16x8_t vacc16_1 = vmovq_n_s16(0);
+    for (size_t current_batch = 512; current_batch > 0; current_batch -= 16) {
+      const int8x8_t vt0 = vld1_s8(input); input += 8;
+      const int8x8_t vt1 = vld1_s8(input); input += 8;
+
+      vacc16_0 = vmlal_s8(vacc16_0, vt0, vone);
+      vacc16_1 = vmlal_s8(vacc16_1, vt1, vone);
+    }
+    vacc0 = vaddq_s32(vacc0, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_0)), vmovl_s16(vget_high_s16(vacc16_0))));
+    vacc1 = vaddq_s32(vacc1, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_1)), vmovl_s16(vget_high_s16(vacc16_1))));
+    batch -= 512;
+  }
+  if (XNN_UNLIKELY(batch != 0)) {
+    int16x8_t vacc16_0 = vmovq_n_s16(0);
+    int16x8_t vacc16_1 = vmovq_n_s16(0);
+    for (; batch >= 16; batch -= 16) {
+      const int8x8_t vt0 = vld1_s8(input); input += 8;
+      const int8x8_t vt1 = vld1_s8(input); input += 8;
+      vacc16_0 = vmlal_s8(vacc16_0, vt0, vone);
+      vacc16_1 = vmlal_s8(vacc16_1, vt1, vone);
+    }
+    vacc16_0 = vaddq_s16(vacc16_0, vacc16_1);
+    for (; batch >= 8; batch -= 8) {
+      const int8x8_t vt = vld1_s8(input); input += 8;
+      vacc16_0 = vmlal_s8(vacc16_0, vt, vone);
+    }
+    if (XNN_UNLIKELY(batch != 0)) {
+      int8x8_t vt = vld1_s8(input);
+      vone = vld1_s8(&params->fp32_neon.mask_table[7 - batch]);
+      vacc16_0 = vmlal_s8(vacc16_0, vt, vone);
+    }
+    vacc0 = vaddq_s32(vacc0, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_0)), vmovl_s16(vget_high_s16(vacc16_0))));
+  }
+  vacc0 = vaddq_s32(vacc0, vacc1);
+  int32x2_t vacc_lo = vadd_s32(vget_low_s32(vacc0), vget_high_s32(vacc0));
+  vacc_lo = vpadd_s32(vacc_lo, vacc_lo);
+
+  const int32_t vinit_bias = params->fp32_neon.init_bias;
+  const float vscale = params->fp32_neon.scale;
+  const int32_t output_min = params->fp32_neon.output_min;
+  const int32_t output_max = params->fp32_neon.output_max;
+  const float vmagic_bias = params->fp32_neon.magic_bias;
+  const int32_t vmagic_bias_less_output_zero_point = params->fp32_neon.magic_bias_less_output_zero_point;
+
+  float vfpacc = (float) (vget_lane_s32(vacc_lo, 0) + vinit_bias) * vscale;
+  vfpacc += vmagic_bias;
+  int32_t vout = (int32_t) float_as_uint32(vfpacc);
+  vout -= vmagic_bias_less_output_zero_point;
+  vout = math_max_s32(vout, output_min);
+  vout = math_min_s32(vout, output_max);
+  *output += (int8_t) vout;
+}
diff --git a/src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16.c b/src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u16.c
@@ -0,0 +1,79 @@
+// Auto-generated file. Do not edit!
+//   Template: src/qs8-rsum/neon-mlal.c.in
+//   Generator: tools/xngen
+//
+// Copyright 2024 Google LLC
+//
+// This source code is licensed under the BSD-style license found in the
+// LICENSE file in the root directory of this source tree.
+
+#include <assert.h>
+
+#include <arm_neon.h>
+
+#include <xnnpack/common.h>
+#include <xnnpack/math.h>
+#include <xnnpack/reduce.h>
+
+void xnn_qs8_rsum_minmax_fp32_ukernel__neon_mlal_u16(
+    size_t batch,
+    const int8_t* input,
+    int8_t* output,
+    const union xnn_qs8_avgpool_minmax_params params[restrict XNN_MIN_ELEMENTS(1)])
+{
+  assert(batch != 0);
+  assert(input != NULL);
+  assert(output != NULL);
+
+  int8x8_t vone = vdup_n_s8(1);
+  int num_batches = batch  >> 8;
+  int32x4_t vacc0 = vmovq_n_s32(0);
+  for (; num_batches > 0; --num_batches) {
+    int16x8_t vacc16_0 = vmovq_n_s16(0);
+    for (size_t current_batch = 256; current_batch > 0; current_batch -= 16) {
+      const int8x8_t vt0 = vld1_s8(input); input += 8;
+      const int8x8_t vt1 = vld1_s8(input); input += 8;
+
+      vacc16_0 = vmlal_s8(vacc16_0, vt0, vone);
+      vacc16_0 = vmlal_s8(vacc16_0, vt1, vone);
+    }
+    vacc0 = vaddq_s32(vacc0, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_0)), vmovl_s16(vget_high_s16(vacc16_0))));
+    batch -= 256;
+  }
+  if (XNN_UNLIKELY(batch != 0)) {
+    int16x8_t vacc16_0 = vmovq_n_s16(0);
+    for (; batch >= 16; batch -= 16) {
+      const int8x8_t vt0 = vld1_s8(input); input += 8;
+      const int8x8_t vt1 = vld1_s8(input); input += 8;
+      vacc16_0 = vmlal_s8(vacc16_0, vt0, vone);
+      vacc16_0 = vmlal_s8(vacc16_0, vt1, vone);
+    }
+    for (; batch >= 8; batch -= 8) {
+      const int8x8_t vt = vld1_s8(input); input += 8;
+      vacc16_0 = vmlal_s8(vacc16_0, vt, vone);
+    }
+    if (XNN_UNLIKELY(batch != 0)) {
+      int8x8_t vt = vld1_s8(input);
+      vone = vld1_s8(&params->fp32_neon.mask_table[7 - batch]);
+      vacc16_0 = vmlal_s8(vacc16_0, vt, vone);
+    }
+    vacc0 = vaddq_s32(vacc0, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_0)), vmovl_s16(vget_high_s16(vacc16_0))));
+  }
+  int32x2_t vacc_lo = vadd_s32(vget_low_s32(vacc0), vget_high_s32(vacc0));
+  vacc_lo = vpadd_s32(vacc_lo, vacc_lo);
+
+  const int32_t vinit_bias = params->fp32_neon.init_bias;
+  const float vscale = params->fp32_neon.scale;
+  const int32_t output_min = params->fp32_neon.output_min;
+  const int32_t output_max = params->fp32_neon.output_max;
+  const float vmagic_bias = params->fp32_neon.magic_bias;
+  const int32_t vmagic_bias_less_output_zero_point = params->fp32_neon.magic_bias_less_output_zero_point;
+
+  float vfpacc = (float) (vget_lane_s32(vacc_lo, 0) + vinit_bias) * vscale;
+  vfpacc += vmagic_bias;
+  int32_t vout = (int32_t) float_as_uint32(vfpacc);
+  vout -= vmagic_bias_less_output_zero_point;
+  vout = math_max_s32(vout, output_min);
+  vout = math_min_s32(vout, output_max);
+  *output += (int8_t) vout;
+}
diff --git a/src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc2.c b/src/qs8-rsum/gen/qs8-rsum-minmax-fp32-neon-u32-acc2.c
@@ -0,0 +1,93 @@
+// Auto-generated file. Do not edit!
+//   Template: src/qs8-rsum/neon-mlal.c.in
+//   Generator: tools/xngen
+//
+// Copyright 2024 Google LLC
+//
+// This source code is licensed under the BSD-style license found in the
+// LICENSE file in the root directory of this source tree.
+
+#include <assert.h>
+
+#include <arm_neon.h>
+
+#include <xnnpack/common.h>
+#include <xnnpack/math.h>
+#include <xnnpack/reduce.h>
+
+void xnn_qs8_rsum_minmax_fp32_ukernel__neon_mlal_u32_acc2(
+    size_t batch,
+    const int8_t* input,
+    int8_t* output,
+    const union xnn_qs8_avgpool_minmax_params params[restrict XNN_MIN_ELEMENTS(1)])
+{
+  assert(batch != 0);
+  assert(input != NULL);
+  assert(output != NULL);
+
+  int8x8_t vone = vdup_n_s8(1);
+  int num_batches = batch  >> 9;
+  int32x4_t vacc0 = vmovq_n_s32(0);
+  int32x4_t vacc1 = vmovq_n_s32(0);
+  for (; num_batches > 0; --num_batches) {
+    int16x8_t vacc16_0 = vmovq_n_s16(0);
+    int16x8_t vacc16_1 = vmovq_n_s16(0);
+    for (size_t current_batch = 512; current_batch > 0; current_batch -= 32) {
+      const int8x8_t vt0 = vld1_s8(input); input += 8;
+      const int8x8_t vt1 = vld1_s8(input); input += 8;
+      const int8x8_t vt2 = vld1_s8(input); input += 8;
+      const int8x8_t vt3 = vld1_s8(input); input += 8;
+
+      vacc16_0 = vmlal_s8(vacc16_0, vt0, vone);
+      vacc16_1 = vmlal_s8(vacc16_1, vt1, vone);
+      vacc16_0 = vmlal_s8(vacc16_0, vt2, vone);
+      vacc16_1 = vmlal_s8(vacc16_1, vt3, vone);
+    }
+    vacc0 = vaddq_s32(vacc0, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_0)), vmovl_s16(vget_high_s16(vacc16_0))));
+    vacc1 = vaddq_s32(vacc1, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_1)), vmovl_s16(vget_high_s16(vacc16_1))));
+    batch -= 512;
+  }
+  if (XNN_UNLIKELY(batch != 0)) {
+    int16x8_t vacc16_0 = vmovq_n_s16(0);
+    int16x8_t vacc16_1 = vmovq_n_s16(0);
+    for (; batch >= 32; batch -= 32) {
+      const int8x8_t vt0 = vld1_s8(input); input += 8;
+      const int8x8_t vt1 = vld1_s8(input); input += 8;
+      const int8x8_t vt2 = vld1_s8(input); input += 8;
+      const int8x8_t vt3 = vld1_s8(input); input += 8;
+      vacc16_0 = vmlal_s8(vacc16_0, vt0, vone);
+      vacc16_1 = vmlal_s8(vacc16_1, vt1, vone);
+      vacc16_0 = vmlal_s8(vacc16_0, vt2, vone);
+      vacc16_1 = vmlal_s8(vacc16_1, vt3, vone);
+    }
+    vacc16_0 = vaddq_s16(vacc16_0, vacc16_1);
+    for (; batch >= 8; batch -= 8) {
+      const int8x8_t vt = vld1_s8(input); input += 8;
+      vacc16_0 = vmlal_s8(vacc16_0, vt, vone);
+    }
+    if (XNN_UNLIKELY(batch != 0)) {
+      int8x8_t vt = vld1_s8(input);
+      vone = vld1_s8(&params->fp32_neon.mask_table[7 - batch]);
+      vacc16_0 = vmlal_s8(vacc16_0, vt, vone);
+    }
+    vacc0 = vaddq_s32(vacc0, vaddq_s32(vmovl_s16(vget_low_s16(vacc16_0)), vmovl_s16(vget_high_s16(vacc16_0))));
+  }
+  vacc0 = vaddq_s32(vacc0, vacc1);
+  int32x2_t vacc_lo = vadd_s32(vget_low_s32(vacc0), vget_high_s32(vacc0));
+  vacc_lo = vpadd_s32(vacc_lo, vacc_lo);
+
+  const int32_t vinit_bias = params->fp32_neon.init_bias;
+  const float vscale = params->fp32_neon.scale;
+  const int32_t output_min = params->fp32_neon.output_min;
+  const int32_t output_max = params->fp32_neon.output_max;
+  const float vmagic_bias = params->fp32_neon.magic_bias;
+  const int32_t vmagic_bias_less_output_zero_point = params->fp32_neon.magic_bias_less_output_zero_point;
+
+  float vfpacc = (float) (vget_lane_s32(vacc_lo, 0) + vinit_bias) * vscale;
+  vfpacc += vmagic_bias;
+  int32_t vout = (int32_t) float_as_uint32(vfpacc);
+  vout -= vmagic_bias_less_output_zero_point;
+  vout = math_max_s32(vout, output_min);
+  vout = math_min_s32(vout, output_max);
+  *output += (int8_t) vout;
+}