simd.h improvements #2621

lgritz · 2020-06-29T07:37:23Z

SIMD improvements for emulating 8-wide on 4-wide HW: for many methods
on 8-wide SIMD types when running on 4-wide hardware, it's better (as
revealed by benchmarks) to implement as two 4-wide ops rather than
falling back to a purely scalar path.

Add operator*(vfloat{4,6,16}, float). On SSE, it hardly matters, no
better than letting the float be promoted to vfloat. But NEON has
vec*float.

Add NEON implementation of blend, min, max, reduce_add.

Signed-off-by: Larry Gritz lg@larrygritz.com

SIMD improvements for emulating 8-wide on 4-wide HW: for many methods on 8-wide SIMD types when running on 4-wide hardware, it's better (as revealed by benchmarks) to implement as two 4-wide ops rather than falling back to a purely scalar path. Add operator*(vfloat{4,6,16}, float). On SSE, it hardly matters, no better than letting the float be promoted to vfloat. But NEON has vec*float. Add NEON implementation of blend, min, max, reduce_add. Signed-off-by: Larry Gritz <lg@larrygritz.com>

lgritz merged commit f30f2b7 into AcademySoftwareFoundation:master Jul 6, 2020

lgritz deleted the lg-simd branch July 6, 2020 07:04

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

simd.h improvements #2621

simd.h improvements #2621

lgritz commented Jun 29, 2020

simd.h improvements #2621

simd.h improvements #2621

Conversation

lgritz commented Jun 29, 2020