ahrefs
diff --git a/‎arrayjit/lib/builtins_metal.ml‎
Lines changed: 104 additions & 137 deletions b/‎arrayjit/lib/builtins_metal.ml‎
Lines changed: 104 additions & 137 deletions
@@ -1,28 +1,24 @@
-let source =
-  {|
-#include <metal_stdlib>
-using namespace metal;
-
-/* Threefry4x32 constants */
-constant uint32_t THREEFRY_C240 = 0x1BD11BDA;
-
-/* Rotation constants for Threefry4x32 */
-constant uint THREEFRY_ROTATION_0_0 = 13;
-constant uint THREEFRY_ROTATION_0_1 = 15;
-constant uint THREEFRY_ROTATION_0_2 = 26;
-constant uint THREEFRY_ROTATION_0_3 = 6;
-constant uint THREEFRY_ROTATION_1_0 = 17;
-constant uint THREEFRY_ROTATION_1_1 = 29;
-constant uint THREEFRY_ROTATION_1_2 = 16;
-constant uint THREEFRY_ROTATION_1_3 = 24;
-
-/* Metal rotate left using built-in rotate function */
-inline uint32_t rotl32(uint32_t x, uint n) {
+(* Metal builtin code split into (key, definition, dependencies) triples for filtering *)
+let builtins = [
+  ("METAL_HEADERS", {|#include <metal_stdlib>
+using namespace metal;|}, []);
+
+  ("THREEFRY_C240", {|constant uint32_t THREEFRY_C240 = 0x1BD11BDA;|}, []);
+
+  ("THREEFRY_ROTATION_0_0", {|constant uint THREEFRY_ROTATION_0_0 = 13;|}, []);
+  ("THREEFRY_ROTATION_0_1", {|constant uint THREEFRY_ROTATION_0_1 = 15;|}, []);
+  ("THREEFRY_ROTATION_0_2", {|constant uint THREEFRY_ROTATION_0_2 = 26;|}, []);
+  ("THREEFRY_ROTATION_0_3", {|constant uint THREEFRY_ROTATION_0_3 = 6;|}, []);
+  ("THREEFRY_ROTATION_1_0", {|constant uint THREEFRY_ROTATION_1_0 = 17;|}, []);
+  ("THREEFRY_ROTATION_1_1", {|constant uint THREEFRY_ROTATION_1_1 = 29;|}, []);
+  ("THREEFRY_ROTATION_1_2", {|constant uint THREEFRY_ROTATION_1_2 = 16;|}, []);
+  ("THREEFRY_ROTATION_1_3", {|constant uint THREEFRY_ROTATION_1_3 = 24;|}, []);
+
+  ("rotl32", {|inline uint32_t rotl32(uint32_t x, uint n) {
     return rotate(x, n);
-}
+}|}, []);
 
-/* Threefry4x32 round function using SIMD operations */
-inline void threefry_round(thread uint4 &x, uint r0, uint r1, uint r2, uint r3) {
+  ("threefry_round", {|inline void threefry_round(thread uint4 &x, uint r0, uint r1, uint r2, uint r3) {
     x.x += x.y; x.y = rotl32(x.y, r0); x.y ^= x.x;
     x.z += x.w; x.w = rotl32(x.w, r1); x.w ^= x.z;
 
@@ -36,10 +32,9 @@ inline void threefry_round(thread uint4 &x, uint r0, uint r1, uint r2, uint r3)
     tmp = x.y;
     x.y = x.w;
     x.w = tmp;
-}
+}|}, ["rotl32"]);
 
-/* Threefry4x32 implementation - 20 rounds */
-uint4 arrayjit_threefry4x32(uint4 key, uint4 counter) {
+  ("arrayjit_threefry4x32", {|uint4 arrayjit_threefry4x32(uint4 key, uint4 counter) {
     uint4 x = counter;
     uint4 k = key;
 
@@ -124,138 +119,115 @@ uint4 arrayjit_threefry4x32(uint4 key, uint4 counter) {
     x.w += 5;
 
     return x;
-}
-
-/* Vector types for efficient extraction of multiple values */
-struct float4_t { float4 v; };
-struct float2_t { float2 v; };  /* Using float2 since Metal lacks double */
-struct int32x4_t { int4 v; };
-struct int64x2_t { int64_t v[2]; };
-struct uint64x2_t { uint64_t v[2]; };
-struct int8x16_t { int8_t v[16]; };
-struct uint16x8_t { uint16_t v[8]; };
-struct uint8x16_t { uint8_t v[16]; };
-struct half8_t { half v[8]; };
-
-/* Conversion functions from uint4x32 to various precisions uniformly */
-// These return vectors to efficiently use all random bits
-
-/* Convert to float in [0, 1) */
-inline float uint32_to_single_uniform(uint32_t x) {
+}|}, ["THREEFRY_C240"; "threefry_round"; "THREEFRY_ROTATION_0_0"; "THREEFRY_ROTATION_0_1"; 
+      "THREEFRY_ROTATION_0_2"; "THREEFRY_ROTATION_0_3"; "THREEFRY_ROTATION_1_0"; 
+      "THREEFRY_ROTATION_1_1"; "THREEFRY_ROTATION_1_2"; "THREEFRY_ROTATION_1_3"]);
+
+  ("float4_t", {|struct float4_t { float4 v; };|}, []);
+  ("float2_t", {|struct float2_t { float2 v; };|}, []);
+  ("int32x4_t", {|struct int32x4_t { int4 v; };|}, []);
+  ("int64x2_t", {|struct int64x2_t { int64_t v[2]; };|}, []);
+  ("uint64x2_t", {|struct uint64x2_t { uint64_t v[2]; };|}, []);
+  ("int8x16_t", {|struct int8x16_t { int8_t v[16]; };|}, []);
+  ("uint16x8_t", {|struct uint16x8_t { uint16_t v[8]; };|}, []);
+  ("uint8x16_t", {|struct uint8x16_t { uint8_t v[16]; };|}, []);
+  ("half8_t", {|struct half8_t { half v[8]; };|}, []);
+
+  ("uint32_to_single_uniform", {|inline float uint32_to_single_uniform(uint32_t x) {
     return (x >> 8) * (1.0f / 16777216.0f);
-}
+}|}, []);
 
-/* Uint4x32 to float32 uniform */
-float uint4x32_to_single_uniform(uint4 x) {
+  ("uint4x32_to_single_uniform", {|float uint4x32_to_single_uniform(uint4 x) {
     return uint32_to_single_uniform(x.x);
-}
+}|}, ["uint32_to_single_uniform"]);
 
-/* Uint4x32 to float64 uniform - Metal doesn't have native double support */
-float uint4x32_to_double_uniform(uint4 x) {
+  ("uint4x32_to_double_uniform", {|float uint4x32_to_double_uniform(uint4 x) {
     /* Fallback to float precision */
     uint64_t combined = (uint64_t(x.y) << 32) | x.x;
     return float(combined) * (1.0f / 18446744073709551616.0f);
-}
+}|}, []);
 
-/* Uint4x32 to int32 uniform */
-int32_t uint4x32_to_int32_uniform(uint4 x) {
+  ("uint4x32_to_int32_uniform", {|int32_t uint4x32_to_int32_uniform(uint4 x) {
     return int32_t(x.x);
-}
+}|}, []);
 
-/* Uint4x32 to int64 uniform */
-int64_t uint4x32_to_int64_uniform(uint4 x) {
+  ("uint4x32_to_int64_uniform", {|int64_t uint4x32_to_int64_uniform(uint4 x) {
     return int64_t((uint64_t(x.y) << 32) | x.x);
-}
+}|}, []);
 
-/* Uint4x32 to uint32 uniform */
-uint32_t uint4x32_to_uint32_uniform(uint4 x) {
+  ("uint4x32_to_uint32_uniform", {|uint32_t uint4x32_to_uint32_uniform(uint4 x) {
     return x.x;
-}
+}|}, []);
 
-/* Uint4x32 to uint64 uniform */
-uint64_t uint4x32_to_uint64_uniform(uint4 x) {
+  ("uint4x32_to_uint64_uniform", {|uint64_t uint4x32_to_uint64_uniform(uint4 x) {
     return (uint64_t(x.y) << 32) | x.x;
-}
+}|}, []);
 
-/* Uint4x32 to byte uniform */
-int8_t uint4x32_to_byte_uniform(uint4 x) {
+  ("uint4x32_to_byte_uniform", {|int8_t uint4x32_to_byte_uniform(uint4 x) {
     return int8_t(x.x & 0xFF);
-}
+}|}, []);
 
-/* Uint4x32 to uint16 uniform */
-uint16_t uint4x32_to_uint16_uniform(uint4 x) {
+  ("uint4x32_to_uint16_uniform", {|uint16_t uint4x32_to_uint16_uniform(uint4 x) {
     return uint16_t(x.x & 0xFFFF);
-}
+}|}, []);
 
-/* Uint4x32 to bfloat16 uniform */
-uint16_t uint4x32_to_bfloat16_uniform(uint4 x) {
+  ("uint4x32_to_bfloat16_uniform", {|uint16_t uint4x32_to_bfloat16_uniform(uint4 x) {
     float f = uint32_to_single_uniform(x.x);
     return uint16_t(as_type<uint32_t>(f) >> 16);
-}
+}|}, ["uint32_to_single_uniform"]);
 
-/* Uint4x32 to float16 uniform */
-half uint4x32_to_half_uniform(uint4 x) {
+  ("uint4x32_to_half_uniform", {|half uint4x32_to_half_uniform(uint4 x) {
     float f = uint32_to_single_uniform(x.x);
     return half(f);
-}
+}|}, ["uint32_to_single_uniform"]);
 
-/* Uint4x32 to fp8 uniform */
-uint8_t uint4x32_to_fp8_uniform(uint4 x) {
+  ("uint4x32_to_fp8_uniform", {|uint8_t uint4x32_to_fp8_uniform(uint4 x) {
     return uint8_t(x.x & 0xFF);
-}
+}|}, []);
 
-/* Vectorized conversion functions that use all 128 bits efficiently */
-
-/* Convert uint4x32 to 4 floats in [0, 1) */
-float4_t uint4x32_to_single_uniform_vec(uint4 x) {
+  ("uint4x32_to_single_uniform_vec", {|float4_t uint4x32_to_single_uniform_vec(uint4 x) {
     float4_t result;
     result.v.x = uint32_to_single_uniform(x.x);
     result.v.y = uint32_to_single_uniform(x.y);
     result.v.z = uint32_to_single_uniform(x.z);
     result.v.w = uint32_to_single_uniform(x.w);
     return result;
-}
+}|}, ["float4_t"; "uint32_to_single_uniform"]);
 
-/* Convert uint4x32 to 2 floats in [0, 1) - Metal lacks double precision */
-float2_t uint4x32_to_double_uniform_vec(uint4 x) {
+  ("uint4x32_to_double_uniform_vec", {|float2_t uint4x32_to_double_uniform_vec(uint4 x) {
     float2_t result;
     uint64_t combined1 = (uint64_t(x.y) << 32) | x.x;
     uint64_t combined2 = (uint64_t(x.w) << 32) | x.z;
     result.v.x = float(combined1) * (1.0f / 18446744073709551616.0f);
     result.v.y = float(combined2) * (1.0f / 18446744073709551616.0f);
     return result;
-}
+}|}, ["float2_t"]);
 
-/* Convert uint4x32 to 4 int32s - full range */
-int32x4_t uint4x32_to_int32_uniform_vec(uint4 x) {
+  ("uint4x32_to_int32_uniform_vec", {|int32x4_t uint4x32_to_int32_uniform_vec(uint4 x) {
     int32x4_t result;
     result.v = int4(x);
     return result;
-}
+}|}, ["int32x4_t"]);
 
-/* Convert uint4x32 to 2 int64s - full range */
-int64x2_t uint4x32_to_int64_uniform_vec(uint4 x) {
+  ("uint4x32_to_int64_uniform_vec", {|int64x2_t uint4x32_to_int64_uniform_vec(uint4 x) {
     int64x2_t result;
     result.v[0] = (int64_t(x.y) << 32) | x.x;
     result.v[1] = (int64_t(x.w) << 32) | x.z;
     return result;
-}
+}|}, ["int64x2_t"]);
 
-/* Convert uint4x32 to 4 uint32s - full range */
-uint4 uint4x32_to_uint32_uniform_vec(uint4 x) {
+  ("uint4x32_to_uint32_uniform_vec", {|uint4 uint4x32_to_uint32_uniform_vec(uint4 x) {
     return x;
-}
+}|}, []);
 
-/* Convert uint4x32 to 2 uint64s - full range */
-uint64x2_t uint4x32_to_uint64_uniform_vec(uint4 x) {
+  ("uint4x32_to_uint64_uniform_vec", {|uint64x2_t uint4x32_to_uint64_uniform_vec(uint4 x) {
     uint64x2_t result;
     result.v[0] = (uint64_t(x.y) << 32) | x.x;
     result.v[1] = (uint64_t(x.w) << 32) | x.z;
     return result;
-}
+}|}, ["uint64x2_t"]);
 
-/* Convert uint4x32 to 16 int8s - full range */
-int8x16_t uint4x32_to_byte_uniform_vec(uint4 x) {
+  ("uint4x32_to_byte_uniform_vec", {|int8x16_t uint4x32_to_byte_uniform_vec(uint4 x) {
     int8x16_t result;
     uint4 v = x;
     for (int i = 0; i < 4; i++) {
@@ -266,10 +238,9 @@ int8x16_t uint4x32_to_byte_uniform_vec(uint4 x) {
         result.v[i*4 + 3] = int8_t((val >> 24) & 0xFF);
     }
     return result;
-}
+}|}, ["int8x16_t"]);
 
-/* Convert uint4x32 to 8 uint16s - full range */
-uint16x8_t uint4x32_to_uint16_uniform_vec(uint4 x) {
+  ("uint4x32_to_uint16_uniform_vec", {|uint16x8_t uint4x32_to_uint16_uniform_vec(uint4 x) {
     uint16x8_t result;
     uint4 v = x;
     for (int i = 0; i < 4; i++) {
@@ -278,10 +249,9 @@ uint16x8_t uint4x32_to_uint16_uniform_vec(uint4 x) {
         result.v[i*2 + 1] = uint16_t((val >> 16) & 0xFFFF);
     }
     return result;
-}
+}|}, ["uint16x8_t"]);
 
-/* Convert uint4x32 to 8 bfloat16s uniform */
-uint16x8_t uint4x32_to_bfloat16_uniform_vec(uint4 x) {
+  ("uint4x32_to_bfloat16_uniform_vec", {|uint16x8_t uint4x32_to_bfloat16_uniform_vec(uint4 x) {
     uint16x8_t result;
     uint4 v = x;
     for (int i = 0; i < 4; i++) {
@@ -292,10 +262,9 @@ uint16x8_t uint4x32_to_bfloat16_uniform_vec(uint4 x) {
         result.v[i*2 + 1] = uint16_t(as_type<uint32_t>(f2) >> 16);
     }
     return result;
-}
+}|}, ["uint16x8_t"]);
 
-/* Convert uint4x32 to 8 float16s uniform */
-half8_t uint4x32_to_half_uniform_vec(uint4 x) {
+  ("uint4x32_to_half_uniform_vec", {|half8_t uint4x32_to_half_uniform_vec(uint4 x) {
     half8_t result;
     uint4 v = x;
     for (int i = 0; i < 4; i++) {
@@ -306,10 +275,9 @@ half8_t uint4x32_to_half_uniform_vec(uint4 x) {
         result.v[i*2 + 1] = half(f2);
     }
     return result;
-}
+}|}, ["half8_t"]);
 
-/* Convert uint4x32 to 16 fp8s uniform */
-uint8x16_t uint4x32_to_fp8_uniform_vec(uint4 x) {
+  ("uint4x32_to_fp8_uniform_vec", {|uint8x16_t uint4x32_to_fp8_uniform_vec(uint4 x) {
     uint8x16_t result;
     uint4 v = x;
     for (int i = 0; i < 4; i++) {
@@ -320,54 +288,53 @@ uint8x16_t uint4x32_to_fp8_uniform_vec(uint4 x) {
         result.v[i*4 + 3] = uint8_t((val >> 24) & 0xFF);
     }
     return result;
-}
+}|}, ["uint8x16_t"]);
 
-/* Conversion functions from various precisions to uint4x32 */
-uint4 single_to_uint4x32(float x) {
+  ("single_to_uint4x32", {|uint4 single_to_uint4x32(float x) {
     uint32_t bits = as_type<uint32_t>(x);
     return uint4(bits, 0, 0, 0);
-}
+}|}, []);
 
-uint4 double_to_uint4x32(float x) {
+  ("double_to_uint4x32", {|uint4 double_to_uint4x32(float x) {
     /* Metal doesn't have native double support, use float fallback */
     uint32_t bits = as_type<uint32_t>(x);
     return uint4(bits, 0, 0, 0);
-}
+}|}, []);
 
-uint4 int32_to_uint4x32(int32_t x) {
+  ("int32_to_uint4x32", {|uint4 int32_to_uint4x32(int32_t x) {
     return uint4(uint32_t(x), 0, 0, 0);
-}
+}|}, []);
 
-uint4 int64_to_uint4x32(int64_t x) {
+  ("int64_to_uint4x32", {|uint4 int64_to_uint4x32(int64_t x) {
     uint64_t bits = uint64_t(x);
     return uint4(uint32_t(bits & 0xFFFFFFFF), uint32_t(bits >> 32), 0, 0);
-}
+}|}, []);
 
-uint4 uint32_to_uint4x32(uint32_t x) {
+  ("uint32_to_uint4x32", {|uint4 uint32_to_uint4x32(uint32_t x) {
     return uint4(x, 0, 0, 0);
-}
+}|}, []);
 
-uint4 uint64_to_uint4x32(uint64_t x) {
+  ("uint64_to_uint4x32", {|uint4 uint64_to_uint4x32(uint64_t x) {
     return uint4(uint32_t(x & 0xFFFFFFFF), uint32_t(x >> 32), 0, 0);
-}
+}|}, []);
 
-uint4 byte_to_uint4x32(int8_t x) {
+  ("byte_to_uint4x32", {|uint4 byte_to_uint4x32(int8_t x) {
     return uint4(uint32_t(x), 0, 0, 0);
-}
+}|}, []);
 
-uint4 uint16_to_uint4x32(uint16_t x) {
+  ("uint16_to_uint4x32", {|uint4 uint16_to_uint4x32(uint16_t x) {
     return uint4(uint32_t(x), 0, 0, 0);
-}
+}|}, []);
 
-uint4 bfloat16_to_uint4x32(uint16_t x) {
+  ("bfloat16_to_uint4x32", {|uint4 bfloat16_to_uint4x32(uint16_t x) {
     return uint4(uint32_t(x), 0, 0, 0);
-}
+}|}, []);
 
-uint4 half_to_uint4x32(uint16_t x) {
+  ("half_to_uint4x32", {|uint4 half_to_uint4x32(uint16_t x) {
     return uint4(uint32_t(x), 0, 0, 0);
-}
+}|}, []);
 
-uint4 fp8_to_uint4x32(uint8_t x) {
+  ("fp8_to_uint4x32", {|uint4 fp8_to_uint4x32(uint8_t x) {
     return uint4(uint32_t(x), 0, 0, 0);
-}
-|}
+}|}, []);
+]