ahrefs
diff --git a/‎arrayjit/lib/assignments.ml‎
Lines changed: 9 additions & 2 deletions b/‎arrayjit/lib/assignments.ml‎
Lines changed: 9 additions & 2 deletions
diff --git a/‎arrayjit/lib/builtins.c‎
Lines changed: 115 additions & 1 deletion b/‎arrayjit/lib/builtins.c‎
Lines changed: 115 additions & 1 deletion
diff --git a/‎arrayjit/lib/builtins.msl‎
Lines changed: 117 additions & 1 deletion b/‎arrayjit/lib/builtins.msl‎
Lines changed: 117 additions & 1 deletion
@@ -288,8 +288,15 @@ let%diagn2_sexp to_low_level code =
           (* For now, we know the only vec_unop is Uint4x32_to_prec_uniform *)
           let length = match op with
             | Ops.Uint4x32_to_prec_uniform ->
-                (* FIXME: Calculate length based on precision *)
-                16  (* Default for now, should be calculated from target precision *)
+                (* Calculate length based on precision - how many values we can extract from 128 bits *)
+                let target_prec = Lazy.force lhs.prec in
+                match target_prec with
+                | Ops.Byte_prec _ | Ops.Fp8_prec _ -> 16  (* 8-bit values *)
+                | Ops.Uint16_prec _ | Ops.Half_prec _ | Ops.Bfloat16_prec _ -> 8  (* 16-bit values *)
+                | Ops.Int32_prec _ | Ops.Single_prec _ -> 4  (* 32-bit values *)
+                | Ops.Double_prec _ -> 2  (* 64-bit values *)
+                | Ops.Uint4x32_prec _ -> 1  (* 128-bit value *)
+                | Ops.Void_prec -> failwith "Cannot use vector operation with void precision"
           in
           Set_from_vec { tn = lhs; idcs = lhs_idcs; length; vec_unop = op; arg = rhs_ll; debug = "" }
         in
 
@@ -137,8 +137,18 @@ extern uint4x32_t arrayjit_threefry4x32(uint4x32_t key, uint4x32_t counter) {
     return result;
 }
 
+/* Vector types for efficient extraction of multiple values */
+typedef struct { float v[4]; } float4_t;
+typedef struct { double v[2]; } double2_t;
+typedef struct { int32_t v[4]; } int32x4_t;
+typedef struct { int64_t v[2]; } int64x2_t;
+typedef struct { int8_t v[16]; } int8x16_t;
+typedef struct { uint16_t v[8]; } uint16x8_t;
+typedef struct { uint8_t v[16]; } uint8x16_t;
+typedef struct { _Float16 v[8]; } half8_t;
+
 /* Conversion functions from uint4x32 to various precisions uniformly */
-// FIXME: we need to return a vector of values, not just a single value
+// These return vectors to efficiently use all random bits
 
 /* Convert to float in [0, 1) */
 extern float uint32_to_single_uniform(uint32_t x) {
@@ -228,6 +238,110 @@ extern uint8_t uint4x32_to_fp8_uniform(uint4x32_t x) {
     return (uint8_t)(x.v[0] & 0xFF);
 }
 
+/* Vectorized conversion functions that use all 128 bits efficiently */
+
+/* Convert uint4x32 to 4 floats in [0, 1) */
+extern float4_t uint4x32_to_single_uniform_vec(uint4x32_t x) {
+    float4_t result;
+    for (int i = 0; i < 4; i++) {
+        result.v[i] = uint32_to_single_uniform(x.v[i]);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 2 doubles in [0, 1) */
+extern double2_t uint4x32_to_double_uniform_vec(uint4x32_t x) {
+    double2_t result;
+    uint64_t combined1 = ((uint64_t)x.v[1] << 32) | x.v[0];
+    uint64_t combined2 = ((uint64_t)x.v[3] << 32) | x.v[2];
+    result.v[0] = combined1 * (1.0 / 18446744073709551616.0);
+    result.v[1] = combined2 * (1.0 / 18446744073709551616.0);
+    return result;
+}
+
+/* Convert uint4x32 to 4 int32s - full range */
+extern int32x4_t uint4x32_to_int32_uniform_vec(uint4x32_t x) {
+    int32x4_t result;
+    for (int i = 0; i < 4; i++) {
+        result.v[i] = (int32_t)x.v[i];
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 2 int64s - full range */
+extern int64x2_t uint4x32_to_int64_uniform_vec(uint4x32_t x) {
+    int64x2_t result;
+    result.v[0] = (int64_t)(((uint64_t)x.v[1] << 32) | x.v[0]);
+    result.v[1] = (int64_t)(((uint64_t)x.v[3] << 32) | x.v[2]);
+    return result;
+}
+
+
+/* Convert uint4x32 to 16 int8s - full range */
+extern int8x16_t uint4x32_to_byte_uniform_vec(uint4x32_t x) {
+    int8x16_t result;
+    for (int i = 0; i < 4; i++) {
+        result.v[i*4 + 0] = (int8_t)(x.v[i] & 0xFF);
+        result.v[i*4 + 1] = (int8_t)((x.v[i] >> 8) & 0xFF);
+        result.v[i*4 + 2] = (int8_t)((x.v[i] >> 16) & 0xFF);
+        result.v[i*4 + 3] = (int8_t)((x.v[i] >> 24) & 0xFF);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 8 uint16s - full range */
+extern uint16x8_t uint4x32_to_uint16_uniform_vec(uint4x32_t x) {
+    uint16x8_t result;
+    for (int i = 0; i < 4; i++) {
+        result.v[i*2 + 0] = (uint16_t)(x.v[i] & 0xFFFF);
+        result.v[i*2 + 1] = (uint16_t)((x.v[i] >> 16) & 0xFFFF);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 8 bfloat16s uniform */
+extern uint16x8_t uint4x32_to_bfloat16_uniform_vec(uint4x32_t x) {
+    uint16x8_t result;
+    for (int i = 0; i < 4; i++) {
+        // Convert each uint32 to two bfloat16 values
+        float f1 = ((x.v[i] & 0xFFFF) >> 0) * (1.0f / 65536.0f);
+        float f2 = ((x.v[i] >> 16) & 0xFFFF) * (1.0f / 65536.0f);
+        uint32_t bits1, bits2;
+        memcpy(&bits1, &f1, sizeof(float));
+        memcpy(&bits2, &f2, sizeof(float));
+        result.v[i*2 + 0] = (uint16_t)(bits1 >> 16);
+        result.v[i*2 + 1] = (uint16_t)(bits2 >> 16);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 8 float16s uniform */
+extern half8_t uint4x32_to_half_uniform_vec(uint4x32_t x) {
+    half8_t result;
+    for (int i = 0; i < 4; i++) {
+        // Extract two 16-bit values and convert to float in [0, 1)
+        float f1 = (x.v[i] & 0xFFFF) * (1.0f / 65536.0f);
+        float f2 = ((x.v[i] >> 16) & 0xFFFF) * (1.0f / 65536.0f);
+        
+        // Convert to _Float16
+        result.v[i*2 + 0] = (_Float16)f1;
+        result.v[i*2 + 1] = (_Float16)f2;
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 16 fp8s uniform */
+extern uint8x16_t uint4x32_to_fp8_uniform_vec(uint4x32_t x) {
+    uint8x16_t result;
+    for (int i = 0; i < 4; i++) {
+        result.v[i*4 + 0] = (uint8_t)(x.v[i] & 0xFF);
+        result.v[i*4 + 1] = (uint8_t)((x.v[i] >> 8) & 0xFF);
+        result.v[i*4 + 2] = (uint8_t)((x.v[i] >> 16) & 0xFF);
+        result.v[i*4 + 3] = (uint8_t)((x.v[i] >> 24) & 0xFF);
+    }
+    return result;
+}
+
 /* Conversion functions from various precisions to uint4x32_t */
 extern  uint4x32_t single_to_uint4x32(float x) {
     uint32_t bits;
 
@@ -130,8 +130,18 @@ uint4x32_t arrayjit_threefry4x32(uint4x32_t key, uint4x32_t counter) {
     return result;
 }
 
+/* Vector types for efficient extraction of multiple values */
+struct float4_t { float4 v; };
+struct float2_t { float2 v; };  /* Using float2 since Metal lacks double */
+struct int32x4_t { int4 v; };
+struct int64x2_t { int64_t v[2]; };
+struct int8x16_t { int8_t v[16]; };
+struct uint16x8_t { uint16_t v[8]; };
+struct uint8x16_t { uint8_t v[16]; };
+struct half8_t { half v[8]; };
+
 /* Conversion functions from uint4x32 to various precisions uniformly */
-// FIXME: we need to return a vector of values, not just a single value
+// These return vectors to efficiently use all random bits
 
 /* Convert to float in [0, 1) */
 inline float uint32_to_single_uniform(uint32_t x) {
@@ -190,4 +200,110 @@ uint16_t uint4x32_to_bfloat16_uniform(uint4x32_t x) {
 half uint4x32_to_half_uniform(uint4x32_t x) {
     float f = uint32_to_single_uniform(x.v.x);
     return half(f);
+}
+
+/* Vectorized conversion functions that use all 128 bits efficiently */
+
+/* Convert uint4x32 to 4 floats in [0, 1) */
+float4_t uint4x32_to_single_uniform_vec(uint4x32_t x) {
+    float4_t result;
+    result.v.x = uint32_to_single_uniform(x.v.x);
+    result.v.y = uint32_to_single_uniform(x.v.y);
+    result.v.z = uint32_to_single_uniform(x.v.z);
+    result.v.w = uint32_to_single_uniform(x.v.w);
+    return result;
+}
+
+/* Convert uint4x32 to 2 floats in [0, 1) - Metal lacks double precision */
+float2_t uint4x32_to_double_uniform_vec(uint4x32_t x) {
+    float2_t result;
+    uint64_t combined1 = (uint64_t(x.v.y) << 32) | x.v.x;
+    uint64_t combined2 = (uint64_t(x.v.w) << 32) | x.v.z;
+    result.v.x = float(combined1) * (1.0f / 18446744073709551616.0f);
+    result.v.y = float(combined2) * (1.0f / 18446744073709551616.0f);
+    return result;
+}
+
+/* Convert uint4x32 to 4 int32s - full range */
+int32x4_t uint4x32_to_int32_uniform_vec(uint4x32_t x) {
+    int32x4_t result;
+    result.v = int4(x.v);
+    return result;
+}
+
+/* Convert uint4x32 to 2 int64s - full range */
+int64x2_t uint4x32_to_i64_uniform_vec(uint4x32_t x) {
+    int64x2_t result;
+    result.v[0] = (int64_t(x.v.y) << 32) | x.v.x;
+    result.v[1] = (int64_t(x.v.w) << 32) | x.v.z;
+    return result;
+}
+
+
+/* Convert uint4x32 to 16 int8s - full range */
+int8x16_t uint4x32_to_i8_uniform_vec(uint4x32_t x) {
+    int8x16_t result;
+    uint4 v = x.v;
+    for (int i = 0; i < 4; i++) {
+        uint32_t val = v[i];
+        result.v[i*4 + 0] = int8_t(val & 0xFF);
+        result.v[i*4 + 1] = int8_t((val >> 8) & 0xFF);
+        result.v[i*4 + 2] = int8_t((val >> 16) & 0xFF);
+        result.v[i*4 + 3] = int8_t((val >> 24) & 0xFF);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 8 uint16s - full range */
+uint16x8_t uint4x32_to_u16_uniform_vec(uint4x32_t x) {
+    uint16x8_t result;
+    uint4 v = x.v;
+    for (int i = 0; i < 4; i++) {
+        uint32_t val = v[i];
+        result.v[i*2 + 0] = uint16_t(val & 0xFFFF);
+        result.v[i*2 + 1] = uint16_t((val >> 16) & 0xFFFF);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 8 bfloat16s uniform */
+uint16x8_t uint4x32_to_bfloat16_uniform_vec(uint4x32_t x) {
+    uint16x8_t result;
+    uint4 v = x.v;
+    for (int i = 0; i < 4; i++) {
+        uint32_t val = v[i];
+        float f1 = float(val & 0xFFFF) * (1.0f / 65536.0f);
+        float f2 = float((val >> 16) & 0xFFFF) * (1.0f / 65536.0f);
+        result.v[i*2 + 0] = uint16_t(as_type<uint32_t>(f1) >> 16);
+        result.v[i*2 + 1] = uint16_t(as_type<uint32_t>(f2) >> 16);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 8 float16s uniform */
+half8_t uint4x32_to_half_uniform_vec(uint4x32_t x) {
+    half8_t result;
+    uint4 v = x.v;
+    for (int i = 0; i < 4; i++) {
+        uint32_t val = v[i];
+        float f1 = float(val & 0xFFFF) * (1.0f / 65536.0f);
+        float f2 = float((val >> 16) & 0xFFFF) * (1.0f / 65536.0f);
+        result.v[i*2 + 0] = half(f1);
+        result.v[i*2 + 1] = half(f2);
+    }
+    return result;
+}
+
+/* Convert uint4x32 to 16 uint8s uniform */
+uint8x16_t uint4x32_to_u8_uniform_vec(uint4x32_t x) {
+    uint8x16_t result;
+    uint4 v = x.v;
+    for (int i = 0; i < 4; i++) {
+        uint32_t val = v[i];
+        result.v[i*4 + 0] = uint8_t(val & 0xFF);
+        result.v[i*4 + 1] = uint8_t((val >> 8) & 0xFF);
+        result.v[i*4 + 2] = uint8_t((val >> 16) & 0xFF);
+        result.v[i*4 + 3] = uint8_t((val >> 24) & 0xFF);
+    }
+    return result;
 }