Claude's third pass at adding BF16, FP8: proper conversions in pure C

lukstafi · lukstafi · commit 367ff3b7b6ec · 2025-05-30T23:17:58.000+02:00
Claude decided to provide full definitions to inline rather than just headers for jitted C sources, for performance.
diff --git a/arrayjit/lib/arrayjit_stubs.c b/arrayjit/lib/arrayjit_stubs.c
@@ -4,44 +4,34 @@
 #include <math.h>
 #include <stdint.h>
 
-/* BFloat16 to Float conversion */
-CAMLprim value arrayjit_bfloat16_to_float(value v_bf16)
+/* Pure C conversion functions for use in C backends */
+
+/* BFloat16 to Float conversion (C function) */
+static inline float bfloat16_to_float(uint16_t bf16)
 {
-  CAMLparam1(v_bf16);
-  uint16_t bf16 = (uint16_t)Int_val(v_bf16);
-  
   /* BFloat16 format: 1 sign bit, 8 exponent bits, 7 mantissa bits
      To convert to float32, we shift left by 16 bits */
   uint32_t f32 = ((uint32_t)bf16) << 16;
-  float result = *((float*)&f32);
-  
-  CAMLreturn(caml_copy_double((double)result));
+  return *((float*)&f32);
 }
 
-/* Float to BFloat16 conversion */
-CAMLprim value arrayjit_float_to_bfloat16(value v_float) 
+/* Float to BFloat16 conversion (C function) */
+static inline uint16_t float_to_bfloat16(float f)
 {
-  CAMLparam1(v_float);
-  float f = (float)Double_val(v_float);
   uint32_t f32 = *((uint32_t*)&f);
   
   /* Round to nearest even */
   uint32_t rounded = f32 + 0x7FFF + ((f32 >> 16) & 1);
-  uint16_t bf16 = (uint16_t)(rounded >> 16);
-  
-  CAMLreturn(Val_int(bf16));
+  return (uint16_t)(rounded >> 16);
 }
 
-/* FP8 E5M2 format to Float conversion 
+/* FP8 E5M2 format to Float conversion (C function)
    Format: 1 sign bit, 5 exponent bits, 2 mantissa bits */
-CAMLprim value arrayjit_fp8_to_float(value v_fp8)
+static inline float fp8_to_float(uint8_t fp8)
 {
-  CAMLparam1(v_fp8);
-  uint8_t fp8 = (uint8_t)Int_val(v_fp8);
-  
   /* Handle zero */
   if (fp8 == 0) {
-    CAMLreturn(caml_copy_double(0.0));
+    return 0.0f;
   }
   
   uint32_t sign = (fp8 >> 7) & 1;
@@ -51,47 +41,43 @@ CAMLprim value arrayjit_fp8_to_float(value v_fp8)
   /* Handle special cases */
   if (exp == 0x1F) {  /* Infinity or NaN */
     if (mant == 0) {
-      float inf = sign ? -INFINITY : INFINITY;
-      CAMLreturn(caml_copy_double((double)inf));
+      return sign ? -INFINITY : INFINITY;
     } else {
-      CAMLreturn(caml_copy_double((double)NAN));
+      return NAN;
     }
   }
   
   /* Denormalized numbers */
   if (exp == 0) {
     float result = ldexpf((float)mant / 4.0f, -14);
     if (sign) result = -result;
-    CAMLreturn(caml_copy_double((double)result));
+    return result;
   }
   
   /* Normalized numbers */
   float result = (1.0f + (float)mant * 0.25f) * ldexpf(1.0f, (int)exp - 15);
   if (sign) result = -result;
   
-  CAMLreturn(caml_copy_double((double)result));
+  return result;
 }
 
-/* Float to FP8 E5M2 conversion */
-CAMLprim value arrayjit_float_to_fp8(value v_float)
+/* Float to FP8 E5M2 conversion (C function) */
+static inline uint8_t float_to_fp8(float f)
 {
-  CAMLparam1(v_float);
-  float f = (float)Double_val(v_float);
-  
   /* Handle zero */
   if (f == 0.0f) {
-    CAMLreturn(Val_int(0));
+    return 0;
   }
   
   uint32_t sign = (f < 0) ? 1 : 0;
   f = fabsf(f);
   
   /* Handle special cases */
   if (isinf(f)) {
-    CAMLreturn(Val_int((sign << 7) | 0x7C));  /* Infinity: exp=0x1F, mant=0 */
+    return (sign << 7) | 0x7C;  /* Infinity: exp=0x1F, mant=0 */
   }
   if (isnan(f)) {
-    CAMLreturn(Val_int((sign << 7) | 0x7F));  /* NaN: exp=0x1F, mant!=0 */
+    return (sign << 7) | 0x7F;  /* NaN: exp=0x1F, mant!=0 */
   }
   
   /* Get exponent and mantissa */
@@ -102,26 +88,63 @@ CAMLprim value arrayjit_float_to_fp8(value v_float)
   /* Clamp to representable range */
   if (exp < 0) {
     /* Underflow to zero */
-    CAMLreturn(Val_int(sign << 7));
+    return sign << 7;
   }
   if (exp > 30) {
     /* Overflow to infinity */
-    CAMLreturn(Val_int((sign << 7) | 0x7C));
+    return (sign << 7) | 0x7C;
   }
   
   /* Handle denormalized numbers */
   if (exp == 0) {
     float denorm_mant = f * ldexpf(1.0f, 14) * 4.0f;
     uint32_t mant_bits = (uint32_t)(denorm_mant + 0.5f);
     if (mant_bits > 3) mant_bits = 3;
-    CAMLreturn(Val_int((sign << 7) | mant_bits));
+    return (sign << 7) | mant_bits;
   }
   
   /* Normalized numbers: convert mantissa from [0.5, 1) to [0, 0.75] */
   mant_f = (mant_f - 0.5f) * 4.0f;
   uint32_t mant_bits = (uint32_t)(mant_f + 0.5f);  /* Round to nearest */
   if (mant_bits > 3) mant_bits = 3;
   
-  uint8_t result = (uint8_t)((sign << 7) | ((exp & 0x1F) << 2) | (mant_bits & 0x3));
-  CAMLreturn(Val_int(result));
+  return (uint8_t)((sign << 7) | ((exp & 0x1F) << 2) | (mant_bits & 0x3));
+}
+
+/* OCaml wrapper functions */
+
+/* BFloat16 to Float conversion (OCaml wrapper) */
+CAMLprim value arrayjit_bfloat16_to_float(value v_bf16)
+{
+  CAMLparam1(v_bf16);
+  uint16_t bf16 = (uint16_t)Int_val(v_bf16);
+  float result = bfloat16_to_float(bf16);
+  CAMLreturn(caml_copy_double((double)result));
+}
+
+/* Float to BFloat16 conversion (OCaml wrapper) */
+CAMLprim value arrayjit_float_to_bfloat16(value v_float) 
+{
+  CAMLparam1(v_float);
+  float f = (float)Double_val(v_float);
+  uint16_t bf16 = float_to_bfloat16(f);
+  CAMLreturn(Val_int(bf16));
+}
+
+/* FP8 E5M2 format to Float conversion (OCaml wrapper) */
+CAMLprim value arrayjit_fp8_to_float(value v_fp8)
+{
+  CAMLparam1(v_fp8);
+  uint8_t fp8 = (uint8_t)Int_val(v_fp8);
+  float result = fp8_to_float(fp8);
+  CAMLreturn(caml_copy_double((double)result));
+}
+
+/* Float to FP8 E5M2 conversion (OCaml wrapper) */
+CAMLprim value arrayjit_float_to_fp8(value v_float)
+{
+  CAMLparam1(v_float);
+  float f = (float)Double_val(v_float);
+  uint8_t fp8 = float_to_fp8(f);
+  CAMLreturn(Val_int(fp8));
 } 
diff --git a/arrayjit/lib/c_syntax.ml b/arrayjit/lib/c_syntax.ml
@@ -91,7 +91,62 @@ struct
   let arg_int_prefix = "const int "
   let extra_args = []
   let includes = [ "<stdio.h>"; "<stdlib.h>"; "<string.h>"; "<math.h>" ]
-  let extra_declarations = []
+  let extra_declarations = [
+    (* BFloat16 conversion functions *)
+    "static inline float bfloat16_to_float(unsigned short bf16) {";
+    "  unsigned int f32 = ((unsigned int)bf16) << 16;";
+    "  return *((float*)&f32);";
+    "}";
+    "";
+    "static inline unsigned short float_to_bfloat16(float f) {";
+    "  unsigned int f32 = *((unsigned int*)&f);";
+    "  unsigned int rounded = f32 + 0x7FFF + ((f32 >> 16) & 1);";
+    "  return (unsigned short)(rounded >> 16);";
+    "}";
+    "";
+    (* FP8 E5M2 conversion functions *)
+    "static inline float fp8_to_float(unsigned char fp8) {";
+    "  if (fp8 == 0) return 0.0f;";
+    "  unsigned int sign = (fp8 >> 7) & 1;";
+    "  unsigned int exp = (fp8 >> 2) & 0x1F;";
+    "  unsigned int mant = fp8 & 0x3;";
+    "  if (exp == 0x1F) {";
+    "    if (mant == 0) return sign ? -INFINITY : INFINITY;";
+    "    else return NAN;";
+    "  }";
+    "  if (exp == 0) {";
+    "    float result = ldexpf((float)mant / 4.0f, -14);";
+    "    if (sign) result = -result;";
+    "    return result;";
+    "  }";
+    "  float result = (1.0f + (float)mant * 0.25f) * ldexpf(1.0f, (int)exp - 15);";
+    "  if (sign) result = -result;";
+    "  return result;";
+    "}";
+    "";
+    "static inline unsigned char float_to_fp8(float f) {";
+    "  if (f == 0.0f) return 0;";
+    "  unsigned int sign = (f < 0) ? 1 : 0;";
+    "  f = fabsf(f);";
+    "  if (isinf(f)) return (sign << 7) | 0x7C;";
+    "  if (isnan(f)) return (sign << 7) | 0x7F;";
+    "  int exp_val;";
+    "  float mant_f = frexpf(f, &exp_val);";
+    "  int exp = exp_val + 14;";
+    "  if (exp < 0) return sign << 7;";
+    "  if (exp > 30) return (sign << 7) | 0x7C;";
+    "  if (exp == 0) {";
+    "    float denorm_mant = f * ldexpf(1.0f, 14) * 4.0f;";
+    "    unsigned int mant_bits = (unsigned int)(denorm_mant + 0.5f);";
+    "    if (mant_bits > 3) mant_bits = 3;";
+    "    return (sign << 7) | mant_bits;";
+    "  }";
+    "  mant_f = (mant_f - 0.5f) * 4.0f;";
+    "  unsigned int mant_bits = (unsigned int)(mant_f + 0.5f);";
+    "  if (mant_bits > 3) mant_bits = 3;";
+    "  return (unsigned char)((sign << 7) | ((exp & 0x1F) << 2) | (mant_bits & 0x3));";
+    "}";
+  ]
   let typ_of_prec = Ops.c_typ_of_prec
   let float_log_style = if Input.full_printf_support then "%g" else "%de-3"
 
diff --git a/arrayjit/lib/ops.ml b/arrayjit/lib/ops.ml
@@ -519,6 +519,34 @@ let c_convert_precision ~from ~to_ =
   | Fp8_prec _, Fp8_prec _
   | Void_prec, Void_prec ->
       ("", "")
+  (* BFloat16 conversions *)
+  | Bfloat16_prec _, Single_prec _ -> ("bfloat16_to_float(", ")")
+  | Single_prec _, Bfloat16_prec _ -> ("float_to_bfloat16(", ")")
+  | Bfloat16_prec _, Double_prec _ -> ("(double)bfloat16_to_float(", ")")
+  | Double_prec _, Bfloat16_prec _ -> ("float_to_bfloat16((float)", ")")
+  (* FP8 conversions *)
+  | Fp8_prec _, Single_prec _ -> ("fp8_to_float(", ")")
+  | Single_prec _, Fp8_prec _ -> ("float_to_fp8(", ")")
+  | Fp8_prec _, Double_prec _ -> ("(double)fp8_to_float(", ")")
+  | Double_prec _, Fp8_prec _ -> ("float_to_fp8((float)", ")")
+  (* Conversions involving BFloat16 and other types *)
+  | Bfloat16_prec _, Half_prec _ -> ("(_Float16)bfloat16_to_float(", ")")
+  | Half_prec _, Bfloat16_prec _ -> ("float_to_bfloat16((float)", ")")
+  | Bfloat16_prec _, (Byte_prec _ | Uint16_prec _ | Int32_prec _) -> 
+      ("(" ^ c_typ_of_prec to_ ^ ")bfloat16_to_float(", ")")
+  | (Byte_prec _ | Uint16_prec _ | Int32_prec _), Bfloat16_prec _ -> 
+      ("float_to_bfloat16((float)", ")")
+  (* Conversions involving FP8 and other types *)
+  | Fp8_prec _, Half_prec _ -> ("(_Float16)fp8_to_float(", ")")
+  | Half_prec _, Fp8_prec _ -> ("float_to_fp8((float)", ")")
+  | Fp8_prec _, (Byte_prec _ | Uint16_prec _ | Int32_prec _) -> 
+      ("(" ^ c_typ_of_prec to_ ^ ")fp8_to_float(", ")")
+  | (Byte_prec _ | Uint16_prec _ | Int32_prec _), Fp8_prec _ -> 
+      ("float_to_fp8((float)", ")")
+  (* BFloat16 <-> FP8 conversions *)
+  | Bfloat16_prec _, Fp8_prec _ -> ("float_to_fp8(bfloat16_to_float(", "))")
+  | Fp8_prec _, Bfloat16_prec _ -> ("float_to_bfloat16(fp8_to_float(", "))")
+  (* Default case for all other conversions *)
   | _ -> ("(" ^ c_typ_of_prec to_ ^ ")(", ")")
 
 (** {2 *** Global references ***} *)