change the quantization config format to work with the new style at D…

…eepSpeed
huggingface · RezaYazdaniAminabadi · Nov 18, 2022 · Nov 18, 2022 · Nov 19, 2022 · Nov 21, 2022
commit 99cd7c9d8b2f0228145d0134d0a9570a6ac8cf71
diff --git a/bloom-inference-scripts/bloom-ds-inference.py b/bloom-inference-scripts/bloom-ds-inference.py
@@ -174,7 +174,10 @@ def write_checkponts_json():
     kwargs = dict(replace_with_kernel_inject=True)
     # specify number of bits to choose between in4/int8
     if args.dtype == 'int8' or args.dtype == 'int4':
-        kwargs.update({'quantization_bits': 8 if args.dtype == 'int8' else 4})
+        quant_config = "{'quant': {'enabled':True, 'weight':{'num_bits': 8}}}"
+        kwargs.update(eval(quant_config))
+        if args.dtype == 'int4':
+            kwargs['quant']['weight']['num_bits'] = 4
 else:
     kwargs = dict(injection_policy={BloomBlock: ("self_attention.dense", "mlp.dense_4h_to_h")})