大部分的示例和config都是使用int8/int4进行lora训练;这边测试使用fp16进行lora训练时,加载模型时,使用`fp16`,`SupervisedFinetune`里会调用`prepare_model_for_kbit_training`,该函数会把所有非8bit的参数全部转换为fp32;这就导致了即使是7b的模型,lora(fp16)也会需要40GB以上的显存。
大部分的示例和config都是使用int8/int4进行lora训练;这边测试使用fp16进行lora训练时,加载模型时,使用
fp16,SupervisedFinetune里会调用prepare_model_for_kbit_training,该函数会把所有非8bit的参数全部转换为fp32;这就导致了即使是7b的模型,lora(fp16)也会需要40GB以上的显存。