使用fp16进行lora训练的问题

大部分的示例和config都是使用int8/int4进行lora训练；这边测试使用fp16进行lora训练时，加载模型时，使用`fp16`，`SupervisedFinetune`里会调用`prepare_model_for_kbit_training`，该函数会把所有非8bit的参数全部转换为fp32；这就导致了即使是7b的模型，lora(fp16)也会需要40GB以上的显存。