批次问题

请问下，我用双卡微调的时候，per_device_train_batch_size=1，gradient_accumulation_steps=8的效果和per_device_train_batch_size=4，gradient_accumulation_steps=2的效果一样吗，都是8个样本更新一次参数吗，还是16呀。我在双卡4090lora微调internvl2.5的时候，不管gradient_accumulation_steps设置几，per_device_train_batch_size比4大就炸了，这个正常吗，最多每张卡同时只能加载4个批次吗。