用两张4090微调13b的belle出现oom，单卡则不会 #24

starphantom666 · 2023-06-09T02:17:15Z

我单卡微调没有出现这个情况，多卡出现了，但是我有一张卡已经被占用了15G显存，还剩8g左右，相当于我是8+24g进行多卡微调，这样微调会确实会出现问题？还是我没配置好的问题？

hiyouga · 2023-06-09T02:48:23Z

多卡需要每张卡都有 24G 内存。

starphantom666 · 2023-06-09T02:56:59Z

多卡需要每张卡都有 24G 内存。

Dalao，单卡我这里也有个问题，13b的模型我4bit量化，输入512输出512怎么微调也OOM o(╥﹏╥)o

hiyouga · 2023-06-09T03:29:11Z

GPU 的空闲显存有多少？
从 512 减少到 256 试试呢？

starphantom666 · 2023-06-09T03:34:34Z

GPU 的空闲显存有多少？从 512 减少到 256 试试呢？

降低了可以。还有个问题

from transformers import LlamaForCausalLM, AutoTokenizer
import torch

ckpt = './bloom_13b/'
device = torch.device('cuda')
model = LlamaForCausalLM.from_pretrained(ckpt, device_map={"":0},load_in_8bit=True, low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model.eval()
prompt = "XXXXXXXXXXXXXXXXXXXXXXXXXXX"
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
generate_ids = model.generate(input_ids, max_new_tokens=500, do_sample = False, repetition_penalty=1., eos_token_id=2, bos_token_id=1, pad_token_id=0)
output = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
response = output[len(prompt):]
print(response)

官方的示例对话的结果，对比我用项目里的web demo结果不一致（均为8bit do_sample=False），而且web生成的效果比我用上述官方示例的效果差很多，这是怎么回事？

web demo的参数我在后台都改了，如下
gen_kwargs = {
"input_ids": input_ids,
"do_sample": False,
"top_p": 0.01,
"temperature": 0.99,
"num_beams": 1,
# "max_length": max_length,
"max_new_tokens":500,
"repetition_penalty": 1.0,
"logits_processor": get_logits_processor(),
"streamer": streamer,
"eos_token_id":2,
"bos_token_id":1,
"pad_token_id":0
}

starphantom666 · 2023-06-09T03:35:50Z

web demo的回答惜字如金。。

starphantom666 · 2023-06-12T09:54:16Z

web demo的回答惜字如金。。

已经解决，原来在代码里面，会自动包装问题，导致结果和官方示例不一致，而且还导致回答惜字如金

dengfenglai321 · 2023-07-17T02:43:23Z

web demo的回答惜字如金。。

已经解决，原来在代码里面，会自动包装问题，导致结果和官方示例不一致，而且还导致回答惜字如金

你好，请问怎么修改解决保证该项目与官方回答基本一致？

hiyouga · 2023-07-17T11:20:11Z

@yumulinfeng1 使用指令微调后的模型时候应该在命令行参数中加入 --prompt_template 参数

starphantom666 closed this as completed Jun 12, 2023

hiyouga added the solved This problem has been already solved. label Jun 12, 2023

godfly mentioned this issue Aug 17, 2023

大数据量全参数预训练报错、流式读数据报错 #549

Closed

liwenju0 mentioned this issue Sep 18, 2023

when running tokenizer on datasets，program crashed #954

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

用两张4090微调13b的belle出现oom，单卡则不会 #24

用两张4090微调13b的belle出现oom，单卡则不会 #24

starphantom666 commented Jun 9, 2023

hiyouga commented Jun 9, 2023

starphantom666 commented Jun 9, 2023

hiyouga commented Jun 9, 2023

starphantom666 commented Jun 9, 2023 •

edited

starphantom666 commented Jun 9, 2023

starphantom666 commented Jun 12, 2023

dengfenglai321 commented Jul 17, 2023

hiyouga commented Jul 17, 2023

用两张4090微调13b的belle出现oom，单卡则不会 #24

用两张4090微调13b的belle出现oom，单卡则不会 #24

Comments

starphantom666 commented Jun 9, 2023

hiyouga commented Jun 9, 2023

starphantom666 commented Jun 9, 2023

hiyouga commented Jun 9, 2023

starphantom666 commented Jun 9, 2023 • edited

starphantom666 commented Jun 9, 2023

starphantom666 commented Jun 12, 2023

dengfenglai321 commented Jul 17, 2023

hiyouga commented Jul 17, 2023

starphantom666 commented Jun 9, 2023 •

edited