-
Notifications
You must be signed in to change notification settings - Fork 1.1k
Description
用grpo微调Qwen2.5-VL-3B, gpu利用率一直跳来跳去,如上图,利用率有时是0有时是90,总体利用率很低,训练的比较慢,请问有办法可以提升一下gpu使用率吗?微调命令如下:
CUDA_VISIBLE_DEVICES=6,7
NPROC_PER_NODE=2
MAX_PIXELS=200704
swift rlhf
--rlhf_type grpo
--model /workspace/codes/Qwen2.5-VL-main/models/Qwen2.5-VL-3B-Instruct
--train_type lora
--freeze_aligner false
--freeze_vit false
--lora_rank 16
--lora_alpha 64
--dataset /workspace/codes/ms-swift/data/GRPO/train.jsonl
--val_dataset /workspace/codes/ms-swift/data/GRPO/val.jsonl
--acc_strategy seq
--torch_dtype bfloat16
--num_train_epochs 5
--max_length 2048
--per_device_train_batch_size 2
--per_device_eval_batch_size 2
--num_generations 4
--gradient_accumulation_steps 1
--eval_steps 2000
--save_steps 2000
--learning_rate 1e-6
--save_total_limit 50
--logging_steps 5
--output_dir output
--warmup_ratio 0.05
--dataloader_num_workers 8
--max_completion_length 1024
--external_plugins examples/train/grpo/plugin/plugin.py
--reward_funcs custom_acc custom_format
--temperature 1.0
--top_p 1.0
--top_k 80
--log_completions true
--async_generate false
--move_model_batches 16
--offload_optimizer true
--offload_model true
--gc_collect_after_offload true
--sleep_level 1
--num_infer_workers 2
--deepspeed zero3_offload
--use_vllm true
--vllm_gpu_memory_utilization 0.5
--vllm_max_model_len 2048
--tensor_parallel_size 2
有没有可能让gpu利用率比较稳定的维持在七八十以上?麻烦大佬有空的话回复一下,十分感谢!
