Skip to content

GRPO微调,gpu利用率很低 #3693

@Stephen-K1

Description

@Stephen-K1

Image

用grpo微调Qwen2.5-VL-3B, gpu利用率一直跳来跳去,如上图,利用率有时是0有时是90,总体利用率很低,训练的比较慢,请问有办法可以提升一下gpu使用率吗?微调命令如下:

CUDA_VISIBLE_DEVICES=6,7
NPROC_PER_NODE=2
MAX_PIXELS=200704
swift rlhf
--rlhf_type grpo
--model /workspace/codes/Qwen2.5-VL-main/models/Qwen2.5-VL-3B-Instruct
--train_type lora
--freeze_aligner false
--freeze_vit false
--lora_rank 16
--lora_alpha 64
--dataset /workspace/codes/ms-swift/data/GRPO/train.jsonl
--val_dataset /workspace/codes/ms-swift/data/GRPO/val.jsonl
--acc_strategy seq
--torch_dtype bfloat16
--num_train_epochs 5
--max_length 2048
--per_device_train_batch_size 2
--per_device_eval_batch_size 2
--num_generations 4
--gradient_accumulation_steps 1
--eval_steps 2000
--save_steps 2000
--learning_rate 1e-6
--save_total_limit 50
--logging_steps 5
--output_dir output
--warmup_ratio 0.05
--dataloader_num_workers 8
--max_completion_length 1024
--external_plugins examples/train/grpo/plugin/plugin.py
--reward_funcs custom_acc custom_format
--temperature 1.0
--top_p 1.0
--top_k 80
--log_completions true
--async_generate false
--move_model_batches 16
--offload_optimizer true
--offload_model true
--gc_collect_after_offload true
--sleep_level 1
--num_infer_workers 2
--deepspeed zero3_offload
--use_vllm true
--vllm_gpu_memory_utilization 0.5
--vllm_max_model_len 2048
--tensor_parallel_size 2

有没有可能让gpu利用率比较稳定的维持在七八十以上?麻烦大佬有空的话回复一下,十分感谢!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions