GRPO微调，gpu利用率很低

![Image](https://github.com/user-attachments/assets/9a56ffd5-0d40-489f-9f81-843230e18fe8)

用grpo微调Qwen2.5-VL-3B, gpu利用率一直跳来跳去，如上图，利用率有时是0有时是90，总体利用率很低，训练的比较慢，请问有办法可以提升一下gpu使用率吗？微调命令如下：

CUDA_VISIBLE_DEVICES=6,7 \
NPROC_PER_NODE=2 \
MAX_PIXELS=200704 \
swift rlhf \
    --rlhf_type grpo \
    --model /workspace/codes/Qwen2.5-VL-main/models/Qwen2.5-VL-3B-Instruct \
    --train_type lora \
    --freeze_aligner false \
    --freeze_vit false \
    --lora_rank 16 \
    --lora_alpha 64 \
    --dataset /workspace/codes/ms-swift/data/GRPO/train.jsonl \
    --val_dataset /workspace/codes/ms-swift/data/GRPO/val.jsonl \
    --acc_strategy seq \
    --torch_dtype bfloat16 \
    --num_train_epochs 5 \
    --max_length 2048 \
    --per_device_train_batch_size 2 \
    --per_device_eval_batch_size 2 \
    --num_generations 4 \
    --gradient_accumulation_steps 1 \
    --eval_steps 2000 \
    --save_steps 2000 \
    --learning_rate 1e-6 \
    --save_total_limit 50 \
    --logging_steps 5 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 8 \
    --max_completion_length 1024 \
    --external_plugins examples/train/grpo/plugin/plugin.py \
    --reward_funcs custom_acc custom_format \
    --temperature 1.0 \
    --top_p 1.0 \
    --top_k 80 \
    --log_completions true \
    --async_generate false \
    --move_model_batches 16 \
    --offload_optimizer true \
    --offload_model true \
    --gc_collect_after_offload true \
    --sleep_level 1 \
    --num_infer_workers 2 \
    --deepspeed zero3_offload \
    --use_vllm true \
    --vllm_gpu_memory_utilization 0.5 \
    --vllm_max_model_len 2048 \
    --tensor_parallel_size 2

有没有可能让gpu利用率比较稳定的维持在七八十以上？麻烦大佬有空的话回复一下，十分感谢！


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

GRPO微调，gpu利用率很低 #3693

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

GRPO微调，gpu利用率很低 #3693

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions