support offload in sharding stage2 #37904

haohongxiang · 2021-12-07T03:40:01Z

PR types

Function optimization

PR changes

Others

Describe

Support offload, grad_clip and loss_scaler in dygraph sharding stage2
Optimize the performance of offload in PR-38064

用户手册

import paddle
from paddle.distributed.fleet.meta_optimizers.dygraph_optimizer.sharding_optimizer_stage2 import ShardingOptimizerStage2
from paddle.distributed.fleet.meta_parallel.sharding.sharding_stage2 import ShardingStage2
from paddle.distributed.fleet.meta_parallel.sharding.sharding_utils import ShardingScaler

fleet.init(is_collective=True)
group = paddle.distributed.new_group([0, 1])

# state model and optimizer
model = model_class(...)
clip = paddle.nn.ClipGradByGlobalNorm(clip_norm=1.0)
optimizer = paddle.optimizer.AdamW(
        parameters=model.parameters(),
        learning_rate=0.001,
        weight_decay=0.00001,
        grad_clip=clip,
        multi_precision=True)

# convert to pfp16 model
model = paddle.amp.decorate(models=model, level='O2', save_dtype='float32')
scaler = paddle.amp.GradScaler(init_loss_scaling=32768)
scaler = ShardingScaler(scaler, group)

# convert to sharding_stage2 model and optimizer
optimizer = ShardingOptimizerStage2(params=model.parameters(), optim=optimizer, group=group, offload=True)
model = ShardingStage2(model, optimizer, group=group)

# forward, backward and optimization
img, label = data
label.stop_gradient = True
img.stop_gradient = True
out = model(img)
loss = paddle.nn.functional.cross_entropy(input=out, label=label)
scaler.scale(loss).backward()
scaler.step(optimizer)
scaler.update()
model.clear_gradients()

精度验证
PaddleNLP GPT-3模型，sharding stage2+pfp16 with/without offload：

显存优化
1> PaddleNLP GPT-3模型 0.31B参数量
单机两卡，sharding stage2+pfp16 without offload，峰值显存为 5319 MiB，显存变化曲线为：

单机两卡，sharding stage2+pfp16 with offload，峰值显存为 3137 MiB（节省 2182 MiB，约 41%），显存变化曲线为：

2> PaddleNLP GPT-3模型 1.02B参数量
单机两卡，sharding stage2+pfp16 without offload，峰值显存为 11941 MiB
单机两卡，sharding stage2+pfp16 with offload，峰值显存为 5369 MiB（节省 6572 MiB，约 55%）

paddle-bot-old · 2021-12-07T03:40:17Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

Baibaifan · 2021-12-07T12:03:00Z

python/paddle/distributed/fleet/meta_optimizers/dygraph_optimizer/sharding_optimizer_stage2.py

+                if param.name not in self._master_params.keys():
+                    self._master_params[param.name] = core.VarBase(
+                        name=param.name,
+                        value=param.cast(dtype=Type.fp32.value).numpy(),


这个也改成.value().get_tensor()吧

ForFishes · 2021-12-07T14:43:17Z

python/paddle/distributed/fleet/meta_optimizers/dygraph_optimizer/sharding_optimizer_stage2.py

+
+            for param in self._local_params:
+                if param.name in self._master_params.keys():
+                    param.set_value(self._master_params[param.name].cuda(dev_id)


这个地方会增加显存，需要先释放param，在shareddata master参数。

… support_offload_for_sharding_stage2

ForFishes

LGTM

haohongxiang added 2 commits December 7, 2021 16:48

merge latest develop branch

ca5b893

fix bugs

a5837e1

Baibaifan reviewed Dec 7, 2021

View reviewed changes

update

8ac6f25

ForFishes reviewed Dec 7, 2021

View reviewed changes

fix bugs for unittest

881aedf

modify for less use of gpu mem

7e0a6c6

haohongxiang added 6 commits December 8, 2021 14:42

Merge branch 'develop' of https://github.com/PaddlePaddle/Paddle into…

697e458

… support_offload_for_sharding_stage2

fix bugs of using _reset_grad_inplace_version

0a21e8d

update

b771b29

update

f37411d

modify for CI-Coverage

89a75af

retrick all CIs

3c6aa89

ForFishes approved these changes Dec 9, 2021

View reviewed changes

ForFishes merged commit dfed4a6 into PaddlePaddle:develop Dec 9, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support offload in sharding stage2 #37904

support offload in sharding stage2 #37904

haohongxiang commented Dec 7, 2021 •

edited

Loading

paddle-bot-old bot commented Dec 7, 2021

Baibaifan Dec 7, 2021

haohongxiang Dec 7, 2021

ForFishes Dec 7, 2021

haohongxiang Dec 8, 2021

ForFishes left a comment

support offload in sharding stage2 #37904

support offload in sharding stage2 #37904

Conversation

haohongxiang commented Dec 7, 2021 • edited Loading

PR types

PR changes

Describe

paddle-bot-old bot commented Dec 7, 2021

Baibaifan Dec 7, 2021

Choose a reason for hiding this comment

haohongxiang Dec 7, 2021

Choose a reason for hiding this comment

ForFishes Dec 7, 2021

Choose a reason for hiding this comment

haohongxiang Dec 8, 2021

Choose a reason for hiding this comment

ForFishes left a comment

Choose a reason for hiding this comment

haohongxiang commented Dec 7, 2021 •

edited

Loading