Dygraph Recompute #32516

JZ-LIANG · 2021-04-25T03:40:34Z

PR types

New features

PR changes

APIs

Describe

Dygraph Recompute

Bert example base on PaddleNLP bert

modify transformer.py

# import recompute, line 40
from paddle.distributed.fleet.utils import recompute

# modify TransformerEncoder class, line 615
class TransformerEncoder(Layer):
    # NOTE recompute modification
    # def __init__(self, encoder_layer, num_layers, norm=None):
    def __init__(self, encoder_layer, num_layers, norm=None, enable_recompute = True, preserve_rng_state = True):
        super(TransformerEncoder, self).__init__()
        self.layers = LayerList([(encoder_layer if i == 0 else
                                  type(encoder_layer)(**encoder_layer._config))
                                 for i in range(num_layers)])
        self.num_layers = num_layers
        self.norm = norm
        # NOTE recompute modification
        self.enable_recompute = enable_recompute
        self.preserve_rng_state = preserve_rng_state
        if preserve_rng_state:
            assert self.enable_recompute, "preserve_rng_state is True, but enable_recompute is False."

    def forward(self, src, src_mask=None, cache=None):
        src_mask = _convert_attention_mask(src_mask, src.dtype)

        output = src
        new_caches = []
        for i, mod in enumerate(self.layers):
            if cache is None:
                # NOTE recompute modification
                if self.enable_recompute:
                    output = recompute(mod, output, src_mask, preserve_rng_state = self.preserve_rng_state)
                else:   
                    output = mod(output, src_mask=src_mask)
            else:
                output, new_cache = mod(output,
                                        src_mask=src_mask,
                                        cache=cache[i])
                new_caches.append(new_cache)

        if self.norm is not None:
            output = self.norm(output)

        return output if cache is None else (output, new_caches)

example to recompute the second block of a naive fc net：

def get_fc_block(block_idx, input_size, is_last=False):
    block_name = "block_" + str(block_idx)
    block = paddle.nn.Sequential(
        (block_name + "_fc_0", paddle.nn.Linear(
            input_size, input_size, bias_attr=False)),
        (block_name + "_dropout", paddle.nn.Dropout(p=0.5)),
        (block_name + "_relu_1", paddle.nn.ReLU()),
        (block_name + "_fc_1", paddle.nn.Linear(
            input_size, input_size, bias_attr=False)),
        (block_name + "_relu_2", paddle.nn.ReLU()), )
    if is_last:
        block.add_sublayer(
            block_name + "_fc_2",
            paddle.nn.Linear(
                input_size, 1, bias_attr=False))  # add sublayer
    else:
        block.add_sublayer(
            block_name + "_fc_2",
            paddle.nn.Linear(
                input_size, input_size, bias_attr=False))  # add sublayer
    return block

class Naive_fc_net(paddle.nn.Layer):
    def __init__(self, input_size=10,):
        super(Naive_fc_net, self).__init__()
        self.runfunc0 = get_fc_block(0, input_size, is_last=False)
        self.runfunc1 = get_fc_block(1, input_size, is_last=False)
        self.runfunc2 = get_fc_block(2, input_size, is_last=False)

    def forward(self, inputs):

        inputs = self.runfunc0(inputs)
        # recompute 
        inputs = recompute(self.runfunc1, inputs)
        inputs = self.runfunc2(inputs)

        return inputs

paddle-bot-old · 2021-04-25T03:40:37Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

ForFishes · 2021-04-25T14:06:03Z

python/paddle/distributed/fleet/utils/recompute.py

+
+
+@contextlib.contextmanager
+def swith_rng_state(rng_state):


swith_rng_state -> switch_rng_state

ForFishes

LGTM

FesianXu · 2021-09-29T12:03:04Z

你好，动态图的recompute在单机多卡环境下会报错，请问你尝试过单机多卡运行吗

JZ-LIANG added 2 commits April 25, 2021 11:13

Dygraph reocmpute

36fe663

unitest for Dygraph reocmpute

6dfba52

dy recompute remove unitest for win and mac

889f309

JZ-LIANG force-pushed the Dygraph/recompute1 branch from 2cecc43 to 889f309 Compare April 25, 2021 07:04

ForFishes reviewed Apr 25, 2021

View reviewed changes

ForFishes approved these changes Apr 25, 2021

View reviewed changes

ForFishes merged commit 583ebab into PaddlePaddle:develop Apr 25, 2021

JZ-LIANG mentioned this pull request Jun 1, 2021

Dygraph Recompute: support amp #33251

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Dygraph Recompute #32516

Dygraph Recompute #32516

JZ-LIANG commented Apr 25, 2021 •

edited

paddle-bot-old bot commented Apr 25, 2021

ForFishes Apr 25, 2021

ForFishes left a comment

FesianXu commented Sep 29, 2021

Dygraph Recompute #32516

Dygraph Recompute #32516

Conversation

JZ-LIANG commented Apr 25, 2021 • edited

PR types

PR changes

Describe

paddle-bot-old bot commented Apr 25, 2021

ForFishes Apr 25, 2021

Choose a reason for hiding this comment

ForFishes left a comment

Choose a reason for hiding this comment

FesianXu commented Sep 29, 2021

JZ-LIANG commented Apr 25, 2021 •

edited