Fea/nn graph/warmup amp config #5969

strint · 2021-08-19T13:35:56Z

WarmUpLR
- eager
- graph
amp & nn.Graph.config
flow.config

strint · 2021-08-19T13:38:36Z

python/oneflow/nn/optimizer/warm_up_lr.py

+class WarmUpLR(WarmUpLrScheduler):
+    def __init__(
+        self,
+        lrsch_or_optimizer,


https://pytorch.org/docs/master/generated/torch.optim.lr_scheduler.WarmUpLR.html#torch.optim.lr_scheduler.WarmUpLR

和torch开发分支中一样的接口。

但是是个torch的增强版本：可以组合一个普通的LrScheduler。支持eager和graph。

…fea/nn_graph/warmup_amp_config

oneflow/core/framework/multi_client_session_context.cpp

strint · 2021-08-20T02:20:06Z

python/oneflow/test/graph/test_optimization_conf.py

+
+        flow.backends.cudnn.set_reserved_mem_mbytes(1000)
+
+        flow.utils.load_library("")


config接口调用的例子

strint · 2021-08-20T02:20:20Z

python/oneflow/test/graph/test_optimization_conf.py

+                # amp
+                self.config.enable_amp(True)
+                grad_scaler = flow.nn.graph.amp.GradScaler(3000, 2.0, 0.5, 1000)
+                self.set_grad_scaler(grad_scaler)


amp调用的例子

python/oneflow/nn/optimizer/lr_scheduler.py

chengtbf · 2021-08-21T09:18:19Z

python/oneflow/nn/graph/graph.py

+        return self.config.proto
+
+    @property
+    def _optimization_conf_proto(self):


这个只是为了 debug 打印吧

嗯，为了内部debug，加下滑线前缀的方法都是内部使用的私有方法，不保证稳定

chengtbf

LR 部分的内容 @leaves-zwx 文骁 Review 吧，通过了就能合并~

chengtbf · 2021-08-21T09:23:30Z

python/oneflow/test/graph/test_optimization_conf.py

+
+                # amp
+                self.config.enable_amp(True)
+                grad_scaler = flow.amp.GradScaler(3000, 2.0, 0.5, 1000)


这里需要提供 key args 把，不然别人不知道 3000、2、1000 都是啥

这里和torch接口对齐了，用户传参时也可以写 arg=val，也可以不写

对，但是我觉得我们的示例代码要写明白，参考：

# Assuming optimizer uses lr = 0.05 for all groups # lr = 0.025 if epoch == 0 # lr = 0.03125 if epoch == 1 # lr = 0.0375 if epoch == 2 # lr = 0.04375 if epoch == 3 # lr = 0.005 if epoch >= 4 scheduler = WarmUpLR(self.opt, warmup_factor=0.5, warmup_iters=4, warmup_method="linear") for epoch in range(100): train(...) validate(...) scheduler.step()

我们的测试脚本，用户也会尝试模仿。所以最好还是带上参数更明白

有道理，已经加上

…neflow-Inc/oneflow into fea/nn_graph/warmup_amp_config

github-actions · 2021-08-21T10:48:39Z

Speed stats:

GPU Name: GeForce GTX 1080 

PyTorch resnet50 time: 140.1ms (= 7004.4ms / 50, input_shape=[16, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 128.4ms (= 6419.8ms / 50, input_shape=[16, 3, 224, 224], backward is enabled)
Relative speed: 1.09 (= 140.1ms / 128.4ms)

PyTorch resnet50 time: 84.5ms (= 4225.2ms / 50, input_shape=[8, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 74.6ms (= 3728.0ms / 50, input_shape=[8, 3, 224, 224], backward is enabled)
Relative speed: 1.13 (= 84.5ms / 74.6ms)

PyTorch resnet50 time: 57.6ms (= 2878.5ms / 50, input_shape=[4, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 47.3ms (= 2365.6ms / 50, input_shape=[4, 3, 224, 224], backward is enabled)
Relative speed: 1.22 (= 57.6ms / 47.3ms)

PyTorch resnet50 time: 49.2ms (= 2460.5ms / 50, input_shape=[2, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 41.4ms (= 2068.8ms / 50, input_shape=[2, 3, 224, 224], backward is enabled)
Relative speed: 1.19 (= 49.2ms / 41.4ms)

PyTorch resnet50 time: 44.7ms (= 2234.6ms / 50, input_shape=[1, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 35.3ms (= 1766.1ms / 50, input_shape=[1, 3, 224, 224], backward is enabled)
Relative speed: 1.27 (= 44.7ms / 35.3ms)

chengtbf · 2021-09-23T13:53:50Z

python/oneflow/boxing/nccl/__init__.py

+)
+
+from oneflow.framework.config_util import (
+    api_nccl_use_compute_stream as enable_use_compute_stream,


这里不是有吗？ 😂 @strint @leaves-zwx

flow.boxing.nccl.enable_use_compute_stream()

strint added 12 commits August 18, 2021 03:27

add sys conf

0cb4642

format

f537f53

refine warmup api

076cf64

refine config

62025bf

format

dfad304

add WarmupLR

723678d

add warmup lr

1889031

refactor graph folder structure

4cf5f34

export graph

3414fb5

add amp conf

40d7af1

deal with lr init step and test cpu

4707ca6

add WarmUpLR

9ac5e67

strint commented Aug 19, 2021

View reviewed changes

strint added 3 commits August 19, 2021 22:09

add flow config

646f80d

GradScaler and config

aa3e905

Merge branch 'master' of https://github.com/Oneflow-Inc/oneflow into …

6ace49a

…fea/nn_graph/warmup_amp_config

strint requested review from chengtbf and leaves-zwx August 19, 2021 15:53

rm useless code

c257ead

strint added feature python labels Aug 19, 2021

strint added this to the v0.5.0 milestone Aug 19, 2021

strint requested a review from oneflow-ci-bot August 19, 2021 16:32

strint added 2 commits August 20, 2021 00:32

Merge branch 'master' into fea/nn_graph/warmup_amp_config

ec6bedd

Merge branch 'master' into fea/nn_graph/warmup_amp_config

c3f4afd

strint commented Aug 20, 2021

View reviewed changes

oneflow/core/framework/multi_client_session_context.cpp Outdated Show resolved Hide resolved

rm useless code

c6a3164

strint commented Aug 20, 2021

View reviewed changes

oneflow/core/framework/multi_client_session_context.cpp Show resolved Hide resolved

strint commented Aug 20, 2021

View reviewed changes