Local dep object pool #5953

lixinqi · 2021-08-18T17:35:37Z

解决cuda_h2d导致的内存开销过大问题。

…p_object_pool

lixinqi · 2021-08-18T17:39:49Z

oneflow/core/framework/local_dep_object.cpp

+  CHECK_OR_RETURN(!local_dep_object_pool->empty());
+  size_t pool_size = local_dep_object_pool->size();
+  static thread_local int64_t index = 0;
+  return local_dep_object_pool->at(index++ % pool_size).Mutable();


LocalDepObject的复用不会造成任何问题，甚至还有好处。比如cuda_h2d device上只准备了2个LocalDepObject，这样整个计算流就在double buffer的模式下工作。
可以认为LocalDepObject就是流控机制。

daquexian · 2021-08-19T05:45:05Z

oneflow/core/framework/device.cpp

+Maybe<size_t> Device::instr_local_dep_object_pool_size() const {
+  static const size_t kDoubleBufferPoolSize = 2;
+  static const HashMap<std::string, size_t> type2pool_size{
+      {"cpu", GetInstructionHighWaterMark()}, {"cuda", GetInstructionHighWaterMark()},


这里把 pool size 设置成 GetInstructionHighWaterMark()，相当于并没有顺序化？

当然不是。你可以认为之前这里是无穷大，那种情况下都有顺序化呀。顺序化是device的LocalDepObject成员控制的。

哦哦，我想错了

oneflow/core/framework/device.cpp

github-actions · 2021-08-19T09:26:09Z

Speed stats:

GPU Name: GeForce GTX 1080 

PyTorch resnet50 time: 140.8ms (= 7041.6ms / 50, input_shape=[16, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 128.0ms (= 6400.7ms / 50, input_shape=[16, 3, 224, 224], backward is enabled)
Relative speed: 1.10 (= 140.8ms / 128.0ms)

PyTorch resnet50 time: 85.8ms (= 4289.6ms / 50, input_shape=[8, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 74.4ms (= 3718.9ms / 50, input_shape=[8, 3, 224, 224], backward is enabled)
Relative speed: 1.15 (= 85.8ms / 74.4ms)

PyTorch resnet50 time: 57.8ms (= 2889.4ms / 50, input_shape=[4, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 47.1ms (= 2353.2ms / 50, input_shape=[4, 3, 224, 224], backward is enabled)
Relative speed: 1.23 (= 57.8ms / 47.1ms)

PyTorch resnet50 time: 48.1ms (= 2404.0ms / 50, input_shape=[2, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 41.6ms (= 2082.1ms / 50, input_shape=[2, 3, 224, 224], backward is enabled)
Relative speed: 1.15 (= 48.1ms / 41.6ms)

PyTorch resnet50 time: 41.7ms (= 2084.5ms / 50, input_shape=[1, 3, 224, 224], backward is enabled)
OneFlow resnet50 time: 39.1ms (= 1957.2ms / 50, input_shape=[1, 3, 224, 224], backward is enabled)
Relative speed: 1.07 (= 41.7ms / 39.1ms)

lixinqi added 3 commits August 18, 2021 23:38

GetLocalDepObjectPool

609e587

Merge branch 'master' of github.com:Oneflow-Inc/oneflow into local_de…

df9f342

…p_object_pool

fix compiler complaints

788f407

lixinqi requested review from daquexian, hjchen2, oneflow-ci-bot and wyg1997 August 18, 2021 17:35

lixinqi added automerge eager system labels Aug 18, 2021

Merge branch 'master' into local_dep_object_pool

23efd29

lixinqi commented Aug 18, 2021

View reviewed changes

lixinqi added the enhancement label Aug 19, 2021

lixinqi added 2 commits August 19, 2021 09:46

Merge branch 'master' into local_dep_object_pool

16e7689

Merge branch 'master' into local_dep_object_pool

5d52ed7

hjchen2 approved these changes Aug 19, 2021

View reviewed changes

Merge branch 'master' into local_dep_object_pool

4a574fa

daquexian reviewed Aug 19, 2021

View reviewed changes

wyg1997 reviewed Aug 19, 2021

View reviewed changes

oneflow/core/framework/device.cpp Show resolved Hide resolved

Merge branch 'master' into local_dep_object_pool

eb54e37

oneflow-ci-bot requested review from oneflow-ci-bot and removed request for oneflow-ci-bot August 19, 2021 07:11

Merge branch 'master' into local_dep_object_pool

7cb6f84

oneflow-ci-bot self-requested a review August 19, 2021 08:09

oneflow-ci-bot merged commit 533018a into master Aug 19, 2021

oneflow-ci-bot deleted the local_dep_object_pool branch August 19, 2021 09:28

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Local dep object pool #5953

Local dep object pool #5953

lixinqi commented Aug 18, 2021

lixinqi Aug 18, 2021

daquexian Aug 19, 2021

lixinqi Aug 19, 2021

daquexian Aug 19, 2021

github-actions bot commented Aug 19, 2021

Local dep object pool #5953

Local dep object pool #5953

Conversation

lixinqi commented Aug 18, 2021

lixinqi Aug 18, 2021

Choose a reason for hiding this comment

daquexian Aug 19, 2021

Choose a reason for hiding this comment

lixinqi Aug 19, 2021

Choose a reason for hiding this comment

daquexian Aug 19, 2021

Choose a reason for hiding this comment

github-actions bot commented Aug 19, 2021