paddle训练使用多cpu不如单cpu速度快 #923

janelu9 · 2016-12-16T05:42:40Z

在服务器上建立了1,2,4,8个cpu的镜像，当trainner_counter分别设置为1,2,4,8时发现速度逐渐变慢，全部设置为1时，速度相当。说明paddle并没有利用多cpu啊

janelu9 · 2016-12-16T05:52:12Z

版本是0.9.0a0
with_avx: ON
with_gpu: OFF
with_double: OFF
with_python: ON
with_rdma: OFF
with_glog: ON
with_gflags: ON
with_metric_learning:
with_timer: OFF

reyoung · 2016-12-16T05:54:14Z

@janelu9 最可能的原因是batch_size设置的过小，导致计算线程大量空闲。

同时，读数据的DataProvider可能写的太慢，导致时间占用都在读数据上。

backyes · 2016-12-16T09:59:45Z

@janelu9

比较快速做一些排除分析，比如可以加大batch size，排除是否是mini-batch很小的原因。
另外如果有兴趣深入分析原因，也可以从源码编译Paddle，并使能WITH_TIMER，可以获取更加量化的分析。

backyes · 2016-12-16T10:00:27Z

@janelu9

在服务器上建立了1,2,4,8个cpu的镜像

另外，不知道这些是否都是物理核个数

janelu9 · 2016-12-20T08:29:25Z

@backyes 物理核心有2个逻辑48个 256G内存 suse12系统

janelu9 · 2016-12-21T00:30:26Z

加大batch_size等于成倍减少训练次数肯定训练的时间会缩短了但是精度会下降

reyoung · 2016-12-21T03:47:49Z

duplicated #957 不过这里很多想法是错的。。比如加大batch_size不一定成比例增加训练次数。

到issue #957 讨论吧

janelu9 · 2016-12-21T06:51:31Z

@reyoung 额不是训练次数那是迭代次数了不过每次迭代的计算量不一样了

reyoung self-assigned this Dec 16, 2016

reyoung added the question label Dec 16, 2016

reyoung closed this as completed Dec 21, 2016

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

paddle训练使用多cpu不如单cpu速度快 #923

paddle训练使用多cpu不如单cpu速度快 #923

janelu9 commented Dec 16, 2016

janelu9 commented Dec 16, 2016

reyoung commented Dec 16, 2016

backyes commented Dec 16, 2016

backyes commented Dec 16, 2016

janelu9 commented Dec 20, 2016

janelu9 commented Dec 21, 2016

reyoung commented Dec 21, 2016 •

edited

Loading

janelu9 commented Dec 21, 2016

paddle训练使用多cpu不如单cpu速度快 #923

paddle训练使用多cpu不如单cpu速度快 #923

Comments

janelu9 commented Dec 16, 2016

janelu9 commented Dec 16, 2016

reyoung commented Dec 16, 2016

backyes commented Dec 16, 2016

backyes commented Dec 16, 2016

janelu9 commented Dec 20, 2016

janelu9 commented Dec 21, 2016

reyoung commented Dec 21, 2016 • edited Loading

janelu9 commented Dec 21, 2016

reyoung commented Dec 21, 2016 •

edited

Loading