Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有文档和实际例子来说明下为什么要开发ps-plus这个module吗? #4

Closed
Ethan199111 opened this issue Dec 21, 2018 · 6 comments

Comments

@Ethan199111
Copy link

为什么tensorflow的ps不能支持高纬稀疏的场景的计算。有benchmarks可以用来对比吗?
这个感觉更像ps-plus on yarn with tf.
这个和直接在yarn上运行tf有什么区别?

@songyue1104
Copy link

广告场景下的模型训练有两个特点,一个是超高的稀疏特征维度,另一个是超大规模的样本数量,这两个特点决定了XDL需要在大规模并发(并发>200)的条件下保证系统性能具有良好的水平扩展能力,根据我们的实际测试,tensorflow在并发超过200的情况下的水平扩展能力已经很差,而XDL可以做到在1000并发内的近似线性扩展。

@Ethan199111
Copy link
Author

@songyue1104 这个并发说得是在线inference时的情况吗? 能给出一些细节和数据吗?

@Ethan199111
Copy link
Author

@songyue1104 麻烦再问下,这个有开发对应的webUI,类似tensorboard的可视化工具 以及history server这些吗

@guoxinyang
Copy link
Contributor

@esail 此处的并发指的是离线train时worker的并发度。ps-plus的failover本身会比较耗时,不能在线inference使用。开发这个模块的初衷是为了适应大规模数据下高并发的吞吐能力,这个是相比于tensorflow ps的核心优势,另外ps-plus模块还支持非id化数据存储查询,流式写出增量模型的功能。

@guoxinyang
Copy link
Contributor

@esail 配套的可视化调优工具目前在开发进程中。

@githcx githcx mentioned this issue Jan 3, 2019
@songziqin
Copy link

我想问下,这个ps-plus跟ps-lite这个比较呢。里面的什么设计让它可以做到大规模的并发。我看到里面使用了seastar这个组件,是因为使用了这个组件末

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants