Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads #125

gaocegege · 2019-01-27T02:31:33Z

https://arxiv.org/pdf/1901.05758.pdf

gaocegege · 2019-01-27T02:37:00Z

来自微软的工作，这篇文章是研究了以下三个问题对 DNN 训练的工作负载的调度的影响：

Gang scheduling 与 locality constraints on queueing 的影响（相关工作：kube-batch 等）
locality 对 GPU 利用率的影响
训练时候的 failure

作者根据这些提出了一些设计的 guidelines，来指导下一代为 DNN 训练设计的调度器。

gaocegege · 2019-01-27T02:51:08Z

作者根据自己的经验，提出了三个值得注意的点，这种点我觉得我上我也行

locality 很关键
在同一个机器上分享 GPU 的不同任务可能会相互干扰
许多错误应该被早点捕捉出来，比如通过 profiling 等方式

We plan to release traces used for our study and hope that insights and data from our study inform the burgeoning work of scheduling research for machine learning workloads. （求你快一点）

gaocegege · 2019-01-27T02:58:28Z

本文针对的工作负载是用 TF，PyTorch，Caffe，MXNet 等框架进行的 LSTM，CNN 等模型训练。在分布式中，采取的数据并行。AllReduce 和参数服务器的更新方式都是支持的。

本文的调度是基于 Yarn 的，跟其他的调度器的比较如图所示：

gaocegege · 2019-01-27T03:04:46Z

剩下的内容就是通过实验来验证上面说的三点，以及提出一些 guidelines，这里就不说了，具体见论文

at15 · 2019-01-27T06:08:31Z

@gaocegege 你行你上呀

gaocegege · 2019-01-27T09:09:04Z

我这不是弃研究从工业界了么

gaocegege added area/scheduler TODO-未读 type/paper area/GPU area/large-scale-ml labels Jan 27, 2019

gaocegege removed the TODO-未读 label Jan 27, 2019

gaocegege mentioned this issue Mar 21, 2019

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads #131

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads #125

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads #125

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

at15 commented Jan 27, 2019

gaocegege commented Jan 27, 2019

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads #125

Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads #125

Comments

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

gaocegege commented Jan 27, 2019

at15 commented Jan 27, 2019

gaocegege commented Jan 27, 2019