Skip to content

overfitover/pytorch-distributed

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

distributed-pytorch

modified version of src

python main.py /home/zhangzhaoyu --dist-rank 0

python main.py /home/zhangzhaoyu --dist-rank 1

注意 需要将所有的rank都开终端执行一遍。不然rank0 会等待其他rank执行。

初始化方法可以执行,三种初始化方式在init_examples里面.

simple_demo里面是一些小例子, 可以跑起来. 

但是给我的感觉是几个独立的model没什么联系. 每组的loss都相同.理论上如果完全独立的化loss应该随机的.是不是在一定程度上说明他们之间有联系.

main.py 函数

跑别人的demo的时候init有问题.总是在init卡着. 这就是没有跑完所有的rank的后果。 暂时不想弄了,发现一个更好用的东西.

参考

https://github.com/narumiruna/pytorch-distributed-example

https://github.com/uber/horovod

About

pytorch distributed

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages