modified version of src
python main.py /home/zhangzhaoyu --dist-rank 0
python main.py /home/zhangzhaoyu --dist-rank 1
注意 需要将所有的rank都开终端执行一遍。不然rank0 会等待其他rank执行。
但是给我的感觉是几个独立的model没什么联系. 每组的loss都相同.理论上如果完全独立的化loss应该随机的.是不是在一定程度上说明他们之间有联系.
跑别人的demo的时候init有问题.总是在init卡着. 这就是没有跑完所有的rank的后果。 暂时不想弄了,发现一个更好用的东西.