# RingAllReduce
* 环形聚拢计算（all reduce，减少，全部减少）
* https://andrew.gibiansky.com/blog/machine-learning/baidu-allreduce/

## 认识关键词
* 显卡数N，显卡的数量
* 主机数，主机的数量，每个主机有N个显卡
* Infiniband，无限带宽技术，IB
    - 他修改了网络数据交换协议，而并非TCP/IP这种繁琐复杂的行为，使得内存可以远程直接访问而无需CPU介入，硬件层面直接实现，访问效率极高。百度测试的Infiniband设备带宽约6GB/s。GPU之间直接通信的RDMA速率高达10GB/s，而使用NVLINK桥接器后最高可达到200GB/s。通常我们使用的GPU是基于PCIE的通信，因此速率受限于PCIE的速度
        - https://www.nvidia.cn/design-visualization/nvlink-bridges/
* PCIE，PCI Express，(Peripheral Component Interconnect Express)高速串行计算扩展总线标准
    - GPU插在主板上是用的PICE接口
    - PCIE有1.0、2.0、3.0、4.0、5.0共5个版本，常见的有1.0、2.0、3.0，这里的5.0还没出现
    - PCIE的接口有4种形式，即x1、x4、x8、x16，对应的是卡片的针脚数量的增多，相应的吞吐量也逐渐增大
    <img src="pcie.jpg"/>

<img src="gpu.jpg" />

* PCIE的速率

<img src="speed.png"/>

## 基于通信模式的划分
### DataParallel模式(DP)，Parameter Center模式，主从模式（主卡收集梯度，从卡发送参数和接受结果）
- 速度的瓶颈是任意显卡x到主显卡0这个通路的速度和总带宽，以及显卡数量（越多其实影响越大）

<img src="master-slave-gpus.png"/>

* D = 模型参数总量，设为1GB
* S = 单条线路的传输速率，设为1GB/s，也就是任何显卡传数据到GPU0，或者传输出去都是最大1GB/s
* N = 显卡的个数，这里为5
* 完成N个显卡之间的参数平均以及更新，需要以下步骤：
    1. Scatter-Reduce，GPU1、GPU2、GPU3、GPU4将模型参数发送给GPU0，并在GPU0上完成累加求平均
        - 此时所有数据都要经过GPU0，并且无法并行，GPU0的接口速率决定时长
    2. Allgather，GPU0将平均后的参数发送给4个卡
        - 依旧经过GPU0，无法并行
* 由以上定义，我们可以推算出，
    - 数据的传输量为4 x D x 2，我们经过了1次Scatter Reduce传输了4D数据量，经过了1次Allgather传输了4D数据量
    - 我们传输耗时理论为4 x 2 x D / S，得到结果约为8秒，公式为：$$ Times = 2(N-1) \cdot \frac{D}{S} $$
    - 我们传输的数据总量（**显卡数相关**）：$$ Data Transferred = 2(N-1) \cdot D $$

## 基于通信模式的划分
### DistributedDataParallel模式(DDP)，Ring模式，环形模式
- 要求显卡间相互连接，组成环状，每个显卡都可以发送和接受相邻显卡的数据
- 由于相邻显卡间是独立的线路，相互不干扰，所以传输瓶颈是单个线路的速度和带宽，不受显卡数量影响

<img src="ring-gpus.png"/>

* D = 模型参数总量，设为1GB
* S = 单条线路的传输速率，设为1GB/s，也就是任何显卡传数据到GPU0，或者传输出去都是最大1GB/s
* N = 显卡的个数，这里为5
* 完成N个显卡之间的参数平均以及更新，需要以下步骤：
    1. 将数据划分为N份
    2. Scatter-Reduce
        - 循环N-1次
            - 将N个卡，每个卡都传递其显卡索引对应的那份数据，给相邻的下一个显卡做累加
                - 这个操作是同步进行的，因为传递所使用的线路是相邻显卡路径，不存在等待堆积
                - 也因此这里执行一次所消耗的时间，其实是$\frac{1}{N}$
                - 当然，如果显卡无法构成环形的，都走PCIE总线，那么PCIE总线的速度上限就是约束，而PCIE总线一般是8GB以上，这依旧比1GB/s显卡单向访问要快
    3. Allgather
        - 将累加后的数据计算平均得到均值
        - 循环N-1次
            - 将每个卡中存在的完整数据发送给相邻下一个卡
            - 也因此这里执行一次所消耗的时间，其实是$\frac{1}{N}$
            - 这里也是可以并行，如果没有环形结构，走PCIE总线，那么PCIE速度会限制
* 根据上面描述，我们可以推算出：
    1. 我们Scatter-Reduce时经过了N-1次$\frac{1}{N}$大小的数据传输，耗时认为是$\frac{D}{S} \cdot \frac{1}{N} \cdot (N-1) $
    2. 我们Allgather时经过了N-1次$\frac{1}{N}$大小的数据传输，耗时认为是$\frac{D}{S} \cdot \frac{1}{N} \cdot (N-1) $
    3. 因此传输的耗时为：$Times = 2(N-1) \cdot \frac{1}{N} \cdot \frac{D}{S}$
    4. 传输的数据量为：$Data Transferred = 2(N-1) \cdot \frac{D}{N}$
        - 需要注意的是，这里的数据传输量，与显卡数N无关
        - 他的传输速度受限于环之间的数据传输速度

## Scatter-Reduce阶段

<img src="array-partition.png"/>

<img src="scatter-reduce-iteration-1.png"/>

<img src="scatter-reduce-iteration-2.png"/>

<img src="scatter-reduce-iteration-3.png"/>

<img src="scatter-reduce-iteration-4.png"/>

### Scatter Reduce结束后的样子

<img src="scatter-reduce-iteration-done.png"/>

==============================================================================================================================

## Allgather阶段

<img src="allgather-iteration-1.png"/>

<img src="allgather-iteration-2.png"/>

<img src="allgather-iteration-3.png"/>

<img src="allgather-iteration-4.png"/>

## Allgather结束后的样子

<img src="allgather-iteration-done.png"/>

# 总结
1. DP模式下的主从模式，通信速度受限于单个显卡的通信速率。传递的数据量为$2(N-1)D$
    - N为显卡数，D为模型参数大小
2. DDP模式下的RingAllReduce，通信速度受限于显卡邻居间通信速率
    - 于PCIE下，受限于主板的PCIE速度，而不是显卡的速度
    - 于NVLINK下则最高可达100GB/s甚至更高
    - 传递的数据量为$2(N-1)\frac{D}{N}$，与显卡数量无关，也因此其效率高