从 softmax 出发, 用 pytorch 模拟 flash-attn v1/v2 中的主要算法
softmax.py: softmax 实现softmax.pdf: softmax 公式推导原理attention.py: 包含原始attention计算和flash_attention_v1,flash_attention_v2计算的实现- 为简明起见, 算法中并没有添加
mask和dropped out
- 为简明起见, 算法中并没有添加
flash_attn_v1.pdf:flash_attention_v1的核心算法原理公式推导flash_attn_v2.pdf:flash_attention_v2的核心算法原理公式推导以及其在 v1 版本上的改进