## FlashAttention的核心原理

1、内存高效的注意力计算：  
FlashAttention的核⼼思想是避免存储巨⼤的注意⼒矩阵，⽽是通过分块计算来降低内存需求。   
分块：不一次性计算整个注意力矩阵，而是将Q, K, V矩阵分成小块。

2、平铺(Tiling)策略，适合高速缓存的IO优化:    
平铺是FlashAttention的核心技术，它专门设计来解决IO性能瓶颈问题。    
将输入序列分成小块（tiles），每个块大小适配⾼速缓存容量确保每个数据块都能放入GPU的共享内存（shared memory）  
关键目标：最大化数据复用，最小化显存IO  


现代GPU的高速缓存容量：  
L1缓存：128KB，延迟1ns，带宽50TB/s  
共享内存：164KB，延迟1ns，带宽100TB/s  
L2缓存：6MB，延迟3ns，带宽20TB/s  
**三者关键区别：共享内存是唯一可以由程序员直接控制的高速片上内存。L1 和 L2 都是硬件自动管理的缓存。**

在 Flash Attention 中，我们选择一个较小的计算块大小（如 BLOCK_M=64, BLOCK_N=64），确保这个块所需的数据（Q块、K块、中间结果）能够完全放入 GPU 的共享内存（通常每 SM 有 32KB~96KB）。目标是在共享内存容量限制内，尽可能选择较大的块以最大化数据重用和计算效率。

3、重计算技巧（Recomputation）：  
核心思想：在反向传播时，不存储中间激活值，而是重新计算它们。  
 在前向传播时：  
1、计算注意力分数  
2、立即应用softmax  
3、乘以值矩阵得到输出4. 丢弃注意力分数（不存储）      
在反向传播时：  
1、重新计算注意力分数     
2、使用这些分数计算梯度    

**前向传播优化：**  
Flash Attention 前向通过分块 + 在线 Softmax，避免了 O(N²) 中间矩阵的存储，并利用共享内存加速计算，实现了 O(N) 显存 和 更高的计算效率。  
其中最重要的为：**online softmax**

### FlashAttention的简化代码实现：

In [None]:
import torch
import math

def flash_attention(Q, K, V, mask=None):
    """
    简化的 Flash Attention 前向传播实现。
    
    Args:
        Q: Query tensor, shape [batch, heads, seq_len_q, head_dim]
        K: Key tensor,   shape [batch, heads, seq_len_k, head_dim]
        V: Value tensor, shape [batch, heads, seq_len_k, head_dim]
        mask: Optional attention mask, shape [seq_len_q, seq_len_k]
    
    Returns:
        Output tensor, shape [batch, heads, seq_len_q, head_dim]
    """
    batch, heads, seq_len_q, head_dim = Q.shape
    seq_len_k = K.shape[2]
    
    # 确保 head_dim 不太大，避免数值问题
    scaling = 1.0 / math.sqrt(head_dim)
    
    # 初始化输出、归一化参数
    # 这些是 O(N) 的，而不是 O(N²)
    O = torch.zeros_like(Q)  # 输出，逐块累加
    l = torch.zeros(batch, heads, seq_len_q, device=Q.device)  # 累积和 (log-sum-exp 的分母部分)
    m = torch.full((batch, heads, seq_len_q), -float('inf'), device=Q.device)  # 当前最大值
    
    # 定义块大小 (Tile Size)
    # 这是关键的优化参数！
    # 在真实实现中，会根据 GPU 架构自动调优
    BLOCK_Q = 64  # Q 的块大小（按行）
    BLOCK_K = 64  # K, V 的块大小（按列）
    
    # 分块处理：遍历 Q 的行块
    for q_start in range(0, seq_len_q, BLOCK_Q):
        q_end = min(q_start + BLOCK_Q, seq_len_q)
        Q_block = Q[:, :, q_start:q_end]  # [b, h, block_q, d]
        
        # 初始化当前 Q 块的归一化参数
        l_block = l[:, :, q_start:q_end]  # [b, h, block_q]
        m_block = m[:, :, q_start:q_end]  # [b, h, block_q]
        
        # 遍历 K, V 的列块
        for k_start in range(0, seq_len_k, BLOCK_K):
            k_end = min(k_start + BLOCK_K, seq_len_k)
            K_block = K[:, :, k_start:k_end]  # [b, h, block_k, d]
            V_block = V[:, :, k_start:k_end]  # [b, h, block_k, d]
            
            # Step 1: 计算 Q_block @ K_block^T
            # 这个矩阵大小为 [b, h, block_q, block_k]
            # 在真实实现中，这一步在共享内存中进行
            S_block = torch.matmul(Q_block, K_block.transpose(-2, -1)) * scaling  # [b, h, q_block, k_block]
            
            # 如果有 mask，应用 mask
            if mask is not None:
                mask_block = mask[q_start:q_end, k_start:k_end]
                S_block = S_block.masked_fill(mask_block == 0, float('-inf'))
            
            # Step 2: 在线 Softmax 的核心 - 更新归一化参数
            # 2.1 找到当前块的最大值
            block_max = torch.max(S_block, dim=-1, keepdim=True)[0]  # [b, h, block_q, 1]
            
            # 2.2 更新全局最大值: new_max = max(m_block, block_max)
            new_max = torch.maximum(m_block.unsqueeze(-1), block_max)  # [b, h, block_q, 1]
            
            # 2.3 更新累积和 s
            # 先将历史累积和 "平移" 到新的最大值下
            # exp(m_block - new_max) 是一个缩放因子
            exp_scaled_l = l_block.unsqueeze(-1) * torch.exp(m_block.unsqueeze(-1) - new_max)  # [b, h, block_q, 1]
            
            # 计算当前块的指数和
            exp_S = torch.exp(S_block - new_max)  # [b, h, block_q, k_block]
            block_sum = torch.sum(exp_S, dim=-1, keepdim=True)  # [b, h, block_q, 1]
            
            # 更新累积和: s_new = s_old * exp(m_old - m_new) + sum(exp(S_new - m_new))
            l_block_new = exp_scaled_l + block_sum  # [b, h, block_q, 1]
            l_block_new = l_block_new.squeeze(-1)  # [b, h, block_q]
            
            # 2.4 更新最大值
            m_block_new = new_max.squeeze(-1)  # [b, h, block_q]
            
            # Step 3: 计算当前块对输出的贡献
            # 使用新的归一化参数计算 softmax 并乘以 V_block
            # P_block = exp(S_block - new_max) / l_block_new
            P_block = exp_S / (l_block_new.unsqueeze(-1) + 1e-6)  # 防止除零 [b, h, q_block, k_block]
            O_block_contribution = torch.matmul(P_block, V_block)  # [b, h, q_block, d]
            
            # Step 4: 累加到输出
            # 注意：输出是累加的，因为 softmax 是分块归一化的
            O[:, :, q_start:q_end] = O[:, :, q_start:q_end] + O_block_contribution
            
            # Step 5: 更新归一化参数，用于下一个 K 块
            l[:, :, q_start:q_end] = l_block_new
            m[:, :, q_start:q_end] = m_block_new
        
        # 结束 K 块循环
    # 结束 Q 块循环
    
    return O


# ==================== 使用示例 ====================
if __name__ == "__main__":
    # 设置随机种子
    torch.manual_seed(42)
    
    # 模拟输入
    batch = 2
    heads = 8
    seq_len = 128  # 可以尝试更大的值，如 1024
    head_dim = 64
    dtype = torch.float16  # 使用 float16 更接近真实场景
    
    Q = torch.randn(batch, heads, seq_len, head_dim, dtype=dtype, device='cuda')
    K = torch.randn(batch, heads, seq_len, head_dim, dtype=dtype, device='cuda')
    V = torch.randn(batch, heads, seq_len, head_dim, dtype=dtype, device='cuda')
    
    # 创建一个简单的 mask（可选）
    mask = torch.tril(torch.ones(seq_len, seq_len, device='cuda'))
    
    # 计算 Flash Attention
    with torch.no_grad():
        output = flash_attention(Q, K, V, mask)
    
    print(f"输入形状: Q={Q.shape}")
    print(f"输出形状: {output.shape}")
    print(f"计算完成！峰值显存占用远低于 O(N²)。")
    
    # 对比：传统 Attention 的显存占用是 O(N²)
    # 例如，seq_len=1024 时，S 矩阵需要 1024*1024*2 (float16) ≈ 2MB per head
    # 而 Flash Attention 只需要 O(N) 的额外存储（l 和 m 向量）