# 注意力机制非确定性演示

本notebook演示了注意力机制中的非确定性问题，特别是Split-KV策略导致的数值差异。

## 主要内容

1. **注意力机制基础回顾**
2. **Split-KV策略的非确定性**
3. **批处理不变性解决方案**
4. **性能对比分析**

## 背景知识

在LLM推理中，注意力机制的计算复杂度与序列长度成二次关系。为了优化性能，通常使用Split-KV策略将Key-Value序列分割成多个块并行处理。然而，这种策略会导致不同批处理大小下的数值结果不一致。


In [None]:
# 导入必要的库
import sys
import os
sys.path.append(os.path.join(os.getcwd(), '..', 'src'))

import torch
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from attention import AttentionNondeterminismDemo

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

print("库导入完成！")


## 1. 创建注意力机制演示实例

我们将在CPU上运行演示，因为Mac通常没有CUDA支持。


In [None]:
# 创建注意力机制演示实例
demo = AttentionNondeterminismDemo(device='cpu')
print("注意力机制演示实例创建完成！")


## 2. 比较不同注意力方法

让我们比较标准注意力、Split-KV注意力和批处理不变性注意力的非确定性。


In [None]:
# 比较不同注意力方法
results = demo.compare_attention_methods(
    batch_size=2, 
    seq_len=256, 
    hidden_dim=512, 
    num_heads=8, 
    num_trials=100
)


## 3. 可视化注意力差异

让我们可视化不同注意力方法之间的差异分布。


In [None]:
# 可视化注意力差异
demo.visualize_attention_differences(results, '../experiments/plots/attention_differences.png')


## 4. 性能基准测试

让我们测试不同注意力方法的性能表现。


In [None]:
# 性能基准测试
batch_sizes = [1, 2, 4, 8]
performance_results = demo.benchmark_performance(
    batch_sizes=batch_sizes,
    seq_len=512,
    hidden_dim=512,
    num_heads=8
)


## 5. 可视化性能结果

让我们可视化性能测试的结果。


In [None]:
# 可视化性能结果
demo.visualize_performance(performance_results, batch_sizes, '../experiments/plots/attention_performance.png')


## 6. 完整演示

运行完整的注意力机制非确定性演示。


In [None]:
# 运行完整演示
demo.run_complete_demo()
