# 旋转位置编码：

### 一、传统位置编码的缺陷：

传统的Transformer模型使用的是固定的、基于正弦和余弦函数的绝对位置编码。这种编码方式之所以只能表示绝对位置且难以泛化到更长序列，有如下原因：  
1、绝对位置的本质：  
$$PE_(pos,2i)=sin(\frac{pos}{10000^\frac{2i}{d_\text{model}}})$$
$$PE_(pos,2i+1)=cos(\frac{pos}{10000^\frac{2i}{d_\text{model}}})$$  
此处的pos是绝对位置索引，这通常意味着：  
模型学到的是“第3个位置的词”有什么含义，而不是“在主语之后两个位置的词”这样的**相对关系**。  
每个位置的编码是固定的，与**上下文无关**。  
模型无法自然地理解“距离”或“顺序”的相对概念，除非通过大量训练隐式学习。    
2、难以泛化到更长序列：  
传统位置编码是预定义的、固定长度的查找表或可计算但范围受限的函数。这导致：  
**训练时的最大长度限制**：如果模型在最大长度为512的序列上训练，那么它只见过 pos=0到 511的位置编码。  
**编码值可能“爆炸”或“失真”**：虽然正弦函数本身是周期性的，但不同频率的组合在超出训练范围后，其向量表示可能变得稀疏或与其他位置高度相似，导致模型无法正确区分位置。  
**推理时超出范围**：当输入序列长度超过训练时的最大长度，模型会遇到从未见过的位置索引  
**缺乏外推能力**：模型没有机制来“推断”一个更长位置的含义，因为它没有学习到如何根据相对距离或模式生成新位置的表示。  
3、缺乏相对位置感知：  
自然语言中的许多结构依赖于相对位置，传统PE不显式编码这些相对信息。虽然Transformer的自注意力机制理论上可以通过注意力权重学习相对位置，但原始的正弦PE并不直接提供这种归纳偏置，导致模型需要从数据中从零学习，效率较低。

### 二、Rope旋转编码

核心思想：相对位置编码技术，通过旋转来编码相对位置信息。

rope的复数本质：  
数学本质是将每一个**维度对**视为一个复数，位置编码=乘以单位复数。

rope的优势：  
1、保留绝对位置编码的简洁性，  
2、实现相对位置编码的效果，  
3、并且天然支持超长上下文外推。  

**rope的核心编码思想**：将位置信息编码为向量的旋转角度 

**RoPE 是在每个 token 独立处理时完成的。**

**二维向量旋转的基本概念：**  
在二维平面上，一个向量 [x, y] 绕原点逆时针旋转角度 θ 后，新坐标为（用极坐标推理出来的）：  
x' = x·cosθ - y·sinθ  
y' = x·sinθ + y·cosθ    
写成矩阵形式：  
[x'] = [cosθ-sinθ] [x]  
[y'] = [sinθ+cosθ] [y]  
其中    
[cosθ-sinθ]    
[sinθ+cosθ]  就是旋转矩阵

**rope旋转角度计算公式：** token位置乘上频率 
$$
\theta_i = \frac{m}{base^\frac{2i}{d}}
$$
其中，base一般设定为10000，m为token的位置，i为维度对的索引（第i个偶数维度），d是模型维度d_head

**为什么rope具有良好的外推性：**  
1、旋转的周期性：位置编码天然有$2\pi $的周期，不会溢出或退化   
2、rope满足相对位置性质$f(x,m) \cdot f(y,n) = f(x \cdot y,m-n)$，这意味着**计算注意力分数**（这个公式）只依赖于相对位置m-n，不依赖于绝对位置m,n。  
其中该公式:   
x：某个 token 的 query 向量（来自W_q变换）  
y：另一个 token 的 key 向量（来自W_k变换）  
计算的是他俩之间的注意力分数  
3、频率的层次结构：  
低维高频处理短距离关系  
高维低频处理长距离关系  

**为什么Rope在超长上下文外推能力会失效：**  
相位缠绕：长序列导致旋转角度过大，会导致落在$2\pi$整数倍附近的风险加大，容易导致角度巧合重合，位置信息混淆。旋转是周期性的，每过$2\pi$就会回到原点。  
方差爆炸：注意力分数方差会随着序列长度的增加而增加，注意力分数分布失衡，导致“注意力崩溃”。  
频谱失衡：高频成噪声，低频失效，多尺度建模能力丧失。  
分布偏移：推理状态远超训练经验，模型行为失控。  
有限外推：外推能力随长度增加而指数级衰减。  

#### 如何旋转：

1、生成Q和K：    
```Q = Q.view(batch, len, n_heads, d_head).transpose(1, 2)  # [batch, n_heads, len, d_head]  ```  
```K = K.view(batch, len, n_heads, d_head).transpose(1, 2)  # [batch, n_heads, len, d_head]  ```  

将其**看作**多头的形式（使用view函数没有复制开销，极其高效而且不易出错，直接切分则低效而容易出错）

2、预计算“旋转频率表” freqs[i]（这是ROPE的设定，只算一次，全局共享，也称频率基）：   
freqs = 1.0 / (10000 ** (torch.arange(0, d_head, 2) / d_head))   
我们将 d_head 维度按相邻两两分组，视为 $\frac{\text{d\_head}}{2}$ 个二维向量$(x_i,y_i)$，每个二维向量将在旋转操作中作为一个整体进行旋转变换。  
freqs[i] 是根据维度的位置预先设定的基频率，同一个模型中所有 token、所有注意力头、所有层，只要处于相同的维度位置（如第 0-1 维、第 2-3 维等），就使用相同的 freqs[i]。  
对于一个d_head，里面所有token的freqs[i]都是一样的  

freqs[i] 越大 → 高频 → 对位置敏感（精细定位）  
freqs[i] 越小 → 低频 → 对位置迟钝（粗粒度定位）  
低维度（i=0）：旋转快（高频）→ 编码短距离关系    
高维度（i=d/2-1）：旋转慢（低频）→ 编码长距离关系  

3、为每一个位置计算旋转角度：  
引入位置m（每一个头的每一个token的绝对位置[0,1,...len-1]）  
对每一个位置m计算它的旋转角度：$\theta_m = m * freqs$ ，每个位置 m 得到不同的 $\theta_m$  
```positions = torch.arange(len)                    # [len]```获取当前的位置索引   
```angles = torch.outer(positions, freqs)           # [len, d_head//2]```求出了$\theta_m$  
```cos = torch.cos(angles)                          # [len, d_head//2]```  
```sin = torch.sin(angles)                          # [len, d_head//2]```这是在计算旋转公式需要的值   
现在 cos[m, i] 和 sin[m, i] 告诉我们：在位置 m，第 i 个二维对应该旋转多少度。   
接下来扩展维度为后续广播做准备：   
```cos = cos.unsqueeze(0).unsqueeze(0)  # [1, 1, len, d_head//2]```   
```sin = sin.unsqueeze(0).unsqueeze(0)  # [1, 1, len, d_head//2]```   

4、将 d_head 维向量看作 d_head//2 个二维对：    
```# Q: [batch, n_heads, len, d_head]```  
```Q = Q.view(batch, n_heads, len, d_head // 2, 2)  # [batch, n_heads, len, d_head//2, 2]```  
```K = K.view(batch, n_heads, len, d_head // 2, 2)```    
最后一维 [2] 就是 (x, y)  
倒数第二维 d_head//2 是“有多少个对”  

5、应用旋转公式：  
前期Q和K的维度是[batch, n_heads, len, d_head//2, 2] 2代表一个二维对（x,y)现在需要进行分离。   
```Q_x, Q_y = Q[..., 0], Q[..., 1]```  
```K_x, K_y = K[..., 0], K[..., 1]```     
接下来应用旋转公式：  
```Q_rot_x = Q_x * cos - Q_y * sin```  
```Q_rot_y = Q_x * sin + Q_y * cos```  
  
```K_rot_x = K_x * cos - K_y * sin```  
```K_rot_y = K_x * sin + K_y * cos```  
接下来重新组合为二维向量的结构：  
```Q_rot = torch.stack([Q_rot_x, Q_rot_y], dim=-1)  # [batch, n_heads, len, d_head//2, 2]```    
```K_rot = torch.stack([K_rot_x, K_rot_y], dim=-1)```    
因为一直都是**看作**，现在已经旋转完毕，看回来，变为原始形状：  
```Q_rot = Q_rot.view(batch, n_heads, len, d_head)  # [batch, n_heads, len, d_head]```  
```K_rot = K_rot.view(batch, n_heads, len, d_head)```  

6、计算注意力分数：  
现在 Q_rot 和 K_rot 已经注入了位置信息，可以直接用于注意力：  
```attn_scores = torch.matmul(Q_rot, K_rot.transpose(-2, -1)) / sqrt(d_head)```

### 三、RopE旋转编码的缺点

1、低维高频旋转混乱问题：  
实际问题：当处理长序列时，低维度（高频）会旋转过多圈数，导致位置信息混乱。  
2、高维低频分辨率不足：  
高维度（低频）在长距离上的分辨率不够，无法精确区分相邻位置。有些时候相近位置差异过小，会导致无法区分，在理解精确任务的时候容易出错。  
3、训练长度和外推能力的矛盾：  
rope在训练长度内表现良好，但在外推到训练序列的一定倍数的长度后，性能会急剧下降。  
4、维度利用不均衡：    
不同维度的作用差异巨大，导致模型容量浪费。    
高频维度（低维）过多但用处有限  
低频维度（高维）过少但需求量大      
中频维度的覆盖范围过窄  
5、对注意力模式的限制：  
rope的固定旋转模式使得每一层都使用相同的位置编码，这样就让多层注意力机制失效了，每一层都无法获得最合适的位置信息。  
6、计算复杂度的问题：增加了计算开销  