## 对一些pytorch的常用函数与方法的记录

### 一、在MHA与GQA中的常见方法

“视图”操作（如 .view(), .transpose(), .expand(), .reshape()）：不改变底层数据，只改变“看”数据的方式（修改元数据）。零内存开销。  
“复制”操作（如 .repeat(), .clone()）：创建数据的物理副本，占用额外内存。  

1. nn.Linear(in_features, out_features)  
是什么：线性层，也叫全连接层（Fully Connected Layer）或稠密层（Dense Layer）。它是神经网络中最基础的计算单元。  
做什么：对输入执行矩阵乘法和加法：output = input @ weight.T + bias。  
通俗比喻：一个“转换器”。比如，把一个256维的向量“翻译”成一个512维的向量。  

2. .view(*shape)  
是什么：重塑（Reshape）张量的形状。  
做什么：将张量重新解释为新的维度，总元素数必须不变。  
关键限制：要求底层数据在相关维度上是连续的（contiguous）。否则会报错。  
通俗比喻：把一盒24块的巧克力，从 6x4 的排列，重新想象成 3x8 的排列。巧克力块本身没动，只是你“看”它的角度变了。  

3. .transpose(dim0, dim1)  
是什么：交换两个维度的位置。  
做什么：只修改 shape 和 strides，不移动数据，零内存开销。  
通俗比喻：一张 3x4 的表格，你把它“转置”成 4x3。表格里的数字没变，只是行列对调了。  


4. .unsqueeze(dim)  
是什么：在指定位置dim插入一个大小为1的新维度。  
做什么：增加一个维度，通常用于为 expand 或 broadcasting 做准备。  
通俗比喻：给一个平面的纸片（2D）加上一个厚度，变成一个“超薄”的书（3D），但厚度是1。  


5. .expand(*sizes)  
是什么：广播（Broadcast）张量到新的形状。  
做什么：将大小为1的维度扩展到目标大小，不复制数据，零内存开销。创建“幻影分身”。  
关键限制：只能扩展大小为1的维度。  
通俗比喻：一个全息投影仪。它只用一个真实的物体（大小为1的维度），就能投射出多个幻象（扩展后的维度），看起来有很多，但都是同一个本体。  

6. .reshape(*shape)  
是什么：另一个重塑形状的方法。  
做什么：与 .view() 基本相同，但更“鲁棒”。  
关键区别：  
.view()：要求数据连续，否则报错。**也正是因为这一点，它可以提醒程序员数据排布有问题，所以一直用view()而不是reshape()**  
.reshape()：如果数据不连续，它会自动先调用 .contiguous()（复制数据），然后再 view。  
通俗比喻：    
.view()：要求乐高积木必须整齐排列，才能重新拼成新模型。  
.reshape()：即使积木乱了，它也会先帮你整理好（复制），再拼新模型。  

7. .masked_fill(mask, value)  
是什么：条件填充。  
做什么：根据一个布尔掩码 mask，将张量中所有 True 位置的元素替换为 value。  
通俗比喻：涂改液。mask 是一张“涂改模板”，标出哪些字要涂掉（True），然后用 value（如 -inf）覆盖掉。  

8. .contiguous()  
   作用：返回一个在内存中连续存放的新张量