# 附录1：pytorch的张量运算

pytorch是当前最为流行的深度学习框架。它包括4个对深度学习十分重要的功能：张量运算（torch)、自动梯度（torch.autograd）、神经网络（torch.nn）和优化方法（torch.optim）。张量运算是深度学习编程的基础。下面是基于我学习张量运算记录的笔记整理的一些有关pytorch张量运算的常用内容。

## 1. 张量的基本概念
张量是一个数学概念，在计算机编程中可以把张量简单理解成数组。
1. 0维张量就是一个数，在数学上又称为“标量”；
2. 1维张量就是1维数组，数学上又称为“向量”；
3. 2维张量就是2维数组，在数学上又称为“矩阵”。矩阵的每一行称为行向量，每一列称为列向量。
4. 3维及以上的张量就是多维数组，在数学直接称为张量。
  
神经网络模型处理的基本数据对象就是张量。
1. 在大语言模型训练时的输入样本就是一个3维的张量。每个维度分别为：**批次的大小**，**文本序列长度**和**词向量的大小**。
2. 在大语言模型多头注意机制中，值向量（values）就存储在一个4维张量中。每个维度分别为：**批次的大小**、**头的数量**、**文本序列长度**以及**每个值向量的大小**
3. 图像卷积操作时被处理的图像一般也是一个三维张量。每个维度分别为：**图像的长**，**图像的宽**和**图像的通道数**。一般一个图像包括3个通道，分别对应R、G、B。

## 2. 使用torch库的基本方法

In [1]:
#使用pytorch库的张量运算需要首先在程序中引入该库
import torch

调用torch库中张量函数的方法有两种：  
1. 作为torch库的函数调用，
2. 作为张量类的类函数调用。
通常情况下这两种方法是等价。

In [3]:
x = torch.ones(2,3)
y = torch.full((2,3), 2)
#方法1：作为torch库的函数调用
w = torch.add(x, y)
#方法2：作为张量x类的类函数调用
z = x.add(y)
print(w)
print(z)

tensor([[3., 3., 3.],
        [3., 3., 3.]])
tensor([[3., 3., 3.],
        [3., 3., 3.]])


作为类函数有两种版本：  
1. 结尾带下划线
2. 结尾不带下划线
 
不带下划线的版本将运算结果作为返回值，不修改对象本身。带下划线的版本直接修改对象本身。

In [4]:
x = torch.ones(2,3)
y = torch.full((2,3), 2)
z = x.add(y)
print(f"x={x}")
z = x.add_(y)
print(f"x={x}")
print(f"z={z}")

x=tensor([[1., 1., 1.],
        [1., 1., 1.]])
x=tensor([[3., 3., 3.],
        [3., 3., 3.]])
z=tensor([[3., 3., 3.],
        [3., 3., 3.]])


## 3. torch库中常用的张量运算函数

| 分类  | 函数 |  功能|
| ---| --- | --- |
|初始化张量 | torch.tensor | 出列表初始化 |
|     |empty| 产生一个元素初值不确定的张量 |
|     |zeros| 产生一个元素初值为0的张量 |
|     |ones | 产生一个元素初值为1的张量 |
|     |rand | 产生一个元素初值在（0, 1）之间均匀分布的张量|
|     |randn | 产生一个元素初值按照均值为0，方差为1的标准正态分布的张量|
|     |ones_like|产生一个形状和输入矩阵相同但元素初值为1的张量|
|     |randn_like|产生一个形状和输入矩阵相同但元素初值按照均值为0，方差为1的标准正态分布的张量|
|     |linespace|产生在指定区间（含端点）内等距取值的一维向量|
|改变张量形状|unsqueeze|在指定位置增加1个大小为1的维度|
|          |squeeze|在指定为减少1个维度，只能减少大小为1的维度|
|          |transpose|交换张量的两个维度|
|          |view|将张量改为指定形状，不改变内存中数据的位置|
|          |reshape|将张量改为指定形状，必要时改变内存中数据的位置|
|张量的合并与拆分|cat|将多个张量沿着某个维度合并|
|    |stack|沿着一个新的维度将多个张量合并|
|    |split|将张量沿某个维度，拆分成多个张量|
|    |chunk|将张量沿某个指定的维度切成若干块|




## 4. 初始化张量  
### 4.1 将python list转化为张量

In [20]:
x = torch.tensor([[1,2,3,4],[5,6,7,8],[2,4,6,8]], dtype=torch.float64)
print(x.shape)
print(x.dtype)
print(x)
y = x.tolist() #把张量转化为list
print(y)

torch.Size([3, 4])
torch.float64
tensor([[1., 2., 3., 4.],
        [5., 6., 7., 8.],
        [2., 4., 6., 8.]], dtype=torch.float64)
[[1.0, 2.0, 3.0, 4.0], [5.0, 6.0, 7.0, 8.0], [2.0, 4.0, 6.0, 8.0]]


### 4.2 利用函数生成张量
### 4.2.1 指定张量元素的初值

In [14]:
a = torch.empty(2, 3, 2) #用empty函数生成张量。注意元素值取值是不确定的
b = torch.zeros(4,2) #创建各元素值都是0的张量
c = torch.ones(3, 4, dtype=torch.int64) #创建各元素都是1的张量
d = torch.full((2, 3), 3.14) #给张量元素指定任意初值
e = torch.empty((2, 3)).fill_(3.14) #给张量元素指定任意初值的另一种方法
print(f"a={a}")
print(f"b={b}")
print(f"c={c}")
print(f"d={d}")
print(f"e={e}")

a=tensor([[[0., 0.],
         [0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.],
         [0., 0.]]])
b=tensor([[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]])
c=tensor([[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]])
d=tensor([[3.1400, 3.1400, 3.1400],
        [3.1400, 3.1400, 3.1400]])
e=tensor([[3.1400, 3.1400, 3.1400],
        [3.1400, 3.1400, 3.1400]])


#### 4.2.2 生成初值符合某种条件的张量

In [12]:
f = torch.randn(2,4,2) #创建元素取值符合均值为0，方差为1的标准高斯分布的张量
g = torch.rand(2,3) #创建元素值在（0,1）之间且满足均匀分布的张量
h = torch.linspace(1, 10, 5) #生成1维张量，元素值从左到右依次从1到10的区间里等距离采样
print(f"f={f}")
print(f"g={g}")
print(f"h={h}")

f=tensor([[[-0.5926, -1.8964],
         [ 1.0145, -0.3874],
         [-0.6223, -0.0522],
         [ 0.3126,  0.4287]],

        [[-0.5801,  0.6547],
         [ 0.3417, -0.7546],
         [-0.1749, -1.5067],
         [ 0.8497, -0.9615]]])
g=tensor([[0.2595, 0.2191, 0.5739],
        [0.5101, 0.4375, 0.7918]])
h=tensor([ 1.0000,  3.2500,  5.5000,  7.7500, 10.0000])


#### 4.2.3 生成形状和另一个张量相同的张量

In [15]:
i = torch.ones_like(d) #创建一个形状和d相同，元素值全为1的张量
j = torch.randn_like(d) #创建一个形状和d相同,元素值符合均值为0，方差为1的标准高斯分布
print(f"i={i}")
print(f"j={j}")

i=tensor([[1., 1., 1.],
        [1., 1., 1.]])
j=tensor([[ 0.8391, -0.1910, -2.4852],
        [-0.7231, -0.5464, -0.6859]])


## 5. 访问张量  
### 5.1 通过索引访问张量中的某个元素。

In [16]:
a = torch.arange(0,10)
print(f"a={a}")
x = a[7]
print(x)
print(x.item())#当张量只包含一个元素时，用item函数返回这个值。注意比较两个输出在类型上的区别。

a=tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
tensor(7)
7


### 5.2 通过索引获得张量的某个切片

In [17]:
b = a[4:8]
c = a[7:-1]
d = a[6:]
e = a[:-1]
f = torch.randn(9,8,10)
g = f[:,2,:]
h = f[:,3:5,:-1]
print(b)
print(c)
print(d)
print(e)
print(g.size())
print(h.size())

tensor([4, 5, 6, 7])
tensor([7, 8])
tensor([6, 7, 8, 9])
tensor([0, 1, 2, 3, 4, 5, 6, 7, 8])
torch.Size([9, 10])
torch.Size([9, 2, 9])


## 6. 改变张量的形状 

### 6.1 增加张量的维度（torch.unsqueeze） 

In [19]:
a = torch.randn(2,3)
b = a.unsqueeze(-1) #在张量a的最后增加一个维度，大小为1
c = a.unsqueeze(1) #在张量a的第1个维度之后增加一个维度，大小为1
print(b.size())
print(b)
print(c.size())
print(c)

torch.Size([2, 3, 1])
tensor([[[-0.8945],
         [-1.3630],
         [-0.0504]],

        [[-0.7699],
         [ 0.9950],
         [ 0.8197]]])
torch.Size([2, 1, 3])
tensor([[[-0.8945, -1.3630, -0.0504]],

        [[-0.7699,  0.9950,  0.8197]]])


### 6.2 减少张量的维度（torch.squeeze)
在张量的指定位置减少一个维度，要求被减少的维度大小为1。

In [22]:
d = b.squeeze(-1) #压缩张量b的最后1维。被压缩的维度对应的大小只能是1，否则不压缩
print(d.size())
print(d)

torch.Size([2, 3])
tensor([[-0.8945, -1.3630, -0.0504],
        [-0.7699,  0.9950,  0.8197]])


### 6.3 交换张量的维度（torch.tranpose）  
交换张量的维度

In [9]:
p = torch.rand(5,6,3,1,9,7)
p = p.transpose(2,4)
print(p.size())

torch.Size([5, 6, 9, 1, 3, 7])


### 6.4 任意改变张量的形状（torch.view和torch.reshape）
view和reshape都可以灵活的改变张量的形状，只要改变后的各维度大小相乘和改变前各维度大小相乘相等即可。

In [21]:
p = torch.rand(5,162,8)
q = p.view((10, 81, 2, 4))
r = p.reshape((90, 9, 4, 2))
print(q.size())
print(r.size())

torch.Size([10, 81, 2, 4])
torch.Size([90, 9, 4, 2])


view和reshape改变张量形状时，并非真正改变了数据在内存中的位置，而是改变张量的索引。这样做减少了数据在内存的复制，因此比较高效，需要张量在变形之前索引是连续的。如果索引不是连续的，则只能使用reshape函数来改变张量的形状。关于这一点的具体解释可参见下面第8小节

## 7. 张量的合并和拆分

### 7.1 张量的合并（torch.cat和torch.stack）  
torch.cat，将多个张量沿着某个维度合并。要求合并的张量除了这个维度之外，其他维度的大小必须一样。
torch.stack，沿着一个新的维度将多个张量合并。要求这些张量的形状必须完全一致。

In [23]:
a = torch.randn(2,3,5,6)
b = torch.randn(2,4,5,6)
#使用cat函数，沿指定维度合并张量。把需要合并在张量放在一个tuple里。
c = torch.cat((a, b), dim=1)
print(c.size())
d = torch.randn(2,3,5,6)
e = torch.randn(2,3,5,6)
f = torch.randn(2,3,5,6)
g = torch.randn(2,3,5,6)
#使用stack函数，将a, b, c, d 4个张量合并成新张量的第3个维度
h = torch.stack((d, e, f, g), dim=2)
print(f.size())

torch.Size([2, 7, 5, 6])
torch.Size([2, 3, 5, 6])


### 7.2 张量的拆分 
split函数将张量沿某个维度，拆分成多个张量。
chunk函数将张量沿某个指定的维度切成若干块

In [24]:
p =torch.randn(5,162,7)
a, b, c, d = torch.split(p, [10, 50, 40, 62], dim=1)
print(a.size())
print(b.size())
print(c.size())
print(d.size())
e, f, g, h = torch.chunk(p, 4, dim=1)#沿第2维将张量分成4块，4块大小不一定一样。
print(e.size())
print(f.size())
print(g.size())
print(h.size())

torch.Size([5, 10, 7])
torch.Size([5, 50, 7])
torch.Size([5, 40, 7])
torch.Size([5, 62, 7])
torch.Size([5, 41, 7])
torch.Size([5, 41, 7])
torch.Size([5, 41, 7])
torch.Size([5, 39, 7])


## 8. 广播机制
广播机制用于解决形状不匹配的张量间进行运算的问题。概括的的说，广播机制会按照规则，逐一比较两个向量的各个维度，并通过复制的方式将较小的维度扩大到和较大维度相等，从而最终使两者形状一致。需要注意的是并非任意两个张量都可以通过广播变成形状一致。可以通过广播机制变为形状一致的张量需满足以下条件：  
1. 两个张量都不能是0维的。
2. 从右向左逐个维度比较两个张量。两个张量各对应维度需要满足以下条件之一  
    . 相等  
    . 其中一个张量的大小为1，可通过复制变为一致   
    . 其中一个张量不存在这个维度，可通过插入维度在复制变为一致

a和b可通过广播变为形状一致：
从右向左依次
1. 第1个维度，b维度大小是1
2. 第2个维度，a和b的维度大小相同
3. 第3个维度，a的维度大小是1
4. 第4个维度：b该维度不存在

In [3]:
a = torch.randn(2, 1, 4, 3)
b = torch.randn(   5, 4, 1)
c = a + b
print(c.size())

torch.Size([2, 5, 4, 3])


下面代码中的x和y不可通过广播变为形状一致，因为从右边数第3个维度，两个张量该维度的大小不同且没有一个张量该维度的大小为1，无法通过复制的方式让它们的维度一致。

In [None]:
x = torch.empty(2, 2, 4, 3)
y = torch.empty(   5, 4, 1)

利用广播机制完成张量加法

In [6]:
a = torch.ones(3, 2, 1)
b = torch.empty(5).fill_(2.1)
c = a + b
print(c.size())
print(c)

torch.Size([3, 2, 5])
tensor([[[3.1000, 3.1000, 3.1000, 3.1000, 3.1000],
         [3.1000, 3.1000, 3.1000, 3.1000, 3.1000]],

        [[3.1000, 3.1000, 3.1000, 3.1000, 3.1000],
         [3.1000, 3.1000, 3.1000, 3.1000, 3.1000]],

        [[3.1000, 3.1000, 3.1000, 3.1000, 3.1000],
         [3.1000, 3.1000, 3.1000, 3.1000, 3.1000]]])


## 9. 张量的乘法

### 9.1 逐元素相乘（*）

In [151]:
a = torch.empty((2,3)).fill_(2.0)
b = torch.empty((1,3)).fill_(3.0)
#不要求输入两个张量形状一致，但两个张量需要能够通过广播机制变为形状一致。
c = a * b
print(c)

tensor([[6., 6., 6.],
        [6., 6., 6.]])


### 9.2 向量点积

In [153]:
a = torch.full((5,), 2)
b = torch.full((5,), 3)
#输入必须都是1维向量，且维度大小一致。
c = torch.dot(a, b)
print(c)

tensor(30)


### 9.3 向量外积

In [25]:
a = torch.full((3,), 2)
b = torch.full((3,), 3)
#输入必须都是1维向量，且维度大小一致。
c = torch.outer(a, b)
print(c)

tensor([[6, 6, 6],
        [6, 6, 6],
        [6, 6, 6]])


### 9.4 矩阵乘法（@）

In [92]:
#两个2维矩阵相乘，维度必须匹配，即前一个矩阵的列数必须和后一个矩阵的行数相等
a = torch.empty((2,3)).fill_(2.0)
b = torch.empty((2,3)).fill_(3.0)
c = a @ b.transpose(0,1)
print(d)

tensor([[18., 18.],
        [18., 18.]])


In [157]:
#向量和矩阵相乘，相当于行向量和矩阵相乘。
a = torch.tensor([1.0, 2.0, 3.0])
b = torch.ones(3,2)
c = a @ b
print(c)

tensor([6., 6.])


In [158]:
#矩阵和向量相乘，相当于矩阵和列向量相乘
a = torch.ones(3,2)
b = torch.tensor([1.0,4.0])
c = a @ b
print(c)

tensor([5., 5., 5.])


### 9.5 批量矩阵乘法（@）
当相乘的张量维度大于2时，执行批量矩阵乘法。对于形状为(..., m, n)的张量A和形状为(..., n, p)的张量B，批量矩阵乘法的结果是一个形状为(..., m, p)的张量。每个张量的"..."部分代表任意数量的批量维度。当进行批量乘法时，pytorch会利用广播机制自动让各向量批量维度一致。

In [146]:
d = torch.randn(3,4,5)
e = torch.randn(1,5,3)
f = d @ e
print(f.size())
print(f)

torch.Size([3, 4, 3])
tensor([[[ 0.1684,  0.9406, -1.7558],
         [-2.6504,  1.8649,  2.7411],
         [ 5.1198, -4.5485, -3.3203],
         [ 3.4810, -6.1789, -4.1025]],

        [[ 2.4855, -6.3756, -2.7549],
         [-5.1606,  3.1573,  1.1740],
         [-0.2549,  3.1623,  3.0671],
         [ 2.1162, -5.3233, -1.2320]],

        [[-0.1310,  3.3769, -0.3214],
         [-3.0650,  1.6578, -0.8541],
         [-0.9523,  0.0756, -0.4481],
         [-1.1875,  2.6943,  2.6880]]])


### 9.6 利用矩阵乘法实现批量向量内积

In [161]:
a = torch.randn(3,2,5)
b = torch.randn(3,2,5)
#对a和b的最后一维做批量内积
a = a.unsqueeze(-2) #a形状为(3, 2, 1, 5) 
b = b.unsqueeze(-1) #b形状为(3, 2, 5, 1)
c = a @ b #c形状为(3, 2, 1, 1)
c.squeeze_(-1).squeeze_(-1)
print(c.size())
print(c)

torch.Size([3, 2])
tensor([[-2.8519,  1.6670],
        [ 3.2973,  4.3137],
        [-0.4093,  0.5068]])


### 9.7 利用矩阵乘法实现批量向量外积

In [163]:
a = torch.randn(3,2,2)
b = torch.randn(3,2,2)
#对a和b的最后一维做批量外积
a = a.unsqueeze(-1) #a形状为(3, 2, 2, 1) 
b = b.unsqueeze(-2) #b形状为(3, 2, 1, 2)
c = a * b #这里利用了广播机制，c的形状为(3, 2, 2, 2)
print(c.size())
print(c)

torch.Size([3, 2, 2, 2])
tensor([[[[-0.5924, -1.8389],
          [-0.3113, -0.9664]],

         [[ 0.7701, -0.0239],
          [-0.1870,  0.0058]]],


        [[[ 0.4913, -0.2648],
          [-1.2844,  0.6923]],

         [[-0.1414,  0.0411],
          [-1.3858,  0.4028]]],


        [[[-0.9607,  1.4274],
          [ 1.1836, -1.7586]],

         [[ 0.0319, -0.0793],
          [ 0.5575, -1.3866]]]])


## 10. 爱因斯坦求和约定（torch.einsum)

einsum是一个十分强大的函数，可以简明的完成复杂的张量运算。
### 10.1 张量扩维
'i, j -> ij' 相当于 $a^Tb$，也就是向量a和向量b的元素两两相乘得到一个矩阵。

In [118]:
a = torch.full((3,),2)
b = torch.full((2,),3)
c = torch.einsum('i, j -> ij', a, b)
print(c)

tensor([[6, 6],
        [6, 6],
        [6, 6]])


### 10.2 张量缩维
'i->'相当于对该维度求和$\sum_{i}a_{i}$

In [120]:
d = torch.full((3,),2)
e = torch.einsum('i->', d)
print(e)

tensor(6)


### 10.3 张量的交换不变性
交换张量任意两个维度，不改变张量本身。

In [121]:
f = torch.randn(2,3)
g = torch.einsum('ij->ji', f)
print(f)
print(g)

tensor([[ 0.8026,  1.5833,  0.8638],
        [-0.7444,  0.3484,  0.2103]])
tensor([[ 0.8026, -0.7444],
        [ 1.5833,  0.3484],
        [ 0.8638,  0.2103]])


### 10.4 逐元素相乘

In [138]:
a = torch.ones(2,3,3)
b = torch.empty(2,3,3).fill_(1.5)
c = torch.einsum('ijk, ijk -> ijk', a, b)
print(c)

tensor([[[1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000]],

        [[1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000]]])


### 10.5 矩阵乘法 
'ij, jk -> ik' 相当于 
1. 交换不变性'ij -> ji'；
2. 张量扩维：'ji, jk -> jik'
3. 张量缩维：'jik->ik'

In [114]:
a = torch.full((2,3),2)
b = torch.full((3,2),3)
c = a @ b
d = torch.einsum('ij, jk -> ik', a, b)
print(c)
print(d)

tensor([[18, 18],
        [18, 18]])
tensor([[18, 18],
        [18, 18]])


### 10.6 向量点积

In [139]:
a = torch.full((3,),2)
b = torch.full((3,),3)
c = torch.dot(a,b)
d = torch.einsum('i,i ->', a, b)
print(c)
print(d)

tensor(18)
tensor(18)


### 10.7 向量外积

In [141]:
d = torch.einsum('i,j -> ij', a, b)
print(d)

tensor([[6, 6, 6],
        [6, 6, 6],
        [6, 6, 6]])


### 10.7 高维张量运算
einsum函数的最强大之处在于可以简明的完成高维张量的运算。

In [29]:
#两个张量最后一维做外积，再沿着l维求和。
a = torch.rand(2, 3, 5, 3)
b = torch.rand(2, 3, 5, 4)
c = torch.einsum('bhlk, bhlv->bhkv', a, b)
print(c.shape)
print(c)

torch.Size([2, 3, 3, 4])
tensor([[[[0.7740, 0.5066, 0.5911, 0.5199],
          [1.4847, 0.8234, 0.7827, 1.0130],
          [1.6655, 1.1336, 1.1268, 1.0377]],

         [[1.6491, 1.6983, 1.1284, 1.3408],
          [1.3859, 1.9514, 1.1355, 1.4963],
          [1.9382, 1.9166, 1.4310, 1.5330]],

         [[0.8259, 0.5468, 0.2716, 0.8515],
          [0.9532, 0.7827, 0.1580, 0.7060],
          [2.0262, 1.9009, 0.8077, 2.0046]]],


        [[[1.3597, 1.1800, 1.1179, 1.1697],
          [1.0490, 1.4462, 0.8551, 1.4018],
          [1.3576, 1.3353, 1.2436, 1.5512]],

         [[1.1342, 0.6835, 0.7239, 0.6689],
          [1.0150, 0.4593, 0.5466, 0.4720],
          [1.0565, 0.6824, 0.7125, 0.6248]],

         [[0.9407, 1.2459, 2.2897, 1.4569],
          [0.9277, 0.8407, 1.7704, 1.4559],
          [0.7586, 0.9235, 1.4937, 1.0372]]]])


下面这段代码通过转置和矩阵乘法运算达到和上面爱因斯坦求和约定相同的效果

In [30]:
x= a.transpose(-2,-1)
y = (x @ b)
print(y.shape)
print(y)

torch.Size([2, 3, 3, 4])
tensor([[[[0.7740, 0.5066, 0.5911, 0.5199],
          [1.4847, 0.8234, 0.7827, 1.0130],
          [1.6655, 1.1336, 1.1268, 1.0377]],

         [[1.6491, 1.6983, 1.1284, 1.3408],
          [1.3859, 1.9514, 1.1355, 1.4963],
          [1.9382, 1.9166, 1.4310, 1.5330]],

         [[0.8259, 0.5468, 0.2716, 0.8515],
          [0.9532, 0.7827, 0.1580, 0.7060],
          [2.0262, 1.9009, 0.8077, 2.0046]]],


        [[[1.3597, 1.1800, 1.1179, 1.1697],
          [1.0490, 1.4462, 0.8551, 1.4018],
          [1.3576, 1.3353, 1.2436, 1.5512]],

         [[1.1342, 0.6835, 0.7239, 0.6689],
          [1.0150, 0.4593, 0.5466, 0.4720],
          [1.0565, 0.6824, 0.7125, 0.6248]],

         [[0.9407, 1.2459, 2.2897, 1.4569],
          [0.9277, 0.8407, 1.7704, 1.4559],
          [0.7586, 0.9235, 1.4937, 1.0372]]]])


下面这段代码通过逐元素相乘再对张量按照某个维度求和，同样达到和einsum函数相同的效果。

In [31]:
a.unsqueeze_(-1)
b.unsqueeze_(-2)
c = (a * b).sum(-3)
print(c.size())
print(c)

torch.Size([2, 3, 3, 4])
tensor([[[[0.7740, 0.5066, 0.5911, 0.5199],
          [1.4847, 0.8234, 0.7827, 1.0130],
          [1.6655, 1.1336, 1.1268, 1.0377]],

         [[1.6491, 1.6983, 1.1284, 1.3408],
          [1.3859, 1.9514, 1.1355, 1.4963],
          [1.9382, 1.9166, 1.4310, 1.5330]],

         [[0.8259, 0.5468, 0.2716, 0.8515],
          [0.9532, 0.7827, 0.1580, 0.7060],
          [2.0262, 1.9009, 0.8077, 2.0046]]],


        [[[1.3597, 1.1800, 1.1179, 1.1697],
          [1.0490, 1.4462, 0.8551, 1.4018],
          [1.3576, 1.3353, 1.2436, 1.5512]],

         [[1.1342, 0.6835, 0.7239, 0.6689],
          [1.0150, 0.4593, 0.5466, 0.4720],
          [1.0565, 0.6824, 0.7125, 0.6248]],

         [[0.9407, 1.2459, 2.2897, 1.4569],
          [0.9277, 0.8407, 1.7704, 1.4559],
          [0.7586, 0.9235, 1.4937, 1.0372]]]])


### 10.9 einsum实战例子
用einsum函数重写Qwen3-next-80B源码文件module_qwen3_next.py中函数torch_recurrent_gated_delta_rule中的代码。下面是源代码

last_recurrent_state = last_recurrent_state + k_t.unsqueeze(-1) * delta.unsqueeze(-2)

下面是改写之后的代码。

last_recurrent_state +=  torch.einsum('bhlk, bhlv -> bhkv', k_t, delta）

## 11. 张量在内存中的存储
张量的数据在内存中是连续存储的。张量的形状只是不同索引方式而已。不同张量可以指向同一个存储区。

In [36]:
a = torch.randn((2,3))
print(a)
b = a
print(id(a)) #id函数返回张量指向的地址空间
print(id(b))
storage = a.storage()#storage函数返回张量存储区是实际内容
storage

tensor([[ 0.3235, -1.2144,  1.6674],
        [-0.5466,  0.5778, -0.0047]])
4567721824
4567721824


 0.3235391080379486
 -1.2144300937652588
 1.6673688888549805
 -0.5466006398200989
 0.5777862668037415
 -0.004692655988037586
[torch.storage.TypedStorage(dtype=torch.float32, device=cpu) of size 6]

view函数只是改变了张量的索引方式，并未改变张量在内存中存储的方式

In [37]:
c = a.view(3, 2)
print(c.size())
print(c.storage())

torch.Size([3, 2])
 0.3235391080379486
 -1.2144300937652588
 1.6673688888549805
 -0.5466006398200989
 0.5777862668037415
 -0.004692655988037586
[torch.storage.TypedStorage(dtype=torch.float32, device=cpu) of size 6]


如果我们把张量中所有元素的索引按照下面规则排成一行。**按照维度从左向右，比较索引对应的下标值，标值小的排在前面。**  这时，如果该索引序列和每个索引对饮元素在内存中实际排列一致，我们就说索引是连续的。view函数和reshape函数虽然改变张量的形状，其实只是改变了索引结构，不会破坏索引的连续性，也不需要改变元素在内存中的位置。有些张量变换，比如交换张量维度，会破坏张索引的连续性。一旦索引的连续性被破坏就不能再使用view函数来改变张量的形状，必须使用reshape函数。这时候reshape函数会通过改变内存中元素的位置来回复索引的连续性。

In [38]:
#函数is_contiguous用于判断当前张量的索引是否连续。
a = torch.randn(3,5,2,4)
print(a.is_contiguous())
b = a.view(3,10,4)
print(b.size())
print(b.is_contiguous())
c = a.transpose(1,3) #破坏了数据的连续性
print(c.size())
print(c.is_contiguous())

True
torch.Size([3, 10, 4])
True
torch.Size([3, 4, 2, 5])
False
