# 附录1：pytorch的张量运算

pytorch已成为当前最为流行的深度学习框架。它包括4个对深度学习十分重要的功能：张量运算（torch)、自动梯度（torch.autograd）、神经网络（torch.nn）和优化方法（torch.optim）。张量运算是我们深度学习编程的基础。本附录结合实际的例子来介绍有关pytorch张量运算的常用内容。  

In [26]:
#使用pytorch库的张量运算需要首先在程序中引入该库
import torch

调用torch库中张量函数的方法有两种：  
1. 作为torch库的函数调用，
2. 作为张量类的函数调用。
通常情况下这两种方法是等价。

In [28]:
x = torch.ones(2,3)
y = torch.full((2,3), 2)
#方法1：作为torch库的函数调用
w = torch.add(x, y)
#方法2：作为张量x类的类函数调用
z = x.add(y)
print(w)
print(z)

tensor([[3., 3., 3.],
        [3., 3., 3.]])
tensor([[3., 3., 3.],
        [3., 3., 3.]])


作为类函数有两种版本：  
1. 结尾带下划线
2. 结尾不带下划线
不带下划线的版本将运算结果作为返回值，不修改对象本身。带下划线的版本直接修改对象本身。

In [30]:
x = torch.ones(2,3)
y = torch.full((2,3), 2)
z = x.add(y)
print(f"x={x}")
z = x.add_(y)
print(f"x={x}")
print(f"z={z}")

x=tensor([[1., 1., 1.],
        [1., 1., 1.]])
x=tensor([[3., 3., 3.],
        [3., 3., 3.]])
z=tensor([[3., 3., 3.],
        [3., 3., 3.]])


| 分类  | 函数 |  功能|
| ---| --- | --- |
|初始化张量 | torch.tensor | 出列表初始化 |
|     |torch.empty| 产生一个元素初值不确定的张量 |
|     |torch.zeros| 产生一个元素初值为0的张量 |
|     |torch.ones | 产生一个元素初值为1的张量 |
|     |torch.rand | 产生一个元素初值在（0, 1）之间均匀分布的张量|
|     |torch.randn | 产生一个元素初值按照均值为0，方差为1的标准正态分布的张量|
|     |torch.ones_like|产生一个形状和输入矩阵相同但元素初值为1的张量|
|     |torch.randn_like|产生一个形状和输入矩阵相同但元素初值按照均值为0，方差为1的标准正态分布的张量|
|     |torch.linespace|产生在指定区间（含端点）内等距取值的一维向量|
|改变张量形状|torch.unsqueeze|在指定位置增加1个大小为1的维度|
|          |torch.squeeze|在指定为减少1个维度，只能减少大小为1的维度|
|          |torch.transpose|交换张量的两个维度|
|          |torch.view|将张量改为指定形状，不改变内存中数据的位置|
|          |torch.reshape|将张量改为指定形状，必要时改变内存中数据的位置|



## 1. 初始化张量  
### 1.1 将python list转化为张量

In [18]:
x = torch.tensor([[1,2,3,4],[5,6,7,8],[2,4,6,8],[1,3,5,7]], dtype=torch.float64)
print(x.shape)
print(x.dtype)
print(x)

torch.Size([4, 4])
torch.float64
tensor([[1., 2., 3., 4.],
        [5., 6., 7., 8.],
        [2., 4., 6., 8.],
        [1., 3., 5., 7.]], dtype=torch.float64)


### 1.2 利用函数生成张量

In [21]:
a = torch.empty(2, 3, 2) #用empty函数生成未初始化的张量，张量中的元素取值是不确定的。
a

tensor([[[0., 0.],
         [0., 0.],
         [0., 0.]],

        [[0., 0.],
         [0., 0.],
         [0., 0.]]])

In [22]:
a = torch.zeros(4,2) #创建各元素都是0的张量
a

tensor([[0., 0.],
        [0., 0.],
        [0., 0.],
        [0., 0.]])

In [29]:
b = torch.ones(3, 4, dtype=torch.int64) #创建各元素都是1的张量
b

tensor([[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]])

In [24]:
c = torch.randn(2,4,2) #创建元素取值符合均值为0，方差为1的标准高斯分布的张量
c

tensor([[[-1.2329,  0.0665],
         [ 0.1421,  0.0609],
         [-0.5853, -0.4087],
         [ 1.2857,  1.4072]],

        [[-1.5115, -0.5577],
         [-1.6384, -0.1772],
         [-1.0019,  2.2391],
         [ 1.9776,  0.1737]]])

In [30]:
d = torch.rand(2,3) #创建元素值在（0,1）之间且满足均匀分布的张量
d

tensor([[0.7385, 0.3031, 0.6792],
        [0.1450, 0.8152, 0.2549]])

In [34]:
e = torch.ones_like(d) #创建一个形状和d相同，元素值全为1的张量
e

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [35]:
f = torch.randn_like(d) #创建一个形状和d相同,元素值符合均值为0，方差为1的标准高斯分布
f

tensor([[ 1.4571, -1.1267, -0.3898],
        [-0.0902, -0.8235,  0.8499]])

In [38]:
g = torch.linspace(1, 10, 5) #生成1维张量，元素值从左到右依次从1到10的区间里等距离采样
g

tensor([ 1.0000,  3.2500,  5.5000,  7.7500, 10.0000])

In [142]:
#将张量初始化成任意值的方法
h = torch.full((2, 3), 3.14) 
print(h)
i = torch.empty((2, 3)).fill_(3.14)
print(i)

tensor([[3.1400, 3.1400, 3.1400],
        [3.1400, 3.1400, 3.1400]])
tensor([[3.1400, 3.1400, 3.1400],
        [3.1400, 3.1400, 3.1400]])


## 2. 访问张量  
通过索引访问张量中的元素或张量的一部分。torch支持十分灵活的索引表示。从下面的例子来感受吧。

In [15]:
a = torch.arange(0,10)
print(a)

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


In [18]:
x = a[7]
print(x)
#当张量只包含一个元素时，用item函数返回这个值。注意比较两个输出在类型上的区别。
print(x.item())

tensor(7)
7


In [3]:
b = a[4:8]
print(b)

tensor([4, 5, 6, 7])


In [4]:
c = a[7:-1]
print(c)

tensor([7, 8])


In [5]:
d = a[6:]
print(d)

tensor([6, 7, 8, 9])


In [6]:
e = a[:-1]
print(e)

tensor([0, 1, 2, 3, 4, 5, 6, 7, 8])


In [11]:
f = torch.randn(9,8,10)
g = f[:,2,:]
print(g.size())

torch.Size([9, 10])


In [14]:
h = f[:,3:5,:-1]
print(h.size())

torch.Size([9, 2, 9])


## 3. 改变张量的形状 

### 3.1 增加张量的维度（torch.unsqueeze）
在张量的指定位置增加一个大小为1的维度。

In [166]:
a = torch.randn(2,3)
b = a.unsqueeze(-1) #在张量a的最后增加一个维度，大小为1
print(b.size())
b

torch.Size([2, 3, 1])


tensor([[[-0.4246],
         [-0.9256],
         [-1.3181]],

        [[ 0.6276],
         [ 0.6220],
         [-0.0096]]])

In [167]:
c = a.unsqueeze(1) #在张量a的第1个维度之后增加一个维度，大小为1
print(c.size())
c

torch.Size([2, 1, 3])


tensor([[[-0.4246, -0.9256, -1.3181]],

        [[ 0.6276,  0.6220, -0.0096]]])

### 3.2 减少张量的维度（torch.squeeze)
在张量的指定位置减少一个维度，要求被减少的维度大小为1。

In [57]:
d = b.squeeze(-1) #压缩张量b的最后1维。被压缩的维度对应的大小只能是1，否则不压缩
print(d.size())
d

torch.Size([2, 3])


tensor([[-0.2862,  0.8116,  0.8155],
        [ 0.1872,  0.0728, -0.6693]])

### 3.3 交换张量的维度（torch.tranpose）  
交换张量的维度

In [9]:
p = torch.rand(5,6,3,1,9,7)
p = p.transpose(2,4)
print(p.size())

torch.Size([5, 6, 9, 1, 3, 7])


In [59]:
f = e.view(3,2) #e的形状变为3,2
f

tensor([[-0.2862,  0.8116],
        [ 0.8155,  0.1872],
        [ 0.0728, -0.6693]])

In [60]:
g = torch.randn(2,3,2)
g

tensor([[[ 2.0603,  0.5122],
         [-0.6771, -0.7321],
         [ 0.1978,  0.5159]],

        [[-1.7624,  1.2907],
         [-1.9971, -0.2712],
         [-0.7361, -0.3411]]])

In [61]:
h = g.view(-1) #转变为1维张量
h

tensor([ 2.0603,  0.5122, -0.6771, -0.7321,  0.1978,  0.5159, -1.7624,  1.2907,
        -1.9971, -0.2712, -0.7361, -0.3411])

### 3.4 任意改变张量的形状（torch.view和torch.reshape）
view和reshape都可以灵活的改变张量的形状，只要改变后的各维度大小相乘和改变前各维度大小相乘相等即可。

In [69]:
p = torch.rand(5,162,8)
q = p.view((10, 81, 2, 4))
print(q.size())

torch.Size([10, 81, 2, 4])


In [72]:
r = p.reshape((90, 9, 4, 2))
print(r.size())

torch.Size([90, 9, 4, 2])


view和reshape改变张量形状时，并非真正改变了数据在内存中的位置，而是改变张量的索引。这样做减少了数据在内存的复制，因此比较高效，需要张量在变形之前索引是连续的。如果索引不是连续的，则只能使用reshape函数来改变张量的形状。关于这一点的具体解释可参见下面第8小节

## 4. 张量的合并和拆分

### 4.1 张量的合并（torch.cat和torch.stack）  
torch.cat，多个张量沿着某个维度合并。要求合并的张量除了这个维度之外，其他维度的大小必须一样。

In [58]:
a = torch.randn(2,3,5,6)
b = torch.randn(2,4,5,6)
#使用cat函数，沿指定维度合并张量。把需要合并在张量放在一个tuple里。
c = torch.cat((a, b), dim=1)
print(c.size())

torch.Size([2, 7, 5, 6])


torch.stack，沿着一个新的维度将多个张量合并。要求这些张量的形状必须完全一致。

In [63]:
a = torch.randn(2,3,5,6)
b = torch.randn(2,3,5,6)
c = torch.randn(2,3,5,6)
d = torch.randn(2,3,5,6)
#将a, b, c, d 4个张量合并成新张量的第3个维度
e = torch.stack((a, b, c, d), dim=2)
print(e.size())

torch.Size([2, 3, 4, 5, 6])


### 4.2 torch.split  
将张量沿某个维度，拆分成多个张量。

In [65]:
p =torch.randn(5,162,7)
a, b, c, d = torch.split(p, [10, 50, 40, 62], dim=1)
print(a.size())
print(b.size())
print(c.size())
print(d.size())

torch.Size([5, 10, 7])
torch.Size([5, 50, 7])
torch.Size([5, 40, 7])
torch.Size([5, 62, 7])


### 4.3 torch.chunk  
将张量沿某个指定的维度切成若干块

In [66]:
p =torch.randn(5,162,7)
a, b, c, d = torch.chunk(p, 4, dim=1)
print(a.size())
print(b.size())
print(c.size())
print(d.size())

torch.Size([5, 41, 7])
torch.Size([5, 41, 7])
torch.Size([5, 41, 7])
torch.Size([5, 39, 7])


## 5. 广播机制
广播机制用于解决形状不匹配的张量间进行运算的问题。概括的的说，广播机制会按照规则，逐一比较两个向量的各个维度，并通过复制的方式将较小的维度扩大到和较大维度相等，从而最终使两者形状一致。需要注意的是并非任意两个张量都可以通过广播变成形状一致。可以通过广播机制变为形状一致的张量需满足以下条件：  
1. 两个张量都不能是0维的。
2. 从右向左逐个维度比较两个张量。两个张量各对应维度需要满足以下条件之一  
    . 相等  
    . 其中一个张量的大小为1，可通过复制变为一致   
    . 其中一个张量不存在这个维度，可通过插入维度在复制变为一致

In [3]:
# a和b可通过广播变为形状一致：
# 从右向左依次
# 第1个维度，b维度大小是1
# 第2个维度，a和b的维度大小相同
# 第3个维度，a的维度大小是1
# 第4个维度：b该维度不存在
a = torch.randn(2, 1, 4, 3)
b = torch.randn(   5, 4, 1)
c = a + b
print(c.size())

torch.Size([2, 5, 4, 3])


In [None]:
# x和y不可通过广播变为形状一致
# 因为从右边数第三个维度，两个张量该维度的大小不同且没有一个张量该维度的大小为1，无法通过复制的方式让它们的维度一致。
x = torch.empty(2, 2, 4, 3)
y = torch.empty(   5, 4, 1)

In [6]:
# 利用广播机制完成张量加法
a = torch.ones(3, 2, 1)
b = torch.empty(5).fill_(2.1)
c = a + b
print(c.size())
print(c)

torch.Size([3, 2, 5])
tensor([[[3.1000, 3.1000, 3.1000, 3.1000, 3.1000],
         [3.1000, 3.1000, 3.1000, 3.1000, 3.1000]],

        [[3.1000, 3.1000, 3.1000, 3.1000, 3.1000],
         [3.1000, 3.1000, 3.1000, 3.1000, 3.1000]],

        [[3.1000, 3.1000, 3.1000, 3.1000, 3.1000],
         [3.1000, 3.1000, 3.1000, 3.1000, 3.1000]]])


## 6. 张量的乘法

### 6.1 逐元素相乘（*）

In [151]:
a = torch.empty((2,3)).fill_(2.0)
b = torch.empty((1,3)).fill_(3.0)
#不要求输入两个张量形状一致，但两个张量需要能够通过广播机制变为形状一致。
c = a * b
print(c)

tensor([[6., 6., 6.],
        [6., 6., 6.]])


### 6.2 向量点积

In [153]:
a = torch.full((5,), 2)
b = torch.full((5,), 3)
#输入必须都是1维向量，且维度大小一致。
c = torch.dot(a, b)
print(c)

tensor(30)


### 6.3 向量外积

In [25]:
a = torch.full((3,), 2)
b = torch.full((3,), 3)
#输入必须都是1维向量，且维度大小一致。
c = torch.outer(a, b)
print(c)

tensor([[6, 6, 6],
        [6, 6, 6],
        [6, 6, 6]])


### 6.4 矩阵乘法（@）

In [92]:
#两个2维矩阵相乘，维度必须匹配，即前一个矩阵的列数必须和后一个矩阵的行数相等
a = torch.empty((2,3)).fill_(2.0)
b = torch.empty((2,3)).fill_(3.0)
c = a @ b.transpose(0,1)
print(d)

tensor([[18., 18.],
        [18., 18.]])


In [157]:
#向量和矩阵相乘，相当于行向量和矩阵相乘。
a = torch.tensor([1.0, 2.0, 3.0])
b = torch.ones(3,2)
c = a @ b
print(c)

tensor([6., 6.])


In [158]:
#矩阵和向量相乘，相当于矩阵和列向量相乘
a = torch.ones(3,2)
b = torch.tensor([1.0,4.0])
c = a @ b
print(c)

tensor([5., 5., 5.])


### 6.5 批量矩阵乘法（@）
当相乘的张量维度大于2时，执行批量矩阵乘法。对于形状为(..., m, n)的张量A和形状为(..., n, p)的张量B，批量矩阵乘法的结果是一个形状为(..., m, p)的张量。每个张量的"..."部分代表任意数量的批量维度。当进行批量乘法时，pytorch会利用广播机制自动让各向量批量维度一致。

In [146]:
d = torch.randn(3,4,5)
e = torch.randn(1,5,3)
f = d @ e
print(f.size())
print(f)

torch.Size([3, 4, 3])
tensor([[[ 0.1684,  0.9406, -1.7558],
         [-2.6504,  1.8649,  2.7411],
         [ 5.1198, -4.5485, -3.3203],
         [ 3.4810, -6.1789, -4.1025]],

        [[ 2.4855, -6.3756, -2.7549],
         [-5.1606,  3.1573,  1.1740],
         [-0.2549,  3.1623,  3.0671],
         [ 2.1162, -5.3233, -1.2320]],

        [[-0.1310,  3.3769, -0.3214],
         [-3.0650,  1.6578, -0.8541],
         [-0.9523,  0.0756, -0.4481],
         [-1.1875,  2.6943,  2.6880]]])


### 6.6 利用矩阵乘法实现批量向量内积和外积

In [161]:
a = torch.randn(3,2,5)
b = torch.randn(3,2,5)
#对a和b的最后一维做批量内积
a = a.unsqueeze(-2) #a形状为(3, 2, 1, 5) 
b = b.unsqueeze(-1) #b形状为(3, 2, 5, 1)
c = a @ b #c形状为(3, 2, 1, 1)
c.squeeze_(-1).squeeze_(-1)
print(c.size())
print(c)

torch.Size([3, 2])
tensor([[-2.8519,  1.6670],
        [ 3.2973,  4.3137],
        [-0.4093,  0.5068]])


In [163]:
a = torch.randn(3,2,2)
b = torch.randn(3,2,2)
#对a和b的最后一维做批量外积
a = a.unsqueeze(-1) #a形状为(3, 2, 2, 1) 
b = b.unsqueeze(-2) #b形状为(3, 2, 1, 2)
c = a * b #这里利用了广播机制，c的形状为(3, 2, 2, 2)
print(c.size())
print(c)

torch.Size([3, 2, 2, 2])
tensor([[[[-0.5924, -1.8389],
          [-0.3113, -0.9664]],

         [[ 0.7701, -0.0239],
          [-0.1870,  0.0058]]],


        [[[ 0.4913, -0.2648],
          [-1.2844,  0.6923]],

         [[-0.1414,  0.0411],
          [-1.3858,  0.4028]]],


        [[[-0.9607,  1.4274],
          [ 1.1836, -1.7586]],

         [[ 0.0319, -0.0793],
          [ 0.5575, -1.3866]]]])


## *7. 爱因斯坦求和约定

1. 张量扩维: 'i, j -> ij' 相当于 $a^Tb$，也就是向量a和向量b的元素两两相乘得到一个矩阵。

In [118]:
a = torch.full((3,),2)
b = torch.full((2,),3)
c = torch.einsum('i, j -> ij', a, b)
print(c)

tensor([[6, 6],
        [6, 6],
        [6, 6]])


2.张量缩维: 'i->'相当于对该维度求和$\sum_{i}a_{i}$

In [120]:
d = torch.full((3,),2)
e = torch.einsum('i->', d)
print(e)

tensor(6)


3.交换张量任意两个维度，不改变张量本身。

In [121]:
f = torch.randn(2,3)
g = torch.einsum('ij->ji', f)
print(f)
print(g)

tensor([[ 0.8026,  1.5833,  0.8638],
        [-0.7444,  0.3484,  0.2103]])
tensor([[ 0.8026, -0.7444],
        [ 1.5833,  0.3484],
        [ 0.8638,  0.2103]])


矩阵乘法 'ij, jk -> ik' 相当于 'ij -> ji' 'ji, jk -> jik' 'jik->ik'

In [114]:
a = torch.full((2,3),2)
b = torch.full((3,2),3)
c = a @ b
d = torch.einsum('ij, jk -> ik', a, b)
print(c)
print(d)

tensor([[18, 18],
        [18, 18]])
tensor([[18, 18],
        [18, 18]])


向量点积

In [139]:
a = torch.full((3,),2)
b = torch.full((3,),3)
c = torch.dot(a,b)
d = torch.einsum('i,i ->', a, b)
print(c)
print(d)

tensor(18)
tensor(18)


向量外积

In [141]:
d = torch.einsum('i,j -> ij', a, b)
print(d)

tensor([[6, 6, 6],
        [6, 6, 6],
        [6, 6, 6]])


In [112]:
#两个张量最后一维做外积，再沿着l维求和。
a = torch.rand(2, 3, 5, 3)
b = torch.rand(2, 3, 5, 4)
c = torch.einsum('bhlk, bhlv->bhkv', a, b)
print(c.shape)
print(c)

torch.Size([2, 3, 3, 4])
tensor([[[[1.1033, 0.9944, 1.2414, 1.3750],
          [0.9386, 0.8082, 0.9610, 1.0845],
          [1.0565, 0.9615, 1.2828, 1.5182]],

         [[0.8547, 1.0837, 1.1938, 1.1037],
          [1.0152, 1.5503, 1.7114, 1.7363],
          [0.5776, 1.0309, 0.8430, 0.7982]],

         [[1.7249, 1.2541, 1.3379, 1.1049],
          [2.3963, 1.7822, 1.7943, 1.4393],
          [1.2522, 0.7162, 0.6649, 0.5888]]],


        [[[0.5027, 0.4516, 0.5740, 0.2824],
          [0.7352, 0.7604, 0.6649, 0.3975],
          [1.1169, 1.0645, 1.3814, 0.6596]],

         [[1.2100, 1.2466, 1.5792, 0.5028],
          [0.9537, 0.9218, 1.3609, 0.5546],
          [0.8692, 1.0916, 1.3718, 0.3503]],

         [[1.7999, 1.6976, 1.2891, 2.0228],
          [0.6799, 0.5010, 0.2203, 0.3707],
          [0.7169, 1.0464, 0.4333, 1.2074]]]])


下面这段代码通过基本的张量运算达到和上面爱因斯坦求和约定相同的效果

In [113]:
a.unsqueeze_(-1)
b.unsqueeze_(-2)
print(a.shape)
print(b.shape)
d = (a * b).sum(-3)
print(d.shape)
print(d)

torch.Size([2, 3, 5, 3, 1])
torch.Size([2, 3, 5, 1, 4])
torch.Size([2, 3, 3, 4])
tensor([[[[1.1033, 0.9944, 1.2414, 1.3750],
          [0.9386, 0.8082, 0.9610, 1.0845],
          [1.0565, 0.9615, 1.2828, 1.5182]],

         [[0.8547, 1.0837, 1.1938, 1.1037],
          [1.0152, 1.5503, 1.7114, 1.7363],
          [0.5776, 1.0309, 0.8430, 0.7982]],

         [[1.7249, 1.2541, 1.3379, 1.1049],
          [2.3963, 1.7822, 1.7943, 1.4393],
          [1.2522, 0.7162, 0.6649, 0.5888]]],


        [[[0.5027, 0.4516, 0.5740, 0.2824],
          [0.7352, 0.7604, 0.6649, 0.3975],
          [1.1169, 1.0645, 1.3814, 0.6596]],

         [[1.2100, 1.2466, 1.5792, 0.5028],
          [0.9537, 0.9218, 1.3609, 0.5546],
          [0.8692, 1.0916, 1.3718, 0.3503]],

         [[1.7999, 1.6976, 1.2891, 2.0228],
          [0.6799, 0.5010, 0.2203, 0.3707],
          [0.7169, 1.0464, 0.4333, 1.2074]]]])


In [138]:
a = torch.ones(2,3,3)
b = torch.empty(2,3,3).fill_(1.5)
c = torch.einsum('ijk, ijk -> ijk', a, b)
print(c)

tensor([[[1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000]],

        [[1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000],
         [1.5000, 1.5000, 1.5000]]])


用einsum函数重写Qwen3-next-80B源码文件module_qwen3_next.py中函数torch_recurrent_gated_delta_rule中的代码
```python{inline-numbers}
last_recurrent_state = last_recurrent_state + k_t.unsqueeze(-1) * delta.unsqueeze(-2)
```
重写后的形式为。如果熟悉爱因斯坦求和约定，这样改写就会比上面的写法简明很多。
```python
last_recurrent_state +=  torch.einsum('bhlk, bhlv -> bhkv', k_t, delta）
```

## 8. 张量在内存中的存储
张量的数据在内存中是连续存储的。张量的形状只是不同索引方式而已。不同张量可以指向同一个存储区。

In [29]:
a = torch.randn((2,3))
a

tensor([[ 0.4519, -0.9555,  0.9411],
        [-0.7038, -0.3873, -0.5926]])

In [39]:
b = a
print(id(a)) #id函数返回张量指向的地址空间
print(id(b))

4675281824
4675281824


In [40]:
storage = a.storage()#storage函数返回张量存储区是实际内容
storage

 0.4519212543964386
 -0.9555278420448303
 0.9411177635192871
 -0.7038334608078003
 -0.38732263445854187
 -0.5925939679145813
[torch.storage.TypedStorage(dtype=torch.float32, device=cpu) of size 6]

In [42]:
#view函数只是改变了张量的索引方式，并未改变张量在内存中存储的方式
c = a.view(3, 2)
print(c.size())
print(c.storage())

torch.Size([3, 2])
 0.4519212543964386
 -0.9555278420448303
 0.9411177635192871
 -0.7038334608078003
 -0.38732263445854187
 -0.5925939679145813
[torch.storage.TypedStorage(dtype=torch.float32, device=cpu) of size 6]


如果我们把张量中所有元素的索引按照下面规则排成一行——按照维度从左向右，比较索引对应的下标值，标值小的排在前面。这时，如果该索引序列和每个索引对饮元素在内存中实际排列一致，我们就说索引是连续的。view函数和reshape函数虽然改变张量的形状，其实只是改变了索引结构，不会破坏索引的连续性，也不需要改变元素在内存中的位置。有些张量变换，比如交换张量维度，会破坏张索引的连续性。一旦索引的连续性被破坏就不能再使用view函数来改变张量的形状，必须使用reshape函数。这时候reshape函数会通过改变内存中元素的位置来回复索引的连续性。

In [23]:
#函数is_contiguous用于判断当前张量的索引是否连续。
a = torch.randn(3,5,2,4)
print(a.is_contiguous())
b = a.view(3,10,4)
print(b.size())
print(b.is_contiguous())
c = a.transpose(1,3) #破坏了数据的连续性
print(c.size())
print(c.is_contiguous())


True
torch.Size([3, 10, 4])
True
torch.Size([3, 4, 2, 5])
False
