In [32]:
#线性代数
import torch

In [33]:
# 标量由只有一个元素的张量表示
x = torch.tensor([3.0])
y = torch.tensor([2.0])

x + y, x * y, x / y, x ** y

(tensor([5.]), tensor([6.]), tensor([1.5000]), tensor([9.]))

In [34]:
# 可以将向量视为标量值组成的列表
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

In [35]:
# 通过张量的索引来访问任一元素
x[3]

tensor(3)

In [36]:
# 访问张量的长度
len(x)

4

In [37]:
# 只有一个轴的张量，形状只有一个元素
x.shape

torch.Size([4])

In [38]:
# 通过指定两个分量m,n来创建一个形状为m x n的矩阵
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [39]:
# 矩阵的转置
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

In [40]:
# 对称矩阵A等于其转置：A = A^T
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B, B == B.T

(tensor([[1, 2, 3],
         [2, 0, 4],
         [3, 4, 5]]),
 tensor([[True, True, True],
         [True, True, True],
         [True, True, True]]))

In [41]:
# 我们可以构建具有更多轴的数据结构(推广到任意数量的轴)
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

In [42]:
# 给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B
A += 1
A, B, A + B

(tensor([[ 1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.],
         [ 9., 10., 11., 12.],
         [13., 14., 15., 16.],
         [17., 18., 19., 20.]]),
 tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 1.,  3.,  5.,  7.],
         [ 9., 11., 13., 15.],
         [17., 19., 21., 23.],
         [25., 27., 29., 31.],
         [33., 35., 37., 39.]]))

In [43]:
# 两个矩阵的按元素乘法称为他们的哈达玛积（Hadamard product）
A * B

tensor([[  0.,   2.,   6.,  12.],
        [ 20.,  30.,  42.,  56.],
        [ 72.,  90., 110., 132.],
        [156., 182., 210., 240.],
        [272., 306., 342., 380.]])

In [44]:
# 将张量乘以或加上一个标量不会改变张量的形状，其中张量的每个元素都将与标量相加或相乘
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X), a + X[0, 1, 2], (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 tensor([[[ 0,  2,  4,  6],
          [ 8, 10, 12, 14],
          [16, 18, 20, 22]],
 
         [[24, 26, 28, 30],
          [32, 34, 36, 38],
          [40, 42, 44, 46]]]),
 tensor(8),
 torch.Size([2, 3, 4]))

In [45]:
# 计算其元素的和
x = torch.arange(4, dtype=torch.float32)
x, x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

In [46]:
# 表示任意形状张量的元素和
A, A.shape, A.sum()

(tensor([[ 1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.],
         [ 9., 10., 11., 12.],
         [13., 14., 15., 16.],
         [17., 18., 19., 20.]]),
 torch.Size([5, 4]),
 tensor(210.))

In [47]:
# 指定沿哪一个轴计算元素的和
A = torch.arange(24).reshape(2, 3, 4)
# 沿0轴计算：12 是通过 0 + 12 计算得到的;20 是通过 4 + 16 计算得到的;28 是通过 8 + 20 计算得到的
# 沿0轴计算意思是沿着第一个轴，即最外层的维度，对该维度下的元素进行求和，最终得到的结果是一个维度比原来的维度少1的张量
# 对于每个位置 (i, j)，我们将 A[0, i, j] 和 A[1, i, j] 相加
A_sum_axis0 = A.sum(axis=0)  
A, A_sum_axis0, A_sum_axis0.shape

(tensor([[[ 0,  1,  2,  3],
          [ 4,  5,  6,  7],
          [ 8,  9, 10, 11]],
 
         [[12, 13, 14, 15],
          [16, 17, 18, 19],
          [20, 21, 22, 23]]]),
 tensor([[12, 14, 16, 18],
         [20, 22, 24, 26],
         [28, 30, 32, 34]]),
 torch.Size([3, 4]))

In [48]:
# 沿1轴计算：对于每个位置 (i, j)，我们将 A[i, 0, j]、A[i, 1, j] 和 A[i, 2, j] 相加
A_sum_axis1 = A.sum(axis=1) 
A_sum_axis1, A_sum_axis1.shape

(tensor([[12, 15, 18, 21],
         [48, 51, 54, 57]]),
 torch.Size([2, 4]))

In [49]:
# 一个与求和相关的量是平均值
A = A.float()
A, A.mean(), A.sum() / A.numel()

(tensor([[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.]],
 
         [[12., 13., 14., 15.],
          [16., 17., 18., 19.],
          [20., 21., 22., 23.]]]),
 tensor(11.5000),
 tensor(11.5000))

In [50]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([[ 6.,  7.,  8.,  9.],
         [10., 11., 12., 13.],
         [14., 15., 16., 17.]]),
 tensor([[ 6.,  7.,  8.,  9.],
         [10., 11., 12., 13.],
         [14., 15., 16., 17.]]))

In [51]:
# 计算总和或均值时保持轴数不变(例如按照原本方法，一个3维的矩阵沿某一个轴求和，结果会少一个维度，此处则保持原有的维度)
# 如果要保持轴数不变，可以指定 keepdims=True
# 原来[2, 5, 4]按照axis = 1求和，结果是[2, 4]，如果指定keepdims=True，结果是[2, 1, 4]
sum_A = A.sum(axis=1, keepdims=True)
A, A.sum(axis=1), A.sum(axis=1).shape, sum_A, sum_A.shape

(tensor([[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.]],
 
         [[12., 13., 14., 15.],
          [16., 17., 18., 19.],
          [20., 21., 22., 23.]]]),
 tensor([[12., 15., 18., 21.],
         [48., 51., 54., 57.]]),
 torch.Size([2, 4]),
 tensor([[[12., 15., 18., 21.]],
 
         [[48., 51., 54., 57.]]]),
 torch.Size([2, 1, 4]))

In [52]:
# 计算总和或均值时保持轴数不变的好处是可以使用广播机制，将A除以sum_A(因为使用广播机制它们的维数必须相同)
A / sum_A

tensor([[[0.0000, 0.0667, 0.1111, 0.1429],
         [0.3333, 0.3333, 0.3333, 0.3333],
         [0.6667, 0.6000, 0.5556, 0.5238]],

        [[0.2500, 0.2549, 0.2593, 0.2632],
         [0.3333, 0.3333, 0.3333, 0.3333],
         [0.4167, 0.4118, 0.4074, 0.4035]]])

In [53]:
# 某个轴计算A元素的累积总和(就是按轴求前缀和)
A = torch.arange(20).reshape(5, 4)
A, A.cumsum(axis=0), A.cumsum(axis=1)

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15],
         [16, 17, 18, 19]]),
 tensor([[ 0,  1,  2,  3],
         [ 4,  6,  8, 10],
         [12, 15, 18, 21],
         [24, 28, 32, 36],
         [40, 45, 50, 55]]),
 tensor([[ 0,  1,  3,  6],
         [ 4,  9, 15, 22],
         [ 8, 17, 27, 38],
         [12, 25, 39, 54],
         [16, 33, 51, 70]]))

In [54]:
# 点积是相同位置的按元素乘积的和(结果为标量)
x = torch.arange(4, dtype=torch.float32)
y = torch.ones(4, dtype=torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [55]:
# 我们可以通过执行按元素乘法，然后进行求和来表示两个向量的点积
torch.sum(x * y)

tensor(6.)

In [56]:
# 矩阵向量积Ax是一个长度为m的列向量，其第i个元素是点积A的第i行和x之间的点积(此处A是一个m x n矩阵，x是一个n x 1向量)
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
x = torch.arange(4, dtype=torch.float32)
A, x, torch.mv(A, x)  # mv表示matrix-vector multiplication, 矩阵向量乘法

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([0., 1., 2., 3.]),
 tensor([ 14.,  38.,  62.,  86., 110.]))

In [57]:
# 矩阵-矩阵乘法AB是一个m x l矩阵，其第i行和第j列是点积A的第i行和B的第j列(此处A是一个m x n矩阵，B是一个n x l矩阵)
B = torch.ones(4, 3)
torch.mm(A, B)  # mm表示matrix-matrix multiplication, 矩阵-矩阵乘法

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

In [58]:
# L_2范数是向量元素的平方和的平方根
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

In [59]:
# L_1范数是所有元素的绝对值之和
torch.abs(u).sum()

tensor(7.)

In [60]:
# 矩阵的Frobenius范数是矩阵元素的平方和的平方根(即将矩阵变平为向量后的L_2范数)
torch.norm(torch.ones(4, 9))

tensor(6.)

In [61]:
# 课后答疑内容补充
A = torch.arange(40, dtype=torch.float32).reshape(2, 5, 4)
A, A.sum(axis=[0, 1])  # 沿0轴和1轴求和

(tensor([[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.],
          [16., 17., 18., 19.]],
 
         [[20., 21., 22., 23.],
          [24., 25., 26., 27.],
          [28., 29., 30., 31.],
          [32., 33., 34., 35.],
          [36., 37., 38., 39.]]]),
 tensor([180., 190., 200., 210.]))