# 2.3 线性代数

## 2.3.1 标量

单个数值被称为标量（scalar），如5、9、32。标量由只有一个元素的张量表示，也称为0维张量。

In [1]:
import torch

x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x - y, x * y, x / y, x ** y

(tensor(5.), tensor(1.), tensor(6.), tensor(1.5000), tensor(9.))

## 2.3.2 向量

向量（vector）也称为1维张量，是一个由一个或多个标量组成的列表，这些标量值被称为向量的元素（element），或分量（component）。

In [2]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

一般认为列向量是向量的默认方向，我们可以用索引来引用向量中的元素。

In [3]:
x[3]

tensor(3)

In [4]:
print(len(x))
print(x.shape)

4
torch.Size([4])


向量的长度通常称为向量的维度（dimension），可以用python内置的len()或张量的shape属性获取。

注意：维度这个词在不同的场景下有不同的含义，一般认为“向量的维度”指向量的长度，“张量的维度”指张量所具有的轴数，例如我们称x是一个一维张量、四维向量。

## 2.3.3 矩阵

矩阵（matrix）也称为2维张量，由m行n列的标量元素组成，其中的标量元素也可以用索引获取。当m == n时，它被称为方阵（square matrix）。

In [5]:
A = torch.arange(20).reshape(5, 4)
A, A[0:1, 1:2]

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15],
         [16, 17, 18, 19]]),
 tensor([[1]]))

交换矩阵的行和列的结果称为矩阵的转置（transpose），m行n列的矩阵转置后变为一个n行m列的矩阵。

In [6]:
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

对称矩阵（symmetric matrix）是方阵的一种特殊类型，它的转置等于它本身。

In [7]:
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B, B == B.T

(tensor([[1, 2, 3],
         [2, 0, 4],
         [3, 4, 5]]),
 tensor([[True, True, True],
         [True, True, True],
         [True, True, True]]))

矩阵是非常有用的数据结构，能组织、表示各种模式的数据，例如在一个数据集中，用每一行表示一个样本，每一列表示一个特征，那么第m行第n列的标量元素就代表了样本m的第n个特征的特征值。

## 2.3.4 张量

张量（tensor）是矩阵的推广，是更高维度的数据结构。例如，我们可以用一个三维的张量表示一张用RGB空间表示的彩色图像，三个维度的含义分别为：宽度、高度，以及用于表示颜色（红、绿、蓝）的通道数（channel），张量中标量元素的含义为像素值。

In [8]:
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

## 2.3.5 张量算法的基本性质

张量的按元素一元运算不会改变其形状。给定任意两个具有相同形状的张量，任何按元素二元运算的结果也具有相同的形状。

In [9]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()
A, A.shape, A + B, (A + B).shape

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 torch.Size([5, 4]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]),
 torch.Size([5, 4]))

两个矩阵的按元素乘法称为哈达玛积（Hadamard product）。

In [10]:
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

将张量加上或乘以一个标量不会改变其形状，通过广播机制可以将标量扩展为张量，再进行按元素运算。

In [11]:
a = 2
a + A, a * A

(tensor([[ 2.,  3.,  4.,  5.],
         [ 6.,  7.,  8.,  9.],
         [10., 11., 12., 13.],
         [14., 15., 16., 17.],
         [18., 19., 20., 21.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

## 2.3.6 降维

求和是非常有用的张量运算。

In [12]:
x = torch.arange(4, dtype=torch.float32)
x, x.sum() 

(tensor([0., 1., 2., 3.]), tensor(6.))

默认情况下，求和函数会沿着所有轴降低张量的维度，返回一个标量。我们可以指定沿哪个轴通过求和来降低维度。

In [13]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
A_sum_axis0 = A.sum(axis=0) # 对轴0求和
A, A_sum_axis0, A_sum_axis0.shape

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([40., 45., 50., 55.]),
 torch.Size([4]))

In [14]:
A_sum_axis1 = A.sum(axis=1) # 对轴1求和
A, A_sum_axis1, A_sum_axis1.shape

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([ 6., 22., 38., 54., 70.]),
 torch.Size([5]))

In [15]:
A.sum(axis=[0, 1]) # 对轴0, 1求和

tensor(190.)

另一个与求和相关的量是平均值（mean or average），计算平均值也可以通过指定或不指定轴来降维。此外，计算最大值也能降维。

In [16]:
A.mean(), A.sum() / A.numel()

(tensor(9.5000), tensor(9.5000))

In [17]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

有时，我们不希望直接消除某个轴，而是让这个轴的长度变为1，即张量的维度不变。

In [18]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A # m行n列变为m行1列

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

由于sum_A的维度不变，可以通过广播将A除以sum_A。

In [19]:
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

使用cumsum()方法也不会降维。

In [20]:
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

## 2.3.7 点积

点积就是两个张量哈达玛积的求和。

In [21]:
y = torch.ones(4, dtype=torch.float32)
x, y, torch.dot(x, y), torch.sum(x * y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.), tensor(6.))

点积有非常广泛的应用，例如可以用来计算加权和，当权重和为1时，可以表示加权平均。此外，两个向量的方向向量的点积表示它们夹角的余弦值。

## 2.3.8 矩阵-向量积

一个矩阵（A）和一个向量（x）的矩阵-向量积（matrix-vector product）是一个向量（b）。其中，满足b的第i个元素值为A的第i个行向量与x向量的点积。显然，应该满足A的列数与x的长度相同。

In [22]:
A, x, A.shape, x.shape, torch.mv(A, x)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([0., 1., 2., 3.]),
 torch.Size([5, 4]),
 torch.Size([4]),
 tensor([ 14.,  38.,  62.,  86., 110.]))

因此，我们可以将矩阵A看作是向量x到向量b的转换，在后续的章节会讲到，这种转换在计算神经网络中非常有用。

## 2.3.9 矩阵-矩阵乘法

两个矩阵（A，B）的矩阵-矩阵乘法（可简称为矩阵乘法）的结果是一个矩阵（X），其中，X满足X\[i][j]的元素值为A的第i个行向量与B的第j个列向量的点积。显然，应该满足A的列数与B的行数相同。

In [23]:
B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

## 2.3.10 范数

线性代数中最有用的一些运算符是范数（norm）。非正式的说，向量的范数运算将向量映射到标量，这个标量可以表示该向量的大小。
向量范数的三个性质：
1. $ f(\alpha x) = | \alpha | f(x) $
2. $ f(x + y) \leqslant f(x) + f(y) $
3. $ f(x) \leqslant 0 $

范数很像距离的度量，例如L2范数就是我们最常用的欧几里得距离：
$$ || x ||_2 = \sqrt{\sum_{i = 1}^n{ x_i^2 }} $$
其中，L2范数常常省略下标，也就是说$ || x ||_2 $等同于$ || x || $，在代码中，我们可以这样计算向量的L2范数：

In [24]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

在深度学习中，经常使用L2范数的平方，也经常遇到L1范数，它为向量元素的绝对值之和：
$$ || x ||_1 = \sum_{i=1}^n | x_i |$$

与L2范数相比，L1范数受异常值的影响较小。为了计算L1范数，我们将绝对值函数与按元素求和组合起来：

In [25]:
torch.abs(u).sum()

tensor(7.)

L2范数和L1范数都是更一般的Lp范数的特例：
$$ || x ||_p = (\sum_{i = 1}^n {x_i}^p)^{1/p} $$

类似于向量的L2范数，矩阵的弗罗贝尼乌斯范数（Frobenius norm）是矩阵元素平方和的平方根：
$$ || X ||_F = \sqrt{\sum_{i = 1}^m\sum_{j = 1}^n x_{ij}^2} $$
它具有向量范数的所有性质，就像是矩阵形向量的L2范数。

In [26]:
torch.norm(torch.ones(4, 9))

tensor(6.)

**范数有什么用？**

范数能够衡量向量/矩阵之间的距离（差距、差异度），有时我们希望将差异度最小化，如预测值和真实标签的差异度，有时我们希望将差异度最大化，如对应了不同标签的特征向量之间的差异度。总之，除了数据，目标或许是深度学习算法最重要的组成部分，而目标通常被表达为范数。