# 线性代数

## 标量

**标量**由只有**一个元素**的张量表示，变量通常用小写字母表示

In [1]:
import torch

x = torch.tensor(3.0)
y = torch.tensor(2.0)
(x+y, x-y, x*y, x/y, x**y)

(tensor(5.), tensor(1.), tensor(6.), tensor(1.5000), tensor(9.))

## 向量

**向量**为1维张量，可以看成一组标量的列表，一般默认为列向量，标量值称为**元素**或**分量(component)**，通常用小写字母粗体表示

In [2]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

可以通过下标引用向量的任一元素

In [3]:
x[3]

tensor(3)

向量的长度称为向量的**度(dim)**：表示元素个数

In [4]:
len(x)

4

向量是1维的张量，也可以用shape访问向量的长度

In [5]:
x.shape

torch.Size([4])

## 矩阵

**矩阵**为2维张量，可以看成一个表格，通常用大写字母粗体表示
形状用(m,n)或m*n表示m行n列
行列数量相同时称为**方阵(aquare matrix)**

In [6]:
A = torch.arange(12).reshape(3,4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

转置矩阵：将矩阵的行列交换
Bij = Aji

In [7]:
A.T

tensor([[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]])

对称矩阵：特殊的方阵，其转置矩阵等于本身
Aij = Aji

In [9]:
B = torch.tensor([[1,2,3], [2,0,4], [3,4,5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [10]:
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

## 张量

**张量**：多维数组，本章只代数对象
例如：在图像处理中，图像以n维数组的形式出现，三个轴对应高、宽、通道（表示颜色）

In [12]:
X = torch.arange(24).reshape(2,3,4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

**按元素**运算：
- 一元运算：不会改变自身形状
- 二元运算：两个相同形状的张量计算，结果保持相同形状

In [None]:
A = torch.arange(20, dtype=torch.float32).reshape(5,4)
B = A.clone() # 复制
A, A+B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

**哈达玛积(Hadamard积)**：又称为**逐元素乘法**、**元素-wise乘法**，两个相同形状的张量按元素相乘

In [15]:
A*B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

张量乘或加上一个标量不会改变形状：张量每个元素都与标量加或乘

In [17]:
a = 2
X = torch.arange(24).reshape(2,3,4)
(a+X, a*X.shape)

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4, 2, 3, 4]))

## 求和/均值

求和**sum()**：计算个元素之和

In [None]:
# 向量求和
x = torch.arange(4, dtype=torch.float32)
(x, x.sum())

(tensor([0., 1., 2., 3.]), tensor(6.))

In [None]:
# 任意形状的张量求和
(A.shape, A.sum())

(torch.Size([5, 4]), tensor(190.))

默认情况下，求和函数会沿着所有轴方向降低张量的维度，使其变为一个标量
也可以指定一个轴来降低维度

In [None]:
# 沿着轴0降维：求和所有行
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [21]:
# 沿着轴1降维：求和所有列
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [22]:
# 沿着轴0和1求和：对于矩阵而言就是对每个元素求和
A.sum(axis=[0,1])

tensor(190.)

**平均值(mean或average)**：总和除以元素总个数

In [24]:
A.mean(), A.sum()/A.numel()

(tensor(9.5000), tensor(9.5000))

同样也可以沿着指定轴计算平均值

In [26]:
A.mean(axis=0), A.sum(axis=0)/A.shape[0]

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

非降维运算：计算求和或均值时，不希望改变维度个数，可指定keepdims属性

In [28]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

由于sum_A保持两个轴，可以通过广播对A和sum_A计算

In [29]:
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

## 点积

**点积(Dot Product)**：又称为**数量积**，两个向量之间先按元素相乘，得到的向量进行求和

In [30]:
x = torch.arange(4, dtype=torch.float32)
y = torch.ones(4, dtype=torch.float32)
x, y, torch.dot(x,y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

## 矩阵-向量积

**矩阵-向量积(matrix-vector product)**：A(m,n)和x(n)计算向量积，把矩阵A看成列向量，每个元素是长度n的行向量，将列向量的每个元素与x计算数量积，得到长度m的向量

In [31]:
A = torch.arange(20, dtype=torch.float32).reshape(5,4)
x = torch.arange(4, dtype=torch.float32)
A.shape, x.shape, torch.mv(A,x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

## 矩阵-矩阵乘法

**矩阵乘法**：A(m,k)和B(k,n)计算矩阵乘法，把B看成行向量，每个元素为列向量，让A与B的每个列向量做向量积，得到矩阵C(m,n)

In [32]:
B = torch.ones(4, 3)
torch.mm(A,B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

## 范数

**范数**：表示张量的大小，不是指维度，而是分量
**向量范数**：将向量映射到标量的函数f
**向量范数性质**：
- f(ax) = |a|f(x)
- 三角不等式：f(x+y) <= f(x) + f(y)
- 非负： f(x) >= 0
- 仅在所有元素为0时，范数才为0

**L2范数**：**欧几里得距离**，每个元素平方 -> 求和 -> 算术平方根

In [None]:
u = torch.tensor([4.0, -3.0])
torch.norm(u) # L2范数、欧几里得距离

tensor(5.)

深度学习中更常用L2范数平方的平方
偶尔也会用到**L1范数**：向量元素绝对值之和
相比于L2范数，L1的异常值的影响较小

In [34]:
torch.abs(u).sum()

tensor(7.)

L1和L2范数可以看成Lp范数的特例
**Lp范数**：每个元素绝对值p次方 -> 求和 -> 开p次根

对于各个维度的张量都适用

In [35]:
torch.norm(torch.ones(4,9))

tensor(6.)

**范数的目标**：最大化分配给数据的概率，最小化预测值与真实值的差距。即最小化相似项目的距离，最大化不同项目的距离