# 2.3 线性代数

In [1]:
#本节将介绍线性代数中的基本数学对象、算术和云南算

## 2.3.1 标量

In [2]:
#仅包含一个数值的叫标量, 未知的标量称为变量
#标量由只有一个元素的张量表示
import torch
x = torch.tensor(3.0)
y = torch.tensor(2.0)
x + y, x * y, x / y, x ** y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

## 2.3.2 向量

In [3]:
#可以将向量视为标量值组成的列表，将这些标量值成为向量的元素或分量。
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

In [4]:
#可以使用下标来引用向量的任一元素
x[3]

tensor(3)

### 2.3.2.1 长度、维度和形状

In [5]:
#向量的长度通常称为向量的维度
len(x)

4

In [6]:
#当用张量表示一个向量时，可以i通过shape属性访问向量的长度
x.shape

torch.Size([4])

In [7]:
#向量或轴的维度被用来表示向量或轴的长度，即向量或轴的元素数量
#张量的维度用来表示张量具有的轴数

## 2.3.3 矩阵

In [8]:
#矩阵，在代码中表示为具有两个轴的张量，可以通过指定两个分量来创建一个形状为m * n的矩阵
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

In [9]:
#矩阵的转置
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

In [10]:
#对阵矩阵
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [11]:
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

In [12]:
#沿着张量的最外轴，可以访问或遍历小批量的数据样本

## 2.3.4 张量

In [13]:
#张量提供了描述具有任意数据轴的n维数组的通用方法
x = torch.arange(24).reshape(2, 3, 4)
x

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

## 2.3.5 张量算法的基本性质

In [14]:
#给定具有的相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [15]:
#两个矩阵按元素乘法称为Hadamard积
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [16]:
#将张量乘以或加上一个标量不会改变张量的形状，其中张量中的每个元素都将与标量相加或相乘
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

## 2.3.6 降维

In [17]:
#计算元素的和
x = torch.arange(4, dtype=torch.float32)
x, x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

In [18]:
#可以表示任意形状张量的元素和
A.shape, A.sum()

(torch.Size([5, 4]), tensor(190.))

In [19]:
#可以指定沿着哪一个轴通过求和降低维度

#指定axis=0通过汇总所有行的元素来降低维度
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [20]:
#指定axis=1通过汇总所有列的元素来降低维度
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [21]:
#沿着行和列对矩阵求和，等价于对矩阵所有元素求和
A.sum(axis=[0, 1])

tensor(190.)

In [22]:
#均值
A.mean(), A.sum() / A.numel()

(tensor(9.5000), tensor(9.5000))

In [23]:
#计算平均值的函数也可以降维
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

### 2.3.6.1 非降维求和

In [24]:
#求和时或均值时保持轴数不变

sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

In [25]:
#广播
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [26]:
#沿着轴计算A元素的累积总和
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

## 2.3.7 点积

In [27]:
#两个向量的点积就是相同位置的按元素乘积的和
y = torch.ones(4, dtype=torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [28]:
#元素乘法再求和也可以实现
torch.sum(x * y)

tensor(6.)

## 2.3.8 矩阵-向量积

In [29]:
#表示矩阵-向量积时，使用mv函数，其中A的列维数必须与x的维数（长度）相同
A.shape, x.shape, torch.mv(A, x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

## 2.3.9 矩阵乘法

In [30]:
#矩阵乘法使用函数mm，不要与hadamard积混淆
B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

## 2.3.10 范数

In [31]:
#非正式地说，一个向量的范数告诉我们一个向量有多大
#向量的范数是将向量映射到标量的函数f，f的属性：
#1.f(ax)=|a|f(x)，a为常数因子
#2.f(x+y) <= f(x) + f(y)
#3.f(x) >= 0

#欧几里得距离就是L2范数

In [32]:
#计算向量的L2范数
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

In [33]:
#L2范数的平方为L1范数，它表示向量元素的绝对值之和，相比L2范数，L1范数受异常值的影响较小
torch.abs(u).sum()

tensor(7.)

In [34]:
#Lp范数
#矩阵的Frobenius范数是矩阵元素平方和的平方根
torch.norm(torch.ones((4, 9)))

tensor(6.)

### 2.3.10.1 范数和目标

In [35]:
#在深度学习中，经常试图解决优化问题：最大化分配给观测数据的概率；最小化预测和真实观测之间的距离。
#用向量表示物品，以便最小化相似项目之间的距离，最大化不同项目之间的距离

## 2.3.11 关于线性代数的更多信息

In [36]:
#矩阵可以分解为因子，这些分解可以显示真实世界数据中的低维结构
#机器学习的整个子领域都侧重于使用矩阵分解及其高阶张量的泛化，来发现数据集中的结构并解决预测问题

## 2.3.12 小结

In [37]:
#标量、向量、矩阵和张量是线性代数中基本的数学对象
#向量泛化自标量，矩阵泛化自向量
#标量、向量、矩阵和张量分别具有零、一、二和任意数量的轴
#一个张量可以通过sum和mean沿指定的轴降低维度
#两个矩阵的按元素乘法被成为他们的Hadamard积，他与矩阵乘法不同
#在深度学习中，我们经常使用范数，如L1范数、L2范数和Frobenius范数
#我们可以对标量、向量、矩阵和张量执行各种操作

## 2.3.13 练习

In [38]:
#证明矩阵A的转置的转置是A
A = torch.arange(20, dtype=torch.float32).reshape((4, 5))
A

tensor([[ 0.,  1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.,  9.],
        [10., 11., 12., 13., 14.],
        [15., 16., 17., 18., 19.]])

In [39]:
B = A.T
B

tensor([[ 0.,  5., 10., 15.],
        [ 1.,  6., 11., 16.],
        [ 2.,  7., 12., 17.],
        [ 3.,  8., 13., 18.],
        [ 4.,  9., 14., 19.]])

In [40]:
C = B.T
C == A

tensor([[True, True, True, True, True],
        [True, True, True, True, True],
        [True, True, True, True, True],
        [True, True, True, True, True]])

In [42]:
#给出两个矩阵A和B，证明他们转置的和等于他们和的转置。
A = torch.arange(10, dtype=torch.float32).reshape((2, 5))
B = torch.tensor([[3, 4, 5, 6, 7], [7, 8, 9, 10, 11]])
A, B

(tensor([[0., 1., 2., 3., 4.],
         [5., 6., 7., 8., 9.]]),
 tensor([[ 3,  4,  5,  6,  7],
         [ 7,  8,  9, 10, 11]]))

In [45]:
C = A + B
C

tensor([[ 3.,  5.,  7.,  9., 11.],
        [12., 14., 16., 18., 20.]])

In [46]:
D = C.T
D

tensor([[ 3., 12.],
        [ 5., 14.],
        [ 7., 16.],
        [ 9., 18.],
        [11., 20.]])

In [47]:
D == A.T + B.T

tensor([[True, True],
        [True, True],
        [True, True],
        [True, True],
        [True, True]])

In [52]:
#给定任意方阵A, A+A.T总是对称的吗？
A = torch.arange(25, dtype=torch.float32).reshape((5, 5))
A + A.T

tensor([[ 0.,  6., 12., 18., 24.],
        [ 6., 12., 18., 24., 30.],
        [12., 18., 24., 30., 36.],
        [18., 24., 30., 36., 42.],
        [24., 30., 36., 42., 48.]])

In [57]:
#定义形状为（2， 3， 4）的张量X,len(X)的输出结果是什么？
X = torch.arange(24, dtype=torch.float32).reshape(2, 3, 4)
X

tensor([[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]],

        [[12., 13., 14., 15.],
         [16., 17., 18., 19.],
         [20., 21., 22., 23.]]])

In [58]:
len(X)

2

In [60]:
#对于任意形状的张量X, len(X)是否总是对应于X特定轴的长度？这个轴是什么？
X = torch.arange(24).reshape(2, 3, 4)
Y = torch.arange(36).reshape(1, 2, 3, 6)
Z = torch.arange(120).reshape(2, 3, 4, 5)
len(X), len(Y), len(Z)

(2, 1, 2)

In [65]:
#运行A/A.sum(axis=1),看看会发生什么
A = torch.arange(21).reshape(3, 7)
A

tensor([[ 0,  1,  2,  3,  4,  5,  6],
        [ 7,  8,  9, 10, 11, 12, 13],
        [14, 15, 16, 17, 18, 19, 20]])

In [67]:
A / A.sum(axis=1, keepdims=True) #保持维度，不降维求和，可以通过广播跑通

tensor([[0.0000, 0.0476, 0.0952, 0.1429, 0.1905, 0.2381, 0.2857],
        [0.1000, 0.1143, 0.1286, 0.1429, 0.1571, 0.1714, 0.1857],
        [0.1176, 0.1261, 0.1345, 0.1429, 0.1513, 0.1597, 0.1681]])

In [69]:
#考虑具有形状（2， 3， 4）的张量，在轴0、1、2上的求和输出是什么形状？
A = torch.arange(24).reshape(2, 3, 4)
A.sum(axis=0), A.sum(axis=1), A.sum(axis=2)

(tensor([[12, 14, 16, 18],
         [20, 22, 24, 26],
         [28, 30, 32, 34]]),
 tensor([[12, 15, 18, 21],
         [48, 51, 54, 57]]),
 tensor([[ 6, 22, 38],
         [54, 70, 86]]))

In [70]:
A.sum(axis=0).shape, A.sum(axis=1).shape, A.sum(axis=2).shape

(torch.Size([3, 4]), torch.Size([2, 4]), torch.Size([2, 3]))

In [71]:
#为linalg.norm函数提供3个或更多轴的张量，并观察其输出。对于任意形状的张量这个函数计算得到什么？

#torch.norm计算的是全部元素平方和开根
E = torch.ones(2, 3, 4)
F = torch.ones(2, 3, 4, 5)
torch.norm(E), torch.norm(F)

(tensor(4.8990), tensor(10.9545))

In [72]:
torch.norm(E) * torch.norm(E), torch.norm(F) * torch.norm(F)

(tensor(24.0000), tensor(120.0000))