# 线性代数

标量由只有一个元素的张量表示

In [1]:
import torch

x = torch.tensor(3.0)
y = torch.tensor(2.0)

x + y, x * y, x / y, x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

向量可以被视为标量值组成的列表

In [2]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

通过张量的索引来访问任一元素

In [3]:
x[3]

tensor(3)

访问张量的长度

In [4]:
len(x)

4

只有一个轴的张量，形状只有一个元素

In [5]:
x.shape

torch.Size([4])

通过指定两个分量$m$和$n$来创建一个形状为$m \times n$的矩阵

In [6]:
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

矩阵的转置

In [7]:
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

*对称矩阵*（symmetric matrix）$\mathbf{A}$等于其转置：$\mathbf{A} = \mathbf{A}^\top$

In [8]:
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [9]:
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

就像向量是标量的推广，矩阵是向量的推广一样，我们可以构建具有更多轴的数据结构

In [10]:
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量

In [11]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
# 使用 B = A.clone() 而不是简单的 B = A，是因为简单的赋值语句只会创建一个指向原始张量的引用，而不是创建一个新的张量。
B = A.clone()
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

两个矩阵的按元素乘法称为*Hadamard积*（Hadamard product）（数学符号$\odot$）

In [12]:
A * B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [13]:
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

计算其元素的和

In [14]:
x = torch.arange(4, dtype=torch.float32)
x, x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

表示任意形状张量的元素和

In [15]:
A.shape, A.sum()

(torch.Size([5, 4]), tensor(190.))

指定张量沿哪一个轴来通过求和降低维度

In [16]:
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [17]:
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [18]:
A.sum(axis=[0, 1])

tensor(190.)

一个与求和相关的量是*平均值*（mean或average）

In [19]:
A.mean(), A.sum() / A.numel()

(tensor(9.5000), tensor(9.5000))

In [20]:
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

计算总和或均值时保持轴数不变

In [22]:
# keepdims=True 参数用于指示在结果张量中保留原始维度，即将求和后的维度保持为原始张量的维度。
sum_A = A.sum(axis=1, keepdims=True)
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

通过广播将`A`除以`sum_A`

In [23]:
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

某个轴计算`A`元素的累积总和

In [24]:
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

计算两个 1 维张量的点积，点积是相同位置的按元素乘积的和

In [25]:
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

我们可以通过执行按元素乘法，然后进行求和来表示两个向量的点积

In [26]:
torch.sum(x * y)

tensor(6.)

矩阵向量积$\mathbf{A}\mathbf{x}$是一个长度为$m$的列向量，
其第$i$个元素是点积$\mathbf{a}^\top_i \mathbf{x}$

注意，A的列维数（沿轴1的长度）必须与x的维数（其长度）相同。

In [27]:
A.shape, x.shape, torch.mv(A, x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

我们可以将矩阵-矩阵乘法$\mathbf{AB}$看作简单地执行$m$次矩阵-向量积，并将结果拼接在一起，形成一个$n \times m$矩阵

In [28]:
B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

$L_2$*范数*是向量元素平方和的平方根：
$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}$$

In [29]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

$L_1$范数，它表示为向量元素的绝对值之和：
$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|$$

In [30]:
torch.abs(u).sum()

tensor(7.)

矩阵
的*Frobenius范数*（Frobenius norm）是矩阵元素平方和的平方根：
$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}$$

In [31]:
torch.norm(torch.ones((4, 9)))

tensor(6.)

### 练习
1.证明一个矩阵的转置的转置是自身

2.给出两个矩阵证明“它们转置的和”等于“它们和的转置”

3.给定任意方阵，A+A^T总是对称的吗?

4.本节中定义了形状(2,3,4)的张量X。len(X)的输出结果是什么？

5.对于任意形状的张量X,len(X)是否总是对应于X特定轴的长度?这个轴是什么?

6.运行A/A.sum(axis=1)，看看会发生什么。请分析一下原因？

7.考虑一个具有形状(2,3,4)的张量，在轴0、1、2上的求和输出是什么形状?

8.为linalg.norm函数提供3个或更多轴的张量，并观察其输出。对于任意形状的张量这个函数计算得到什么?

In [37]:
"""
torch.all() 主要用于检查张量中所有元素是否满足某个条件
torch.eq(input, other) 将比较输入张量 input 和另一个张量 other 的每个对应位置上的元素是否相等
"""
import torch 
A = torch.randn((2, 3))
A_transpose = A.T.T
is_equal = torch.all(torch.eq(A, A_transpose))
is_equal

tensor(True)

In [38]:
B = torch.randn((2, 3))
(B + A).T == A.T + B.T

tensor([[True, True],
        [True, True],
        [True, True]])

In [40]:
C = torch.randn((2, 3, 4))
len(C), C.shape, C.numel()

(2, torch.Size([2, 3, 4]), 24)

In [44]:
D = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
D, D.sum(axis=1), D / D.sum(axis=1) 

(tensor([[1, 2, 3],
         [4, 5, 6],
         [7, 8, 9]]),
 tensor([ 6, 15, 24]),
 tensor([[0.1667, 0.1333, 0.1250],
         [0.6667, 0.3333, 0.2500],
         [1.1667, 0.5333, 0.3750]]))

In [45]:
C.sum(axis = 0), C.sum(axis = 1), C.sum(axis = 2)

(tensor([[ 0.2632, -0.5582,  2.0734,  0.7030],
         [-3.4219, -1.0620, -0.4057,  2.0965],
         [ 0.6521,  0.6359, -0.8435, -1.2390]]),
 tensor([[-2.1931, -1.7161,  0.7193, -0.0055],
         [-0.3136,  0.7317,  0.1048,  1.5660]]),
 tensor([[ 1.9951, -3.4973, -1.6932],
         [ 0.4861,  0.7041,  0.8986]]))

torch.linalg.norm() 和 torch.norm() 都是 PyTorch 中计算张量范数的函数，但它们之间有一些区别。

功能范围不同：

torch.linalg.norm() 主要用于计算线性代数中的矩阵范数，例如 Frobenius 范数、L1 范数和 L2 范数等。
torch.norm() 则更为通用，可以计算张量的各种范数，如向量范数、矩阵范数、以及高阶张量的范数。
输入参数不同：

torch.linalg.norm() 的参数包括输入张量 input 和可选的 ord 和 dim。其中，ord 用于指定计算的范数类型，dim 用于指定在哪个维度上进行计算，默认是计算整个张量的范数。
torch.norm() 的参数包括输入张量 input 和可选的 p、dim、keepdim 和 dtype。其中，p 用于指定计算的范数类型，dim 用于指定在哪个维度上进行计算，默认是计算整个张量的范数，keepdim 用于保持输出张量的维度和输入张量相同，dtype 用于指定输出张量的数据类型。
数据类型支持不同：

torch.linalg.norm() 在输入张量为浮点型和复数型时可用。
torch.norm() 在输入张量为整型、浮点型和复数型时均可用。

In [47]:
# 示例张量
A = torch.tensor([[1., 2, 3], [4, 5, 6]])

# 计算默认情况下的L2范数（向量的欧几里得范数）
norm_1 = torch.linalg.norm(A)
print("Default L2 Norm:")
print(norm_1)

# 计算每行的L2范数
norm_2 = torch.linalg.norm(A, dim=1)
print("\nL2 Norm along axis 1:")
print(norm_2)

# 计算每列的L1范数
norm_3 = torch.linalg.norm(A, dim=0, ord=1)
print("\nL1 Norm along axis 0:")
print(norm_3)

# 计算整个矩阵的Frobenius范数
norm_4 = torch.linalg.norm(A, ord='fro')
print("\nFrobenius Norm of the matrix:")
print(norm_4)

Default L2 Norm:
tensor(9.5394)

L2 Norm along axis 1:
tensor([3.7417, 8.7750])

L1 Norm along axis 0:
tensor([5., 7., 9.])

Frobenius Norm of the matrix:
tensor(9.5394)


### 解答
在 PyTorch 中，copy 和 clone 都是用于创建张量副本的函数，但它们在底层实现上有一些不同。

内存分配方式不同：

copy 函数会为新的张量分配新的内存空间，将原始张量的值复制到新的张量中。
clone 函数则会在新的张量中分配新的内存空间，并将原始张量的值和计算图都复制到新的张量中。这意味着，与 copy 不同，clone 复制的新张量与原始张量共享计算图，因此它可以保留梯度信息。
参数设置不同：

copy 函数不需要任何参数，它会直接返回一个新的张量副本。
clone 函数可以设置两个可选参数：memory_format 和 non_blocking。其中，memory_format 用于指定新张量的存储格式，non_blocking 则用于设置是否将张量复制到非阻塞式内存中。
使用场景不同：

copy 通常用于需要创建新的张量副本并且不需要保留梯度信息的情况，如数据处理、拷贝数据到其他设备等。
clone 则通常用于需要创建新的张量副本并且需要保留梯度信息的情况，如在计算图中进行反向传播时。