# 线性代数

In [1]:
# 标量
import torch
x = torch.tensor([3.0])
y = torch.tensor([4.0])
print(f"x: {x}, y: {y}")
print(f"x + y: {x + y}")
print(f"x - y: {x - y}")
print(f"x * y: {x * y}")
print(f"x / y: {x / y}")

x: tensor([3.]), y: tensor([4.])
x + y: tensor([7.])
x - y: tensor([-1.])
x * y: tensor([12.])
x / y: tensor([0.7500])


In [7]:
# 向量
x = torch.arange(4)
print(f"x: {x}")
print(f"x shape: {x.shape}")
print(f"x len : {len(x)}")

x_2 = x[2]
print(f"x[2]: {x_2}")
print(f"x[2] shape: {x_2.shape}")

x: tensor([0, 1, 2, 3])
x shape: torch.Size([4])
x len : 4
x[2]: 2
x[2] shape: torch.Size([])


In [16]:
# 矩阵
x = torch.arange(12).reshape(3, 4)
print(f"x: {x}")

# 矩阵转置
print(f"x.T: {x.T}")

# 对称矩阵,除对角线外的元素对称
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
print(f"B: {B}")
print(f"B.T: {B.T}")
print(f"B == B.T: {B == B.T}")

# 多维矩阵
A = torch.arange(24).reshape(2, 3, 4)
print(f"A: {A}")
print(f"A shape: {A.shape}")


x: tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
x.T: tensor([[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]])
B: tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])
B.T: tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])
B == B.T: tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])
A: tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])
A shape: torch.Size([2, 3, 4])


In [None]:
# 矩阵克隆
A = torch.arange(20).reshape(4, 5)
B = A.clone()
print(f"A: {A}")
print(f"B: {B}")
print(f"A + B: {A + B}")

# 矩阵相乘： 对应元素相乘
print(f"A * B: {A * B}")

# 矩阵+ 标量
a = 1
print(f"A + a: {A + a}")

# 向量求和
X = torch.arange(4)
print(f"X: {X}")
print(f"X.sum(): {X.sum()}")

# 矩阵求和
# print(f"A: {A}")
print(f"A shape: {A.shape}")
print(f"A sum: {A.sum()}")

# 矩阵按列求和(维度丢失)
print(f"A.sum(axis=0): {A.sum(axis=0)}")
# 矩阵按行求和
print(f"A.sum(axis=1): {A.sum(axis=1)}")

# 矩阵求均值
A = torch.arange(20, dtype=torch.float32).reshape(4, 5)
print(f"A.mean(): {A.mean()}")
print(f"A numels: {A.numel()}")
print(f"A.sum()/A.numel(): {A.sum()/A.numel()}")

# 矩阵按行求和(纬度不丢失)
sum_A = A.sum(axis=0, dtype=torch.float32, keepdim=True)
print(f"sum_A: {sum_A}")
print(f"sumA shape: {sum_A.shape}")

# 矩阵广播
print(f"A/sum_A: {A/sum_A}")

# 矩阵延某轴累加 0 :  行 1 : 列
print(f"A.cumsum(axis=0): {A.cumsum(axis=0)}")
print(f"A.cumsum(axis=1): {A.cumsum(axis=1)}")

A: tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])
B: tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])
A + B: tensor([[ 0,  2,  4,  6,  8],
        [10, 12, 14, 16, 18],
        [20, 22, 24, 26, 28],
        [30, 32, 34, 36, 38]])
A * B: tensor([[  0,   1,   4,   9,  16],
        [ 25,  36,  49,  64,  81],
        [100, 121, 144, 169, 196],
        [225, 256, 289, 324, 361]])
A + a: tensor([[ 1,  2,  3,  4,  5],
        [ 6,  7,  8,  9, 10],
        [11, 12, 13, 14, 15],
        [16, 17, 18, 19, 20]])
X: tensor([0, 1, 2, 3])
X.sum(): 6
A shape: torch.Size([4, 5])
A sum: 190
A.sum(axis=0): tensor([30, 34, 38, 42, 46])
A.sum(axis=1): tensor([10, 35, 60, 85])
A.mean(): 9.5
A numels: 20
A.sum()/A.numel(): 9.5
sum_A: tensor([[30., 34., 38., 42., 46.]])
sumA shape: torch.Size([1, 5])
A/sum_A: tensor([[0.0000, 0.0294, 0.0526, 0.0714, 0.0870],
       

In [41]:
# 向量点积
x = torch.arange(4, dtype=torch.float32)
y = torch.ones(4, dtype=torch.float32)
print(f"x: {x}")
print(f"y: {y}")
print(f"x dot y: {torch.dot(x, y)}")

print(f"torch.sum(x * y): {torch.sum(x * y)}")

# 矩阵向量积
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
x = torch.arange(4, dtype=torch.float32)
print(f"A: {A}")
print(f"x: {x}")
print(f"A shape: {A.shape}")
print(f"x shape: {x.shape}")
print(f"A * x: {torch.mv(A, x)}")

# 矩阵相乘
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = torch.ones((4, 3), dtype=torch.float32)
print(f"A: {A}")
print(f"B: {B}")
print(f"A * B: {torch.mm(A, B)}")


x: tensor([0., 1., 2., 3.])
y: tensor([1., 1., 1., 1.])
x dot y: 6.0
torch.sum(x * y): 6.0
A: tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])
x: tensor([0., 1., 2., 3.])
A shape: torch.Size([5, 4])
x shape: torch.Size([4])
A * x: tensor([ 14.,  38.,  62.,  86., 110.])
A: tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])
B: tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
A * B: tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])


In [43]:
# 矩阵L2 范数： 向量元素平方和的平方根
u = torch.tensor([3.0, -4.0])
print(f"torch.norm(u) = {torch.norm(u)}")

# 矩阵L1 范数：  向量元素绝对值的和
print(f"torch.abs(u).sum(): {torch.abs(u).sum()}")


torch.norm(u) = 5.0
torch.abs(u).sum(): 7.0


# 练习
### 1. 证明一个矩阵的转置的转置是其本身，即 $(A^\top)^\top = A$。

**证明：**
设矩阵 $A$ 的元素为 $a_{ij}$，其中 $i$ 表示行索引，$j$ 表示列索引。根据转置的定义：
- $A^\top$ 的元素为 $a_{ji}$（即行和列交换）。
- $(A^\top)^\top$ 的元素为 $a_{ij}$（再次交换行和列）。

因此，$(A^\top)^\top$ 的元素与 $A$ 的元素完全相同，即 $(A^\top)^\top = A$。

### 2. 证明“两个矩阵转置的和”等于“它们和的转置”，即 $(A + B)^\top = A^\top + B^\top$。

**证明：**
设矩阵 $A$ 和 $B$ 的元素分别为 $a_{ij}$ 和 $b_{ij}$。
- $A + B$ 的元素为 $a_{ij} + b_{ij}$。
- $(A + B)^\top$ 的元素为 $a_{ji} + b_{ji}$。
- $A^\top$ 的元素为 $a_{ji}$，$B^\top$ 的元素为 $b_{ji}$。
- $A^\top + B^\top$ 的元素为 $a_{ji} + b_{ji}$。

因此，$(A + B)^\top$ 和 $A^\top + B^\top$ 的元素完全相同，即 $(A + B)^\top = A^\top + B^\top$。

### 3. 给定任意方阵 $A$，$A + A^\top$ 总是对称的吗？为什么？

**回答：**
是的，$A + A^\top$ 总是对称的。

**证明：**
对称矩阵的定义是 $M = M^\top$。我们验证 $(A + A^\top)^\top$：
- $(A + A^\top)^\top = A^\top + (A^\top)^\top = A^\top + A = A + A^\top$。
因此，$A + A^\top$ 是对称的。

### 4. 对于形状为 $(2, 3, 4)$ 的张量 $X$，`len(X)` 的输出结果是什么？

**回答：**
在 Python 中，`len(X)` 返回张量 $X$ 的第一个轴（轴 0）的长度。对于形状为 $(2, 3, 4)$ 的张量，`len(X)` 的输出是 $2$。

### 5. 对于任意形状的张量 $X$，`len(X)` 是否总是对应于 $X$ 特定轴的长度？这个轴是什么？

**回答：**
是的，`len(X)` 总是返回张量 $X$ 的第一个轴（轴 0）的长度。例如：
- 形状为 $(a, b, c)$ 的张量，`len(X)` 返回 $a$。
- 形状为 $(a,)$ 的张量，`len(X)` 返回 $a$。
- 标量（形状为 $()$）会报错，因为标量没有长度。

### 6. 运行 `A / A.sum(axis=1)`，看看会发生什么？请分析原因。

**分析：**
假设 $A$ 是一个矩阵（二维张量），`A.sum(axis=1)` 会对 $A$ 的每一行求和，得到一个形状为 $(n,)$ 或 $(n, 1)$ 的向量（取决于广播规则）。然后 `A / A.sum(axis=1)` 会将 $A$ 的每一行除以其行和。

**可能的问题：**
- 如果 `A.sum(axis=1)` 的形状是 $(n,)` 而 $A$ 的形状是 $(n, m)$，需要广播。通常 `A.sum(axis=1)` 会扩展为 $(n, 1)$ 以匹配 $A$ 的列。
- 如果 `A.sum(axis=1)` 中有零元素，会导致除以零的错误。

### 7. 考虑一个形状为 $(2, 3, 4)$ 的张量，在轴 0、1、2 上的求和输出形状是什么？

**回答：**
- 沿轴 0 求和：形状为 $(3, 4)$（去掉轴 0）。
- 沿轴 1 求和：形状为 $(2, 4)$（去掉轴 1）。
- 沿轴 2 求和：形状为 $(2, 3)$（去掉轴 2）。

### 8. 为 `linalg.norm` 函数提供 3 个或更多轴的张量，并观察其输出。对于任意形状的张量，这个函数计算得到什么？

**回答：**
`linalg.norm`（默认情况下）计算张量的 Frobenius 范数（即所有元素的平方和的平方根）。对于任意形状的张量：
- 输出是一个标量（形状为 $()$），表示整个张量的 Frobenius 范数。
- 例如，对于形状为 $(2, 3, 4)$ 的张量，`np.linalg.norm(X)` 返回 $\sqrt{\sum_{i=1}^2 \sum_{j=1}^3 \sum_{k=1}^4 X_{ijk}^2}$。

可以通过 `axis` 参数指定沿特定轴计算范数，此时输出形状会去掉对应的轴。

In [None]:
import numpy as np
A = np.array([
    [1, 2, 3],  # 第0行
    [4, 5, 6]   # 第1行
])

#  行求和
A_sum_row = np.sum(A, axis=1)
print(A_sum_row)

# 列求和
A_sum_col = np.sum(A, axis=0)
print(A_sum_col)

[ 6 15]
[5 7 9]
