# 线性代数
## 标量
- scalar：数，由只有一个元素的tensor表示
- variable：变量

In [1]:
import torch
x=torch.tensor(3.0)
y=torch.tensor(2.0)
x+y,x*y,x/y,x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

## 向量
- 由scalar组成的序列
- 每个scalar叫做element 或 component

In [4]:
x=torch.arange(4)
x,x[3]

(tensor([0, 1, 2, 3]), tensor(3))

### 长度、维度和形状
- 长度、维度：向量的scalar数量
- 形状：m*n

In [5]:
len(x),x.shape

(4, torch.Size([4]))

## 矩阵
$$
\mathbf{A} = \begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{bmatrix}.
$$

In [6]:
A=torch.arange(20).reshape(5,4)
A,A.T

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11],
         [12, 13, 14, 15],
         [16, 17, 18, 19]]),
 tensor([[ 0,  4,  8, 12, 16],
         [ 1,  5,  9, 13, 17],
         [ 2,  6, 10, 14, 18],
         [ 3,  7, 11, 15, 19]]))

In [None]:
# Symmetric Matrix: M=M Transpose
B=torch.tensor([[1,2,3],[2,0,4],[3,4,5]])
B==B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

# 张量 
n维矩阵(n>2)

In [8]:
X=torch.arange(24).reshape(2,3,4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

## 张量算法基本性质

In [11]:
A=torch.arange(20,dtype=torch.float32).reshape(5,4)
# 通过分配新内存，将A的副本赋值给B
B=A.clone()
A,A+B,id(A)==id(B)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]),
 False)

Hadamard Product：Hardamard积
$$
\mathbf{A} \odot \mathbf{B}=\begin{bmatrix}
a_{11} b_{11} & a_{12} b_{12} & \cdots & a_{1n} b_{1n} \\
a_{21} b_{21} & a_{22} b_{22} & \cdots & a_{2n} b_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} b_{m1} & a_{m2} b_{m2} & \cdots & a_{mn} b_{mn}
\end{bmatrix}
$$

In [12]:
A*B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [13]:
# tensor加上或乘以一个scalar，不影响tensor的形状
a=2
a+X,(a*X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

## 降维
对tensor求和：即将所有element相加

In [14]:
x=torch.arange(4,dtype=torch.float32)
x,x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

In [16]:
# 或任意形状tensor
A.shape,A.sum()

(torch.Size([5, 4]), tensor(190.))

In [17]:
# 默认情况，sum()会沿所有皱降维，使其变成标量。可指定tensor的轴来实现降维
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [18]:
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [19]:
# 平均值：mean或average，也可以沿着指定轴降低tensor维度
print(A.mean(),A.mean(axis=0),A.mean(axis=1))

tensor(9.5000) tensor([ 8.,  9., 10., 11.]) tensor([ 1.5000,  5.5000,  9.5000, 13.5000, 17.5000])


### 非降维求和
当仍保持与原tensor A一样的轴数量时，可以通过广播操作将A除以sum_A

In [21]:
sum_A=A.sum(axis=1,keepdim=True)
sum_A,sum_A.shape,A/sum_A

(tensor([[ 6.],
         [22.],
         [38.],
         [54.],
         [70.]]),
 torch.Size([5, 1]),
 tensor([[0.0000, 0.1667, 0.3333, 0.5000],
         [0.1818, 0.2273, 0.2727, 0.3182],
         [0.2105, 0.2368, 0.2632, 0.2895],
         [0.2222, 0.2407, 0.2593, 0.2778],
         [0.2286, 0.2429, 0.2571, 0.2714]]))

In [22]:
# 沿某个轴计算A的累计总和：cumulative sum
A.cumsum(axis=0)

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

## 点积(dot product)
$$
\mathbf{a} \cdot \mathbf{b} = 
\begin{bmatrix} a_1 & a_2 & a_3 \end{bmatrix}
\cdot
\begin{bmatrix} b_1 \\ b_2 \\ b_3 \end{bmatrix}
= a_1b_1 + a_2b_2 + a_3b_3
$$
- 向量a表示值，向量b表示权重 -> dot(a,b)表示加权和
- 当权重非负数且和为一，表示加权平均值
- 两个向量规范化得到单位长度时，点积表示夹角余弦

In [28]:
y=torch.ones(4,dtype=torch.float32)

x,y,torch.dot(x,y),
# 也就是torch.sum(x*y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

## 矩阵向量积


$$
\mathbf{A} \mathbf{x}=\begin{bmatrix}
a_1 & a_2 & \cdots & a_n \\
\end{bmatrix}
\begin{bmatrix}
x_1\\
x_2\\
\vdots\\
x_n
\end{bmatrix}
=
\begin{bmatrix}
a_1 x_1 + a_2 x_2 + \cdots + a_n x_n\\
\end{bmatrix}
=
\begin{bmatrix}
a_1^T \\
a_2^T\\
\vdots\\
a_n^T
\end{bmatrix}
\begin{bmatrix}
x
\end{bmatrix}
=\begin{bmatrix}
a_1^T x\\
a_2^T x\\
\vdots\\
a_n^T x
\end{bmatrix}
$$

In [29]:
A.shape,x.shape,torch.mv(A,x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

## 矩阵乘法
$$
\mathbf{A}=
\begin{bmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{bmatrix},
\mathbf{B}=
\begin{bmatrix}
b_{11} & b_{12} & \cdots & b_{1n} \\
b_{21} & b_{22} & \cdots & b_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
b_{m1} & b_{m2} & \cdots & b_{mn}
\end{bmatrix},
\mathbf{C}=
\begin{bmatrix}
a_1^T\\
a_2^T\\
\vdots\\
a_m^T
\end{bmatrix}
\begin{bmatrix}
b_1 & b_2 & \cdots & b_n
\end{bmatrix}=
\begin{bmatrix}
a_1^Tb_1 & a_1^Tb_2 & \cdots & a_1^Tb_n \\
a_2^Tb_1 & a_2^Tb_2 & \cdots & a_2^Tb_n \\
\vdots & \vdots & \ddots & \vdots \\
a_m^Tb_1 & a_m^Tb_2 & \cdots & a_m^Tb_n
\end{bmatrix}
$$


In [31]:
B=torch.ones(4,3)
torch.mm(A,B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

## 范数 norm
- 表示一个向量的大小(size)
- 性质：
  1. 齐次性：若用常数因子$\alpha$乘以向量，则范数也会按照$|\alpha|$缩放
     $$ f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x}) $$
  2. 三角不等式：两边之和大于第三边推广
     $$ f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y}) $$
  3. 非负性：范数必须大于0
     $$ f(\mathbf{x}) \geq 0 $$
  4. 正定性：当且仅当$\mathbf{x}$的所有元素都为0时，范数才等于0
     $$ f(\mathbf{x}) = 0 \iff \mathbf{x} = \mathbf{0} $$
- $\mathbf{L_2}$范数：向量$\mathbf{x}$的平方和开根号，也叫欧式范数，即所有元素平方和的平方根(通常省略下标)
  $$ \|\mathbf{X}\|_2 = \sqrt{\sum_{i=1}^n x_i^2} $$
- $\mathbf{L_1}$范数：向量$\mathbf{x}$的绝对值和，也叫曼哈顿范数
  $$ \|\mathbf{X}\|_1 = \sum_{i=1}^n |x_i| $$
- $\mathbf{L_p}$范数：$\mathbf{L_1}$和$\mathbf{L_2}$都是其特例
  $$ \|\mathbf{X}\|_p = \left( \sum_{i=1}^n |x_i|^p \right)^{1/p} $$
- 类似向量范数，矩阵的Frobenius范数是矩阵元素平方和的平方根
  $$ \|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n X_{i,j}^2} $$

## 范数和目标
用向量表示物品（如单词，产品或新闻），以便最小化相似项目之间的距离，最大化不同项目之间的距离

In [32]:
#L2
u=torch.tensor([3.0,-4.0])
torch.norm(u)

tensor(5.)

In [33]:
#L1
torch.abs(u).sum()

tensor(7.)

## 练习

In [34]:
# 证明A转置的转置是A
A=torch.arange(12).reshape(3,4)
A.T.T==A

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

In [35]:
# 证明转置的和等于和的转置
B=torch.randn(3,4)
(A+B).T==(A.T+B.T)

tensor([[True, True, True],
        [True, True, True],
        [True, True, True],
        [True, True, True]])

给定任意方阵C，C+C^T总是对称的吗？

是的，因为
$$(\mathbf{C} + \mathbf{C}^T)^T=\mathbf{C}^T + \mathbf{C}$$

In [None]:
# x是(2，3，4)的tensor，len(x)的结果是什么
X=torch.randn(2,3,4)
len(X)

2

In [37]:
# 对于任意形状的tensor，len(x)是否总是对应特定轴的长度，这个轴是什么
# 是的，len(x)总是对应tensor的第0轴的长度。

In [None]:
# A/A.sum(axis=1)结果，为什么
# A/A.sum(axis=1)
#Error: The size of tensor a (4) must match the size of tensor b (3) at non-singleton dimension 1
# 这两个tensor在进行运算时，要求第 1 维尺寸必须相同，但当前不匹配，因此报错。



RuntimeError: The size of tensor a (4) must match the size of tensor b (3) at non-singleton dimension 1

In [42]:
# 一个(2,3,4)的tensor，在轴0，1，2上分别求和的结果形状各是什么
X.sum(axis=0).shape,X.sum(axis=1).shape,X.sum(axis=2).shape

(torch.Size([3, 4]), torch.Size([2, 4]), torch.Size([2, 3]))

In [None]:
#为linalg.norm函数提供3个轴的tensor，观察其输出，得到了什么
X=torch.arange(24,dtype=torch.float32).reshape(2,3,4)
torch.linalg.norm(X)  
# 输出tensor的FFrobenius范数

tensor(65.7571)