# pytorch中的线性代数

### 1. 张量的Hadamard积  
在python中执行`A * B`即可。  

![张量的Hadamard积](picture\Hadamard_product.jpg)

In [6]:
import torch

A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()
B[:] = A * B
print(B)

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])


### 2. 降维求和  
理解torch.sum()中的`dim`参数，dim表示要减少的维度  
非降维求和需要torch.sum()中的`keepdim = True`

In [41]:
print(A)
A_sum_axis0 = A.sum(dim=0) # 行降维，按列求和
print(A_sum_axis0, A_sum_axis0.shape) 

A_sum_axis1 = A.sum(dim=1) # 列降维，按行求和
print(A_sum_axis1, A_sum_axis1.shape)

A_sum = A.sum() # 整体求和
print(A_sum)

C = torch.arange(20, dtype=torch.float32).reshape(2, 5, 2)
print(C)
print(C.sum(dim=(1, 2))) # 依次减少1,2维
print(C.sum(dim=(0, 1)))
print(C.sum(dim=(0, 2)))

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])
tensor([40., 45., 50., 55.]) torch.Size([4])
tensor([ 6., 22., 38., 54., 70.]) torch.Size([5])
tensor(190.)
tensor([[[ 0.,  1.],
         [ 2.,  3.],
         [ 4.,  5.],
         [ 6.,  7.],
         [ 8.,  9.]],

        [[10., 11.],
         [12., 13.],
         [14., 15.],
         [16., 17.],
         [18., 19.]]])
tensor([ 45., 145.])
tensor([ 90., 100.])
tensor([22., 30., 38., 46., 54.])


### 3. 求平均值

In [47]:
A_mean_axis0 = A.mean(dim=0) # 行降维，按列求和
print(A_mean_axis0)
A_mean_axis0 = A.sum(dim=0) / A.shape[0]
print(A_mean_axis0)

A_mean_axis1 = A.mean(dim=1) # 列降维，按行求和
print(A_mean_axis1)
A_mean_axis1 = A.sum(dim=1) / A.shape[1]
print(A_mean_axis1)

A_mean = A.mean()
print(A_mean)
A_mean = A.sum() / A.numel()
print(A_mean)

tensor([ 8.,  9., 10., 11.])
tensor([ 8.,  9., 10., 11.])
tensor([ 1.5000,  5.5000,  9.5000, 13.5000, 17.5000])
tensor([ 1.5000,  5.5000,  9.5000, 13.5000, 17.5000])
tensor(9.5000)
tensor(9.5000)


### 4. 矩阵乘法
> - 向量乘：`torch.dot(x, y)`或`x@y`  
> - 向量与矩阵相乘：`torch.mv(A, x)`或`A@x`  
> - 矩阵与矩阵相乘：`torch.mm(A, B)`或`A@B`  

### 5. 范数  
- 范数：向量的大小，满足以下性质：  

![性质1](picture\norms1.jpg)  
![性质2和3](picture\norms2.jpg)  

- L2范数：欧几里得距离就属于L2范数。  

![L2范数](picture\norms3.jpg)

- L1范数：向量元素绝对值之和。与L2范数相比， L1范数受异常值的影响较小。  

![L1范数](picture\norms4.jpg)  

- L2范数和L1范数都是更一般的Lp范数的特例：  

![Lp范数](picture\norms5.jpg)  

- 类似于向量的L2范数，矩阵X ∈ Rm×n的Frobenius范数（Frobenius norm）是矩阵元素平方和的平方根：  

![Frobenius范数](picture\norms6.jpg)  
Frobenius范数满足向量范数的所有性质，它就像是矩阵形向量的L2范数。

In [54]:
u = torch.arange(5, dtype=torch.float32)

# L1范数
print(torch.linalg.vector_norm(u, ord=1))

# L2范数
print(torch.linalg.vector_norm(u, ord=2))

# Frobenius范数，dim=(-2, -1)为默认值，将最低的两个维度进行范数计算
# 更高维度的值作为批次数。
print(torch.linalg.matrix_norm(torch.ones(2, 4, 9), ord='fro'))

tensor(10.)
tensor(5.4772)
tensor([6., 6.])


### 6. 练习  
- 本节中定义了形状(2, 3, 4)的张量X。 len(X)的输出结果是什么？  
答：最高维度的值。

In [53]:
x = torch.arange(24, dtype=torch.float32).reshape(2, 3, 4)
print(x)
print(len(x))

tensor([[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]],

        [[12., 13., 14., 15.],
         [16., 17., 18., 19.],
         [20., 21., 22., 23.]]])
2


- 运行A/A.sum(dim=1)，看看会发生什么。请分析一下原因？  
A.sum(dim=1)发生数据降维，且不满足广播机制条件，应采用A.sum(dim=1， keepdim=True)

In [4]:
X = torch.arange(20, dtype=torch.float32).reshape(4, 5)
print(X)
X_sum_axis1 = X.sum(dim=1, keepdim=True)
#X_sum_axis1 = X.sum(dim=1)
print(X_sum_axis1, X_sum_axis1.shape)
print(X/X_sum_axis1)

tensor([[ 0.,  1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.,  9.],
        [10., 11., 12., 13., 14.],
        [15., 16., 17., 18., 19.]])
tensor([[10.],
        [35.],
        [60.],
        [85.]]) torch.Size([4, 1])
tensor([[0.0000, 0.1000, 0.2000, 0.3000, 0.4000],
        [0.1429, 0.1714, 0.2000, 0.2286, 0.2571],
        [0.1667, 0.1833, 0.2000, 0.2167, 0.2333],
        [0.1765, 0.1882, 0.2000, 0.2118, 0.2235]])


- Pytorch中的张量乘法`torch.matmul()`详解  
    1. 如果是两个一维张量相乘，维度均为(N)，则进行向量点积，结果为标量，即$z=\bold{xy}$。  
    2. 如果是二维张量(M, N)*一维张量(N)，则将一维张量**右侧升维**，即(N, 1)，然后进行矩阵运算得到矩阵维度为(M, 1)，再降维得到最终结果的维度为(M)。  
    3. 如果是一维张量(N)*二维张量(N, M)，则将一维张量**左侧升维**，即(1, N)，然后进行矩阵运算得到矩阵维度为(1, M)，再降维得到最终结果的维度为(M)。   
    4. 如果2,3中所描述的二维张量扩展到更高维度（如三维张量），一维张量升维准则不变，对于超过二维的维度进行广播，最终计算结果不进行降维。具体维度变化如下：  
    >以(K, M, N)*(N)为例  
    >$$
    >\bold{(K, M, N)}\times\bold{(N)} \\
    >\bold{(N)}\rightarrow\bold{(K, N, 1)} \\
    >\bold{(K, M, N)}\times\bold{(N)}\rightarrow\bold{(K, M, N)}\times\bold{(K, N, 1)}=\bold{(K, M, 1)}
    >$$  

    >以(N)*(K, N, M)为例  
    >$$
    >\bold{(N)}\times\bold{(K, N, M)} \\
    >\bold{(N)}\rightarrow\bold{(K, 1, N)} \\
    >\bold{(N)}\times\bold{(K, N, M)}\rightarrow\bold{(K, 1, N)}\times\bold{(K, N, M)}=\bold{(K, 1, M)}
    >$$  

In [16]:
a = torch.arange(3, dtype=torch.float32)
b = torch.arange(12, dtype=torch.float32).reshape(2, 2, 3)
c = torch.matmul(b, a)
# d = torch.matmul(b, a)
print(a)
print(b)
print(c)
# print(d)

tensor([0., 1., 2.])
tensor([[[ 0.,  1.,  2.],
         [ 3.,  4.,  5.]],

        [[ 6.,  7.,  8.],
         [ 9., 10., 11.]]])
tensor([[ 5., 14.],
        [23., 32.]])


In [17]:
tensor1 = torch.randn(3, 4)
tensor2 = torch.randn(4)
tensor3 = torch.matmul(tensor1, tensor2)
tensor4 = torch.arange(4, dtype=torch.float32).reshape(1, 4)
tensor5 = torch.arange(4, dtype=torch.float32).reshape(4, 1)
print(tensor1)
print(tensor2)
print(tensor3)
print(tensor4)
print(tensor5)

tensor([[ 0.9801, -0.9638, -0.1028,  0.0226],
        [ 0.1911,  1.6425, -1.1452, -0.8970],
        [ 1.2729, -1.8892, -0.1872, -1.4800]])
tensor([-0.5190,  0.6274, -0.1808, -0.0306])
tensor([-1.0954,  1.1657, -1.7667])
tensor([[0., 1., 2., 3.]])
tensor([[0.],
        [1.],
        [2.],
        [3.]])
