In [1]:
import torch
from rich import print
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
%load_ext rich

<div class="jumbotron">
    <h1 class="display-1">线性代数</h1>
    <hr class="my-4">
    <p>主讲：李岩</p>
    <p>管理学院</p>
    <p>liyan@cumtb.edu.cn</p>
</div>

## 向量与矩阵

- 列向量是向量的默认方向

$$\mathbf{x} =\begin{bmatrix}x_{1}  \\x_{2}  \\ \vdots  \\x_{n}\end{bmatrix},$$

In [4]:
x = torch.arange(4)
x

[1;35mtensor[0m[1m([0m[1m[[0m[1;36m0[0m, [1;36m1[0m, [1;36m2[0m, [1;36m3[0m[1m][0m[1m)[0m

### 张量的长度、维度

\begin{definition}\label{def:dimension}
向量的维度（dimension）：向量的长度（包含的元素个数）
\end{definition}


- 访问张量长度的方法
    - `Python`内置的`len()`函数
    - 张量的`shape`属性，一个元素组，列出了张量沿每个轴的维度

In [8]:
print(f'张量x的维度为{len(x)}')

In [7]:
print(f'张量x的形状为{x.shape}')

### 矩阵的转置

In [9]:
A = torch.arange(20).reshape(5, 4)
A


[1;35mtensor[0m[1m([0m[1m[[0m[1m[[0m [1;36m0[0m,  [1;36m1[0m,  [1;36m2[0m,  [1;36m3[0m[1m][0m,
        [1m[[0m [1;36m4[0m,  [1;36m5[0m,  [1;36m6[0m,  [1;36m7[0m[1m][0m,
        [1m[[0m [1;36m8[0m,  [1;36m9[0m, [1;36m10[0m, [1;36m11[0m[1m][0m,
        [1m[[0m[1;36m12[0m, [1;36m13[0m, [1;36m14[0m, [1;36m15[0m[1m][0m,
        [1m[[0m[1;36m16[0m, [1;36m17[0m, [1;36m18[0m, [1;36m19[0m[1m][0m[1m][0m[1m)[0m

In [10]:
print(f'张量A的转置为\n{A.T}')

- 对称矩阵（symmetric matrix）$\mathbf{A}$等于其转置：$\mathbf{A} = \mathbf{A}^\top$

In [11]:
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
print(f'生成一个对称张量B\n{B}')

In [12]:
B == B.T


[1;35mtensor[0m[1m([0m[1m[[0m[1m[[0m[3;92mTrue[0m, [3;92mTrue[0m, [3;92mTrue[0m[1m][0m,
        [1m[[0m[3;92mTrue[0m, [3;92mTrue[0m, [3;92mTrue[0m[1m][0m,
        [1m[[0m[3;92mTrue[0m, [3;92mTrue[0m, [3;92mTrue[0m[1m][0m[1m][0m[1m)[0m

## 张量的运算

### 张量运算的基本性质

- 给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量

In [13]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone() # 通过分配新内存，将A的一个副本分配给B
A


[1;35mtensor[0m[1m([0m[1m[[0m[1m[[0m [1;36m0[0m.,  [1;36m1[0m.,  [1;36m2[0m.,  [1;36m3[0m.[1m][0m,
        [1m[[0m [1;36m4[0m.,  [1;36m5[0m.,  [1;36m6[0m.,  [1;36m7[0m.[1m][0m,
        [1m[[0m [1;36m8[0m.,  [1;36m9[0m., [1;36m10[0m., [1;36m11[0m.[1m][0m,
        [1m[[0m[1;36m12[0m., [1;36m13[0m., [1;36m14[0m., [1;36m15[0m.[1m][0m,
        [1m[[0m[1;36m16[0m., [1;36m17[0m., [1;36m18[0m., [1;36m19[0m.[1m][0m[1m][0m[1m)[0m

In [14]:
print(f'A+B为\n{A + B}')

### 矩阵按元素乘法

- 两个矩阵的按元素乘法称为*Hadamard积*（Hadamard product）（数学符号$\odot$）

$$
\mathbf{A} \odot \mathbf{B} =
\begin{bmatrix}
    a_{11}  b_{11} & a_{12}  b_{12} & \dots  & a_{1n}  b_{1n} \\
    a_{21}  b_{21} & a_{22}  b_{22} & \dots  & a_{2n}  b_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    a_{m1}  b_{m1} & a_{m2}  b_{m2} & \dots  & a_{mn}  b_{mn}
\end{bmatrix}.
$$

In [15]:
print(f'张量A和B的Hadamard积为\n{A * B}')

In [17]:
a = 2
X = torch.arange(24).reshape(2, 3, 4)
print(f'X是\n{X}')
print(f'a+X是\n{a + X}')
print(f'a和X的Hadamard积是\n{(a * X)}')

### 降维

- 利用`sum()`计算张量元素的和，默认沿所有的轴降低张量的维度，使它变为一个标量

In [18]:
x = torch.arange(4, dtype=torch.float32)
x
print(f'张量x的元素的和为\n{x.sum()}')

[1;35mtensor[0m[1m([0m[1m[[0m[1;36m0[0m., [1;36m1[0m., [1;36m2[0m., [1;36m3[0m.[1m][0m[1m)[0m

In [19]:
A
print(f'张量A的元素的和为\n{A.sum()}')


[1;35mtensor[0m[1m([0m[1m[[0m[1m[[0m [1;36m0[0m.,  [1;36m1[0m.,  [1;36m2[0m.,  [1;36m3[0m.[1m][0m,
        [1m[[0m [1;36m4[0m.,  [1;36m5[0m.,  [1;36m6[0m.,  [1;36m7[0m.[1m][0m,
        [1m[[0m [1;36m8[0m.,  [1;36m9[0m., [1;36m10[0m., [1;36m11[0m.[1m][0m,
        [1m[[0m[1;36m12[0m., [1;36m13[0m., [1;36m14[0m., [1;36m15[0m.[1m][0m,
        [1m[[0m[1;36m16[0m., [1;36m17[0m., [1;36m18[0m., [1;36m19[0m.[1m][0m[1m][0m[1m)[0m

- 指定张量沿哪一个轴通过求和降低维度

In [20]:
print(f'张量A\n{A}')

In [21]:
A_sum_axis0 = A.sum(axis=0)   # 通过参数axis指定沿哪个轴求和
print(f'张量A沿0轴求和\n{A_sum_axis0}')
print(f'求和后的形状 {A_sum_axis0.shape}')

In [22]:
A_sum_axis1 = A.sum(axis=1)
print(f'张量A沿1轴求和\n{A_sum_axis1}')
print(f'求和后的形状 {A_sum_axis1.shape}')

```python
A.sum(axis=[0, 1])
```
结果是什么？

In [23]:
A.sum(axis=[0, 1])  # 先沿0轴求和，再沿1轴求和

[1;35mtensor[0m[1m([0m[1;36m190[0m.[1m)[0m

- 利用`mean()`求平均值

In [24]:
print(f'张量A的均值为 {A.mean()}, {A.sum() / A.numel()}')

- 沿轴求平均

In [25]:
print(f'张量A沿0轴求平均\n{A.mean(axis=0)}\n{A.sum(axis=0) / A.shape[0]}')

#### 非降维求和

- 计算总和或均值时保持轴数不变
    - 在`sum()`和`mean()`中增加参数`keepdims=True`

In [26]:
sum_A = A.sum(axis=1, keepdims=True)
print(f'保持轴数沿1轴求和\n{sum_A}\n求和后sum_A的形状为{sum_A.shape}\n张量A的形状为{A.shape}')

\begin{problem}\label{prob:lowerDim}
A除以sum_A结果是什么？
\end{problem}

In [28]:
A
sum_A
A / sum_A  # 广播机制


[1;35mtensor[0m[1m([0m[1m[[0m[1m[[0m [1;36m0[0m.,  [1;36m1[0m.,  [1;36m2[0m.,  [1;36m3[0m.[1m][0m,
        [1m[[0m [1;36m4[0m.,  [1;36m5[0m.,  [1;36m6[0m.,  [1;36m7[0m.[1m][0m,
        [1m[[0m [1;36m8[0m.,  [1;36m9[0m., [1;36m10[0m., [1;36m11[0m.[1m][0m,
        [1m[[0m[1;36m12[0m., [1;36m13[0m., [1;36m14[0m., [1;36m15[0m.[1m][0m,
        [1m[[0m[1;36m16[0m., [1;36m17[0m., [1;36m18[0m., [1;36m19[0m.[1m][0m[1m][0m[1m)[0m


[1;35mtensor[0m[1m([0m[1m[[0m[1m[[0m [1;36m6[0m.[1m][0m,
        [1m[[0m[1;36m22[0m.[1m][0m,
        [1m[[0m[1;36m38[0m.[1m][0m,
        [1m[[0m[1;36m54[0m.[1m][0m,
        [1m[[0m[1;36m70[0m.[1m][0m[1m][0m[1m)[0m


[1;35mtensor[0m[1m([0m[1m[[0m[1m[[0m[1;36m0.0000[0m, [1;36m0.1667[0m, [1;36m0.3333[0m, [1;36m0.5000[0m[1m][0m,
        [1m[[0m[1;36m0.1818[0m, [1;36m0.2273[0m, [1;36m0.2727[0m, [1;36m0.3182[0m[1m][0m,
        [1m[[0m[1;36m0.2105[0m, [1;36m0.2368[0m, [1;36m0.2632[0m, [1;36m0.2895[0m[1m][0m,
        [1m[[0m[1;36m0.2222[0m, [1;36m0.2407[0m, [1;36m0.2593[0m, [1;36m0.2778[0m[1m][0m,
        [1m[[0m[1;36m0.2286[0m, [1;36m0.2429[0m, [1;36m0.2571[0m, [1;36m0.2714[0m[1m][0m[1m][0m[1m)[0m

- 沿某个轴计算张量的元素的累积总和
    - 不会降低张量的维度

In [29]:
print(f'张量A沿0轴的累积总和为\n{A.cumsum(axis=0)}')

### 点积

- 点积是按相同位置的元素乘积的和

```python
torch.dot(input, other)
```
- `input`和`other`都必须是**1维的张量**

In [31]:
y = torch.ones(4, dtype = torch.float32)
print(f'x为{x}, y为{y}')
print(f'x和y的点积为\n{torch.dot(x, y)}')

- 点积等同于按元素乘法再求和

In [32]:
(x*y).sum()

[1;35mtensor[0m[1m([0m[1;36m6[0m.[1m)[0m

### 矩阵与向量乘积

- 矩阵$\mathbf{A}$（$m\times n$维）与向量$\mathbf{x}$（$n$维）的乘积是一个长度为$m$的列向量

```python
torch.mv(input,vec)
```
- `input`：$m\times n$维的张量（矩阵）
- `vec`：$n$维的向量

In [33]:
print(f'矩阵A\n{A}\n向量x\n{x}')

In [34]:
print(f'Ax的乘积为\n{torch.mv(A, x)}')

### 矩阵与矩阵相乘

- 矩阵$\mathbf{A}$（$n\times p$维）与矩阵$\mathbf{B}$（$p\times m$维）的乘积形成一个$n \times m$维矩阵

```python
torch.mm(input,mat2)
```
- `input`：第一个$n\times p$维的张量（矩阵）
- `mat2`：第二个$p\times m$维的张量（矩阵）

In [37]:
print(f'矩阵A为\n{A}')
B = torch.ones(4, 3)
print(f'矩阵B为\n{B}')

In [36]:
print(f'矩阵A和B的乘积为\n{torch.mm(A, B)}')

## 范数

\begin{definition}\label{def:norm}
范数（norm）：衡量一个向量的大小。$L^p$范数定义如下：
\end{definition}

$$\|\mathbf{x}\|_p = \left(\sum_{i=1}^n \left|x_i\right|^p\right)^{\frac{1}{p}}$$

$p\in\mathbb{R}, p\ge 1$

\begin{definition}\label{def:L2}
$L_2$*范数*：向量元素**平方和的平方根**：
\end{definition}

$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}$$

In [38]:
u = torch.tensor([3.0, -4.0])
print(f'向量u的L2范数为 {torch.norm(u)}')

\begin{definition}\label{def:L1}
$L_1$范数：向量元素的**绝对值之和**
\end{definition}

$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|$$

In [39]:
print(f'向量u的L1范数为 {torch.abs(u).sum()}')

\begin{definition}\label{def:FN}
矩阵的*Frobenius范数*（Frobenius norm）：矩阵元素**平方和的平方根**
\end{definition}

$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}$$

In [40]:
V = torch.ones((4, 9))
print(f'矩阵V的Frobenius范数为 {torch.norm(V)}')