## 点积（Dot Product）

给定两个向量$\mathbf{x},\mathbf{y}\in\mathbb{R}^d$，
它们的*点积*（dot product）$\mathbf{x}^T\mathbf{y}$
（或$\langle\mathbf{x},\mathbf{y}\rangle$）
是相同位置的按元素乘积的和：$\mathbf{x}^T \mathbf{y} = \sum_{i=1}^{d} x_i y_i$。

In [1]:
import torch

x = torch.arange(4, dtype=torch.float32)
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [32]:
torch.sum(x * y)

tensor(6.)

* 当权重为非负数且和为1（即$\sum_{i=1}^{d}{w_i}=1$）时，
点积表示*加权平均*（weighted average）
* 将两个向量规范化得到单位长度后，点积表示它们夹角的余弦

## 矩阵-向量积

让我们将矩阵$\mathbf{A}$用它的行向量表示：

$$\mathbf{A}=
\begin{bmatrix}
\mathbf{a}^T_{1} \\
\mathbf{a}^T_{2} \\
\vdots \\
\mathbf{a}^T_m \\
\end{bmatrix},$$

矩阵向量积$\mathbf{A}\mathbf{x}$是一个长度为$m$的列向量，
其第$i$个元素是点积$\mathbf{a}^T_i \mathbf{x}$：

$$
\mathbf{A}\mathbf{x}
= \begin{bmatrix}
\mathbf{a}^T_{1} \\
\mathbf{a}^T_{2} \\
\vdots \\
\mathbf{a}^T_m \\
\end{bmatrix}\mathbf{x}
= \begin{bmatrix}
 \mathbf{a}^T_{1} \mathbf{x}  \\
 \mathbf{a}^T_{2} \mathbf{x} \\
\vdots\\
 \mathbf{a}^T_{m} \mathbf{x}\\
\end{bmatrix}.
$$

我们可以把一个矩阵$\mathbf{A} \in \mathbb{R}^{m \times n}$乘法看作是一个从$\mathbb{R}^{n}$到$\mathbb{R}^{m}$向量的转换。

当我们为矩阵`A`和向量`x`调用`torch.mv(A, x)`时，会执行矩阵-向量积

In [2]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
A.shape, x.shape, torch.mv(A, x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

## 矩阵-矩阵乘法

假设我们有两个矩阵$\mathbf{A} \in \mathbb{R}^{n \times k}$和$\mathbf{B} \in \mathbb{R}^{k \times m}$：

In [34]:
B = torch.ones(4, 3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

## 范数（norm）

非正式地说，一个向量的*范数*告诉我们一个向量有多大。

在线性代数中，向量范数是将向量映射到标量的函数$f$。

1. $$f(\mathbf{x}) \geq 0$$
1. $f(\mathbf{x})=0$ only if $\mathbf{x}=\mathbf{0}$
1. $$f(\alpha \mathbf{x}) = |\alpha| f(\mathbf{x})$$
1. （三角不等式）：$$f(\mathbf{x} + \mathbf{y}) \leq f(\mathbf{x}) + f(\mathbf{y})$$

欧几里得距离是一个$L_2$范数：

$$\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2},$$

In [35]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

tensor(5.)

$L_1$范数：

$$\|\mathbf{x}\|_1 = \sum_{i=1}^n \left|x_i \right|.$$

（与$L_2$范数相比，$L_1$范数受异常值的影响较小）

In [36]:
torch.abs(u).sum()

tensor(7.)

更一般的$L_p$范数：

$$\|\mathbf{x}\|_p = \biggl(\sum_{i=1}^n \left|x_i \right|^p \biggr)^{1/p}.$$

矩阵$\mathbf{X} \in \mathbb{R}^{m \times n}$的*Frobenius范数*（Frobenius norm）：

$$\|\mathbf{X}\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}.$$

它就像是矩阵形向量的$L_2$范数。

In [37]:
torch.norm(torch.ones((4, 9)))

tensor(6.)

### 范数和目标

1. 在深度学习中，我们经常试图解决优化问题：
    1. *最大化*分配给观测数据的概率;
    1. *最小化*预测和真实观测之间的距离。
1. 用向量表示物品（如单词、产品或新闻文章），以便最小化相似项目之间的距离，最大化不同项目之间的距离。
1. 目标通常被表达为范数。

Singular value decomposition

SVD

* $A\in\mathbf{R}^{m\times n}$，其中$A$的rank为$r$
* $A=U\Sigma V^T$
* $U^TU=I$，其中$U\in \mathbf{R}^{m\times r}$
* $V^TV=I$，其中$V\in \mathbf{R}^{n\times r}$
* $\Sigma=\mathbf{diag}(\sigma_1,\dotsc,\sigma_r)$, $\sigma_1\ge\dotsb\ge \sigma_r>0$

联系：5_线性代数.pdf（特征向量和特征值）

* $A\mathbf{x}=U\Sigma V^T\mathbf{x}$
* $V^T\mathbf{x}=\mathbf{x}'$
* $VV^T\mathbf{x}=V\mathbf{x}'$也就是$\mathbf{x}=V\mathbf{x}'$
* $A\mathbf{x}=U\Sigma \mathbf{x}'$

<center><img src="svd.png" width="30%"></center>