## 矩阵运算

### 标量导数

$$
y = uv
$$

&emsp;&emsp;求导之后为:

$$
\frac{dy}{dx} = \frac{du}{dx} v + \frac{dv}{dx} u
$$

### 亚导数

&emsp;&emsp;将导数扩展到不可微的函数，比如$y=|x|$。

$$
\frac{\partial|x|}{\partial x}= \begin{cases}1 & \text { if } x>0 \\ -1 & \text { if } x<0 \\ a & \text { if } x=0, \quad a \in[-1,1]\end{cases}
$$

&emsp;&emsp;在$x=0$的时候，可以在`-1，1`之间。

### 梯度

- $y$是一个标量，$x$是一个向量的时候:

$$
\mathbf{x}=\left[\begin{array}{c}
x_{1} \\
x_{2} \\
\vdots \\
x_{n}
\end{array}\right]
$$

$$
\frac{\partial y}{\partial \mathbf{x}}=\left[\frac{\partial y}{\partial x_{1}}, \frac{\partial y}{\partial x_{2}}, \ldots, \frac{\partial y}{\partial x_{n}}\right]
$$

&emsp;&emsp;标量关于列向量的导数会变成一个行向量。**梯度方向与等高线正交，且方向指向值变大的方向**。

&emsp;&emsp;**样例**

1. $y = ||\mathbf{x}||^{2}$


$$
\frac{\partial y}{\partial \mathbf{x}} = 2 \mathbf{x}^{T}
$$

2. $y = <u, v>$


$$
\frac{\partial y}{\partial \mathbf{x}} = \mathbf{u}^{T} \frac{\partial v}{\partial x} + \mathbf{v}^{T} \frac{\partial u}{\partial x}
$$


- $y$是一个向量，$x$是一个标量的时候:

&emsp;&emsp;当上面的函数是一个向量，下面的函数是一个标量的话，假设$y$是一个列向量

$$
\mathbf{y}=\left[\begin{array}{c}
y_{1} \\
y_{2} \\
\vdots \\
y_{m}
\end{array}\right] \quad \frac{\partial \mathbf{y}}{\partial x}=\left[\begin{array}{c}
\frac{\partial y_{1}}{\partial x} \\
\frac{\partial y_{2}}{\partial x} \\
\vdots \\
\frac{\partial y_{m}}{\partial x}
\end{array}\right]
$$

&emsp;&emsp;列向量关于标量的导数，他也是一个列向量。这个被称之为分子布局符号，反过来的版本叫做分母布局符号。

- $y$是一个向量，$x$是一个向量的时候:

$$
\begin{gathered}
\mathbf{x}=\left[\begin{array}{c}
x_{1} \\
x_{2} \\
\vdots \\
x_{n}
\end{array}\right] \quad \mathbf{y}=\left[\begin{array}{c}
y_{1} \\
y_{2} \\
\vdots \\
y_{m}
\end{array}\right] \\
\frac{\partial \mathbf{y}}{\partial \mathbf{x}}=\left[\begin{array}{c}
\frac{\partial y_{1}}{\partial \mathbf{x}} \\
\frac{\partial y_{2}}{\partial \mathbf{x}} \\
\vdots \\
\frac{\partial y_{m}}{\partial \mathbf{x}}
\end{array}\right]=\left[\begin{array}{c}
\frac{\partial y_{1}}{\partial x_{1}}, \frac{\partial y_{1}}{\partial x_{2}}, \ldots, \frac{\partial y_{1}}{\partial x_{n}} \\
\frac{\partial y_{2}}{\partial x_{1}}, \frac{\partial y_{2}}{\partial x_{2}}, \ldots, \frac{\partial y_{2}}{\partial x_{n}} \\
\vdots \\
\frac{\partial y_{m}}{\partial x_{1}}, \frac{\partial y_{m}}{\partial x_{2}}, \ldots, \frac{\partial y_{m}}{\partial x_{n}}
\end{array}\right]
\end{gathered}
$$

&emsp;&emsp;**样例**

$$
\begin{array}{c|cccc}
\mathbf{y} & \mathbf{a} & \mathbf{x} & \mathbf{A x} & \mathbf{x}^{T} \mathbf{A} \\
\hline \frac{\partial \mathbf{y}}{\partial \mathbf{x}} & \mathbf{0} & \mathbf{I} & \mathbf{A} & \mathbf{A}^{T}
\end{array}
$$

$$
\begin{array}{l|lll}
\mathbf{y} & \ {a \mathbf{u}} & \mathbf{A u} & \mathbf{u}+\mathbf{v} \\
\hline \frac{\partial \mathbf{y}}{\partial \mathbf{x}} & a \frac{\partial \mathbf{u}}{\partial \mathbf{x}} & \mathbf{A} \frac{\partial \mathbf{u}}{\partial \mathbf{x}} & \frac{\partial \mathbf{u}}{\partial \mathbf{x}}+\frac{\partial \mathbf{v}}{\partial \mathbf{x}}
\end{array}
$$

&emsp;&emsp;$\mathbf{x} \in \mathbb{R}^{n}, \quad \mathbf{y} \in \mathbb{R}^{m}, \quad \frac{\partial \mathbf{y}}{\partial \mathbf{x}} \in \mathbb{R}^{m \times n}$
$a, \mathbf{a}$ and $\mathbf{A}$ are not functions of $\mathbf{x}$
0 and I are matrices

## 自动求导

- 标量链式法则:

$$
y=f(u), u=g(x) \quad \frac{\partial y}{\partial x}=\frac{\partial y}{\partial u} \frac{\partial u}{\partial x}
$$

- 扩展到向量

$$
\begin{aligned}
&\frac{\partial y}{\partial \mathbf{x}}=\frac{\partial y}{\partial u} \frac{\partial u}{\partial \mathbf{x}} \quad \frac{\partial y}{\partial \mathbf{x}}=\frac{\partial y}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial \mathbf{x}} \quad \frac{\partial \mathbf{y}}{\partial \mathbf{x}} k=\frac{\partial \mathbf{y}}{\partial \mathbf{u}} \frac{\partial \mathbf{u}}{\partial \mathbf{x}}\\
\end{aligned}
$$

&emsp;&emsp;对应的下标为维度为:

$$
(1, n) \rightarrow \ (1,)(1, n) \quad \ (1, n) \rightarrow \  (1, k) \ \ (k, n) \quad(m, n) \rightarrow \  (m, k)(k, n)
$$


&emsp;&emsp;自动求导计算一个函数在指定值上的导数，他有别于符号求导，和数值求导: $\frac{\partial f(x)}{\partial x}=\lim _{h \rightarrow 0} \frac{f(x+h)-f(x)}{h}$。

## 计算图

计算图等价于链式法则求导的过程。将代码分解成操作子，一步一步展开，再将计算表示成一个无环的图：

<img src="../images/com_graph.jpeg" width="40%">

自动求导有两种模式：

1. 正向累积

$$
\frac{\partial y}{\partial x}=\frac{\partial y}{\partial u_{n}}\left(\frac{\partial u_{n}}{\partial u_{n-1}}\left(\ldots\left(\frac{\partial u_{2}}{\partial u_{1}} \frac{\partial u_{1}}{\partial x}\right)\right)\right)
$$


2. 反向累积、又称反向传递

$$
\frac{\partial y}{\partial x}=\left(\left(\left(\frac{\partial y}{\partial u_{n}} \frac{\partial u_{n}}{\partial u_{n-1}}\right) \ldots\right) \frac{\partial u_{2}}{\partial u_{1}}\right) \frac{\partial u_{1}}{\partial x}
$$


## 自动求导的实现

&emsp;&emsp;假设我们想对函数$y=2 \mathbf{x}^{T} \mathbf{x}$关于列向量$\mathbf{x}$求导

In [1]:
import torch
x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

在计算$y$关于$\mathbf{x}$的梯度之前，我们需要一个地方来存储梯度，就需要通过x.requires_grad_来告诉计算机，需要将梯度存在某个地方。之后通过x.grad就可以访问它的梯度了。

In [2]:
x.requires_grad_(True) # 等价于 `x = torch.arange(4.0, requires_grad=True)`
x.grad # 默认值是None

现在让我们计算$y$，就是$x$与$x$内积的计算：

In [3]:
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

通过调用反向传播函数来自动计算$y$关于$x$每个分量的梯度

In [4]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

我们知道梯度会等于4 * x，我们可以来验证这一点：

In [5]:
4 * x

tensor([ 0.,  4.,  8., 12.], grad_fn=<MulBackward0>)

In [6]:
x.grad == 4 * x

tensor([True, True, True, True])

在默认情况下，pytorch会将所有的梯度累积起来，所以在计算下一个的时候，我们需要将之前的值清除。现在让我们计算$x$的另一个函数

In [7]:
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

假设y不是一个标量，会怎么样？假设x是一个向量，y也是一个向量。理论上它的backward因该是一个矩阵，但是在深度学习中我们很少对向量的函数来求导，大部分的时候我们是对一个标量来求导。

深度学习中，我们的目的不是计算微分矩阵，而是批量中每个样本单独计算的偏导数之和

In [8]:
x.grad.zero_()
y = x * x
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

将某些计算移动到记录的计算图之外

In [9]:
x.grad.zero_()
y = x * x
u = y.detach() # 把y当作一个常数u。
z = u * x # z关于x来讲，就是一个常数乘以x。

z.sum().backward()
x.grad == u

tensor([True, True, True, True])

In [10]:
print(x)
print(y)

tensor([0., 1., 2., 3.], requires_grad=True)
tensor([0., 1., 4., 9.], grad_fn=<MulBackward0>)


In [11]:
x.grad.zero_()
y.sum().backward()
x.grad == 2 * x

tensor([True, True, True, True])

即使构建函数的计算图需要通过Python控制流(例如，条件、循环或任意函数调用)，我们仍然可以计算得到的变量的梯度

In [12]:
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()

a.grad == d / a

tensor(True)

torch在每次计算的时候会将计算图存下来，之后反向传播的时候就倒着计算一遍。

## 问答

1. pytorch为什么会默认梯度累加？

方便内存不够的时候，将批量做小。

2. 为什么深度学习中一般对标量求导，而不是对矩阵或者向量，如果我的loss是包含向量或者矩阵，那求导之前是不是要把他们变成标量？


如果是向量的话，对矩阵的loss就会变成一个矩阵，矩阵再往下走一层就会变成一个四维矩阵。神经网络一深，就会变成一个特别特别大的张量。

3. 多个loss分别反向传播的时候，是不是需要累积梯度？

是这样的，这也是pytorch中为什么是默认累积梯度。

4. 为什么获取.grad前需要backward?

因为计算梯度是很贵的，默认不会计算梯度。

5. 求导的过程一般来说是不是都是有向图，也就是可以用树状结构来表示，有没有其他环状的图结构？

有的RNN就是一个环状的图。

6. pytorch框架设计上可以实现矢量的求导吗？

是可以的，高阶求导，比如二阶求导。