### 微积分

#### 微分
模型训练主要是解决优化问题。解决优化问题可以用到微积分。
优化问题的核心是 “寻找函数的最值（最大值或最小值）”—— 无论是数学中的函数极值求解，还是实际场景中的 “成本最低、利润最高、效率最优”，微分都通过刻画函数的 “局部变化趋势”，为最值的定位提供了严格的数学依据。
微分解决优化问题的本质是利用 “函数在极值点处的导数为零（或导数不存在）” 这一核心性质，通过三步完成最值求解：
1. 将实际问题转化为目标函数
先明确优化的 “目标”（如利润、成本、体积等），再将其表示为单一变量的函数 `y=f(x)`，比如某厂商生产某产品，成本函数为
 $$
\begin{aligned}
C(x) &= 2x^2+3x+100
\end{aligned}
$$
以上x表示产量，利润函数为
$$
\begin{aligned}
P(x) &= 20x-C(x) &= -2x^2 + 17x + 100
\end{aligned}
$$
把求最大利润问题转化为求P(x)最大值的问题。
2. 用导数找到可能的极值点
对目标函数求导，导数为
$$
\begin{aligned}
\frac{dP}{dx} &= -4x + 17
\end{aligned}
$$
零的导数函数的值为0，即
$$
\begin{aligned}
-4x + 17 &= 0
\end{aligned}
$$
这里求出的x的值是可能为极值的点，专业来说为驻点。什么意思？导数实际上反应函数的变化率。一般极值点的导数函数值为0，也就是变化率为0，不变化了就类似于停住了，就是驻点.当然一个函数的形状可能千奇百怪，所以导数为0的点也不一定是极值点。上面我们求出来的值为4.25，表示在产量为4.25时，可能利润为最大值。
3. 判定极值点

有两种方法，一种是一阶导数的符号判断，另一种通过二阶导数符号法判断。

一阶导数符号法为：分析驻点左右两侧导数值的符号，如果左正右负，则该点为极大值点（函数先增后减，此处为峰值）；如果左负右正，则该点为极小值点（函数先减后增，此处为谷值）。

比如以上P(x)的一阶导数为：P'(x) = -4x + 17，又因为x表示产量，所以我们可以把x的取值区间分为两个[0,4.25], [4.25, +∞)。
从左侧随便找一个点，比如x=4, P'(x) = -4x + 17 = 1 > 0，右侧随便找一个点，比如x=5, P'(x) = -4x + 17 = -3 < 0，左正右负，所以该点为极大值点。

二阶导数符号法为：求二阶导数，带入驻点x0，如果二阶导数大于0，则该点为极小值点；如果二阶导数小于0，则该点为极大值点。
函数P(x)的二阶导数为：P''(x) = -4 ，P''(4) = -4 > 0，该点为极小值点。


#### 积分
微分是把 “整体” 拆成 “局部小量”（比如把曲线拆成无数小段直线，用 “瞬时变化率” 描述某一点的趋势），而积分则是把 “无数局部小量” 重新 “累积还原成整体”—— 它解决的是 “如何通过局部变化规律，计算出整体的总量、总面积、总效应” 等问题。

| 类型     | 核心定位                    | 解决的问题（通俗理解）                                       | 类比微分（参考）              |
| -------- | --------------------------- | ------------------------------------------------------------ | ----------------------------- |
| 不定积分 | 微分的 “逆运算”（求原函数） | 已知 “变化率函数”，求 “原总量函数”（比如已知速度，求位移函数） | 微分是 “已知位移，求速度”     |
| 定积分   | 局部小量的 “累积求和”       | 已知 “变化率函数”，求 “某区间内的具体总量”（比如已知速度，求 1 小时内的总位移） | 微分是 “求某一时刻的瞬时速度” |

比如求函数 y=x^2、x 轴、直线 x=0和 x=2围成的 “曲边梯形” 面积

我们无法直接用矩形面积公式计算（因为上边是曲线，不是直线），但可以把这个梯形 “拆成无数个窄矩形”（每个矩形的宽度是微小的 Δx，高度是该点的函数值 f(x)），每个窄矩形的面积就是 “局部小量” ΔS≈f(x)⋅Δx（这一步其实是微分近似：用矩形面积近似小曲边梯形面积）。

梯形面积 = 宽Δx/2 * (f(x0) + f(x1) + f(x2) + ... + f(xn))

把这 “无数个窄矩形的面积” 全部加起来，再让每个矩形的宽度 Δx无限趋近于 0（消除近似误差），最终得到的精确总和，就是这个曲边梯形的面积 —— 这就是定积分的本质：S=∫f(x)dx
这里的 ∫符号原本就是 “求和（Sum）” 的缩写，下标 0 和上标 2 表示 “累积的区间”，x^2dx就是 “局部小面积的微分形式”。



#### 常见函数的导数
常见函数的导数，D为导数符号
1. DC=0(C是常数)
2. Dx^n=nx^(n-1)
3. De^x=e^x
4. Dln(x)=1/x

#### 常见函数组成的符合函数的微分
- 常数乘法则

假设函数可微，C为常数，则：

$$D(Cf(x))=Cf'(x)$$

- 乘法法则

假设函数可微，则：

$$D(f(x)g(x))=f'(x)g(x)+f(x)g'(x)$$


- 加法法则

假设函数可微，则：

$$D(f(x)+g(x))=f'(x)+g'(x)$$

- 除法法则

假设函数可微，则：

$$D\left(\frac{f(x)}{g(x)}\right)=\frac{f'(x)g(x)-f(x)g'(x)}{g(x)^2}$$


#### 偏导数
以上我们是对一元函数的一些处理，但是对于多元函数，比如：$f(x,y)$，$f(x,y,z)$，$f(x_1,x_2,...,x_n)$，就需要引入偏导数的概念。
偏导数，也叫偏导，是关于某一个变量的导数。比如：

$$f(x,y)=x^2+y^2$$

对于$f(x,y)$，$x$和$y$都是变量，$x$和$y$都是函数的输入参数，$f(x,y)$是函数的输出结果。

假设f(x)，是含有N个变量的函数，那么f(x)，关于第i个参数的偏导数可以定义为：
$$
\frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1,x_2,...,x_{i-1},x_i+h,x_{i+1},...,x_N)-f(x_1,x_2,...,x_{i-1},x_i,x_{i+1},...,x_N)}{h}
$$
以上公式可以写为：
$$
\frac{\partial f}{\partial x_i}
$$

计算时，把x1，x2，...，xN，分别设为x，y，...，z，也就看作常数那么：
$$
\frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x,y,...,z,x_i+h)-f(x,y,...,z,x_i)}{h}
$$

偏导数有如下表达形式：
$$
\frac{\partial y}{\partial x_i} = \frac{\partial f}{\partial x_i}= f_{x_i}=D_{x_i}f=D_if
$$



### 梯度
对于多元函数，我们可以把其对所有自变量的偏导数组合成一个向量，这就是梯度向量。

假设函数为：
$$
f(x,y,z)=x^2+y^2+z^2
$$
梯度向量为：
$$
\nabla f = \begin{bmatrix}
\frac{\partial f}{\partial x}\\
\frac{\partial f}{\partial y}\\
\frac{\partial f}{\partial z}
\end{bmatrix}
= \begin{bmatrix}
2x\\
2y\\
2z
\end{bmatrix}
$$



### 链式法则
单变量函数的链式法则，如果y=f(u)且u=g(x)均可微分，则：
$$
\frac{dy}{dx} = \frac{dy}{du} \frac{du}{dx}
$$

 多变量函数的链式法则，如果y=f(u,v)且u=g(x,y)且v=h(x,y)均可微分，则：
$$
\frac{\partial y}{\partial x} = \frac{\partial y}{\partial u} \frac{\partial u}{\partial x} + \frac{\partial y}{\partial v} \frac{\partial v}{\partial x}
$$

### 自动微分
求导几乎是所有深度学习优化算法的核心步骤。单个求导的计算很简单，但是复杂模型手工求导并更新参数是一件十分复杂的事情，几乎不可能手动完成。所以pytorch引入了自动求导。怎么实现的呢？
- 构建计算图：将所有计算过程都记录下来，并保存在计算图中。
- 反向传播：根据计算图，计算梯度。
- 优化参数：根据梯度，更新参数。

计算过程：
假设有一个函数，是f(x,y)=(x+y)*x，吗，目标是求f对x和y的偏导数∂f/∂x, ∂f/∂y
1. 拆函数，把复杂的函数拆分成简单的步骤

把f函数拆成三个节点

- 输入节点：输入x,y
- 中间节点1：a=x+y
- 中间节点2：y=a*x

2. 画出计算图

```plantext
x ──┬──→ [+] → a ──┬──→ [×] → f
    │               │
y ──┘               │
                    │
x ──────────────────┘
```

3. 正向计算，填充每个节点的具体数值

给x和y赋值，比如x=3,y=4

- 输入节点：x=3,y=4
- 中间节点1：a=x+y=3+4=7
- 中间节点2：y=a*x=7*3=21
- 输出节点：f=y=21

4. 反向传播，基于链式法则传梯度

梯度就是求导，反向传播就是基于f向前算，每个节点的梯度=上游传统过来的梯度*自己的局部梯度

- f节点的梯度（对自己的梯度）：dy/df=1
- 中间节点a的梯度：f的梯度*a的局部梯度， 局部梯度就是说x固定不变，a增加对f的影响有多大，也就是说f值对a求导数，那么结果就是x，在我们的例子里，x=3,则中间节点a对f的梯度就是3，则a的梯度就是1*3=3
- x的梯度：计算x的梯度需要看x对下游节点有几个直接影响，在我们的例子里有两个，一个是对a，一个是对f，所以要分别计算出来后把梯度加起来就是x的梯度

    -- 首先计算x对a的梯度，我们固定y=4， x对a的梯度为δa/δx * 传过来的a的梯度=1*3=3
    -- 然以计算x对f的梯度，固定x+y=3+4=7, 则x对f的梯度是δf/δx * 传过来的f的梯度=7*1=7
    -- 所以x的梯度是3+7=10

- y的梯度：y和a有直接关系，y对a的梯度是δa/δy * 传过来的a的梯度=1*3=3




In [6]:
### Pytorch的梯度向量自动保存
import torch

x = torch.arange(4.0)
x.requires_grad_(True) # 开辟内存空间存储梯度
y = 2 * torch.dot(x, x) # 点积 对应位置相乘，结果相加
y.backward()  # 反向传播
print(x.grad)  # 获取梯度，梯度会更新，保存在开辟的空间中

tensor([0., 1., 2., 3.])
tensor(28., grad_fn=<MulBackward0>)
tensor([ 0.,  4.,  8., 12.])


In [8]:
### 重新计算之间要清零,不然会累加
x.grad.zero_()
y = 4*torch.dot(x, x)
y.backward()
print(x.grad)

tensor([ 0.,  8., 16., 24.])


### 练习
如果存在如下关系：
$$
\begin{aligned}
y_1=x_1 * x_2 * x_3 \\
y_2 = x_1 + x_2 + x_3 \\
y_3 = x_1 + x_2 * x_3 \\
A = f(y_1, y_2, y_3) \\
其中f(y_1, y_2, y_3)形式未知，求 \\
\frac{\partial A}{\partial x_1},
\frac{\partial A}{\partial x_2},
\frac{\partial A}{\partial x_3}
\end{aligned}
$$

首先y是有关x的函数，而A是有关y的函数，根据链式法则，可以得到：
$$
\begin{aligned}
\frac{\partial A}{\partial x_1} = \frac{\partial A}{\partial y_1} \frac{\partial y_1}{\partial x_1} + \frac{\partial A}{\partial y_2} \frac{\partial y_2}{\partial x_1} + \frac{\partial A}{\partial y_3} \frac{\partial y_3}{\partial x_1} \\
\frac{\partial A}{\partial x_2} = \frac{\partial A}{\partial y_1} \frac{\partial y_1}{\partial x_2} + \frac{\partial A}{\partial y_2} \frac{\partial y_2}{\partial x_2} + \frac{\partial A}{\partial y_3} \frac{\partial y_3}{\partial x_2} \\
\frac{\partial A}{\partial x_3} = \frac{\partial A}{\partial y_1} \frac{\partial y_1}{\partial x_3} + \frac{\partial A}{\partial y_2} \frac{\partial y_2}{\partial x_3} + \frac{\partial A}{\partial y_3} \frac{\partial y_3}{\partial x_3}
\end{aligned}
$$

以上计算可以简化为：
$$
\begin{bmatrix}
\frac{\partial A}{\partial x_1} \\
\frac{\partial A}{\partial x_2} \\
\frac{\partial A}{\partial x_3}
\end{bmatrix}
=
\begin{bmatrix}
\frac{\partial y_1}{\partial x_1} & \frac{\partial y_2}{\partial x_1} & \frac{\partial y_3}{\partial x_1} \\
\frac{\partial y_1}{\partial x_2} & \frac{\partial y_2}{\partial x_2} & \frac{\partial y_3}{\partial x_2} \\
\frac{\partial y_1}{\partial x_3} & \frac{\partial y_2}{\partial x_3} & \frac{\partial y_3}{\partial x_3}
\end{bmatrix}
\begin{bmatrix}
\frac{\partial A}{\partial y_1} \\
\frac{\partial A}{\partial y_2} \\
\frac{\partial A}{\partial y_3}
\end{bmatrix}
$$

根据已知的y和x的关系，我们可以计算出雅可比矩阵的各个元素：
$$
\begin{aligned}
\frac{\partial y_1}{\partial x_1} &= x_2 x_3, \quad
\frac{\partial y_1}{\partial x_2} = x_1 x_3, \quad
\frac{\partial y_1}{\partial x_3} = x_1 x_2 \\
\frac{\partial y_2}{\partial x_1} &= 1, \quad
\frac{\partial y_2}{\partial x_2} = 1, \quad
\frac{\partial y_2}{\partial x_3} = 1 \\
\frac{\partial y_3}{\partial x_1} &= 1, \quad
\frac{\partial y_3}{\partial x_2} = x_3, \quad
\frac{\partial y_3}{\partial x_3} = x_2
\end{aligned}
$$

将这些偏导数代入矩阵，得到：
$$
\begin{bmatrix}
\frac{\partial A}{\partial x_1} \\
\frac{\partial A}{\partial x_2} \\
\frac{\partial A}{\partial x_3}
\end{bmatrix}
=
\begin{bmatrix}
x_2 x_3 & 1 & 1 \\
x_1 x_3 & 1 & x_3 \\
x_1 x_2 & 1 & x_2
\end{bmatrix}
\begin{bmatrix}
\frac{\partial A}{\partial y_1} \\
\frac{\partial A}{\partial y_2} \\
\frac{\partial A}{\partial y_3}
\end{bmatrix}
$$

传入具体数值：
$$
\begin{aligned}
x_1=1, \quad
x_2=2, \quad
x_3=3
\end{aligned}
$$

根据x的值，得到雅可比矩阵为：
$$
\begin{bmatrix}
6 & 1 & 1 \\
3 & 1 & 3 \\
2 & 1 & 2
\end{bmatrix}
$$

假设已知 $\frac{\partial A}{\partial y_1} = 0.1$, $\frac{\partial A}{\partial y_2} = 0.2$, $\frac{\partial A}{\partial y_3} = 0.3$，即 $\nabla_y A = \begin{bmatrix} 0.1 \\ 0.2 \\ 0.3 \end{bmatrix}$

最终运算结果为：
$$
\begin{bmatrix}
\frac{\partial A}{\partial x_1} \\
\frac{\partial A}{\partial x_2} \\
\frac{\partial A}{\partial x_3}
\end{bmatrix}
=
\begin{bmatrix}
6 & 1 & 1 \\
3 & 1 & 3 \\
2 & 1 & 2
\end{bmatrix}
\begin{bmatrix}
0.1 \\
0.2 \\
0.3
\end{bmatrix}
=
\begin{bmatrix}
6 \times 0.1 + 1 \times 0.2 + 1 \times 0.3 \\
3 \times 0.1 + 1 \times 0.2 + 3 \times 0.3 \\
2 \times 0.1 + 1 \times 0.2 + 2 \times 0.3
\end{bmatrix}
=
\begin{bmatrix}
1.1 \\
1.4 \\
1.0
\end{bmatrix}
$$

因此：
$$
\begin{aligned}
\frac{\partial A}{\partial x_1} &= 1.1 \\
\frac{\partial A}{\partial x_2} &= 1.4 \\
\frac{\partial A}{\partial x_3} &= 1.0
\end{aligned}
$$


In [2]:
### 以上计算用pytorch实现
import torch
x1 = torch.tensor(1, requires_grad=True, dtype=torch.float32)
x2 = torch.tensor(2, requires_grad=True, dtype=torch.float32)
x3 = torch.tensor(3, requires_grad=True, dtype=torch.float32)

# 计算y值
y1 = x1 * x2 * x3
y2 = x1 + x2 + x3
y3 = x1 + x2 * x3

# 组合成y向量
y = torch.stack([y1, y2, y3])
y.backward(torch.tensor([0.1, 0.2, 0.3], dtype=torch.float32))
print(x1.grad, x2.grad, x3.grad)

tensor(1.1000) tensor(1.4000) tensor(1.)


### 分离计算
有时候我们想把计算图中的某些梯度隐去，比如某些参数不需要梯度，或者某些参数的梯度需要重新计算。

In [5]:
### 比如,忽略y，只计算z对x的梯度
import torch
x = torch.arange(4, requires_grad=True, dtype=torch.float32)
x.requires_grad_()
y = x*x
u=y.detach()  # 分离y对x的计算结果
z = u*x
z.sum().backward()
print(x.grad)
print(u)

tensor([0., 1., 4., 9.])
tensor([0., 1., 4., 9.])


In [6]:
### python控制流的梯度也可以进行计算
def f(a):
    b = a * 2
    while b.sum() > 1000:
        b = b * 0.5
    return b
a = torch.randn(size=(3,), requires_grad=True)
b = f(a)
b.sum().backward()
print(a.grad)

tensor([2., 2., 2.])
