# 微积分
- **优化**: 拟合观测数据的过程
- **泛化**: 够指导我们⽣成出有效性超出⽤于训练的数据集本⾝的模型

## 导数
f
′
(x) = y
′ =
dy/
dx =
df/
dx =
d/
dxf(x) = Df(x) = Dxf(x),

- d/dx 和 D是微分运算操作

## 偏导数
- 将变量扩展到多维度

![截屏2022-06-08 00.24.32](https://ghproxy.com/https://github.com/Maserhe/PIc-Bed/blob/master/typora/202206080024142.png)

## 梯度
- 对多元变量求其的偏导数，得到梯度的向量
- 包含n个**偏导数的向量**

![截屏2022-06-08 00.28.35](https://ghproxy.com/https://github.com/Maserhe/PIc-Bed/blob/master/typora/202206080028364.png)

## 自动微分
**标量的反向传播**

In [1]:
import torch
x = torch.arange(4.0)
x

tensor([0., 1., 2., 3.])

In [2]:
x.requires_grad_(True) # 反向传播时候计算梯度 存入 grad
y = 2 * torch.dot(x, x)
y

tensor(28., grad_fn=<MulBackward0>)

In [3]:
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

In [4]:
x.grad == 4 * x # 求导梯度是 4

tensor([True, True, True, True])

**清理梯度**

In [5]:
x.grad.zero_()

tensor([0., 0., 0., 0.])

In [6]:
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

**非标量变量的反向传播**

In [7]:
x.grad.zero_()
y = x * x
y.sum().backward()
x.grad

tensor([0., 2., 4., 6.])

## 分离计算

- 例如：
- y = f(x)
- Z = f(x, y)

**只想计算Z关于x的梯度，把y最希望作为一个常数**

In [8]:
x.grad.zero_()
y =  x * x
u = y.detach() ## 共享一个内存，改变一个，大家都会改变
z = u * x
# 计算z 的 梯度
z.sum().backward()
x.grad == u

tensor([True, True, True, True])

In [9]:
# 计算y的梯度
x.grad.zero_()
y.sum().backward()
x.grad ==  2 * x

tensor([True, True, True, True])

## 控制流的梯度计算
**即便在循环、条件等任意函数调用中，仍然可以计算梯度**

In [11]:
def f(a): 
    b=a*2
    while b.norm() < 1000: 
        b=b*2
    if b.sum() > 0: 
        c=b
    else:
        c = 100 * b
    return c

In [16]:
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
a.grad == d /a, a

(tensor(True), tensor(1.2449, requires_grad=True))