# 1.自动微分
深度学习框架通过自动计算导数，即**自动微分**来加快求导。实践中，根据设计好的模型，系统会构建一个**计算图**，来跟踪计算是哪些数据通过哪些操作组合起来产生输出。自动微分使系统能够随后反向传播梯度 。这里，**反向传播**意味着跟踪整个计算图，填充关于每个参数的的偏导数。
## 1.1 例子
假设我们想对函数$y = 2x^Tx$关于列向量x求导。

In [3]:
import torch
x = torch.arange(4.0)
x
# x的每一个值都可以看成是一个独立的变量

tensor([0., 1., 2., 3.])

在计算梯度之前，我们需要一个区域来存储梯度。**我们不会在每次对一个参数求导时都分配新的内存，因为我们经常会成千上万次地更新相同地参数，如果每次都分配新的内存可能很快就会将内存耗尽。**

In [4]:
x.requires_grad_(True) # 等价于x = torch.arange(4.0, requires_grad=True)
"""
requires_grad 只能用于浮点类型的张量
"""
x.grad

In [5]:
y = 2 * torch.dot(x, x) # 点积，看成函数 2x^2，导数为4x
y
# grad_fn=<MulBackward0> 表示可参与自动微分

tensor(28., grad_fn=<MulBackward0>)

In [6]:
# 通过调用反向传播函数来自动计算y关于x的每个分量的梯度，并打印这些梯度。
y.backward()
x.grad

tensor([ 0.,  4.,  8., 12.])

函数$y = 2x^Tx$关于x的梯度应为$4x$。以下就是验证：

In [7]:
x.grad == 4 * x

tensor([True, True, True, True])

**在默认情况下，PyTorch会累积梯度，我们需要清除之前的值！！！**

In [11]:
# 计算x的另一个函数的梯度
x.grad.zero_()
y = x.sum()
y.backward()
x.grad

tensor([1., 1., 1., 1.])

**.backward() 只能对标量输出自动计算梯度。**

## 1.2 非标量变量的反向传播
上述情况都是y为标量的情况，而当y不是标量时，向量y关于向量x的导数的最自然解释是一个矩阵。对于高阶和高维的y和x，求导的结果可以是一个高阶张量。</br>
当调用向量的反向传播函数计算时，我们通常会试图计算一批训练样本中每个组成部分。
## 1.3 分离计算
有时，我们希望将某些计算移到记录的计算图之外。例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算。我们想计算z关于x的梯度，但由于某种原因，希望将y视作一个常数，并且只考虑x在y被计算后发挥的作用。</br>
这里可以分离y来返回一个新变量u，该变量与y具有相同的值，但丢弃计算图中如何计算y的任何信息，意思就是，**梯度不会向后流经u到x。下面的反向传播函数计算$z=u*x$关于x的偏导数，同时将u作为常数处理，而不是计算$z=x*x*x$关于x的偏导数。** </br>

In [19]:
x.grad.zero_()
y = x * x
u = y.detach() # .detach()从当前计算图中分离该张量 返回一个新类型，新张量不再参与反向传播，但原来变量不受影响。
z = u * x

z.sum().backward()
x.grad == u, z, z.sum()

"""
x = [x₁, x₂, x₃]  # 假设x是3维向量
y = x * x = [x₁², x₂², x₃²]
u = y.detach() = [u₁, u₂, u₃]  # 这里u是常数，不是变量
z = u * x = [u₁x₁, u₂x₂, u₃x₃]
z.sum() = u₁x₁ + u₂x₂ + u₃x₃  # 因为上述说过backward只对标量进行自动梯度传播
对 x₁ 求偏导：∂(u₁x₁ + u₂x₂ + u₃x₃)/∂x₁ = u₁ 依次类推
"""

'\nx = [x₁, x₂, x₃]  # 假设x是3维向量 </br>\ny = x * x = [x₁², x₂², x₃²]\nu = y.detach() = [u₁, u₂, u₃]  # 这里u是常数，不是变量\nz = u * x = [u₁x₁, u₂x₂, u₃x₃]\nz.sum() = u₁x₁ + u₂x₂ + u₃x₃  # 因为上述说过backward只对标量进行自动梯度传播\n对 x₁ 求偏导：∂(u₁x₁ + u₂x₂ + u₃x₃)/∂x₁ = u₁ 依次类推\n'

In [18]:
x.grad.zero_()
y.sum().backward()
x.grad == 2*x

tensor([True, True, True, True])

## 1.4 Python控制流的梯度计算
使用自动微分的一个好处是：**即使构建函数的计算图需要通过Python控制流（条件、循环或任意函数调用），我们也可以计算得到变量的梯度。**

In [20]:
def f(a):
    b = a * 2
    while b.norm() < 1000: # L2范数
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c

In [25]:
# 计算梯度
a = torch.randn(size=(), requires_grad=True)
d = f(a)
d.backward()
d, a

(tensor(-190406.5000, grad_fn=<MulBackward0>),
 tensor(-0.4649, requires_grad=True))

上述f中不管f怎么变化，我们都可以看成$f(a) = k * a$，只是k不是固定的，所以$f^{'}(a)=k =\frac{f(a)}{a}$。

In [26]:
a.grad == d / a

tensor(True)

## Questions
1. pytorch中为什么计算二阶导数比一阶导数的开销更大？</br>
    二阶导是在一阶导的"计算过程"上再做一次完整的自动微分，所以开销是叠加的，不是简单的两倍关系。