# AUTOMATIC DIFFERENTIATION WITH TORCH.AUTOGRAD
自动微分 torch.autograd;

在训练神经网络时，最常用的算法是 反向传播。在该算法中，根据损失函数相对于给定参数的梯度来调整参数（模型权重）。

PyTorch具有一个称为的内置微分引擎torch.autograd。它支持任何计算图的梯度自动计算。

In [2]:
# 最简单的单层神经网络，它具有input x，parametersw和b，并且具有一些损失函数。
# 可以通过以下方式在PyTorch中定义：

import torch

x = torch.ones(5) # input tensor
print("x: ", x)
y = torch.zeros(3) # exported output
print("y: ", y)
w = torch.randn(5, 3, requires_grad=True)
print("w: ", w)
b = torch.randn(3, requires_grad=True)
print("b: ", b)
z = torch.matmul(x, w) + b
print("z: ", z)
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y)
print('loss: ', loss)

x:  tensor([1., 1., 1., 1., 1.])
y:  tensor([0., 0., 0.])
w:  tensor([[-1.1373,  1.5912, -0.0512],
        [-0.5054, -0.9429,  0.0996],
        [ 1.0302,  0.4610, -0.7176],
        [-1.4975,  0.0401,  1.0779],
        [ 0.9736, -0.4620, -0.0244]], requires_grad=True)
b:  tensor([ 0.6149,  0.9079, -0.9704], requires_grad=True)
z:  tensor([-0.5214,  1.5953, -0.5861], grad_fn=<AddBackward0>)
loss:  tensor(0.8962, grad_fn=<BinaryCrossEntropyWithLogitsBackward>)


#### Tensors, Functions and Computational graph
张量，函数和计算图

w并b为参数，这是我们需要优化。因此，我们需要能够针对这些变量计算损失函数的梯度。

为了做到这一点，我们设置了requires_grad这些张量的属性。

In [3]:
print('Gradient function for z =',z.grad_fn)
print('Gradient function for loss =', loss.grad_fn)

Gradient function for z = <AddBackward0 object at 0x7f8c8ac1c150>
Gradient function for loss = <BinaryCrossEntropyWithLogitsBackward object at 0x7f8c8abbdb10>


#### Computing Gradients
计算梯度

要计算损失函数相对于参数的导数，即，我们需要 ∂loss/∂w 和 ∂loss/∂bx和的一些固定值下 y。

要计算这些导数，我们调用 loss.backward()，然后从w.grad和 检索值b.grad：

In [4]:
loss.backward()
print(w.grad)
print(b.grad)

tensor([[0.1242, 0.2771, 0.1192],
        [0.1242, 0.2771, 0.1192],
        [0.1242, 0.2771, 0.1192],
        [0.1242, 0.2771, 0.1192],
        [0.1242, 0.2771, 0.1192]])
tensor([0.1242, 0.2771, 0.1192])


#### Disabling Gradient Tracking
不使用梯度跟踪。在推理时候，只想对于输入数据通过网络进行正向计算。使用torch.no_grad()停止梯度计算。

禁用梯度跟踪的原因有以下几种：

1、将神经网络中的某些参数标记为冻结参数。这是微调预训练网络的非常常见的情况

2、为了加快运算速度，当你只是做向前传球，因为张量计算不跟踪梯度会更有效。

In [5]:
z = torch.matmul(x, w)+b
print(z.requires_grad)

with torch.no_grad():
    z = torch.matmul(x, w)+b
print(z.requires_grad)

True
False


In [6]:
# 另一种方法也可以：deatch()
z = torch.matmul(x, w)+b
z_det = z.detach()
print(z_det.requires_grad)

False


#### More on Computational Graphs
autograd在由功能 对象组成的有向无环图（DAG）中记录数据（张量）和所有已执行的操作（以及由此产生的新张量） 。在此DAG中，叶子是输入张量，根是输出张量。通过从根到叶跟踪该图，可以使用链规则自动计算梯度。

在前向传递中，autograd同时执行两项操作：

（1）运行请求的操作以计算结果张量
（2）维护DAG中操作的梯度函数。

.backward()在DAG根目录上调用时，向后传递开始。autograd然后：

（1）从每个计算梯度.grad_fn，
（2）将它们累积在各自的张量.grad属性中
（3）使用链规则，一直传播到叶张量

#### Tensor Gradients and Jacobian Product
...

...

...