# Loss自动微分

论文推荐：

Automatic Differentiation in machine Learning:a Survey

CSC321 Lecture10:Automatic Differentiation

- 自动微分的原理：

第一步：计算损失

z=wx+b

y=$\sigma(z)$

L=$\frac{1}{2}(y-t)^2$

第二步：反向计算梯度（overline表示L关于该参数的梯度）

$\overline{L}=1$

$\overline{y}=y-t$

$\overline{z}=\overline{y}\sigma'(z)$

$\overline{w}=\overline{z}x$

$\overline{b}=\overline{z}$

![%E6%88%AA%E5%B1%8F2022-04-14%20%E4%B8%8B%E5%8D%888.05.08.png](attachment:%E6%88%AA%E5%B1%8F2022-04-14%20%E4%B8%8B%E5%8D%888.05.08.png)

When training neural network, the most frequently used algorithm is back propagation. Parameters are adjusted acording to the gradient of the loss function with respect to the given parameters.

pytorch通过动态图计算梯度，默认情况下梯度可以累积，所以需要对optimizer调用一个grad.zero_()操作。

In [8]:
import torch
#1*5
x = torch.ones(5)
y = torch.zeros(3)

#记得打开需要梯度的开关
b = torch.randn(3,requires_grad=True)
w = torch.randn(5,3,requires_grad=True)
z = torch.matmul(x,w)+b
#Binary cross entropy
loss = torch.nn.functional.binary_cross_entropy_with_logits(z,y)




In [9]:
print('z的梯度公式：',z.grad_fn)#加法后向操作
print('loss的梯度公式：',loss.grad_fn)

z的梯度公式： <AddBackward0 object at 0x16a0eab20>
loss的梯度公式： <BinaryCrossEntropyWithLogitsBackward0 object at 0x13d564340>


In [10]:
#loss为标量的时候，backward()括号里啥都没有，否则要传个向量
loss.backward()
print(w.grad)
print(b.grad)

tensor([[0.0917, 0.0029, 0.2865],
        [0.0917, 0.0029, 0.2865],
        [0.0917, 0.0029, 0.2865],
        [0.0917, 0.0029, 0.2865],
        [0.0917, 0.0029, 0.2865]])
tensor([0.0917, 0.0029, 0.2865])


In [17]:
z = torch.matmul(x,w)+b
print(z.requires_grad)


#不需要计算梯度（比如做推理）
with torch.no_grad():
    z = torch.matmul(x,w)+b
    print(z.requires_grad)
    
#同上
z = torch.matmul(x,w)+b
z_det = z.detach()
print(z_det.requires_grad)

True
False
False


对张量求梯度和梯度归零

In [22]:
inp = torch.eye(5,requires_grad=True)
out = (inp+1).pow(2)
out.backward(torch.ones_like(inp),retain_graph=True)
print('第一次\n:',inp.grad)
out.backward(torch.ones_like(inp),retain_graph=True)
print('第二次\n:',inp.grad,'出现梯度累积')
inp.grad.zero_()
out.backward(torch.ones_like(inp),retain_graph=True)
print(inp.grad)

第一次
: tensor([[4., 2., 2., 2., 2.],
        [2., 4., 2., 2., 2.],
        [2., 2., 4., 2., 2.],
        [2., 2., 2., 4., 2.],
        [2., 2., 2., 2., 4.]])
第二次
: tensor([[8., 4., 4., 4., 4.],
        [4., 8., 4., 4., 4.],
        [4., 4., 8., 4., 4.],
        [4., 4., 4., 8., 4.],
        [4., 4., 4., 4., 8.]]) 出现梯度累积
tensor([[4., 2., 2., 2., 2.],
        [2., 4., 2., 2., 2.],
        [2., 2., 4., 2., 2.],
        [2., 2., 2., 4., 2.],
        [2., 2., 2., 2., 4.]])


训练的时候只需要调用下面语句就可以了：

optimizer.zero_()

# 自动微分结合优化器