# 2.3 自动求梯度
使用autograd包自动求梯度

# 2.3.1 概念

In [1]:
import torch

In [2]:
print("将Tensor的属性.requires_grad设置为True，将开始追踪在其身上的所有操作，完成计算后可以调用.backward()来完成所有梯度计算，梯度累积到.grad属性中")

将Tensor的属性.requires_grad设置为True，将开始追踪在其身上的所有操作，完成计算后可以调用.backward()来完成所有梯度计算，梯度累积到.grad属性中


# 2.3.2 Tensor

In [3]:
x = torch.ones(2, 2, requires_grad=True)
print(x)
print()
print("每个tensor的.grad_fn属性，即创建该tensor的Function，该tensor是不是通过某些运算得到的，若是，则返回一个与这些运算相关的对象，否则为None")
print(x.grad_fn)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

每个tensor的.grad_fn属性，即创建该tensor的Function，该tensor是不是通过某些运算得到的，若是，则返回一个与这些运算相关的对象，否则为None
None


In [4]:
print("然后做一下运算")
y = x + 2
print(y)
print(y.grad_fn)

然后做一下运算
tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x000001FE901F66A0>


In [5]:
print("x这样直接创建的称为叶子节点，叶子节点对应的grad_fn为None")
print(x.is_leaf, y.is_leaf)

x这样直接创建的称为叶子节点，叶子节点对应的grad_fn为None
True False


In [6]:
print("再复杂一点的运算操作")
z = y * y * 3
out = z.mean()
print(z, out)

再复杂一点的运算操作
tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [7]:
print("通过.requires_grad()来用in-place的方式改变requires_grad属性")
a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False
a = ((a * 3) / (a - 1))
print(a.requires_grad) # False
a.requires_grad_(True)
print(a.requires_grad) # True
b = (a * a).sum()
print(b.grad_fn)

通过.requires_grad()来用in-place的方式改变requires_grad属性
False
True
<SumBackward0 object at 0x000001FE8BBD9190>


# 2.3.3 梯度

In [8]:
print("因为out是一个标量，所以调用backward()时不需要指定求导变量")
out.backward()

因为out是一个标量，所以调用backward()时不需要指定求导变量


In [9]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


##### 令上面的 out 为 $O$，  
$$O= \frac{1}{4}\sum^{4}_{i=1}z_i=\frac{1}{4}\sum^4_{i=1}3(x_i+2)^2$$
##### 所以，
$$\frac{\partial o}{\partial x_i}|_{x_i=1}=\frac{9}{2}=4.5$$
##### 数学上，函数值和自变量都是向量的函数 $\vec{y}=f(\vec{x})$，那么 $\vec{y}$ 关于 $\vec{x}$ 的梯度就是一个雅克比矩阵：
$$J=
\begin{pmatrix}
\frac{\partial{y_1}}{\partial{x_1}} & \dots & \frac{\partial{y_1}}{\partial{x_n}}\\ 
\vdots & \ddots & \vdots\\ 
\frac{\partial{y_m}}{\partial{x_1}} & \dots & \frac{\partial{y_m}}{\partial{x_n}}
\end{pmatrix}\\
$$
##### 而 torch.autograd 这个包用来计算一些雅克比矩阵的乘积，以满足链式求导法则，例如 $v$ 是一个标量函数 $l=g(\vec{y})$的梯度：
$$v = 
\begin{pmatrix}
\frac{\partial{l}}{\partial{y_1}} & \dots & \frac{\partial{l}}{\partial{y_m}}
\end{pmatrix}
$$
##### 根据链式求导法则有 $l$ 关于 $\vec{x}$ 的雅克比矩阵为：
$$
vJ=
\begin{pmatrix}
\frac{\partial{l}}{\partial{y_1}} & \dots & \frac{\partial{l}}{\partial{y_m}}
\end{pmatrix}
\begin{pmatrix}
\frac{\partial{y_1}}{\partial{x_1}} & \dots & \frac{\partial{y_1}}{\partial{x_n}}\\ 
\vdots & \ddots & \vdots\\ 
\frac{\partial{y_m}}{\partial{x_1}} & \dots & \frac{\partial{y_m}}{\partial{x_n}}
\end{pmatrix}
=\begin{pmatrix}
\frac{\partial{l}}{\partial{x_1}} & \dots & \frac{\partial{l}}{\partial{x_n}}
\end{pmatrix}
$$

In [10]:
print("grad 在反向传播过程中是累加的，每一次运行反向传播，梯度都会累加之前的梯度，所以一般反向传播之前都需将梯度清零")
print()
out2 = x.sum()
out2.backward()
print(x.grad)

out3 = x.sum()
x.grad.data.zero_()
out3.backward()
print(x.grad)

grad 在反向传播过程中是累加的，每一次运行反向传播，梯度都会累加之前的梯度，所以一般反向传播之前都需将梯度清零

tensor([[5.5000, 5.5000],
        [5.5000, 5.5000]])
tensor([[1., 1.],
        [1., 1.]])


In [11]:
x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True)
y = 2 * x
z = y.view(2, 2)
print(z)

tensor([[2., 4.],
        [6., 8.]], grad_fn=<ViewBackward>)


In [12]:
print("现在 z 不是标量，所以调用 backward 时需要传入一个和 z 同形的权重向量进行加权求和得到一个标量\n")

v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float)
z.backward(v)
print(x.grad)

现在 z 不是标量，所以调用 backward 时需要传入一个和 z 同形的权重向量进行加权求和得到一个标量

tensor([2.0000, 0.2000, 0.0200, 0.0020])


In [13]:
print("关于中断梯度追踪的例子\n")
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
with torch.no_grad():
    y2 = x ** 3
    
y3 = y1 + y2

print(x.requires_grad)
print(y1, y1.requires_grad)
print(y2, y2.requires_grad)
print(y2, y3.requires_grad)

关于中断梯度追踪的例子

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(1.) True


In [14]:
y1.backward()
print(x.grad)

tensor(2.)


In [15]:
print("如果要修改tensor的数值，又不希望被autograd记录（即不会影响反向传播），可以对tensor.data进行操作")
x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward(retain_graph=True)
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

如果要修改tensor的数值，又不希望被autograd记录（即不会影响反向传播），可以对tensor.data进行操作
tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])


In [16]:
y.backward(retain_graph=True)
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

tensor([100.], requires_grad=True)
tensor([4.])


In [17]:
y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

tensor([100.], requires_grad=True)
tensor([6.])


In [19]:
print(x.grad)

tensor([6.])
