##  自动梯度


### **概念**

Tensor可以自行创建或者经有计算创建，其中Tensor有两个属性
- requires_grad:表示是否最终在该tensor上的所有操作
- grad_fn:创建这个Tensor的操作
通过以上两个属性就可以对Tensor进行链式法则求导   




> 我们通过X(tensor)计算得到一个标量y，对y求导就使用**y.backward()**,这样y就会求所有关联变量的导数   
> 当我们不需要计算有些Tensor的倒数时，要么滴哦用**detach()**将其分离出来,要么使用**with torch.no_grad**包裹

In [2]:
import torch
import numpy as np

### **Tensor的求导操作**

In [5]:
# 创建一个tensor,requires_grad默认为False
x = torch.ones(2, 2, requires_grad=True)

In [6]:
y = x + 2
y.grad_fn

<AddBackward0 at 0x29dcef33a20>

y是通过一个加法运算得到的   
x是通过创建得到的，x这种被称为叶子节点，可以用is_leaf属性判断

In [7]:
z = y * y * 3
out= z.mean()

In [8]:
z

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>)

如果不需要求梯度了，可以使用**requires_grad_(False)**方法来修改，这是一个inplace方法

### **梯度**

In [11]:
# 对out求导
out.backward()

In [13]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


假设out为o    
$ o = \frac{1}{4}\sum_{i=1}^{4}3(x_i + 2)^2$    
$o' = \frac{\partial{o}}{\partial{x_i}} = \frac{3}{2}(x_i + 2)$     
因此当x为1的时候结果就是4.5

In [18]:
out2 = x.sum()
out2.backward()
x.grad

tensor([[6.5000, 6.5000],
        [6.5000, 6.5000]])

这里out2对x求导的正确值应该是1,因为单个tensor的grad在反向传播中对进行**累加**，所以最后的结果不是1

In [20]:
# 将梯度清0
x.grad.data.zero_()

tensor([[0., 0.],
        [0., 0.]])

> 其实**.backward**是有参数的,如果y是标量的话，参数实际是一个**一维数据为1的tensor**；如果y不是一个标量的话，我们需要传入一个和y同样形状的tensor
> torch不允许张量对张量求导，因为这样会使计算出现问题；标量对张量求导，得到的结果是和张量同样维度的张量
> 当y是一个标量，backward方法传入一个同形状tensor**w**,实际运算是torch.sum(y*w).backward()

In [21]:
# 中断梯度追踪
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
with torch.no_grad():
    y2 = x ** 3
y3 = y1 + y2

In [22]:
y3.backward()

In [23]:
x.grad

tensor(2.)

想要修改tensor的值，但是又不想因为计算而被autograd所记录到的话，我们可以修改tensor.data的值

In [24]:
x = torch.ones(1,requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = 2 * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([2.])
