### ：
    Tensor是核心类,将其属性 .requires_grad 设置为 True，将开始追踪(track)在其上的所有操作（即利用链式法则进行梯度传播了）
    完成计算后，可以调用 .backward()来完成所有梯度计算，梯度将累积到 .grad属性中。
    
    不想要被继续追踪，可以调用 .detach()将其从追踪记录中分离出来，这样梯度就传不过去了。
    
    还可以用 with torch.no_grad()将不想被追踪的操作代码块包裹起来，这种方法在评估模型的时候很常用

In [1]:
import torch

### 创建一个Tensor并设置 requires_grad=True 
    也可以通过.requires_grad_()来用in-place的方式改变requires_grad属性
    每个Tensor都有一个.grad_fn属性,即该Tensor如果通过运算得到的，则 grad_fn 返回一个与这些运算相关的对象，否则是 None

In [2]:
x = torch.ones(2,2,requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [5]:
print(x.grad_fn) # 每个Tensor都有一个.grad_fn属性,即该Tensor如果通过运算得到的，则 grad_fn 返回一个与这些运算相关的对象，否则是 None

None


In [7]:
y = x + 1
print(y)
print(y.grad_fn)

tensor([[2., 2.],
        [2., 2.]], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x000001A503A581F0>


### 梯度

In [8]:
z = y * y * 3
out = z.mean()
out

tensor(12., grad_fn=<MeanBackward0>)

In [9]:
out.backward()

In [11]:
print(x.grad) 
# grad在反向传播过程中是累加的(accumulated)，这意味着每一次运行反向传播，梯度都会累加之前的梯度，所以一般在反向传播之前需把梯度清零

tensor([[3., 3.],
        [3., 3.]])


In [12]:
out_2 = x.sum()
out_2

tensor(4., grad_fn=<SumBackward0>)

In [13]:
out_2.backward()
print(x.grad)

tensor([[4., 4.],
        [4., 4.]])


In [14]:
out_3 = x.sum()

In [15]:
x.grad.data.zero_() # 在反向传播之前需把梯度清零
out_3.backward()
print(x.grad)

tensor([[1., 1.],
        [1., 1.]])
