### 1. 利用backward方法求导数

#### 1.1 标量的反向传播

In [1]:
import numpy as np
import torch

In [9]:
# f(x) = a * x**2 + b * x + c
print('backward方法通常在一个标量上调用,该方法求得的梯度将存在对应自变量张量的grad属性下')
print('\n')
x = torch.tensor(0.0, requires_grad = True) # x为0维
print('x的维度为:', x.dim())
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a * torch.pow(x, 2) + b * x + c
print('函数y的值为:', y)
y.backward()
dy_dx = x.grad
print('导数dy_dx的值为:', dy_dx)

backward方法通常在一个标量上调用,该方法求得的梯度将存在对应自变量张量的grad属性下


x的维度为: 0
函数y的值为: tensor(1., grad_fn=<AddBackward0>)
导数dy_dx的值为: tensor(-2.)


#### 1.2 非标量的反向传播

In [10]:
import numpy as np
import torch

In [20]:
# f(x) = a * x**2 + b * x + c
print('调用的是非标量，就需要传入一个和它同形状的gradient参数张量\n')
x = torch.tensor([[0.0, 0.0],[1.0, 2.0]], requires_grad = True)
print('x的值为:',x)
print('x的维度为：', x.dim())
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a * torch.pow(x, 2) + b * x + c
print('函数y的值为"：', y)
gradient = torch.tensor([[1.0, 1.0], [1.0, 1.0]])
y.backward(gradient = gradient)
x_grad = x.grad
print('导数为：', x_grad)

调用的是非标量，就需要传入一个和它同形状的gradient参数张量

x的值为: tensor([[0., 0.],
        [1., 2.]], requires_grad=True)
x的维度为： 2
函数y的值为"： tensor([[1., 1.],
        [0., 1.]], grad_fn=<AddBackward0>)
导数为： tensor([[-2., -2.],
        [ 0.,  2.]])


#### 1.3 非标量的反向传播可以用标量的反向传播实现

In [21]:
import numpy as np
import torch

In [24]:
# f(x) = a * x**2 + b * x + c
print('非标量的反向传播可以用标量的反向传播实现\n')
x = torch.tensor([[0.0, 0.0],[1.0, 2.0]], requires_grad = True)
print('x的值为:',x)
print('x的维度为：', x.dim())
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a * torch.pow(x, 2) + b * x + c
print('函数y的值为"：', y)
gradient = torch.tensor([[1.0, 1.0], [1.0, 1.0]])
z = torch.sum(y * gradient)
print('z的值为:', z)
z.backward()
x_grad = x.grad
print('导数为:', x_grad)

非标量的反向传播可以用标量的反向传播实现

x的值为: tensor([[0., 0.],
        [1., 2.]], requires_grad=True)
x的维度为： 2
函数y的值为"： tensor([[1., 1.],
        [0., 1.]], grad_fn=<AddBackward0>)
z的值为: tensor(3., grad_fn=<SumBackward0>)
导数为: tensor([[-2., -2.],
        [ 0.,  2.]])


### 2. 利用autograd.grad方法求导数

In [25]:
import numpy as np
import torch

In [34]:
# f(x) = a * x**2 + b * x + c
print('利用autograd.grad自动求导，可以求高阶导数,这个是对单个变量求导')
print('\n')
x = torch.tensor(0.0, requires_grad = True) # x为0维
print('x的维度为:', x.dim())
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a * torch.pow(x, 2) + b * x + c
print('函数y的值为:', y)

# create_graph = True 将允许创建更高阶的导数

dy_dx = torch.autograd.grad(y, x, create_graph = True)[0]
print('一阶导数为:', dy_dx.data)

# 求二阶导数
dy2_dx2 = torch.autograd.grad(dy_dx, x)[0]
print('二阶导数为：', dy2_dx2.data)

利用autograd.grad自动求导，可以求高阶导数,这个是对单个变量求导


x的维度为: 0
函数y的值为: tensor(1., grad_fn=<AddBackward0>)
一阶导数为: tensor(-2.)
二阶导数为： tensor(2.)


In [35]:
import numpy as np
import torch

In [43]:
print('接下来就是对多个变量求导')
print('\n')

x1 = torch.tensor(1.0, requires_grad = True)
x2 = torch.tensor(2.0, requires_grad = True)
print('x1的值为:', x1);print('x2的值为:', x2)

y1 = x1 * x2
y2 = x1 + x2
print('y1的值为:', y1);print('y2的值为:', y2)

# 接下来就是对多个变量求导数
print('\n')
print('求y1对x1和x2的分别求导结果')
(dy1_dx1, dy1_dx2) = torch.autograd.grad(outputs = y1, inputs = [x1, x2], retain_graph = True)
print('y1对x1的求导的值为:', dy1_dx1);print('y1对x2的求导的值为:', dy1_dx2)

print('\n')
print('求y2对x1和x2的分别求导结果')
(dy2_dx1, dy2_dx2) = torch.autograd.grad(outputs = y2, inputs = [x1, x2], retain_graph = True)
print('y2对x1的求导的值为:', dy2_dx1);print('y2对x2的求导的值为:', dy2_dx2)

print('\n')
print('如果有多个因变量，相当于把这多个因变量的梯度求和')
(dy12_dx1, dy12_dx2) = torch.autograd.grad(outputs = [y1, y2], inputs = [x1, x2])
print('dy12_dx1:', dy12_dx1)
print('dy12_dx2:', dy12_dx2)

接下来就是对多个变量求导


x1的值为: tensor(1., requires_grad=True)
x2的值为: tensor(2., requires_grad=True)
y1的值为: tensor(2., grad_fn=<MulBackward0>)
y2的值为: tensor(3., grad_fn=<AddBackward0>)


求y1对x1和x2的分别求导结果
y1对x1的求导的值为: tensor(2.)
y1对x2的求导的值为: tensor(1.)


求y2对x1和x2的分别求导结果
y2对x1的求导的值为: tensor(1.)
y2对x2的求导的值为: tensor(1.)


如果有多个因变量，相当于把这多个因变量的梯度求和
dy12_dx1: tensor(3.)
dy12_dx2: tensor(2.)


### 3. 利用自动微分和优化器求最小值

In [44]:
import numpy as np
import torch

In [47]:
# f(x) = a * x**2 + b * x + c
x = torch.tensor(0.0, requires_grad = True) # x为0维
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

optimizer = torch.optim.SGD(params = [x], lr = 0.01)
print('optimizer：', optimizer)

def f(x):
    result = a * torch.pow(x, 2) + b * x + c
    return result

for i in range(500):
    optimizer.zero_grad() # 调用backward()函数之前都要将梯度清零，因为如果梯度不清零，pytorch中会将上次计算的梯度和本次计算的梯度累加
    y = f(x)
    y.backward()
    optimizer.step() #optimizer.step()是优化器对x的值进行更新，以随机梯度下降SGD为例：学习率(learning rate, lr)来控制步幅，即：x = x - lr * x.grad 
print('y = ', f(x), ";", 'x = ', x.data)

optimizer： SGD (
Parameter Group 0
    dampening: 0
    lr: 0.01
    momentum: 0
    nesterov: False
    weight_decay: 0
)
y =  tensor(0., grad_fn=<AddBackward0>) ; x =  tensor(1.0000)
