# 反向传播推导

In [2]:
import torch

## 定义线性方程 
 - 我的预测的线形方式是 $$y = 2x + 1$$
 - 为了简化我们只求w，也就是假设b是已知的 $$y' = wx + 1$$
 - 定义需要预测的线形方程 linreg

In [3]:
def linreg(x,w):
    return w*x + 1

## 定义损失函数(最小二乘法)

 $$ L = \frac{1}{2}(y'-y)^2 $$

In [4]:
def squared_loss(h_hat,y):
    return (h_hat-y)**2/2

## 定义系数w

 - 真实的w是2
 - 预测的w初始可以是随机的，我们这里定义1

In [5]:
true_w = torch.tensor(2)
w = torch.tensor([1],dtype=float,requires_grad=True) # requires_grad=True 代表自动求导

# 训练数据集
 - 因为目标函数是 $$ y = 2x + 1 $$
 - 我们的训练数据集就可以从该方程中任选一些 $$ (1,3) , (2,5) , (3,7) $$
 - 比如这里我们选用 $$ (1,3) $$

In [6]:
x_sample = torch.tensor(1)
y_sample = torch.tensor(3)

## 用深度学习中术语重新整理赋值

In [7]:
net = linreg
loss = squared_loss
learn_rate = 0.1 #学习率

## 第一次“训练”

 - w为1时的预测值

In [8]:
h_hat = net(x_sample,w)
h_hat

tensor([2.], dtype=torch.float64, grad_fn=<AddBackward0>)

 - 获取loss值

In [9]:
l = loss(h_hat,y_sample)
l

tensor([0.5000], dtype=torch.float64, grad_fn=<DivBackward0>)

 - 通过反向传播获取损失函数对w的导数 
  
   $$ \frac{dl}{dw}=\frac{dl}{dy'} * \frac{dy'}{dw} $$

   - loss函数对y‘的导数
     
     $$\frac{dl}{dy'} = y’ - y $$
     $$\frac{dl}{dy'} = 2 - 3 = -1 $$

   - y‘对w的导数
  
     $$\frac{dy'}{dw} = x = 1 $$

   - 通过的链式传导的原理
  
     $$ \frac{dl}{dw}=\frac{dl}{dy'} * \frac{dy'}{dw} $$
     $$ \frac{dl}{dw}=-1 * 1 = -1 $$

In [10]:
l.backward()
w.grad

tensor([-1.], dtype=torch.float64)

 - 更新权重w的值

   $$ w_{k+1} = w_k - lr*\frac{dl}{dw}$$

In [11]:
with torch.no_grad():
    w -= learn_rate*w.grad
    w.grad.zero_()
w

tensor([1.1000], dtype=torch.float64, requires_grad=True)

## 第二次“训练”

 - w为刚训练后的1.1
 - 训练数据集 $$ (1,3) , (2,5) , (3,7) $$
 - 比如这里我们选用 $$ (2,5) $$

In [12]:
x_sample = torch.tensor(2)
y_sample = torch.tensor(5)
w

tensor([1.1000], dtype=torch.float64, requires_grad=True)

In [13]:
h_hat = net(x_sample,w)
h_hat

tensor([3.2000], dtype=torch.float64, grad_fn=<AddBackward0>)

 - 获取loss值

In [14]:
l = loss(net(x_sample,w),y_sample)
l

tensor([1.6200], dtype=torch.float64, grad_fn=<DivBackward0>)

 - 通过反向传播获取损失函数对w的导数 
  
   $$ \frac{dl}{dw}=\frac{dl}{dy'} * \frac{dy'}{dw} $$

   - loss函数对y‘的导数
     
     $$\frac{dl}{dy'} = y’ - y $$
     $$\frac{dl}{dy'} = 3.2 - 5 = -1.8 $$

   - y‘对w的导数
  
     $$\frac{dy'}{dw} = x = 2 $$

   - 通过的链式传导的原理
  
     $$ \frac{dl}{dw}=\frac{dl}{dy'} * \frac{dy'}{dw} $$
     $$ \frac{dl}{dw}=-1.8 * 2 = -3.6 $$

In [15]:
l.backward()
w.grad

tensor([-3.6000], dtype=torch.float64)

 - 更新权重w的值

   $$ w_{k+1} = w_k - lr*\frac{dl}{dw}$$

In [16]:
with torch.no_grad():
    print("w.grad",w.grad)
    w -= learn_rate*w.grad
    w.grad.zero_()
w

w.grad tensor([-3.6000], dtype=torch.float64)


tensor([1.4600], dtype=torch.float64, requires_grad=True)