# Variable变量 和 autograd机制

先做一个热身题目，我们使用Tensor构建一个两层神经网络

Tips:通常构建一个神经网络，我们有如下步骤

1、构建好网络模型

2、参数初始化

3、前向传播

4、计算损失

5、反向传播求出梯度

6、更新权重

在我们构建神经网络之前，我们先介绍一个Tensor的内置函数 clamp()

该函数的功能是：将输入 Tensor 的每个元素夹紧到区间 [min,max]中，并返回结果到一个新的Tensor。

这样，我们就可以使用 x.clamp(min=0) 来代替 relu函数

In [120]:
import torch
# M是样本数量，input_size是输入层大小
# hidden_size是隐含层大小，output_size是输出层大小
M, input_size, hidden_size, output_size = 64, 1000, 100, 10

# 生成随机数当作样本
x = torch.randn(input_size, M) #size(1000, 64)
y = torch.randn(output_size, M) #size(10, 64)

# 参数初始化
def init_parameters():
    w1 = torch.randn(hidden_size, input_size)
    w2 = torch.randn(output_size, hidden_size)
    b1 = torch.randn(hidden_size, 1)
    b2 = torch.randn(output_size, 1)
    return {"w1": w1, "w2":w2, "b1": b1, "b2": b2}

# 定义模型
def model(x, parameters):
    Z1 = parameters["w1"].mm(x) #+ parameters["b1"] # 线性层
    A1 = Z1.clamp(min=0) # relu激活函数
    Z2 = parameters["w2"].mm(A1) #+ parameters["b2"] #线性层
    # 为了方便反向求导，我们会把当前求得的结果保存在一个cache中
    cache = {"Z1": Z1, "A1": A1}
    return Z2, cache

# 计算损失
def loss_fn(y, y_pred):
    m = y.size()[1] # m个样本
    loss = (y_pred - y).pow(2).sum() # 我们这里直接使用 MSE(均方误差) 作为损失函数
    return loss

# 反向传播，求出梯度
def backpropogation(x, y, y_pred, cache, parameters):
    m = y.size()[1] # m个样本
    # 以下是反向求导的过程：
    d_y_pred = 1/m * (y_pred - y)
    d_w2 = 1/m * d_y_pred.mm(cache["A1"].t())
    d_b2 = 1/m * torch.sum(d_y_pred, 1, keepdim=True)
    d_A1 = parameters["w2"].t().mm(d_y_pred)
    # 对 relu 函数求导: start
    d_Z1 = d_A1.clone()
    d_Z1[cache["Z1"] < 0] = 0
    # 对 relu 函数求导: end
    d_w1 = 1/m * d_Z1.mm(x.t())
    d_b1 = 1/m * torch.sum(d_Z1, 1, keepdim=True)
    grads = {
        "d_w1": d_w1, 
        "d_b1": d_b1, 
        "d_w2": d_w2, 
        "d_b2": d_b2
    }
    return grads

# 更新参数
def update(lr, parameters, grads):
    parameters["w1"] -= lr * grads["d_w1"]
    parameters["w2"] -= lr * grads["d_w2"]
    parameters["b1"] -= lr * grads["d_b1"]
    parameters["b2"] -= lr * grads["d_b2"]
    return parameters

## 设置超参数 ##

learning_rate = 1e-2
EPOCH = 400

# 参数初始化
parameters = init_parameters()

## 开始训练 ##
for t in range(EPOCH):    
    # 向前传播
    y_pred, cache = model(x, parameters)
    
    # 计算损失
    loss = loss_fn(y, y_pred)
    if (t+1) % 50 == 0:
        print(loss)
    # 反向传播
    grads = backpropogation(x, y, y_pred, cache, parameters)
    # 更新参数
    parameters = update(learning_rate, parameters, grads)

11128.106624737247
521.4990869555062
41.98206447797307
4.215293391161581
0.474883896909029
0.057519924200060135
0.00751843176731104
0.001248899067986975


虽然上面的简单模型中，梯度计算的代码比较直观。但对于复杂的模型，例如多达数十层的神经网络，手动计算梯度非常困难。

所以，我们需要引入自动求导 (autograd) 的机制，让pytorch在我们建立模型的时候，自动地为我们求出导数来。

如何使用自动求导呢？

**我们用一个 Variable $X$ 对象来包装Tensor变量。然后 $X$.data 就是该Tensor变量，$X$.grad 就是梯度咯**

PyTorch的 Variable 跟 Tensor 有着几乎一样的API，在 Tensor 上进行的操作也基本都能在 Variable 上进行。**区别在于：使用 Variable 对象，你会定义一张动态图，它可以帮助你进行自动求导**

现在，我们来使用 Variable 重新构建上述的两层神经网络，这个时候，我们已经不需要再使用手动求导了。

In [7]:
import torch
from torch.autograd import Variable # 导入 Variable 对象

# M是样本数量，input_size是输入层大小
# hidden_size是隐含层大小，output_size是输出层大小
M, input_size, hidden_size, output_size = 64, 1000, 100, 10

# 生成随机数当作样本，同时用Variable 来包装这些数据，设置 requires_grad=False 表示在方向传播的时候，我们不需要求这几个 Variable 的导数
x = Variable(torch.randn(input_size, M), requires_grad=False)
y = Variable(torch.randn(output_size, M), requires_grad=False)

# 参数初始化，同时用Variable 来包装这些数据，设置 requires_grad=True 表示在方向传播的时候，我们需要自动求这几个 Variable 的导数
def init_parameters():
    w1 = Variable(torch.randn(hidden_size, input_size), requires_grad=True)
    w2 = Variable(torch.randn(output_size, hidden_size), requires_grad=True)
    b1 = Variable(torch.randn(hidden_size, 1), requires_grad=True)
    b2 = Variable(torch.randn(output_size, 1), requires_grad=True)
    return {"w1": w1, "w2":w2, "b1": b1, "b2": b2}

# 向前传播
def model(x, parameters):
    Z1 = parameters["w1"].mm(x) + parameters["b1"] # 线性层
    A1 = Z1.clamp(min=0) # relu激活函数
    Z2 = parameters["w2"].mm(A1) + parameters["b2"] #线性层
    return Z2

# 计算损失
def loss_fn(y, y_pred):
    m = y.size()[1] # m个样本
    loss = (y_pred - y).pow(2).sum() # 我们这里直接使用 MSE(均方误差) 作为损失函数
    return loss

## 设置超参数 ##
learning_rate = 1e-6
EPOCH = 300

# 参数初始化
parameters = init_parameters()

## 开始训练 ##
for t in range(EPOCH):    
    # 向前传播
    y_pred= model(x, parameters)
    # 计算损失
    loss = loss_fn(y, y_pred)
    # 计算和打印都是在 Variables 上进行操作的，这时候的 loss 时一个 Variable ，它的size() 是 (1,)，所以 loss.data 的size() 也是 (1,)
    # 所以， loss.data[0] 才是一个实值
    if (t+1) % 50 == 0:
        print(loss.data[0])
    # 使用自动求导来计算反向传播过程中的梯度，这个方法会把所有的设置了requires_grad=True 的Variable 对象的梯度全部自动出来
    # 在这里，就是求出了 w1, w2, b1, b2的梯度
    loss.backward()
    
    # 更新参数， .data 表示的都是Tensor
    parameters["w1"].data -= learning_rate * parameters["w1"].grad.data
    parameters["w2"].data -= learning_rate * parameters["w2"].grad.data
    parameters["b1"].data -= learning_rate * parameters["b1"].grad.data
    parameters["b2"].data -= learning_rate * parameters["b2"].grad.data
    
    # 由于PyTorch中的梯度是会累加的，所以如果你没有手动清空梯度，那么下次你家的grad就是这次和上次的grad的累加和。
    # 所以，为了每次都只是使用当前的梯度，我们需要手动清空梯度
    parameters["w1"].grad.data.zero_()
    parameters["w2"].grad.data.zero_()
    parameters["b1"].grad.data.zero_()
    parameters["b2"].grad.data.zero_()

11162.4453125
313.19140625
14.99639892578125
0.9318702816963196
0.06686659902334213
0.005382555071264505
