手写梯度下降算法及其他相关类型的优化器迭代算法来巩固知识

## 1 gradient_descent
梯度下降算法是神经网络模型训练最常用的优化算法。梯度下降算法的原理很简单，损失函数$J(\theta)$关于参数$\theta$的梯度将是损失函数值上升最快的方向。我们要最小化loss，只需要参数沿着梯度相反的方向前进一个步长，就可以实现损失函数的值的下降。步长$\eta$称为学习率。参数更新公式如下：
$$\theta = \theta - \eta \nabla J(\theta)$$
其中$\nabla J(\theta)$是参数的梯度。根据计算损失函数采用的数据量的不同，梯度下降算法又可以分为批量梯度下降算法（Batch Gradient Descent），随机梯度下降算法（Stochastic Gradient Descent）和小批量梯度下降算法（Mini-batch Gradient Descent）。批量梯度下降算法当数据量较大时会存在内存不足问题，随机梯度下降算法只针对训练集中的一个训练样本计算，小批量梯度下降算法是折中的方法，选取训练集中一个小批量的样本（一般是2的倍数，32/64/128）计算。

In [67]:
# 梯度下降算法代码
import torch
import torch.nn as nn 
import numpy as np 

# 定义数据集和模型，该问题即为x有4个特征，求一个拟合关系来表征y。
# 定义一个线性拟合网络结构作为模型，即模型为y=w1*x1+w2*x2+w3*x3+w4*x4+w0。
# 用矩阵的形式表示即为 y = w*x^T。 x=[1,x1,x2,x3,x4]，w=[w0,w1,w2,w3,w4]
# X中每一行为1个样本，即一共100个样本
torch.manual_seed(1)
X = torch.normal(0, 10, (100, 4))
y = X @ torch.Tensor([1,2,3,4])
y = y.view(-1, 1)

# 定义网络结构
model = nn.Linear(in_features=4, out_features=1, bias=False)

# 设置学习率和迭代次数
ln=0.01
num = 100

# 设置损失函数
def get_loss(y, y_hat):
    """ 
    损失函数为真实值与拟合值
    """
    return torch.sum(0.5 * (y_hat - y)**2)/y.shape[0]

def get_gradient(x, y, y_hat):
    """ 
    获取梯度，这里的梯度指的时带求解的参数的梯度，即w
    根据线性拟合的模型，损失函数的梯度
    """
    return ((y_hat -y).t() @ x) /x.shape[0]

# 迭代
for i in range(num):
    y_hat = model(X)
    gradient = get_gradient(X, y, y_hat)
    model.weight.data -= ln * gradient
    loss = get_loss(y, y_hat)
    print(model.weight.data)

#

tensor([[1.0381, 2.4327, 3.3723, 5.2480]])
tensor([[0.9759, 1.9394, 2.8365, 3.7126]])
tensor([[0.9992, 2.0243, 3.0262, 4.0748]])
tensor([[0.9993, 1.9959, 2.9903, 3.9825]])
tensor([[0.9999, 2.0014, 3.0018, 4.0045]])
tensor([[1.0000, 1.9997, 2.9994, 3.9989]])
tensor([[1.0000, 2.0001, 3.0001, 4.0003]])
tensor([[1.0000, 2.0000, 3.0000, 3.9999]])
tensor([[1.0000, 2.0000, 3.0000, 4.0000]])
tensor([[1.0000, 2.0000, 3.0000, 4.0000]])
tensor([[1.0000, 2.0000, 3.0000, 4.0000]])
tensor([[1.0000, 2.0000, 3.0000, 4.0000]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]])
tensor([[1., 2., 3., 4.]]