线性回归模型的MSE成本函数为凸函数，避免了局部最小值；无论走法如何，都可以趋近到全局最小值

使用梯度下降时，需要保证所有特征值的大小比例都差不多，否则收敛时间会长很多

批量梯度下降：

成本函数的偏导数：$\frac{\partial}{\partial \theta_{j}}MSE(\theta) = \frac{2}{m}\sum^{m}_{i=1}(\theta^{T}x^{(i)} - y^(i))x^{(i)}_{j}$

成本函数的梯度向量：
$$
\mathbf{\nabla_{\theta}MSE(\theta)} = \begin{pmatrix}
\frac{\partial}{\partial \theta_{0}}MSE(\theta) \\
\frac{\partial}{\partial \theta_{1}}MSE(\theta) \\
...\\
\frac{\partial}{\partial \theta_{n}}MSE(\theta)
\end{pmatrix} =  \frac{2}{m}X^{T}(X\theta-y)
$$

梯度下降步骤：$\theta^{(下一步)} = \theta - \eta\nabla_{\theta}MSE(\theta)$  $\eta$为学习率


In [1]:
import numpy as np
import matplotlib.pyplot as plt
X=2*np.random.rand(100, 1)
y=4+3*X+np.random.randn(100, 1)
X_b=np.c_[np.ones((100,1)), X]
eta = 0.1
n_iterations = 1000
m = 100
theta = np.random.randn(2,1)
for iteration in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(theta)-y)
    theta -= eta * gradients
theta

array([[3.822484  ],
       [3.31786586]])

随机梯度下降：每一步在训练集中随机选择一个实例，并且仅基于该单个实例来计算梯度。它可以帮助算法跳出局部最小值，但永远定位不出最小值，可以使用逐步降低学习率的方法。（确定每个迭代学习率的函数叫做学习率调度）

使用随机梯度下降时，训练实例必须满足IID， 在训练过程中需要对实例进行随即混洗

In [3]:
n_epochs=50
t0, t1=5, 50
def learning_schedule(t):
    return t0/(t+t1)
theta = np.random.randn(2,1)
for epoch in range(n_epochs):
    for i in range(n_epochs):
        random_index = np.random.randint(m)
        xi = X_b[random_index:random_index+1]
        yi = y[random_index:random_index+1]
        gradients = 2*xi.T.dot(xi.dot(theta)-yi)
        eta=learning_schedule(epoch*m+i)
        theta = theta-eta*gradients
theta

array([[3.80396035],
       [3.38254235]])

In [4]:
from sklearn.linear_model import SGDRegressor
sgd_reg = SGDRegressor(max_iter=1000, tol=1e3, penalty=None, eta0=0.1)
sgd_reg.fit(X, y.ravel())
sgd_reg.intercept_, sgd_reg.coef_

(array([3.7626581]), array([3.35465825]))

小批量梯度下降：在每一步中，在称为小型批量的随机实例集上计算梯度。可通过矩阵操作的硬件优化来提高性能

它比随机梯度下降走得更接近最小值，但可能很难拜托局部最小值