# 4、随机梯度下降法

我们在之前求梯度的时候，因为发现梯度和 $m$ 有关，就把梯度都除以 $m$ 了。
那么随机梯度下降法，就是干脆随机选取一个点，计算这个点的梯度。随机梯度下降法的思路就是这么来的，经过试验，这种方法能够减少计算量，但是函数从一个点走到局部最优点就没有那么顺利了，这个过程很可能是“曲折”的。

In [1]:
import numpy as np
import matplotlib.pyplot as plt


m = 100000

x = np.random.normal(size=m)
X = x.reshape(-1, 1)
y = 4. * x + 3. + np.random.normal(0, 3, size=m)

$$
J(\theta) = \frac{1}{m}\sum_{i=1}^{m} \left( \hat y^{(i)} - \hat y^{(i)}\right)^2 
$$

In [2]:
def J(theta, X_b, y):
    try:
        return np.sum((X_b.dot(theta) - y)**2) / len(X_b)
    except:
        return float('inf')

In [3]:
# 计算梯度的函数就有变化了
def dJ_sgd(theta, X_b_i, y_i):
    return X_b_i.T.dot(X_b_i.dot(theta) - y_i) * 2

In [4]:
def sgd(X_b, y, initial_theta, n_iters):
    t0 = 5
    t1 = 50

    def learning_rate(t):
        return t0 / (t + t1)

    theta = initial_theta

    for cur_iter in range(n_iters):
        rand_i = np.random.randint(len(X_b))
        gradient = dJ_sgd(theta, X_b[rand_i], y[rand_i])
        theta = theta - learning_rate(cur_iter) * gradient
    return theta

In [7]:
%%time
X_b = np.hstack([np.ones((len(X), 1)), X])
initial_theta = np.zeros(X_b.shape[1])
theta = sgd(X_b, y, initial_theta, n_iters=(len(X_b) // 3))

CPU times: user 291 ms, sys: 4.58 ms, total: 295 ms
Wall time: 296 ms


In [8]:
theta

array([3.07013606, 3.97306302])