# SGD随机梯度下降法
`Stochastic-Gradient-Descent`


搜索的方向
- 不能保证是梯度减小的方向
- 不能保证梯度减小最快的方向

越逼近，学习率要较少

学习率递减，循环次数增加而减少

分母加个数 + b：减缓速度

模拟退火思想：炼钢过程，火量逐渐变小

SGD全样本，走的最稳


## SGD随机梯度下降
优点：更新速度上得到提升

缺点：噪声很大，抖动，徘徊比较严重

根据不同样本，改变自己的方向和策略

In [2]:
import numpy as np
import matplotlib.pyplot as plt

In [3]:
m = 100000

x = np.random.normal(size=m)
X = x.reshape(-1, 1)
y = 4.*x +3. + np.random.normal(0, 3, size=m)

In [4]:
def J(theta, X_b, y):
    try:
        return np.sum((y - X_b.dot(theta)) ** 2.) / len(y)
    except:
        return float('inf')

def dJ(theta, X_b, y):
    return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(X_b)

def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):
    theta = initial_theta
    cur_iter = 0

    # 条件1：迭代次数
    while cur_iter < n_iters:
        gradient = dJ(theta, X_b, y)
        last_theta = theta
        theta = theta - eta * gradient
        # 条件2：找到的损失函数的值，已经不能再减小了，达到精度
        if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
            break
        cur_iter += 1

    return theta

In [5]:
%time
X_b = np.hstack([np.ones((len(X), 1)), X])
initial_theta = np.zeros(X_b.shape[1])
eta = 0.01
theta = gradient_descent(X_b, y, initial_theta, eta)

CPU times: user 4 µs, sys: 1 µs, total: 5 µs
Wall time: 11.2 µs


In [6]:
theta

array([3.00717   , 4.00886931])

## 随机梯度下降法

梯度改变方向是随机的，损失函数不能保证一直是减小的

损失函数的值是跳跃的

这一次搜索 比上一次搜索，差距越来越小，不代表离损失函数中心更近了！

——> 跟样本随机梯度有关



In [7]:
def dJ_sgd(theta, X_b_i, y_i):
    return X_b_i.T.dot(X_b_i.dot(theta) - y_i) * 2.

In [13]:
def sgd(X_b, y, initial_theta, n_iters):

    t0 = 5
    t1 = 50
    def learning_rate(t):
        return t0 / (t + t1)
        
    theta = initial_theta
    for cur_iter in range(n_iters):
        rand_i = np.random.randint(len(X_b))
        gradient = dJ_sgd(theta, X_b[rand_i], y[rand_i])
        theta = theta - learning_rate(cur_iter) * gradient

    return theta

In [14]:
%%time
X_b = np.hstack([np.ones((len(X), 1)), X])
initial_theta = np.zeros(X_b.shape[1])
theta = sgd(X_b, y, initial_theta, n_iters=len(X_b)//3) # 只需要循环1/3的样本个数

CPU times: user 293 ms, sys: 4.42 ms, total: 297 ms
Wall time: 307 ms


In [15]:
theta

array([2.98259214, 3.99700692])

![](images/stochastic.png)