# 随机梯度下降法
## 首先我们给出正常的梯度下降方法

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
m=100000
x=np.random.normal(size=m)
X=x.reshape(m,1)
y=4. * x + 3. +np.random.normal(0,3,size=m)
y.shape

(100000,)

In [3]:
#正常的拟合
def J(theta,X_b,y):
    try:
        return np.sum((y-X_b.dot(theta))**2)/X_b.shape[0]
    except:
        return float('inf')
def dJ(theta,X_b,y):
    return 2. * X_b.T.dot(X_b.dot(theta)-y)/X_b.shape[0]
def gradient_descent(X_b,y,initial_theta,eta,n_iters=1e4,epsilon=1e-8):#增加一个限制循环次数的情况，避免死循环
    theta=initial_theta
    i_iter=0 
    while i_iter<n_iters:
        gradient = dJ(theta,X_b,y)#theta点的导数
        last_theta=theta
        theta = theta - eta * gradient#theta移动
        
        if abs(J(theta,X_b,y)-J(last_theta,X_b,y))<epsilon:#函数变化情况很小
            break#退出循环不找了，再找也小不了到多少了
        i_iter+=1
    return theta

In [4]:
%%time
X_b=np.hstack([np.ones((X.shape[0],1)),X])
initial_theta=np.zeros(X_b.shape[1])
eta=0.01
theta=gradient_descent(X_b,y,initial_theta,eta)
theta

Wall time: 3.66 s


array([3.00938111, 3.99533618])

## 随机梯度下降法

In [5]:
def dJ_sgd(theta,X_b_i,y_i):#随机梯度下降X_b_i是X_b中的任意一行，y_i是y中的任意一行
    return 2. * X_b_i.T.dot(X_b_i.dot(theta)-y_i) / X_b_i.shape[0]#由于是一行，所以X_b_i.shape[0]==1，相当于除以1

In [6]:
def sgd(X_b,y,initial_theta,n_iters):#随机梯度下降法
    t0=5#模拟退火的参数，分子
    t1=50#模拟退火的参数，分母
    
    def learning_rate(t):#t为下降的迭代次数
        return t0/(t+t1)
    theta= initial_theta
    for cur_iter in range(n_iters):#迭代次数
        rand_i=np.random.randint(X_b.shape[0])#随机生成一个int，作为选取样本的索引
        X_b_rand_i=X_b[rand_i,:]#取出rand_i对应的样本
        y_rand_i=y[rand_i]
        gradient=dJ_sgd(theta,X_b_rand_i,y_rand_i)
        theta= theta - learning_rate(cur_iter)*gradient#根据样本计算的梯度，向反方向梯度下降一次
    return theta

In [7]:
print(5000/3,5000//3)

1666.6666666666667 1666


In [8]:
%%time
X_b=np.hstack([np.ones((X.shape[0],1)),X])
initial_theta=np.zeros(X_b.shape[1])
theta=sgd(X_b,y,initial_theta,n_iters=X_b.shape[0]//3)#只需要1/3的样本即可得到不错的结果

Wall time: 1.18 s


In [9]:
theta#随机梯度后发现，其实和实际结果差不多，且只用了1/3的样本数就得到了这个不错的值

array([2.99222031, 4.03160543])