## 随机梯度下降法

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
m = 100000 % 但是之前是用的1000个样本，现在是100倍了

x = np.random.normal(size=m) # 产生m个样本
X = x.reshape(-1, 1) # 写成矩阵的形式
y = 4.*X + 3. + np.random.normal(0, 3, size=m) # X相当于x轴 

In [3]:
def J(theta, X_b, y): # 计算导数才是真正困难的地方
    try: # 这个不会出现inf的现象，但是会有OverflowError的可能
        return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
    except OverflowError:
        return float('inf')
    
def dJ(theta, X_b, y):
    return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)

# X_b实际的样本输入矩阵
# 为什么是梯度下降呢？因为我们的要最小化损失函数啊，或者最大化效率函数啊
def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):
    
    theta = initial_theta
    cur_iter = 0 # 遇到不会的不要卡主啊，不是说不被卡主的能力吗？
    
    while cur_iter < n_iters:
        gradient = dJ(theta, X_b, y)
        last_theta = theta
        theta = theta - eta * gradient # 最基本的思想
        # 终止条件
        if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
            break
        
        cur_iter += 1
        
    return theta

In [4]:
%%time
X_b = np.hstack([np.ones((len(X), 1)), X])
initial_theta = np.zeros(X_b.shape[1])
eta = 0.01
theta = gradient_descent(X_b, y, initial_theta, eta)

Wall time: 1.26 s


In [5]:
theta

array([ 2.99549148,  3.98880041])

### 随机梯度下降法

In [11]:
# def dJ_sgd(theta, X_b, y):
def dJ_sgd(theta, X_b_i, y_i): # y_i是什么意思啊？y不就是标签向量吗？  
    # return X_b.T.dot((theta) - y) * 2. / len(y)
    return X_b_i.T.dot(X_b_i.dot(theta) - y_i) * 2.

In [27]:
# 梯度下降法过程
def sgd(X_b, y, initial_theta, n_iters, t0=5, t1=50):
    # 不需要传eta了
    # t0 = 5  
    # t1 = 50
    
    def learning_rate(t):
        return t0 / (t + t1)

    theta = initial_theta
    rand_i = np.random.randint(len(X_b))
    for cur_iter in range(n_iters):
        # rand_i = np.random.randint(len(X_b)) # 随机提取样本行数，从索引0开始吧
        gradient = dJ_sgd(theta, X_b[rand_i], y[rand_i])
        theta = theta - learning_rate(cur_iter) * gradient
        # print(J(theta, X_b, y))
    print(J(theta, X_b, y))
    return theta # 随机梯度下降法

### 测试随机梯度下降法

In [42]:
%%time
X_b = np.hstack([np.ones((len(X), 1)), X]) # 生成了供其他函数使用的
initial_theta = np.zeros(X_b.shape[1]) # 和样本特征数目是一致的，注意是X_b
theta = sgd(X_b, y, initial_theta, n_iters=len(X_b)//3) # 只检测了1/3的样本时就效果很好了
# theta = sgd(X_b, y, initial_thn_iterseta, =len(X_b))
# 展示了这种策略的强大之处

80.8369616524
Wall time: 261 ms


In [34]:
theta

array([ 2.55640616,  3.7391099 ])

封装py脚本的需要注意的地方
1. self
2. assert
3. 最外层的函数传入的是数据集合超参数