# GD Debug

[![GD12.png](https://i.postimg.cc/YSYR9D9g/GD12.png)](https://postimg.cc/wtxL4VDT)

- 如图所示，红色点的斜率等于加减 $\epsilon$ 得到的两蓝点的斜率
- 我们就可以用这种方法来验证梯度下降算法是否正确
- 对于多维
[![GD13.png](https://i.postimg.cc/cJCtHXch/GD13.png)](https://postimg.cc/KKX8p7w3)


### 1. 准备数据

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
np.random.seed(333)
# 模拟样本 X
X = np.random.random(size=(1000, 10))

In [4]:
true_theta = np.arange(1, 12, dtype=float)

In [6]:
X_b = np.hstack([np.ones([len(X), 1]), X])
y = X_b.dot(true_theta) + np.random.normal(size=1000)

In [8]:
X_b.shape

(1000, 11)

In [10]:
y.shape

(1000,)

In [11]:
true_theta

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10., 11.])

### 2. 编写测试代码

In [15]:
def J(theta, X_b, y):
    # 损失函数
    try:
        return np.sum((y - X_b.dot(theta))**2) / len(y)
    except:
        return float('inf')
    
def dJ_math(theta, X_b, y):
    # 数学公式计算梯度
    return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)

In [16]:
def dJ_debug(theta, X_b, y, epsilon=0.01):
    # debug 
    res = np.empty(len(theta))
    for i in range(len(theta)):
        theta_1 = theta.copy()
        theta_1[i] += epsilon
        theta_2 = theta.copy()
        theta_2[i] -= epsilon
        res[i] = (J(theta_1, X_b, y) - J(theta_2, X_b, y)) / (2 * epsilon)
        
    return res

In [17]:
def gradient_descent(dJ, X_b, y, initial_theta, eta, n_iters = 1e4, epsilon=1e-8):
    theta = initial_theta
    i_iter = 0
    
    while i_iter < n_iters:
        gradient = dJ(theta, X_b, y)
        last_theta = theta
        theta = theta - eta * gradient

        if np.abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon:
            break
        
        i_iter += 1
    
    return theta

In [21]:
X_b = np.hstack([np.ones([len(X), 1]), X])
initial_theta = np.zeros(X_b.shape[1])
eta = 0.01

### 3. 测试两种计算梯度方法

#### 使用 dJ_bug 求梯度

In [22]:
%time theta = gradient_descent(dJ_debug,X_b, y, initial_theta, eta)
theta

Wall time: 6.52 s


array([ 0.96971229,  2.07862766,  2.8767477 ,  4.02103053,  5.02736087,
        6.03361646,  7.04983187,  8.13331213,  8.88639463,  9.9564143 ,
       11.01513016])

#### 使用 dJ_math求梯度

In [23]:
%time theta = gradient_descent(dJ_math,X_b, y, initial_theta, eta)
theta

Wall time: 972 ms


array([ 0.96971229,  2.07862766,  2.8767477 ,  4.02103053,  5.02736087,
        6.03361646,  7.04983187,  8.13331213,  8.88639463,  9.9564143 ,
       11.01513016])

- 可以看出，利用数学推导的计算梯度方式和 dJ_debug 得到的 theta 是一致的
- 在实际写代码中，我们可以先用小部分数据使用 dJ_debug 方法发计算 theta1
- 然后用 dJ_math 来处理所有样本，得到 theta2 , 如果 theta1 和 theta2 相识，说明我们的梯度下降算法没问题

### 4. 小结

- 批量梯度下降算法（Batch Gradient Descent）
      - 速度慢，但是一定能找到最优结果
- 随机梯度下降算法（Stochastic Gredient Descent）
      - 速度快，但是不稳定，方向不确定
- 小批量梯度下降法（Mini-Batch Gradient Descent）