
# 实验三：随机梯度下降（SGD）与小批量梯度下降（Mini-batch SGD）的理解与实现

在深度学习与机器学习模型的训练过程中，优化算法起着至关重要的作用。梯度下降法（Gradient Descent）作为最基本也是最常用的优化方法之一，其变体在实际应用中更具效率与灵活性。

本实验聚焦于两种常见的梯度下降策略：**随机梯度下降（Stochastic Gradient Descent, SGD）** 和 **小批量梯度下降（Mini-batch SGD）**。二者都是基于传统的**批量梯度下降（Batch Gradient Descent）**进行改进，以提高训练效率和模型收敛的稳定性。

---

## 1. 背景原理

在监督学习中，我们的目标是最小化损失函数 $J(\theta) $，形式如下：

$
J(\theta) = \frac{1}{n} \sum_{i=1}^n \mathcal{L}(f(x_i; \theta), y_i)
$

其中：
- $ \mathcal{L} $：损失函数（如 MSE、交叉熵等）  
- $ \theta $：模型参数  
- $ n $：样本数量

---

## 2. 梯度下降法回顾

传统的梯度下降更新方式为：

$
\theta := \theta - \eta \cdot \nabla_\theta J(\theta)
$

- 优点：更新方向准确，收敛稳定  
- 缺点：每轮更新都需遍历所有样本，计算代价高，不适合大数据场景

---

## 3. 随机梯度下降（SGD）

SGD 每次使用一个样本进行参数更新：

$
\theta := \theta - \eta \cdot \nabla_\theta \mathcal{L}(f(x_i; \theta), y_i)
$

- 优点：计算效率高，能跳出局部最优  
- 缺点：梯度波动大，收敛路径不稳定

---

## 4. 小批量梯度下降（Mini-batch SGD）

Mini-batch SGD 使用一个小样本集合 $ B \subset \{1, \dots, n\} $：

$
\theta := \theta - \eta \cdot \frac{1}{|B|} \sum_{i \in B} \nabla_\theta \mathcal{L}(f(x_i; \theta), y_i)
$

- 优点：在收敛稳定性与计算效率之间取得平衡，是深度学习中最常用的优化方式

---

## 5. 实验目的

- 理解 SGD 与 Mini-batch SGD 的基本原理与数学表达  
- 学会使用 Python 实现两种方法  
- 对比两者在训练过程中的表现差异，如收敛速度、损失波动等


In [7]:
import numpy as np
from matplotlib import pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

## 实现小批量梯度下降算法对线性回归求解

In [6]:
"""
类说明：LinearRegression_msgd
    编写代码实现利用小批量梯度下降算法对线性回归求解：
    1. 随机选出B条训练数据
    2. 计算选出B条训练数据上的经验损失梯度
    3. 更新 w 的值
    
Parameters:
      X   - 数据
      y   - 标签
    eat_0 - 算法参数
    eta_1 - 算法参数
      N   - 搜索步数
      B   - 批次大小
Returns:
"""
class LinearRegression_msgd:    
    
    def fit(self, X, y, eta_0 = 10, eta_1 = 50, N = 3000, B = 10):
#####  Start Code Here  #####
        self.N = N
    
        # 用于绘图
        self.W = np.zeros((N,1))
        
        # 获取 X 的维度
           
            
        # 初始化权重

        
        # 开始 N 轮循环, 进行梯度下降搜索
        for t in range(N):

            
            self.W[t][0] = np.sum(w[0])
            
        self.w /= N
#####  End Code Here  #####    
    def predict(self, X):
        return X.dot(self.w)

## 实现随机梯度下降算法对线性回归求解

In [4]:
"""
类说明：LinearRegression
    编写代码实现利随机梯度下降算法对线性回归求解：
    1. 从训练数据中进行随机采样
    2. 计算经验损失的梯度
    3. 更新 w 的值
Parameters:
      X   - 数据
      y   - 标签
    eat_0 - 算法参数
    eta_1 - 算法参数
      N   - 搜索步数
Returns:
"""
class LinearRegression:

    def fit(self, X, y, eta_0 = 10, eta_1 = 50, N = 3000):
#####  Start Code Here  #####
        # 获取X的维度
        
        
        # 用于绘图
        self.W = np.zeros((N, 1))
        
        # 初始化权重 w
       
    
        # 开始 N 轮循环, 进行梯度下降搜索
        for t in range(N):
            
            
            self.W[t][0] = np.sum(w[0])
            

#####  End Code Here  #####  
        self.w /= N
    
    def predict(self, X):
        return X.dot(self.w)

## 【实验实战】：飞机噪音

使用一个来自 NASA 的测试不同飞机机翼噪音的数据集来比较随机梯度下降算法和小批量梯度下降算法， 我们使用该数据集的前 1500 个样本和 5 个特征， 并使用标准化对数据进行预处理。 

In [11]:
def get_data_ch7():  
    data = np.genfromtxt('airfoil_self_noise.dat', delimiter = '\t')
    data = (data - data.mean(axis = 0)) / data.std(axis = 0)
    return np.array(data[:1300, :-1]), np.array(data[:1300, -1]), np.array(data[1300:1500, :-1]), np.array(data[1300:1500, -1])

In [None]:
# 获取训练集合测试
X_train, y_train,X_test, y_test  = get_data_ch7()

#####  Start Code Here  #####
# 使用 process_features函数对数据进行标准化处理


# 定义随机梯度下降算法模型


# 模型训练


W = model.W
fig = plt.figure(figsize = (20,8),dpi = 80)
y = np.linspace(1,model.N, model.N)
plt.plot(y, W)
plt.show()

# 计算均方误差和r2系数
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
score = r2_score(y_test, y_pred)
print("mse = {}, r2 = {}".format(mse, score))

# 定义小批量梯度下降算法模型


# 模型训练


#####  End Code Here  #####
W = model.W
fig = plt.figure(figsize = (20,8), dpi = 80)
y = np.linspace(1,model.N, model.N)
plt.plot(y, W)
plt.show()

# 计算均方误差和r2系数
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
score = r2_score(y_test, y_pred)
print("mse = {}, r2 = {}".format(mse, score))

## 实验扩展1：损失函数收敛曲线可视化

为了更直观地比较两种优化算法的收敛速度，我们记录每一轮训练过程中的损失值，并绘制损失函数曲线。

In [None]:

# 假设你在模型训练过程中记录了每一轮的损失
# 这里模拟两个损失序列（真实使用时请从模型中提取）
epochs = list(range(1, 101))
loss_sgd = [np.exp(-0.05 * x) + 0.02 * np.random.randn() for x in epochs]
loss_msgd = [np.exp(-0.08 * x) + 0.02 * np.random.randn() for x in epochs]

plt.plot(epochs, loss_sgd, label='SGD')
plt.plot(epochs, loss_msgd, label='Mini-batch SGD')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('损失函数收敛曲线')
plt.legend()
plt.grid(True)
plt.show()


## 实验扩展2：不同 Batch Size 下 Mini-batch SGD 的表现

In [None]:

batch_sizes = [1, 16, 32, 64]
# 假设我们已有一个训练函数 train_msgd(batch_size)，返回最终误差
results = {}

for b in batch_sizes:
    # 此处示例使用模拟误差，真实实验中请调用模型训练过程
    error = np.random.uniform(0.02, 0.1)  # 替换为真实误差
    results[b] = error

# 绘图展示误差随 batch size 变化趋势
plt.plot(results.keys(), results.values(), marker='o')
plt.xlabel('Batch Size')
plt.ylabel('Final MSE')
plt.title('不同 Batch Size 的模型误差')
plt.grid(True)
plt.show()


## 实验扩展3：测试集性能对比

In [None]:

# 假设两个模型的测试误差如下（请用真实误差替换）
mse_sgd = 0.045
mse_msgd = 0.032

import pandas as pd
df = pd.DataFrame({
    '算法': ['SGD', 'Mini-batch SGD'],
    '测试集MSE': [mse_sgd, mse_msgd]
})
print(df)



## 实验总结

- **SGD** 收敛速度较慢，但实现简单，占用内存小。
- **Mini-batch SGD** 能在收敛速度和计算效率之间取得平衡，适合大规模数据训练。
- 不同 batch size 会影响训练稳定性和误差大小，需根据具体任务选择合适的值。
