在回归模型中，损失函数用于量化预测值与真实值之间的差异，并通过优化算法调整模型参数以最小化这种差异，从而达到训练模型的目的。回归模型的损失函数有**均方误差（Mean Squared Error, MSE）**、**平均绝对误差（Mean Absolute Error, MAE）**

# 均方误差（Mean Squared Error, MSE）

## 数学公式

计算所有预测值与实际值之差的平方的平均值。公式为：
$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$
其中，
- $y_i$ 是实际值，
- $\hat{y}_i$ 是预测值，
- $n$是样本数量。

## python实现

In [1]:
import numpy as np

def mse_numpy(y_true, y_pred):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    return np.mean((y_true - y_pred)**2)

# 示例数据
y_true = np.array([3, 5, 2.5, 7])
y_pred = np.array([2.5, 5, 4, 8])
print(mse_numpy(y_true, y_pred))

0.875


# 平均绝对误差（Mean Absolute Error, MAE）

## 数学公式

计算所有预测值与实际值之差的绝对值的平均值。公式为：
$$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$$
其中，
- $y_i$ 是实际值，
- $\hat{y}_i$ 是预测值，
- $n$是样本数量。

## python实现

In [2]:
import numpy as np

def mae_numpy(y_true, y_pred):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    return np.mean(np.abs(y_true - y_pred))

# 示例数据
y_true = np.array([3, 5, 2.5, 7])
y_pred = np.array([2.5, 5, 4, 8])
print(mae_numpy(y_true, y_pred))

0.75


# 回归模型损失函数总结

| 对比维度         | **MSE (Mean Squared Error)** | **MAE (Mean Absolute Error)** |
|:-----------------|:-----------------------------|:-----------------------------|
| **公式**         | $\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ | $\frac{1}{n} \sum_{i=1}^{n} \| y_i - \hat{y}_i \|$ |
| **对异常值敏感性** | 高敏感（平方放大大误差） | 鲁棒（绝对误差抑制大误差影响） |
| **优化特性**     | 平滑可导，适合梯度下降 | 在零点不可导，优化可能收敛较慢 |
| **梯度性质**     | 梯度随误差线性增长（∝ \( y - \hat{y} \)） | 梯度为常数（±1，取决于误差符号） |
| **计算效率**     | 计算快（向量化优化友好） | 计算快（但手动循环可能略慢于MSE） |
| **噪声分布假设** | 高斯噪声 | 拉普拉斯噪声 |
| **误差分布特点** | 倾向于惩罚大误差（适用于均匀小误差场景） | 误差分布更均匀（适用于对离群点不敏感场景） |
| **适用场景**     | 数据噪声小、无显著离群点 | 数据存在离群点、需要鲁棒性 |