# 回归模型评价指标

## 均方误差（Mean Squared Error, MSE）

### MSE数学公式

计算所有预测值与实际值之差的平方的平均值。公式为：$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$
   - 其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n $是样本数量。

### MSE优点

1. **对大误差敏感**：由于误差平方的计算，MSE 对较大的误差更加敏感，更加适用于惩罚大误差的情况。
2. **可导性**：MSE 是一个光滑的、可导的函数，易于求导优化。

### MSE缺点

1. **对异常值敏感**：由于 MSE 对误差进行平方，因此易受异常值的影响。如果数据中存在异常值，则需要对其进行预处理或使用其他更加鲁棒的误差度量（如 MAE）。
2. **非直观**：MSE 度量的单位是原始数据单位的平方，量纲不同，因此不够直观。

### MSE适用场景

1. **回归模型评估**：MSE 常用于评估回归模型的性能。

### mean_squared_error(y_true, y_pred)
**y_true：** 因变量真实值

**y_pred：** 因变量预测值

## 均方根误差（Root Mean Squared Error, RMSE）

### RMSE数学公式

MSE的平方根，公式为：$$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$$
  - 其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n $是样本数量。

### RMSE优点

1. **直观性**：RMSE量纲与原始数据一致，解释性强。
2. **对大误差敏感**：与 MSE 类似，RMSE 对较大的误差更加敏感，更加适用于惩罚大误差的情况。
3. **可导性**：RMSE 是一个光滑的、可导的函数，易于求导优化。

### RMSE缺点

1. **对异常值敏感**：由于 RMSE 对误差进行平方，大的异常值会对整体误差有很大的影响，因此易受异常值的影响。如果数据中存在异常值，则需要对其进行预处理或使用其他更加鲁棒的误差度量（如 MAE）。

### RMSE适用场景

1. **回归模型评估**：RMSE 常用于评估回归模型的性能。

### np.sqrt(mean_squared_error(y_true, y_pred))
**y_true：** 因变量真实值

**y_pred：** 因变量预测值

## 平均绝对误差（Mean Absolute Error, MAE）

### MAE数学公式

计算所有预测值与实际值之差的绝对值的平均值。公式为：$$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$$
   - 其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n $是样本数量。

### MAE优点

1. **易于理解**：MAE与原数据量纲一致，易于理解。
2. **对异常值稳定**：MAE对误差取绝对值，不会因少数大误差而过度放大结果，因此适用于包含较多异常值的数据集。

### MAE缺点

1. **缺乏方向性**：MAE 无法反映误差的方向（正偏或负偏）。
2. **较低的区分度**：MAE 对所有误差一视同仁，不会放大较大误差，因此不适用于需要区分大误差和小误差的场景。

### MAE适用场景

1. **回归模型评估**：MAE常用于评估回归模型的性能。

### mean_absolute_error(y_true, y_pred)
**y_true：** 因变量真实值

**y_pred：** 因变量预测值

## 平均绝对百分比误差（Mean Absolute Percentage Error, MAPE）

### MAPE数学公式

计算所有预测值与实际值之差的绝对值占实际值的百分比的平均值。公式为：$$\text{MAPE} = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right|$$
   - 其中，$y_i$ 是实际值，$\hat{y}_i$ 是预测值，$n $是样本数量。

### MAPE优点

1. **易于理解**：MAPE 以百分比形式表示误差，直观易懂。
2. **无量纲性**：由于 MAPE 是百分比误差，因此不受数据单位的影响，适用于不同单位的数据比较。

### MAPE缺点

1. **对零值敏感**：当实际值为零时，MAPE 无法计算。
2. **对大误差敏感**：MAPE 对大误差较为敏感，可能会放大一些异常值的影响。

### MAPE适用场景

1. **回归模型评估**：MAPE常用于评估回归模型的性能。

### np.mean(np.abs((y_true - y_pred) / y_true)) * 100
**y_true：** 因变量真实值

**y_pred：** 因变量预测值

## R方

### R方数学公式

**R方（R²，也称为决定系数）**是回归分析中用于评估模型拟合优度的一个统计量。R方衡量回归模型对目标变量（因变量）变动的解释能力。值越接近1，模型的解释能力越强。公式为：$$R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$$
- 其中，$\bar{y}$ 是实际值的平均数。

### R方优点

1. **无量纲**：R² 是一个无量纲的指标，适用于不同量纲的数据进行比较。
2. **可解释性强**：R² 的值越接近 1，表示模型对数据的拟合越好，模型的解释能力越强。
3. **标准化**：R² 提供了一个标准化的指标，可以用于比较不同模型的拟合效果。

### R方缺点

1. **对特征数量敏感**：在多元线性回归中，R² 可能会随着特征数量的增加而虚高，即使这些特征对模型的解释能力没有实质性贡献。
2. **对非线性关系不敏感**：R² 主要用于评估线性关系的拟合优度，对于非线性关系可能不够敏感。
3. **可能为负值**：在某些情况下，如果模型的预测值比简单取均值更差，R² 可能会小于 0。

### R方适用场景

1. **模型评估**：用于评估回归模型对数据的拟合效果，特别是在学术研究和统计分析中。
2. **特征选择**：通过比较不同模型的 R² 值，选择对目标变量解释能力更强的特征。
3. **模型优化**：通过调整模型参数或选择不同的模型，提高 R² 值，从而优化模型的拟合效果。

### r2_score(y_true, y_pred)
**y_true：** 因变量真实值

**y_pred：** 因变量预测值

## 回归模型评价指标总结

|  | MSE | RMSE | MAE | MAPE | R² |
|---|-----|------|-----|------|----|
| **介绍** | 均方误差，衡量预测值与真实值的平均平方误差 | 均方根误差，MSE的平方根，与数据量纲一致 | 平均绝对误差，预测值与真实值的绝对误差平均值 | 平均绝对百分比误差，以百分比形式表示相对误差 | 决定系数，模型解释目标变量方差的比例 |
| **公式** | $ \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $ | $ \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} $ | $ \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| $ | $ \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right| $ | $ 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $ |
| **取值范围** | $[0, +\infty)$ | $[0, +\infty)$ | $[0, +\infty)$ | $[0\%, +\infty)$ | $(-\infty, 1]$（通常为$[0,1]$） |
| **优点** | 对大误差敏感，易于求导优化 | 量纲与数据一致，解释性强 | 对异常值鲁棒 | 无量纲，适合跨数据集比较 | 标准化指标，可解释性强 |
| **缺点** | 量纲与数据不一致，易受异常值影响 | 仍受异常值影响 | 无法反映误差方向，优化效率较低 | 真实值为零时不可用，对低值敏感 | 易受特征数量增加影响 |
| **适用场景** | 需要惩罚大误差的场景（如金融风险评估） | 需直观理解误差大小的场景（如房价预测） | 异常值较多或需稳健评估的场景（如稀疏数据） | 关注相对误差的场景（如销售预测） | 评估模型对数据变动的解释能力（如学术研究） |

# 代码实现

## 加州住房数据集

**California housing dataset（加州住房数据集）**数据集是一个回归数据集，数据集的目标是根据一系列地区特征（如人口、房间数、收入等）来预测加州地区的住房价格。

- MedHouseVal：住房价格（单位：10万）
- MedInc：家庭收入（单位：万）
- HouseAge：房屋年龄（单位：年）
- AveRooms：平均房间数
- AveBedrms：平均卧室数
- Population：人口
- AveOccup：平均家庭人口
- Latitude：纬度
- Longitude：经度

## 实际案例分析

In [3]:
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error,mean_absolute_error,r2_score

# 加载加州住房数据集
data = fetch_california_housing()
X = data.data
y = data.target

In [11]:
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建随机森林回归模型
rf_regressor = RandomForestRegressor(n_estimators=100, random_state=42)

# 在训练集上训练模型
rf_regressor.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = rf_regressor.predict(X_test)

# 计算评价指标
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, y_pred)
mape = np.mean(np.abs((y_test - y_pred) / y_test)) * 100
r2 = r2_score(y_test, y_pred)

# 打印评价指标
print(f"Mean Squared Error (MSE): {mse:.2f}")
print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
print(f"Mean Absolute Error (MAE): {mae:.2f}")
print(f"Mean Absolute Percentage Error (MAPE): {mape:.2f}%")
print(f"R-squared (R²): {r2:.2f}")

Mean Squared Error (MSE): 0.26
Root Mean Squared Error (RMSE): 0.51
Mean Absolute Error (MAE): 0.33
Mean Absolute Percentage Error (MAPE): 18.92%
R-squared (R²): 0.81
