# 模型评估 (Model Evaluation)

模型评估是衡量机器学习模型性能的关键步骤，不同的任务类型需要不同的评估指标。

#### **分类任务 (Classification)**

| 评估指标 | 解释说明 | Sklearn 函数 | 代码示例 |
| :--- | :--- | :--- | :--- |
| **准确率 (Accuracy)** | 正确预测的样本数占总样本数的比例。 | `accuracy_score` | `from sklearn.metrics import accuracy_score`<br>`accuracy = accuracy_score(y_test, y_pred)` |
| **混淆矩阵 (Confusion Matrix)** | 详细展示了真阳性、假阳性、真阴性、假阴性数量，是计算其他分类指标的基础。 | `confusion_matrix` | `from sklearn.metrics import confusion_matrix`<br>`cm = confusion_matrix(y_test, y_pred)` |
| **精确率 (Precision)** | 预测为正例的样本中，真正是正例的比例。 | `precision_score` | `from sklearn.metrics import precision_score`<br>`precision = precision_score(y_test, y_pred)` |
| **召回率 (Recall)** | 所有正例样本中，被正确预测出来的比例。 | `recall_score` | `from sklearn.metrics import recall_score`<br>`recall = recall_score(y_test, y_pred)` |
| **F1-分数 (F1-Score)** | 精确率和召回率的调和平均值，综合考虑了两者的平衡。 | `f1_score` | `from sklearn.metrics import f1_score`<br>`f1 = f1_score(y_test, y_pred)` |
| **分类报告 (Classification Report)** | 一次性输出精确率、召回率、F1-分数和支持数。 | `classification_report` | `from sklearn.metrics import classification_report`<br>`print(classification_report(y_test, y_pred))` |
| **AUC (Area Under Curve)** | ROC 曲线下的面积，用于衡量模型区分正负样本的能力。值越接近 1 越好。 | `roc_auc_score` | `from sklearn.metrics import roc_auc_score`<br>`auc_score = roc_auc_score(y_test, y_scores)` |

---

#### **回归任务 (Regression)**

| 评估指标 | 解释说明 | Sklearn 函数 | 代码示例 |
| :--- | :--- | :--- | :--- |
| **均方误差 (Mean Squared Error, MSE)** | 预测值与真实值之差的平方的均值，数值越小越好。 | `mean_squared_error` | `from sklearn.metrics import mean_squared_error`<br>`mse = mean_squared_error(y_test, y_pred)` |
| **平均绝对误差 (Mean Absolute Error, MAE)** | 预测值与真实值之差的绝对值的均值，对异常值不敏感。 | `mean_absolute_error` | `from sklearn.metrics import mean_absolute_error`<br>`mae = mean_absolute_error(y_test, y_pred)` |
| **决定系数 ($R^2$)** | 衡量模型对数据的拟合程度，取值范围通常在 0 到 1 之间，越接近 1 越好。 | `r2_score` | `from sklearn.metrics import r2_score`<br>`r2 = r2_score(y_test, y_pred)` |

## 2-1:分类

| 指标 | 二分类 | 多分类 |
| :--- | :--- | :--- |
| **准确率** | 通用，最常用。 | 通用，但对于不平衡数据可能具有误导性。 |
| **精确率、召回率、F1-分数**| 常见，直接计算。 | 通用，但需要注意**微观平均**和**宏观平均**的区别。 |
| **混淆矩阵** | 2x2 矩阵。 | N x N 矩阵，能直观看出每个类别的分类情况。 |
| **AUC/ROC 曲线** | **常用**，用于评估模型区分能力。 | **不适用**，没有直接对应的概念。 |
| **Log-Loss** | 较少用于评估，但可作为损失函数。 | **常用**，用于评估模型的概率预测质量。 |

## 2-2:回归
| 特征 | 单输出回归 (Single-output) | 多输出回归 (Multi-output) |
| :--- | :--- | :--- |
| **预测目标** | 单个连续的数值。 | 多个连续的数值。 |
| **常见任务** | - 预测房价<br>- 预测股票价格<br>- 预测温度 | - 预测物体的三维坐标 ($x, y, z$)<br>- 预测视频中关键点的运动轨迹<br>- 预测多个股票的未来价格 |
| **评估指标** | - **均方误差 (MSE)**<br>- **平均绝对误差 (MAE)**<br>- **决定系数 ($R^2$)**<br>这些指标都是直接计算的。 | - **逐个输出评估:** 分别计算每个输出的 MSE、MAE 等。<br>- **总体平均评估:** 对所有输出的误差取平均值。 |
| **评估原理** | 预测值与真实值之间的差异。 | 预测向量与真实向量之间的差异。 |
| **模型结构** | 通常只包含一个输出神经元或一个输出变量。 | 包含多个输出神经元或多个输出变量。 |