# 均方误差与精度

## 均方误差

均方误差（Mean Squared Error）是回归任务中最常用的性能度量。

对于样本集 $D = \left\{ \left( \boldsymbol{x}_1, y_1 \right), \left( \boldsymbol{x}_2, y_2 \right), \ldots, \left(  \boldsymbol{x}_m, y_m \right) \right\}$，均方误差定义为：

$$ \text{E} \left( f;\ D \right) = \frac{1}{m} \sum_{i=1}^{m} \left( f(\boldsymbol{x}_i) - y_i \right)^2 $$

其中，

- $\boldsymbol{x}_i$ 是第 $i$ 个样本的特征
- $y_i$ 是第 $i$ 个样本的标记
- $f(\cdot)$ 为我们训练得到的学习器


更一般地，对于数据分布 $\mathcal{D}$ 和概率密度函数 $p(\cdot)$，均方误差可描述为

$$ \text{E} \left( f;\ D \right) = \int_{\boldsymbol{x} \sim D} \left( f(\boldsymbol{x}) - y \right) p(\boldsymbol{x}) \text{d}\boldsymbol{x} $$


## 精度

精度是分类任务中常用的性能度量，它是分类正确的样本数占样本总数的比例。

对于样本集 $D = \left\{ \left( \boldsymbol{x}_1, y_1 \right), \left( \boldsymbol{x}_2, y_2 \right), \ldots, \left(  \boldsymbol{x}_m, y_m \right) \right\}$，精度定义为：

$$ \text{acc} \left( f;\ D \right) = \frac{1}{m} \sum_{i=1}^{m} \mathbb{1} \left( f(\boldsymbol{x}_i) = y_i \right) $$

其中，

- $\boldsymbol{x}_i$ 是第 $i$ 个样本的特征
- $y_i$ 是第 $i$ 个样本的标签
- $f(\cdot)$ 为我们训练得到的学习器
- $\mathbb{1} (\cdot)$ 是指示函数


更一般地，对于数据分布 $\mathcal{D}$ 和概率密度函数 $p(\cdot)$，精度可描述为

$$ \text{acc} \left( f;\ D \right) = \int_{\boldsymbol{x} \sim D} \mathbb{1} \left( f(\boldsymbol{x}) = y \right) p(\boldsymbol{x}) \text{d}\boldsymbol{x} $$

## Demo

sklearn中精度和均方误差的计算。

### 均方误差

In [8]:
from sklearn.metrics import mean_squared_error

y_pred = [3, -0.5, 2, 7]
y_true = [2.5, 0.0, 2, 8]
mean_squared_error(y_pred, y_true)

0.375

In [9]:
y_true = [[0.5, 1],[-1, 1],[7, -6]]
y_pred = [[0, 2],[-1, 2],[8, -5]]
print(mean_squared_error(y_true, y_pred))
print(mean_squared_error(y_true, y_pred, multioutput='raw_values'))
print(mean_squared_error(y_true, y_pred, multioutput=[0.3, 0.7]))

0.708333333333
[ 0.41666667  1.        ]
0.825


### 精度

In [10]:
from sklearn.metrics import accuracy_score
import numpy as np

y_pred = [0, 1, 3, 2]
y_true = [1, 1, 2, 2]
accuracy_score(y_pred, y_true)

0.5