# bias-variation decomposition

在周志华的机器学习书籍中，没有看明白bias-variation decomposition的推导公式，查阅资料后，使用下面的方法进行推导就明白多了。

###### 用到的知识

对于任意一个随机变量$X$，其对应的期望$E[X]=\mu$，方差为$Var(X)$，那么有

$Var(X)=E[X^2]-E[X]^2$

###### 定义

首先我们定义：

$D$表示训练数据集

$y=f(x)$表示确定的Infer函数，即给定采样数据$x$，通过这个函数就可以确定输出$y$；

$\hat{f}(x)$表示从数据集$$D$$学得的模型，即给定采样数据$x$，通过这个函数预测到其对应值为$\hat{f}(x)$

$y_D$表示数据集$D$中某个采样数据$x$$对应的实际标签，注意，这个标签不一定是真实的标签，其真实的标签为$$y$$，两者之间的差异即为噪声$$\epsilon$$，假定噪声的均值$$E[\epsilon]=0$$，方差$$Var(\epsilon)=\sigma^2$$。

那么对于训练数据集$$D$$训练所得的模型$$\hat{f}$$，其期望均方误差（这个就是我们训练模型时最小化误差的计算方式）为：

$$
\begin{align}
E[(\hat{f}-y_D)^2] &=E[\hat{f}^2-2y_D\hat{f}+y_D^2] \\
&=E[\hat{f}^2]-2E[y_D]E[\hat{f}]+E[y_D^2]\\
\end{align}
$$

由于：
$$
\begin{align}
E[\hat{f}^2] &= Var（\hat{f})+E[\hat{f}]^2 \\
E[y_D^2] &= Var(y_D)+E[y_D]^2 \\
E[y_D] &= E[f+\epsilon]=E[f]+E[\epsilon]=E[f]=f\\
E[y_D]E[\hat{f}]&=E[f+\epsilon]E[\hat{f}]=fE[\hat{f}]
\end{align}
$$
那么有
$$
\begin{align}
E[((\hat{f})-y_D)^2] &=(Var（\hat{f})+E[\hat{f}]^2) -2fE[\hat{f}]+(Var(y_D)+E[y_D]^2)\\
	&=(Var（\hat{f})+E[\hat{f}]^2) -2fE[\hat{f}]+(Var(y_D)+f^2) \\
	&=Var(y_D)+Var(\hat{f})+(f^2-2fE[\hat{f}]+E[\hat{f}]^2)\\
	&=Var(y_D)+Var(\hat{f})+(f-\hat{f})^2\\
\end{align}
$$
上式中：
$$
\begin{align}
Bias[\hat{f}]&=E[\hat{f}-f]=E[\hat{f}]-E[f]=E[\hat{f}]-f\\
Bias[\hat{f}]^2&=(E[\hat{f}-f])^2\\
&=(f-E[\hat{f}])^2
\end{align}
$$

$$
\begin{align}
Var(y_D)&=E[(y_D-E[y_D])^2]\\
	&= E[(y_D-y)^2] \\
	&= E[(y+\epsilon-y)^2] \\
	&= E[\epsilon^2] \\
	&= Var(\epsilon)+E[\epsilon^2] \\
	&= \sigma^2
\end{align}
$$

所以，有
$$
E[(\hat{f}-y+D)^2]=Var(\hat{f})+Bias(\hat{f})^2+\sigma^2
$$
