# bias-variation decomposition

在周志华的机器学习书籍中，没有看明白bias-variation decomposition的推导公式，查阅资料后，使用下面的方法进行推导就明白多了。

###### 用到的知识

对于任意一个随机变量$X$，其对应的期望$E[X]=\mu$，方差为$Var(X)$，那么有

$Var(X)=E[X^2]-E[X]^2$

###### 定义

首先我们定义：

$D$表示训练数据集

$y=f(x)$表示确定的Infer函数，即给定采样数据$x$，通过这个函数就可以确定输出$y$；

$\hat{f}(x)$表示从数据集$D$学得的模型，即给定采样数据$x$，通过这个函数预测到其对应值为$\hat{f}(x)$

$y_D$表示数据集$D$中某个采样数据$x$对应的实际标签，注意，这个标签不一定是真实的标签，其真实的标签为$y$，两者之间的差异即为噪声$\epsilon$，假定噪声的均值$E[\epsilon]=0$，方差$Var(\epsilon)=\sigma^2$。

那么对于训练数据集$D$训练所得的模型$\hat{f}$，其期望均方误差（这个就是我们训练模型时最小化误差的计算方式）为：

$$
\begin{align}
E[(\hat{f}-y_D)^2] &=E[\hat{f}^2-2y_D\hat{f}+y_D^2] \\
&=E[\hat{f}^2]-2E[y_D]E[\hat{f}]+E[y_D^2]\\
\end{align}
$$

由于：
$$
\begin{align}
E[\hat{f}^2] &= Var（\hat{f})+E[\hat{f}]^2 \\
E[y_D^2] &= Var(y_D)+E[y_D]^2 \\
E[y_D] &= E[f+\epsilon]=E[f]+E[\epsilon]=E[f]=f\\
E[y_D]E[\hat{f}]&=E[f+\epsilon]E[\hat{f}]=fE[\hat{f}]
\end{align}
$$
那么有
$$
\begin{align}
E[((\hat{f})-y_D)^2] &=(Var（\hat{f})+E[\hat{f}]^2) -2fE[\hat{f}]+(Var(y_D)+E[y_D]^2)\\
	&=(Var（\hat{f})+E[\hat{f}]^2) -2fE[\hat{f}]+(Var(y_D)+f^2) \\
	&=Var(y_D)+Var(\hat{f})+(f^2-2fE[\hat{f}]+E[\hat{f}]^2)\\
	&=Var(y_D)+Var(\hat{f})+(f-\hat{f})^2\\
\end{align}
$$
上式中：
$$
\begin{align}
Bias[\hat{f}]&=E[\hat{f}-f]=E[\hat{f}]-E[f]=E[\hat{f}]-f\\
Bias[\hat{f}]^2&=(E[\hat{f}-f])^2\\
&=(f-E[\hat{f}])^2
\end{align}
$$

$$
\begin{align}
Var(y_D)&=E[(y_D-E[y_D])^2]\\
	&= E[(y_D-y)^2] \\
	&= E[(y+\epsilon-y)^2] \\
	&= E[\epsilon^2] \\
	&= Var(\epsilon)+E[\epsilon]^2 \\
	&= \sigma^2
\end{align}
$$

所以，有
$$
E[(\hat{f}-y+D)^2]=Var(\hat{f})+Bias(\hat{f})^2+\sigma^2
$$


# 数学期望，方差，标准差
这些概念都是针对随机变量的概念，随机变量可以使用**上帝视觉**来加深理解。通常我们计算的数学期望、方差、标准差都是基于某些数据**估计**得到的，这就是**参数估计**。而真实的数学期望、方差、标准差是使用随机变量的概率分布函数/概率密度函数计算得到的。

# 到底什么是极大似然
这是在**统计推断（Statistical Inference）**中**参数估计（Estimation）**中用到的方法。

> 参考：[极大似然估计](https://blog.csdn.net/zengxiantao1994/article/details/72787849)

# 贝叶斯分类
1. 极大似然估计（Maximum Likelyhood Estimation）

# 决策树的优缺点

# 集成方法 (Bagging, AdaBoost, Random Forest, Gradient Boosting)

## AdaBoost（Adaptive Boosting）

AdaBoost的算法步骤：
给定一个二分类的数据集：$T={(x_1, y_1), (x_2,y_2), (x_3, y_3), \dotso, (x_N, y_N)}$
每个样本点由特征向量和对应的标记组合，特征向量$x_i\in\mathcal{X}\subseteq\mathbf{R}^n$，标记$y_i\in\mathcal{Y}={-1,+1}$。其中$\mathcal{X}$是特征空间，$\mathcal{Y}$是标记集合。Adaboost从训练数据中学习一系列弱分类算法/基本分类器，并最终使用权重将这些弱分类器线性组合成一个强分类器。
输入：训练数据集$T$，对应的标签$y_i$，某种弱学习算法（例如决策树）。
输出：最终的分类器$G(x)$。
步骤如下：
1. 初始化训练数据集中每个采样点的误差权重（该权重用于产生改变该采样点在后续处理过程中的重要性）：
$$
D_1=(w_{1,1},w_{1,2},w_{1,3},\dotso,w_{1,N}), w_{1,i}=\frac{1}{N},i=1,2,3,\dotso,N
$$
 $D_1$的下标$1$表示训练的轮数，$D_1$即第一轮
2. 设训练轮数$m=1,2,3,\dotso,M$
 1. 使用权重分布$D_m$对训练数据集$T$进行训练，得到弱分类器：
   $$
   G_m(x):\mathcal{X}\mapsto{-1,+1}
   $$
 2. 计算$G_m(x)$在训练集上的分类误差
   $$
   e_m=\sum_{i=1}^{N}P(G_m(x)\neq y_i)=\sum_{i=1}^{N}w_{m,i}I(G_m(x_i)\neq y_i)
   $$
   上式中的$I(G_m(x_i)\neq y_i)$是指示函数，表示当$G_m(x_i)=y_i$时，$I(x)=1$，否则$I(x)=0$，那么$\sum_{i=1}^{N}w_{m,i}I(G_m(x_i)\neq y_i)$就等于弱分类器在所有错误分类的样本中，对应的误差权重$w_{m,i}$之和。
 3. 计算弱分类器$G_m(x)$在最终输出的强分类器中的权重系数，表示这一弱分类器在最终强分类器中的重要程度：
   $$
   \alpha=\frac{1}{2}ln\frac{1-e_m}{e_m}
   $$
 4. 更新计算出下一轮的弱分类器所需的样本权重：
   $$
   D_{m+1}=(w_{m+1,1},w_{m+1,2},w_{m+1,3},\dotso,w_{m+1,N}) \\
   w_{m+1,i}=\frac{w_{m,i}}{Z_m}e^{-\alpha_{m}y_{i}G_{m}(x_i)}, i=1,2,3,\dotso,N
   $$
   其中，$Z_m$是上一轮权重的归一化因子
   $$
   Z_m=\sum_{i=1}^{N}w_{m,i}e^{-\alpha_{m}y_{i}G_{m}(x)}
   $$
3. 经过$M$轮训练之后，就可以得到$M$个弱分类器，和对应的$M$个权重系数$\alpha_i$，最终的强分类器为：
  $$
  f(x)=\sum_{m=1}^{M}\alpha_{m}G_{m}(x)
  $$
  
由上面计算每个弱分类器的权重系数$\alpha_m=\frac{1}{2}ln\frac{1-e_m}{e_m}$，可以知道，由于弱分类器必须满足$e_m\leq \frac{1}{2}$，所以有$\alpha_m\geq 0$，并且随着$e_m$不断减小，$\alpha_m$将不断增大，也就是说，每当当前训练得到的弱分流器对于样本集的分类误差率更小时，它在最终获得的强分类器中的重要性就越高。

下面举例说明这一过程。
给定下表所示的数据集：

|序号|1|2|3|4|5|6|7|8|9|10|
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
|$x$|0|1|2|3|4|5|6|7|8|9|
|$y$|1|1|1|-1|-1|-1|1|1|1|-1|

假定弱分类器由$x<v$或$x>v$生成，阈值$v$在使得当前弱分类器在训练数据集上的分类误差最小时取得。（**弱分类器的生成规则需要进一步研究**）
使用AdaBoost的实现过程：
1. 第一轮，$m=1$
 1. 初始化样本的权重值
   $$
   D_1=(w_{1,1},w_{1,2},w_{1,3},\dotso,w_{1,10}), w_{1,i}=\frac{1}{10}=0.1
   $$
 2. 在权重$D_1$的基础上，训练弱分类器，训练结果如下

In [6]:
import numpy as np
import pandas as pd
from collections import defaultdict
from sklearn.metrics import accuracy_score

x = np.arange(10)
y = np.array([1,1,1,-1,-1,-1,1,1,1,-1])

def predict_according_to_v(x, v, positive=1):
    result = np.zeros(x.shape[0])
    for i, val in enumerate(x):
        if val > v:
            result[i] = positive
        else:
            result[i] = -positive
    return result
min_error = 1
threshold = 0
positive = 1
for v in range(12):
    v = v - 0.5
    pred = predict_according_to_v(x, v)
    error = 1-accuracy_score(y, pred)
    if error < min_error:
        min_error = error
        threshold = v
        positive = 1
    pred = predict_according_to_v(x, v, positive=-1)
    error = 1-accuracy_score(y, pred)
    if error < min_error:
        min_error = error
        threshold = v
        positive = -1
print("result positive:{}, threshold:{}, min error:{}".format(positive, threshold, min_error))

result positive:-1, threshold:2.5, min error:0.30000000000000004



1. 续前文。
  2. 由以上结果可以知道,当阈值$v=0.25$时分类误差最小，因此得到弱分类器
  $$
  G_1(x) = \left\{ \begin{array}{rcl}
  1, &  x<2.5 \\
  -1, &  x >2.5
  \end{array}\right.
  $$
  
  3. 有以上结果可以知道，$G_1(x)$在训练集上的训练误差率为$e_1=P(G_i(x_i))\neq y_i)=0.3$
  4. 计算$G_1(x)$的权重系数：$\alpha_1=\frac{1}{2}ln\frac{1-e_1}{e_1}=0.4236$
  5. 更新样本点的误差权重，用以下一轮训练使用：
    $$
    D_2=(w_{2,1},w_{2,2},w_{2,3},\dotso,w_{2,N}) \\
    w_{2,i}=\frac{w_{1,i}}{Z_1}e^{-\alpha_{1}y_{i}G_{1}(x_i)}
    $$

In [11]:
D1=np.ones(10)/10
# D1 对应的预测
G1 = predict_according_to_v(x, 2.5, -1)
e1 = 1- accuracy_score(y, G1)
a1 = 1.0/2*np.log((1-e1)/e1)
Z1 = np.sum(D1 * np.exp(-a1*y*G1))
D2 = D1/Z1*np.exp(-a1*y*G1)
print(Z1)
print(D2)

0.9165151389911682
[0.07142857 0.07142857 0.07142857 0.07142857 0.07142857 0.07142857
 0.16666667 0.16666667 0.16666667 0.07142857]


于是得到第一轮结束后的分类器：$sign[f_1(x)]$，该分类器在训练集上仍然由3个误分类点，因此需要继续下一轮。
2. 第二轮，$m=2$
 1. 在误差权重$D_2$上训练弱分类器，当分类误差最小时，可以得到如下弱分类器：
     $$
  G_2(x) = \left\{ \begin{array}{rcl}
  1, &  x<8.5 \\
  -1, &  x >8.5
  \end{array}\right.
  $$

In [17]:
D2 = np.array([0.07142857, 0.07142857, 0.07142857, 0.07142857, 0.07142857, 0.07142857,
    0.16666667, 0.16666667, 0.16666667, 0.07142857])
G2 = predict_according_to_v(x, 8.5, -1)
e2 = 0
for i, val in enumerate(y):
    if val != G2[i]:
        e2 += D2[i]
a2 = 1.0/2*np.log((1-e2)/e2)
Z2 = np.sum(D2 * np.exp(-a2*y*G2))
D3 = D2/Z2*np.exp(-a2*y*G2)

print("e2:{}\na2:{}\nD3:{}".format(e2, a2, D3))

e2:0.21428571
a2:0.6496415047924033
D3:[0.04545454 0.04545454 0.04545454 0.16666667 0.16666667 0.16666667
 0.10606061 0.10606061 0.10606061 0.04545454]


2. 续前文
 2. 计算得到$G_2(x)$在训练数据集上的误差率为$e_2=0.2143$.
 3. 计算弱分类器的权重系数得到：$\alpha_2=0.6496$.
 4. 计算得到第三轮的误差权重：
  $$D_3=(0.04545454, 0.04545454, 0.04545454, 0.16666667, 0.16666667, 0.16666667
, 0.10606061, 0.10606061, 0.10606061, 0.04545454) \\
  f_2(x)=\alpha_{1}G_1(x)+\alpha_{2}G_2(x)=0.4236G_1(x)+0.6496G_2(x)
  $$
  得到的分类器$sign[f_2(x)]$在训练数据集上仍然由3个误分类点，所以要继续下一轮计算

3. 第三轮，$m=3$
 1. 在误差权重$D_3$下训练数据，在误差率最低时，得到如下弱分类器：
  $$
  G_3(x) = \left\{ \begin{array}{rcl}
  1, &  x>5.5 \\
  -1, &  x<5.5
  \end{array}\right.
  $$


In [20]:
D3 = np.array([0.04545454,0.04545454,0.04545454,0.16666667,0.16666667,0.16666667,
               0.10606061,0.10606061,0.10606061,0.04545454])
G3 = predict_according_to_v(x, 5.5, 1)
e3 = 0
for i, val in enumerate(y):
    if val != G3[i]:
        e3 += D3[i]
a3 = 1.0/2*np.log((1-e3)/e3)
Z3 = np.sum(D3 * np.exp(-a3*y*G3))
D4 = D3/Z3*np.exp(-a3*y*G3)

print("e3:{}\na3:{}\nD4:{}".format(e3, a3, D4))

e3:0.18181816
a3:0.7520387717214738
D4:[0.125      0.125      0.125      0.10185185 0.10185185 0.10185185
 0.06481482 0.06481482 0.06481482 0.125     ]


3. 续前文
 2. 计算得到$G_3(x)$在训练数据集上的误差率为$e_3=0.1820$.
 3. 计算弱分类器的权重系数得到：$\alpha_3=0.7520$.
 4. 计算得到第三轮的误差权重：
  $$D_4=(0.125, 0.125, 0.125, 0.10185185, 0.10185185, 0.10185185
, 0.06481482,0.06481482, 0.06481482, 0.125) \\
  f_3(x)=\alpha_{1}G_1(x)+\alpha_{2}G_2(x)+\alpha_{3}G_3(x)=0.4236G_1(x)+0.6496G_2(x)+0.7520G_3(x)
  $$
  得到的分类器$sign[f_3(x)]$在训练数据集上已经没有误分类点了，所以不需要进行下一轮计算。

# K近邻

# 随机梯度下降分类器 (SGDC)

# 支持向量机（SVM）

# Logistic回归