[TOC]
给定数据点集合
x
(
1
)
,
.
.
.
,
x
(
m
)
和输出集合
y
(
1
)
,
.
.
.
,
y
(
m
)
,我们想建立一个分类器,让它学习如何从
x
预测
y
。
不同类型的预测模型见下表:
模型
输出
例子
回归
连续
线性回归
分类器
类别
逻辑回归、支持向量机、朴素贝叶斯
模型
目标
例子
判别式
估计
P
(
y
|
x
)
各种回归、支持向量机
生成式
预测
P
(
x
|
y
)
用于推断
P
(
y
|
x
)
GDA,朴素贝叶斯
记一个假设
h
θ
, 是我们选择的模型。对于给定的输入
x
(
i
)
,模型预测结果是
h
θ
(
x
(
i
)
)
。
损失函数
L
:
(
z
,
y
)
∈
R
×
Y
↦
L
(
z
,
y
)
∈
R
,把预测值
y
和真实值
z
作为输入,输出他们的差异程度。常见的损失函数见下表:
二乘法
Logistic
Hinge
交叉熵
1
2
(
y
−
z
)
2
log
(
1
+
exp
(
−
y
z
)
)
max
(
0
,
1
−
y
z
)
−
[
y
log
(
z
)
+
(
1
−
y
)
log
(
1
−
z
)
]
线性回归
逻辑回归
支持向量机
神经网络
代价函数
J
通常用于表示模型的性能,和损失函数
L
一起,定义如下:
J
θ
=
∑
i
=
1
m
L
(
h
θ
(
x
(
i
)
,
y
(
i
)
)
)
若学习率
α
∈
R
,梯度下降法更新规则用学习率和代价函数
J
表示:
θ
←
θ
−
α
∇
J
(
θ
)
备注:随机梯度下降算法(Stochastic gradient descent, SGD)基于每个训练数据更新参数,而批量梯度下降法(batch gradient descent)是基于批量数据。
模型的似然
L
(
θ
)
是 通过将其最大化找到最优的参数
θ
。 在实际过程中,我们一般用对数似然
ℓ
(
θ
)
=
log
(
L
(
θ
)
)
,更容易优化,表示如下:
θ
o
p
t
=
arg
max
θ
L
(
θ
)
牛顿迭代法(Newton’s algorithm)
牛顿迭代法是一种数值方法,找到一个
θ
,使
ℓ
′
(
θ
)
=
0
。它的更新规则如下:
θ
←
θ
−
ℓ
′
(
θ
)
ℓ
″
(
θ
)
备注:多维泛化(multidimensional generalization),也被称作牛顿-拉夫逊迭代法(Newton-Raphson method),更新规则如下:
θ
←
θ
−
(
∇
θ
2
ℓ
(
θ
)
−
1
∇
θ
ℓ
(
θ
)
)
1.3.1 线性回归(Linear regression)
我们假设
y
|
x
;
θ
∼
N
(
μ
,
σ
2
)
。
矩阵
X
,代价函数最小值
θ
是一个闭式方案:
θ
=
(
X
T
X
)
−
1
X
T
y
记学习率
α
,对于
m
个数据点的训练集,最小二乘法更新规则(也叫做Widrow-Hoff学习规则),如下:
∀
,
θ
j
←
+
α
∑
i
=
1
m
[
y
(
i
)
−
h
θ
(
x
(
i
)
)
]
x
j
(
i
)
局部加权回归(Locally Weighted Regression)
局部加权回归,即LWR,是线性回归的一种变体,它将每个训练样本的代价函数加权为
ω
(
i
)
(
x
)
,用参数
τ
∈
R
可定义为:
ω
(
i
)
(
x
)
=
exp
(
−
(
x
(
i
)
−
x
)
2
2
τ
2
)
激活函数
g
,即逻辑函数,定义如下:
∀
z
∈
R
,
g
(
z
)
=
1
1
+
e
−
z
∈
[
0
,
1
]
逻辑回归(Logistic regression)
假设
y
|
x
;
θ
∈
B
e
r
n
o
u
l
l
i
(
ϕ
)
,表示如下:
ϕ
=
p
(
y
=
1
|
x
;
θ
)
=
1
1
+
exp
(
−
θ
T
x
)
=
g
(
θ
T
x
)
备注:逻辑回归中没有闭式方案。
SOFTMax回归(Softmax regression)
SOFTMax回归,也被称为多元逻辑回归,用于处理输出类别多于2个的多分类问题。按照惯例,设
θ
K
=
0
,每个类
i
的伯努力参数
ϕ
i
:
ϕ
i
=
exp
(
θ
i
T
x
)
∑
j
=
1
K
exp
(
θ
j
T
x
)
1.3.3 广义线性模型(Generalized Linear Models)
如果一个分布可以用自然参数表示,那么这类分布可以叫做指数族,也被称为正则参数(canonical parameter)或连接函数(link function)。记
η
,素数统计量
T
(
η
)
和对数划分函数
α
(
η
)
,表示如下:
p
(
y
;
η
)
=
b
(
y
)
exp
(
η
T
(
y
)
−
α
(
η
)
)
备注:通常情况
T
(
y
)
=
y
。同样的,$\exp(-\alpha(\eta))$ 可以看作正则化参数,使得概率结果是1。
常用的指数分布见下表:
分布
η
T
(
y
)
α
(
η
)
b
(
η
)
伯努力
log
(
ϕ
1
−
ϕ
)
y
log
(
1
+
exp
(
η
)
)
1
高斯
μ
y
η
2
2
1
2
π
exp
(
−
y
2
2
)
泊松
log
(
λ
)
y
e
η
1
y
!
几何
log
(
1
−
ϕ
)
y
log
(
e
η
1
−
e
η
)
1
广义线性模型(Assumptions of GLMs)
广义线性模型的目标是预测一个随机变量
y
,作为
x
∈
R
的函数,并且依赖于下面3个假设
(
1
)
y
|
x
;
θ
∼
E
x
p
F
a
m
i
l
y
(
η
)
(
2
)
h
θ
(
x
)
=
E
[
y
|
x
;
θ
]
(
3
)
η
=
θ
T
x
备注:普通最小二乘法和逻辑回归是GLM的特例。
1.4 支持向量机(Support Vector Machines)
支持向量机是为了找到一条线,使最小距离最大化。
最优间隔分类器(Optimal margin classifier)
最优间隔分类器
h
定义如下:
h
(
x
)
=
s
i
g
n
(
ω
T
x
−
b
)
其中
(
ω
,
b
)
∈
R
n
×
R
是下面两个最优问题的解:
min
1
2
|
ω
|
2
使
得
y
(
i
)
(
ω
T
x
(
i
)
−
b
)
⩾
1
备注:线定义
ω
T
x
−
b
=
0
。
支持向量机的Hinge损失定义如下:
L
(
z
,
y
)
=
[
1
−
y
z
]
+
=
max
(
0
,
1
−
y
z
)
给定特征映射
ϕ
,核
K
定义如下:
K
(
x
,
z
)
=
ϕ
(
x
T
)
ϕ
(
z
)
在实际问题中,高斯核
K
(
x
,
z
)
=
exp
(
−
|
x
−
z
|
2
2
σ
2
)
最常用:
备注:我们使用“核技巧”去计算损失函数,因为我们不需要知道明确的图
ϕ
,通常非常复杂。相反的,只需要$K(x,z)$的值。
我们定义拉格朗日
L
(
ω
,
b
)
如下:
L
(
ω
,
b
)
=
f
(
ω
)
+
∑
i
=
1
l
β
i
h
i
(
ω
)
备注:系数
β
i
称为拉格朗日乘数。
1.5 生成学习(Generative Learning)
生成模型首先尝试通过估计
P
(
x
|
y
)
去了解数据如何生成,而后我们可以通过贝叶斯规则估计
P
(
y
|
x
)
。
1.5.1 高斯判别分析(Gaussian Discriminant Analysis)
高斯判别分析假设存在
y
并且
x
|
y
=
0
、$x|y=1$,满足:
y
∼
B
e
r
n
o
u
l
l
i
(
ϕ
)
x
|
y
=
0
∼
N
(
μ
0
,
∑
)
x
|
y
=
1
∼
(
m
1
,
∑
)
最大似然估计统计如下:
ϕ
^
μ
j
^
(
j
=
0
,
1
)
∑
^
1
m
∑
i
=
1
m
1
y
(
i
)
=
1
∑
i
=
1
m
1
y
(
i
)
=
j
x
(
i
)
∑
(
i
=
1
)
m
1
y
(
i
)
=
j
1
m
∑
i
=
1
m
(
x
(
i
)
−
μ
y
(
i
)
)
(
x
(
i
)
−
μ
y
(
i
)
)
T
朴素贝叶斯假设每个数据点的特征都相互独立的:
P
(
x
|
y
)
=
P
(
x
1
,
x
2
,
.
.
.
|
y
)
=
P
(
x
1
|
y
)
P
(
x
2
|
y
)
.
.
.
=
∏
i
=
1
n
P
(
x
i
|
y
)
当
k
∈
0
,
1
,
l
∈
[
1
,
L
]
时,最大似然估计给出了如下解决方案:
You can't use 'macro parameter character #' in math mode
$$
\boxed{P(y=k)=\frac{1}{m}\times#{j|y^{(j)}=k}}
$$
You can't use 'macro parameter character #' in math mode
$$
\boxed{P(x_i=l|y=k)=\dfrac{#{j|y^{(j)=k}\ and\ x_i^{(j)}=l}}{#{j|y^{(j)}=k}}}
$$
备注:朴素贝叶斯广泛用于文字分类。
即可用于回归,又可用于分类的方法。
分类和回归树(CART),非常具有可解释性特征。
其思想就是结合多个弱学习器,形成一个较强的学习器。
在样本和所使用的特征上采用Bootstrap,与决策树不同的是,其可解释性较弱。
k-近邻法(k-nearest neighbors)
数据点的特性由它周围
k
个邻居决定。
备注:参数
k
越高,偏差越大;参数
k
越低,变量越高。
假设
A
1
,
.
.
.
,
A
k
是
k
个事件,则有:
P
(
A
1
∪
.
.
.
∪
A
k
)
⩽
P
(
A
1
)
+
.
.
.
+
P
(
A
k
)
Hoe-Pid不等式(Hoeffding inequality)
假设
Z
1
,
.
.
.
,
Z
m
是伯努力分布
ϕ
的
m
个变量。假设
ϕ
^
是他们采样均值,并且固定
γ
>
0
。我们得到:
P
(
|
ϕ
−
ϕ
^
|
>
γ
)
⩽
2
exp
(
−
2
γ
2
m
)
备注:此不等式又叫做切尔诺绑定(Chernoff bound)。
对于给定的分类器
h
, 我们定义训练误差 为
ϵ
^
(
h
)
,也被称作“经验风险”或“经验误差”,如下所示:
ϵ
^
(
h
)
=
1
m
∑
i
=
1
m
1
h
(
x
(
i
)
)
≠
y
(
i
)
Probably Approximately Correct (PAC)
PAC是经过无数结果在学习理论得到验证的框架,有如下假设:
测试和训练集合遵循相同的分布
训练样本是独立绘制的
给定集合
S
=
x
(
1
)
,
.
.
.
,
x
(
d
)
,给定分类器
H
,我们可以说
H
用标签
y
(
1
)
,
.
.
.
,
y
(
d
)
打散
S
,我们得到:
∃
h
∈
H
,
∀
i
∈
[
1
,
d
]
,
h
(
x
(
i
)
)
=
y
(
i
)
)
假设
H
是一个奈特假说类,$|\mathcal{H}|=k$,假设
δ
和样本数量
m
是固定的。然后,概率至少
1
−
δ
,我们得到:
ϵ
(
h
^
)
⩽
(
min
h
∈
H
∈
(
h
)
)
+
2
1
2
m
log
(
2
k
δ
)
给定假设类
H
的VC(Vapnik-Chervonenkis)维,用
V
C
(
H
)
表示
H
打散的最大集合:
备注:如果
H
是2维空间的线性分类器集合,则
H
的VC维是3。
假设给定的
H
,其中
V
C
(
H
)
=
d
,训练样本数量
m
。最小概率
1
−
δ
,我们得到:
ϵ
(
h
^
)
⩽
(
min
h
∈
H
∈
(
h
)
)
+
O
d
m
log
(
m
d
)
+
1
m
log
(
1
δ
)