Skip to content

Files

Latest commit

 

History

History
366 lines (231 loc) · 12.3 KB

File metadata and controls

366 lines (231 loc) · 12.3 KB

[TOC]

1. 有监督学习

1.1 介绍

给定数据点集合 x ( 1 ) , . . . , x ( m ) 和输出集合 y ( 1 ) , . . . , y ( m ) ,我们想建立一个分类器,让它学习如何从 x 预测 y

  • 预测类型(Type of prediction)

不同类型的预测模型见下表:

模型 输出 例子
回归 连续 线性回归
分类器 类别 逻辑回归、支持向量机、朴素贝叶斯
  • 模型类型(Type of model)
模型 目标 例子
判别式 估计 P ( y | x ) 各种回归、支持向量机
生成式 预测 P ( x | y )
用于推断 P ( y | x )
GDA,朴素贝叶斯

1.2 符号和概念

  • 假设(Hypothesis)

记一个假设 h θ , 是我们选择的模型。对于给定的输入 x ( i ) ,模型预测结果是 h θ ( x ( i ) )

  • 损失函数(Loss function)

损失函数 L : ( z , y ) R × Y L ( z , y ) R ,把预测值 y 和真实值 z 作为输入,输出他们的差异程度。常见的损失函数见下表:

二乘法 Logistic Hinge 交叉熵
1 2 ( y z ) 2 log ( 1 + exp ( y z ) ) max ( 0 , 1 y z ) [ y log ( z ) + ( 1 y ) log ( 1 z ) ]
线性回归 逻辑回归 支持向量机 神经网络
  • 代价函数(Cost function)

代价函数 J 通常用于表示模型的性能,和损失函数 L 一起,定义如下:

J θ = i = 1 m L ( h θ ( x ( i ) , y ( i ) ) )

  • 梯度下降法(Gradient descent)

若学习率 α R ,梯度下降法更新规则用学习率和代价函数 J 表示:

θ θ α J ( θ )

此处输入图片的描述

备注:随机梯度下降算法(Stochastic gradient descent, SGD)基于每个训练数据更新参数,而批量梯度下降法(batch gradient descent)是基于批量数据。

  • 似然(Likelihood)

模型的似然 L ( θ ) 是 通过将其最大化找到最优的参数 θ 。 在实际过程中,我们一般用对数似然 ( θ ) = log ( L ( θ ) ) ,更容易优化,表示如下:

θ o p t = arg max θ L ( θ )

  • 牛顿迭代法(Newton’s algorithm)

牛顿迭代法是一种数值方法,找到一个 θ ,使 ( θ ) = 0 。它的更新规则如下:

θ θ ( θ ) ( θ )

备注:多维泛化(multidimensional generalization),也被称作牛顿-拉夫逊迭代法(Newton-Raphson method),更新规则如下:

θ θ ( θ 2 ( θ ) 1 θ ( θ ) )

1.3 线性模型(Linear models)

1.3.1 线性回归(Linear regression)

我们假设 y | x ; θ N ( μ , σ 2 )

  • 正则方程(Normal equations)

矩阵 X ,代价函数最小值 θ 是一个闭式方案:

θ = ( X T X ) 1 X T y

  • 最小二乘法(LMS algorithm )

记学习率 α ,对于 m 个数据点的训练集,最小二乘法更新规则(也叫做Widrow-Hoff学习规则),如下:

, θ j + α i = 1 m [ y ( i ) h θ ( x ( i ) ) ] x j ( i )

  • 局部加权回归(Locally Weighted Regression)

局部加权回归,即LWR,是线性回归的一种变体,它将每个训练样本的代价函数加权为 ω ( i ) ( x ) ,用参数 τ R 可定义为:

ω ( i ) ( x ) = exp ( ( x ( i ) x ) 2 2 τ 2 )

1.3.2 分类和逻辑回归

  • 激活函数(Sigmoid function )

激活函数 g ,即逻辑函数,定义如下:

z R , g ( z ) = 1 1 + e z [ 0 , 1 ]

  • 逻辑回归(Logistic regression)

假设 y | x ; θ B e r n o u l l i ( ϕ ) ,表示如下:

ϕ = p ( y = 1 | x ; θ ) = 1 1 + exp ( θ T x ) = g ( θ T x )

备注:逻辑回归中没有闭式方案。

  • SOFTMax回归(Softmax regression)

SOFTMax回归,也被称为多元逻辑回归,用于处理输出类别多于2个的多分类问题。按照惯例,设 θ K = 0 ,每个类 i 的伯努力参数 ϕ i

ϕ i = exp ( θ i T x ) j = 1 K exp ( θ j T x )

1.3.3 广义线性模型(Generalized Linear Models)

  • 指数族(Exponential family)

如果一个分布可以用自然参数表示,那么这类分布可以叫做指数族,也被称为正则参数(canonical parameter)或连接函数(link function)。记 η ,素数统计量 T ( η ) 和对数划分函数 α ( η ) ,表示如下:

p ( y ; η ) = b ( y ) exp ( η T ( y ) α ( η ) )

备注:通常情况 T ( y ) = y 。同样的,$\exp(-\alpha(\eta))$ 可以看作正则化参数,使得概率结果是1。

常用的指数分布见下表:

分布 η T ( y ) α ( η ) b ( η )
伯努力 log ( ϕ 1 ϕ ) y log ( 1 + exp ( η ) ) 1
高斯 μ y η 2 2 1 2 π exp ( y 2 2 )
泊松 log ( λ ) y e η 1 y !
几何 log ( 1 ϕ ) y log ( e η 1 e η ) 1
  • 广义线性模型(Assumptions of GLMs)

广义线性模型的目标是预测一个随机变量 y ,作为 x R 的函数,并且依赖于下面3个假设

( 1 )   y | x ; θ E x p F a m i l y ( η )   ( 2 )   h θ ( x ) = E [ y | x ; θ ]   ( 3 )   η = θ T x

备注:普通最小二乘法和逻辑回归是GLM的特例。

1.4 支持向量机(Support Vector Machines)

支持向量机是为了找到一条线,使最小距离最大化。

  • 最优间隔分类器(Optimal margin classifier)

最优间隔分类器 h 定义如下:

h ( x ) = s i g n ( ω T x b )

其中 ( ω , b ) R n × R 是下面两个最优问题的解:

min 1 2 | ω | 2   使   y ( i ) ( ω T x ( i ) b ) 1

备注:线定义 ω T x b = 0

  • Hinge损失

支持向量机的Hinge损失定义如下:

L ( z , y ) = [ 1 y z ] + = max ( 0 , 1 y z )

  • 核(Kernel)

给定特征映射 ϕ ,核 K 定义如下:

K ( x , z ) = ϕ ( x T ) ϕ ( z )

在实际问题中,高斯核 K ( x , z ) = exp ( | x z | 2 2 σ 2 ) 最常用:

此处输入图片的描述

备注:我们使用“核技巧”去计算损失函数,因为我们不需要知道明确的图 ϕ ,通常非常复杂。相反的,只需要$K(x,z)$的值。

  • 拉格朗日(Lagrangian)

我们定义拉格朗日 L ( ω , b ) 如下:

L ( ω , b ) = f ( ω ) + i = 1 l β i h i ( ω )

备注:系数 β i 称为拉格朗日乘数。

1.5 生成学习(Generative Learning)

生成模型首先尝试通过估计 P ( x | y ) 去了解数据如何生成,而后我们可以通过贝叶斯规则估计 P ( y | x )

1.5.1 高斯判别分析(Gaussian Discriminant Analysis)

  • 设置

高斯判别分析假设存在 y 并且 x | y = 0 、$x|y=1$,满足:

y B e r n o u l l i ( ϕ ) x | y = 0 N ( μ 0 , ) x | y = 1 ( m 1 , )

  • 估计

最大似然估计统计如下:

ϕ ^ μ j ^ ( j = 0 , 1 ) ^
1 m i = 1 m 1 y ( i ) = 1 i = 1 m 1 y ( i ) = j x ( i ) ( i = 1 ) m 1 y ( i ) = j 1 m i = 1 m ( x ( i ) μ y ( i ) ) ( x ( i ) μ y ( i ) ) T

1.5.2 朴素贝叶斯(Naive Bayes)

  • 假设

朴素贝叶斯假设每个数据点的特征都相互独立的:

P ( x | y ) = P ( x 1 , x 2 , . . . | y ) = P ( x 1 | y ) P ( x 2 | y ) . . . = i = 1 n P ( x i | y )

  • 求解

k 0 , 1 , l [ 1 , L ] 时,最大似然估计给出了如下解决方案:

You can't use 'macro parameter character #' in math mode

$$
\boxed{P(y=k)=\frac{1}{m}\times#{j|y^{(j)}=k}}
$$

You can't use 'macro parameter character #' in math mode

$$
\boxed{P(x_i=l|y=k)=\dfrac{#{j|y^{(j)=k}\ and\ x_i^{(j)}=l}}{#{j|y^{(j)}=k}}}
$$

备注:朴素贝叶斯广泛用于文字分类。

1.6 基于树方法和集成方法

即可用于回归,又可用于分类的方法。

  • 决策树

分类和回归树(CART),非常具有可解释性特征。

  • Boosting

其思想就是结合多个弱学习器,形成一个较强的学习器。

  • 随机森林

在样本和所使用的特征上采用Bootstrap,与决策树不同的是,其可解释性较弱。

1.7 其他非参数方法

  • k-近邻法(k-nearest neighbors)

数据点的特性由它周围 k 个邻居决定。

备注:参数 k 越高,偏差越大;参数 k 越低,变量越高。

1.8 学习理论

  • 联合界(Union bound)

假设 A 1 , . . . , A k k 个事件,则有:

P ( A 1 . . . A k ) P ( A 1 ) + . . . + P ( A k )

  • Hoe-Pid不等式(Hoeffding inequality)

假设 Z 1 , . . . , Z m 是伯努力分布 ϕ m 个变量。假设 ϕ ^ 是他们采样均值,并且固定 γ > 0 。我们得到:

P ( | ϕ ϕ ^ | > γ ) 2 exp ( 2 γ 2 m )

备注:此不等式又叫做切尔诺绑定(Chernoff bound)。

  • 训练误差(Training error)

对于给定的分类器 h , 我们定义训练误差 为 ϵ ^ ( h ) ,也被称作“经验风险”或“经验误差”,如下所示:

ϵ ^ ( h ) = 1 m i = 1 m 1 h ( x ( i ) ) y ( i )

  • Probably Approximately Correct (PAC)

PAC是经过无数结果在学习理论得到验证的框架,有如下假设:

  • 测试和训练集合遵循相同的分布
  • 训练样本是独立绘制的
  • 样本打散(Shattering)

给定集合 S = x ( 1 ) , . . . , x ( d ) ,给定分类器 H ,我们可以说 H 用标签 y ( 1 ) , . . . , y ( d ) 打散 S ,我们得到:

h H , i [ 1 , d ] , h ( x ( i ) ) = y ( i ) )

  • 上限法(Upper bound theorem)

假设 H 是一个奈特假说类,$|\mathcal{H}|=k$,假设 δ 和样本数量 m 是固定的。然后,概率至少 1 δ ,我们得到:

ϵ ( h ^ ) ( min h H ( h ) ) + 2 1 2 m log ( 2 k δ )

  • VC维(VC dimension)

给定假设类 H 的VC(Vapnik-Chervonenkis)维,用 V C ( H ) 表示 H 打散的最大集合:

备注:如果 H 是2维空间的线性分类器集合,则 H 的VC维是3。

此处输入图片的描述

  • Theorem (Vapnik)

假设给定的 H ,其中 V C ( H ) = d ,训练样本数量 m 。最小概率 1 δ ,我们得到:

ϵ ( h ^ ) ( min h H ( h ) ) + O d m log ( m d ) + 1 m log ( 1 δ )