# 线性模型

## 基本形式

给定由__d__个属性描述的示例$x=(x_1;x_2;...;x_d)$，其中$x_i$是$x$在第$i$个属性上的取值，线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数，即

$$f(x)=w_1x_1+w_2x_2+...+w_dx_d+b$$

一般用向量形式写成

$$f(x)=w^Tx+b$$

许多功能更为强大的非线性模型(nonlinear model)可在线性模型的基础上通过引入层级结构或高维映射而得。

## 线性回归

线性回归试图学得：

$$f(x_i)=wx_i+b,使得f(x_i)\simeq y_i$$

均方误差时回归任务中最常用得性能度量，因此我们可试图让均方误差最小化

$$ (w^*,b^*)=\mathop{argmin}\limits_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i)^2\\
=\mathop{argmin}\limits_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2$$

均方误差油非常好的几何意义，它对应了常用的欧几里得距离。基与均方误差最小化来进行模型求解的方法称为最小二乘法。在线性回归中，最小二乘法就是试图找到一条直线，是所有样本到直线上的欧氏距离之和最小。

求解$w$和$b$使$E_{(w,b)}=\sim_{i=1}^{m}(y_i-wx_i-b)^2$最小化的过程，称为线性回归模型的最小二乘参数估计，可将$E_{(w,b)}$分别对$w$和$b$求导，得到

$$\frac{\partial{E_{(w,b)}}}{\partial{w}}=2\lgroup w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i\rgroup$$

$$\frac{\partial{E_{(w,b)}}}{\partial{b}}=2(mb-\sum_{i=1}^{m}(y_i-wx_i))$$

然后零上两式为零可得到$w$和$b$最优解的闭式解

$$w=\frac{\sum_{i=1}^{m}y_i(x_i-\bar x)}{\sum_{i=1}^{m}x_i^2-\frac{1}{m}(\sum_{i=1}^{m}x_i)^2}$$

$$b=\frac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)$$

其中$\bar x=\frac{1}{m}\sum_{i=1}^{m}x_i$为$x$的均值。

更一般的情形是如本节开头的数据集$D$，样本由$d$个属性描述。此时我们试图学得

$$f(\textbf{x}_i)=\textbf{w}^T\textbf{x}_i+b_i,使得f(\textbf{x}_i)\simeq y_i$$

这成为"多元线性回归"(multivariate linear regression)

类似的，可利用最小二乘法来对$w$和$b$进行估计，为便于讨论，我们把$w$和$b$吸收入向量形式$\hat w=(w;b)$，相应的，把数据集D表示为一个$m\times(d+1)$大小得矩阵$X$，其中每行对应一个示例，该行前$d$个元素对应示例得$d$个属性值，最后一个元素恒置为1，即

$$X=\begin{pmatrix}x_{11}&x_{12}&\cdots&x_{1d}&1\\x_{21}&x_{22}&\cdots&x_{2d}&1\\\vdots&\vdots&\ddots&\vdots&\vdots\\x_{m1}&x_{m2}&\cdots&x_{md}&1\end{pmatrix}=\begin{pmatrix}x_1^T&1\\x_2^T&1\\\vdots&\vdots\\x_m^T&1\end{pmatrix}$$

再把标记也写成向量形式$\textbf y=(y_1;y_2;\ldots;y_m)$，则有

$$\hat{w}^*=\mathop{argmin}\limits_{\hat{w}}(\textbf y-\textbf X\hat{w})^T(\textbf y-\textbf X\hat{w})$$

令$E_{\hat{w}}=(\textbf y-\textbf X \hat{w})^T(\textbf y-\textbf X \hat{w})$，对$\hat{w}$求导得到

## 对数几率回归

单位阶跃函数(unit-step function)

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

对数几率函数(logistic function)
$$y=\frac{1}{1+e^{-z}}$$

可变化为：
$$\ln \frac{y}{1-y}=w^Tx+b$$

## 线性判别分析

线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的线性学习方法，在二分类问题上最早由Fisher提出。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

欲使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小，即$w^T\sum_0 w+w^T\sum_1 w$尽可能小；而欲使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即$\|w^T\mu_0-w^T\mu_1\|_2^2$尽可能大，同时考虑二者，则可得到欲最大化的目标
$$J=\frac{\|w^T\mu_0-w^T\mu_1\|_2^2}{w^T\sum_0 w+w^T\sum_1 w}=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\sum_0+\sum_1)w}$$

定义“类内散布矩阵”(within-class scatter matrix)
$$S_w=\sum_0+\sum_1=\sum\limits_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum\limits_{x\in X_1}(x-\mu_1)(x-\mu_1)^T$$

以及类间散布矩阵(between-class scatter matrix)
$$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$$

则J可重写为：
$$J=\frac{w^TS_bw}{w^TS_ww}$$

这就是LDA与最大化的目标，即$S_b$与$S_w$的__广义瑞利商(generalized Rayleigh quotient)__

## 多分类学习

多分类学习的基本思路是“拆解法”，即将多分类任务拆解为若干个二分类任务求解。

最经典的拆分测略有：一对一（OvO），一对其余（OvR），多对多（MvM）

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

OvO需训练N(N-1)/2个分类器，OvR只需N个，两者皆是MvM的特例。

最常用的MvM技术：纠错输出码（Error Correcting Output Codes，ECOC）

* 编码：对N个类别做M次划分，每次划分将一部分类别划为正类，一部分划为反类，从而形成一个二分类训练集；这样一共产生M个训练集，可训练出M个分类器。
* 解码：M个分类器分别对测试样本进行预测，这些预测标记组成一个编码，将这个预测编码与每个类别各自的编码进行比较，返回其中距离最小的类别作为最终预测结果。

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

## 类别不平衡问题

前面介绍的分类学习方法都有一个共同的基本假设，既不同类的训练样本数目相当。

类别不平衡(class-imbalance)就是之分类任务中不同类别的训练样例数目差别很大的情况。

类别不平衡学习的一个基本测略为“再缩放”(rescaling)

对于线性分类器，需要将分类器的预测几率调整到高于观测几率：
$$\frac{y}{1-y}>\frac{m^+}{m^-} 则预测为正$$

对于对数几率：
$$\frac{y'}{1-y'}=\frac{y}{1-y}\times\frac{m^-}{m^+}     (3.48)$$

再缩放的思想虽简单，但实际操作却并不平凡，主要因为“训练集是真实样本总体的无偏采样”这个假设往往并不成立，也就是说，我们未必能有效地基于训练集观测几率来推断出真实几率。现有技术大体上有三类：
* 欠采样：去除一些偏多的样例
* 过采样：增加一些偏少的样例
* 阈值移动：直接基于原始训练集进行学习，但在预测时将3.48嵌入其决策过程中