# 线性模型

## 线性分类器 Linear Classifiers

### 线性分类器与线性回归的区别
在讨论线性分类器之前，我们首先需要对线性分类器和线性回归做一个区分。
这个区别有点像是PDF和CDF的区别一样，线性回归是建立在连续问题上的，例如给出几个函数点，对这个函数进行线性回归来进行连续预测。而线性分类器则是基于给定的标签集合，对它找出一组合适的权重来进行有效的线性分类。

### 线性阈值单元 Linear Threshold Unit, LTU
#### 公式
线性阈值单元是很常用的线性分类器，由权重$\mathbf{w}$和输入$\mathbf{x}$两部分组成，其中:
 - 输入：输入是一个$n\times 1$的矩阵（向量），它可以是任何数据，比如传感器的采样等
 - 权重：权重也是一个$n\times 1$的矩阵（向量），权重决定了输入数据对最终决策的影响程度
LTU的公式如下：
$$
    \left\{
        \begin{align}
            -1 &,\{ \mathbf{w}^T\mathbf{x}+b \lt 0 \}\\
            1 &,\{ \mathbf{w}^T\mathbf{x}+b \geq 0 \}
        \end{align}    
    \right.
$$
或者也可以写作
$$\textbf{sign}(\mathbf{w}^T\mathbf{x}+b)$$
这里的$\textbf{sign}$表示取运算结果的符号。
在上式中：
 - $\mathbf{w}$和$\mathbf{x}$已经在前文介绍过了，这里不再赘述
 - $b$是偏置项或者叫误差项，它可以独立于所有输入进行调整，从而使LTU不必穿过原点，增加其灵活性。
这个公式进一步化简可以得到：
$$
    \left\{
        \begin{align}
            -1 &,\left\{ \sum_{i}{w_ix_i}+b \lt 0 \right\}\\
            1 &,\left\{ \sum_{i}{w_ix_i}+b \geq 0 \right\}
        \end{align}    
    \right.
$$
可以看见，这其实就是一个加权求和的计算，对每一个输入加权，然后输出其符号。事实上，LTU确实也是最简单的线性分类模型了。

#### 齐次化
我们发现，在矩阵运算外面拖着的一个$+b$很不方便向量化计算，会极大地拖慢整体运算的速度。所以我们需要对其执行齐次化计算，把$+b$塞到权重$\mathbf{w}$和输入$\mathbf{x}$中，如下:
$$
\mathbf{x'} = \begin{bmatrix}
    \mathbf{x}_1 \\
    \vdots \\
    \mathbf{x}_d \\
    1
\end{bmatrix}
\mathbf{w'} = \begin{bmatrix}
    \mathbf{w}_1 \\
    \vdots \\
    \mathbf{w}_d \\
    b
\end{bmatrix}
$$
于是我们就可以把原始公式改写如下：
$$\textbf{sign}(\mathbf{w'}^T\mathbf{x'})$$
这样，我们通过引入一个新的维度来让b从加法运算里消失了。

### QA
- “绝大部分布尔表达式都可以被线性分类器分类”?
  - 是的，大部分布尔表达式都可以被线性分类器分类，尤其是对于常规的AND、OR和NOT操作。但是XOR和其他一些复杂的布尔表达式是不能被线性分类器分开的。
  - 例如:
$$\{y=x_1 \land x_2 \land x_3\} \rarr \{y=1, x_1 + x_2 + x_3 \geq 3\}$$
  - 我们可以通过给数据升维来让原本不能被线性分类的数据变得可以线性分类，比如：
$$\{x_1,x_2\} \rarr \{x_1^2,x_2^2\}$$
  - 如果原本不能线性划分$x_1,x_2$，那么将其升维后就有可能可以线性划分了
  - 如果有一个分类器几乎可以线性分类了，那么我们当然也可以视情况容忍一些误差