## 基本思想

线性模型形式简单，易于建模，但却蕴含着机器学习中的一些重要的基本思想：

$$
f(x) = w_{1}x_{1} + w_{2}x_{2} + \cdots + w_{d}x_{d} + b
$$

## 线性回归

线性回归是使用线性模型拟合数据的一种方法。

**最小二乘法**：`Least Square Method`最小方差法。原理是：当预测值和实际值距离的平方和最小时，就选定模型中的两个参数($w$和$b$)。

$$
\min_{\hat{b}} \sum_{i=1}^{n}(y_{m}-y_{i})^{2}
$$

假设预测值$y_{i}$与观测值$y_{m}$之间存在的差别是由于其本身存在的随机性导致的，并假设这个随机满足一个均值为`0`，方差为$\beta^{-1}$的分布。那么把$y_{i}$作为高斯分布的目标$x$就可以建立出一个概率模型，对这个概率模型做最大似然，就会等价于均方差最小化。

### 一元线性回归

单变量线性回归

### 多元线性回归

多变量线性回归

### 广义线性回归

线性回归基础上加了一层嵌套函数。

## 线性分类

### 对数几率回归(逻辑回归)

$$
y=\frac{1}{1+e^{-(w^{T}x + b)}}
$$

表达某种事件发生的可能性。

最大似然估计，根据最大可能性寻找最优解。每次猜对的可能性的乘积的最大值。

### 线性判别分析(LDA)

&emsp;&emsp;LDA是基于某种准则对该函数进行优化，进而得到分类面。代表性方法有Fisher线性分类函数，也称作LDA。

&emsp;&emsp;给定数据集$D=\{(x_{i},y_{i})\}_{i=1}^{m}$，$y_{i} \in \{0,1\}$，令$X_{i}$、$\mu_{i}$、$\sum_{i}$分别表示第$i \in \{0,1\}$类示例的集合、均值向量、协方差矩阵。

&emsp;&emsp;如果将样本投影到直线$w$上，那么样本所对应的均值和方差也将做一个线性变换，也即是投影之后的均值和方差。依据投影的数学关系，我们可以知道，原始样本的**均值**在$w$上的**投影为$w^{T}\mu_{i}$** ；原始样本的**协方差**在$w$上的**投影为$w^{T}\sum_{i}w$**；由于直线在一维空间上，所以$w^{T}\mu_{0}$、$w^{T}\mu_{1}$、$w^{T}\sum_{0}w$、$w^{T}\sum_{1}w$均为实数。

1. 让**同类样本的投影点尽可能接近**这句话在数学上就可以表示为，让同类样本的协方差尽可能地小。即$w^{T}\sum_{0}w$ + $w^{T}\sum_{1}w$尽可能地小；
2. 让**异类样本投影点尽可能地远离**，所表示的意思就是，让两类样本的均值之间的距离尽可能地大。即$||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2}$尽可能大。

&emsp;&emsp;综合以上两点，组合一个最大化的目标函数$J$：

$$
J=\frac{||w^{T}\mu_{0}-w^{T}\mu_{1}||_{2}^{2}}{w^{T}\sum_{0}w+w^{T}\sum_{1}w} \\
=\frac{w^{T}(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}w}{w^{T}(\sum_{0}+\sum_{1})w}
$$

&emsp;&emsp;这个式子看起来符号有点多，我们将其化简一下，定义两个量：**类内散度矩阵**和**类间散度矩阵**：

- **类内散度矩阵**(within-class scatter matrix)：

&emsp;&emsp;定义类内散度矩阵$S_{w}=\sum_{0}+\sum_{1}$将其展开可得：

$$
=\sum_{x\in X_{0}}(x-\mu_{0})(x-\mu_{0})^{T}+\sum_{x\in X_{1}}(x-\mu_{1})(x-\mu_{1})^{T}
$$

- **类间散度矩阵**(between-class scatter matrix)：

&emsp;&emsp;定义类间散度矩阵$S_{b}=(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}$。

&emsp;&emsp;此时，最大化的目标函数$J$可重写为：

$$
J = \frac{w^{T}S_{b}w}{w^{T}S_{w}w}
$$

&emsp;&emsp;把上式称为$S_{b}$与$S_{w}$的**广义瑞利商**(generalized rayleigh quotient)。


- **数学模型求解**

&emsp;&emsp;现在的问题就变成了，我们怎么来求这个投影方向$w$，使得目标函数最大。

&emsp;&emsp;优化目标函数$J$的分子和分母都是关于$w$的二次项，因此求解最大化$J$与$w$的长度无关，只与其方向有关。那么我们将分母约束为1，将原问题转换为带有约束的最优化问题，再利用拉格朗日乘子法对其求解即可，原问题等价为：

$$
min_{w} \ \ -w^{T}S_{b}w
$$

$$
s.t. \ \ w^{T}S_{w}w =1 
$$

&emsp;&emsp;由拉格朗日乘子法可知，上式等价于：

$$
S_{b}w=\lambda S_{w}w
$$

&emsp;&emsp;其中$\lambda$是拉格朗日乘子。由于$(\mu_{0}-\mu_{1})^{T}w$是标量，所以$S_{b}w$的方向恒为$\mu_{0}-\mu_{1}$，不妨令：

$$
S_{b}w=\lambda(\mu_{0}-\mu_{1})
$$

&emsp;&emsp;这里之所以可以令参数为$\lambda$，是因为整个问题我们都在求解方向，且$S_{b}w$的方向恒为$\mu_{0}-\mu_{1}$，所以长度设置怎么好算怎么来。将$S_{b}w=\lambda(\mu_{0}-\mu_{1})$带入$S_{b}w=\lambda S_{w}w$可得：

$$
w=S_{w}^{-1}(\mu_{0}-\mu_{1})
$$

&emsp;&emsp;到这里投影方向$w$的求解就完事了。但上述解涉及到求逆矩阵，考虑数值解的稳定性，实践过程中通常将$S_{w}$进行奇异值分解。$S_{w}=U\sum V$，这里$\sum$是一个实对角矩阵，其对角线上的元素是$S_{w}$的奇异值，再求解，得出$S_{w}^{-1}=V \sum^{-1} U^{-1}$。

In [8]:
import numpy as np

def createDataSet():
    #类别1
    X1 = np.mat(np.random.random((8, 2)) * 5 + 15)
    #类别2
    X2 = np.mat(np.random.random((8, 2)) * 5 + 2)
    return X1, X2

def average(dataset):
    ave = []
    a, b = np.shape(dataset)
    for i in range(b):
        n = np.sum(dataset[:,i]) / a
        ave.append(n)
    return np.array(ave)

def compute_sw(dataset, ave):
    sw = 0
    a, b = np.shape(dataset)
    for i in range(a - 1):
        sw += np.dot(dataset[i,:] - ave, (dataset[i,:] - ave).T)
    return np.array(sw)

x1_x, x2_x = createDataSet()
print(x1_x)
x1_x_ave = average(x1_x)
x2_x_ave = average(x2_x)

x1_sw = compute_sw(x1_x, x1_x_ave)
x2_sw = compute_sw(x2_x, x2_x_ave)
Sw = x1_sw + x2_sw
 
#求广义逆
pinv = np.linalg.pinv(Sw)
w = np.multiply(x1_x_ave - x2_x_ave, pinv)[0,:]
w

[[15.75722753 17.98292034]
 [17.23461661 19.78218463]
 [18.94493753 19.13312794]
 [16.97789375 17.89275847]
 [18.10395583 15.2510376 ]
 [16.09521116 16.39999876]
 [19.2352536  15.73404229]
 [19.96280919 18.02596221]]


array([0.22334079, 0.20104045])

### 多分类学习

## 其他

### 类别不平衡问题