# 简介
## 目的
学习到一个映射关系 $f: X\rightarrow y$, 即当给定一个新的待预测样本X时,我们可以通过学到的映射关系得到该样本的预测值y.
## 前提
当前,从目的的描述来看,要完成预测必须有一个前提,那就是输入X与输出y之间必须存在某种映射关系, 只是这种映射关系对我们来说是未知的,我们要通过学习来近似得到该映射关系
## 表示
假定X有n个特征, 我们将X到y的映射定义为如下形式, 令$x_0=1$以消去常数项,
$$
    \begin{align}
    h_\theta(X) &= \sum_{i=0}^n\theta_ix_i = \theta^TX \\
     X&=\begin{bmatrix}x_0\\ x_1\\ {\vdots}\\ x_n\end{bmatrix}  \quad
    \theta = \begin{bmatrix} \theta_0 \\ \theta_1 \\ {\vdots} \\ \theta_n \end{bmatrix}
    \end{align}
$$
$\theta$为参数, $\theta$确定了,那么这个映射也就确定了,因此,要学到一组$\theta$即可

# 训练
假设训练集中有m个训练样本:$D = \{ X^{(i)}, y^{(i)} \}_{i=1}^m$; 其中
$$
   X = \begin{bmatrix}
           x_0^{(1)} & x_1^{(1)} & x_2^{(1)} & \cdots & x_n^{(1)} \\ 
           x_0^{(2)} & x_1^{(2)} & x_2^{(2)} & \cdots & x_n^{(2)} \\ 
           \vdots & \vdots & \vdots & \ddots & \vdots \\ 
           x_0^{(m)} & x_1^{(m)} & x_2^{(m)} & \cdots & x_n^{(m)} 
         \end{bmatrix} \quad
  y = \begin{bmatrix} y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(m)}\end{bmatrix} \quad
  \theta=\begin{bmatrix}\theta_0 \\ \theta_1 \\ \vdots \\ \theta_n \end{bmatrix}
$$

X的维度为$m\times (n+1)$的矩阵;
y的维度为$m\times 1$的列向量;
$\theta$的维度为$(n+1) \times 1$的列向量.

该m个训练样本,以$\theta$为参数时的预测值$\hat{y}$ 为:
$$\hat{y} = h_{\theta}(x) = x\times\theta$$

结合我们的目标是学习一组$\theta$使得其在训练数据集上得到的预测值与真实值越接近越好.

为了衡量真实值与预测值的之间的差距,我们引入一个函数:损失函数(叫 cost function 或 loss function, 度量损失的函数):
此处使用平方损失函数, 至于为什么用平方损失函数,解释见附录.
$$
    Loss(x^{(i)}) = (\hat{y}^{(i)} - y^{(i)})^2 
$$
整个训练集的损失为:
$$
\begin{align}
    J(\theta) &= \frac{1}{2m}\sum_i^m Loss(x^{(i)}) \\ 
    &= \frac{1}{2m} \sum_i^m ( \hat{y}^{(i)} - y ^{(i)})^2 \\
    &= \frac{1}{2m} \sum_i^m  (h_{\theta}(x^{(i)}) - y^{(i)})^2  \\
    &= \frac{1}{2m} \sum_i^m  (x^{(i)}\theta - y^{(i)})^2
\end{align}
$$

用向量表示上式为:
$$
    J(\theta) = \frac{1}{2m}(X\theta - y)^T(X\theta-y)
$$

最优值为
$$\theta^* = arg\underset{\theta}{min}J(\theta) $$

# 优化
其实到这里,已经可以交给数学系的同学了, 观察函数$J(\theta)$可知, 它是一个关于$\theta$的二次函数, 也就是一个典型的凸函数, 最优化凸函数有专门的凸优化的理论支持, 有很多种方法可以优化这个函数.
这里简单列举几个常用的优化方法;
## 梯度下降
### 代数方法
分别对$\theta$的每一个元素求导
$$
    J(\theta) = \frac{1}{2m} \sum_i^m  (X^{(i)}\times \theta - y^{(i)})^2 = \frac{1}{2m} \sum_{i=1}^m( \sum_{j=0}^nx_j^{(i)}\theta_j - y^{(i)} )^2 \\
$$
$$
    \frac{\partial}{\partial{\theta_j}}J(\theta) = \frac{1}{m} \sum_{i=1}^m \left( (\sum_{j=0}^nx_j^{(i)}\theta_j-y^{(i)})x_j^{(i)} \right)
$$

然后依次更新$\theta$
$$\theta_j^{t+1} = \theta_j^t - \alpha \frac{\partial}{\partial \theta_j}J(\theta) $$


### 计算梯度向量
向量化的计算可以并行运算,并且很多包对矩阵向量运算增加了优化,因此多用向量化计算可以增加运算速度;
这里要引入梯度的概念.
#### 梯度
$$
  grad f(x_1, x_2, \cdots, x_n)  = \left ( \frac{\partial{f}}{\partial{x_1}},  \frac{\partial{f}}{\partial{x_2}},  \cdots, \frac{\partial{f}}{\partial{x_n}}  \right)
$$
梯度表示了在向量空间某点处,函数沿着哪一个方向有最大的变化率.
函数在某一点的梯度是这样一个向量,它的方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值.

根据梯度的定义,函数沿着梯度方向有最大变化率, 那么在这里需要优化损失的函数的时候,自然沿着负梯度方向是下降最快的方向.

#### 计算
残差$R = \hat{y} - y = X\theta - y$为m维列向量.
$$
\begin{align}
\frac{\partial}{\partial{\theta_j}}J(\theta) &= \sum_{i=1}^m \left( (\sum_{j=0}^nx_j^{(i)}\theta_j-y^{(i)})x_j^{(i)} \right) \\
 & = R^T\vec{x_j} \\
 这里x_j为m维列向量 
 \begin{bmatrix}
 x_j^1 \\
 x_j^2 \\
 \vdots \\
 x_j^m 
 \end{bmatrix}
 \end{align}
$$

因此这里J的梯度可以表示为
$$ 
\bigtriangledown_\theta J(\theta) = (R^T \times X)^T = ((X\theta-Y)^T X)^T
$$

$\theta$更新规则为:
$$
\theta=\theta - \alpha \bigtriangledown_\theta J(\theta) = \theta - \alpha ((XW-Y)^T X)^T
$$

## 矩阵求导法优化
$$
\begin{align}
J(\theta) &= (X\theta - y)^T(X\theta-y) \\
              &=(\theta^TX^T -y^T)(X\theta-y) \\
              &=\theta^TX^TX\theta-y^TX\theta - \theta^TX^Ty + y^Ty \\
\end{align}
$$
矩阵求导公式
$$
\begin{align}
\frac{d(u^Tv)}{dx}&=\frac{d(u^t)}{dx}\cdot v + \frac{d(v^T)}{dx}\cdot u \\
\frac{dx^T}{dx}& = I \\
\frac{d(Ax)^T}{dx} & = A^T \\
\frac{dx}{dx^T}& = I \\
\frac{d(Ax)}{dx^T}& = A
\end{align}
$$
推论
$$
\begin{align}
\frac{d(x^Tx)}{dx} = \frac{d(x^T)}{dx}\cdot x + \frac{d(x^T)}{dx}\cdot x = 2x \\
\frac{d(x^TAx)}{dx} = \frac{d(x^T)}{dx}\cdot Ax + \frac{d(Ax)^T}{dx}\cdot x = Ax+A^Tx
\end{align}
$$

对$J(\theta)$中的式子分别求导
$$
\frac{\partial{(\theta^TX^TX\theta)}}{\partial{\theta}} = X^TX\theta+(X^TX)^T\theta = 2X^TX\theta
$$
其中$y^TX\theta$为标量, $(1\times m) \times (m \times n) \times (n*1)$
同理,$\theta^TX^Ty$也为标量, 并且有$y^TX\theta = \theta^TX^Ty$, 因此为了方便计算导数,可以将$y^TX\theta$化为$ \theta^TX^Ty$

$$
\frac{\partial{(2\theta^TX^Ty)}}{\partial{\theta}} = 2X^Ty
$$

得
$$
\frac{\partial{J(\theta)}}{\partial{\theta}} = 2X^TX\theta-2X^Ty
$$
令$\frac{\partial{J(\theta)}}{\partial{\theta}} = 0$得
$$
\begin{align}
2X^TX\theta - 2X^Ty = 0 \\
\Rightarrow
X^TX\theta = X^Ty \\
\Rightarrow
\theta = (X^TX)^{-1}X^Ty
\end{align}
$$

## 其他梯度下降方法
### BGD(批量梯度下降) 
即前文介绍方法,每次更新用到所有样本
### SGD(随机梯度下降)
每次更新只用到一个样本
### 拟牛顿法


# 代码示例

In [1]:
# 加载数据集
from sklearn import datasets
boston = datasets.load_boston() #Load and return the boston house-prices dataset
X = boston.data
y = boston.target
print(X.shape)
print(y.shape)

(506, 13)
(506,)


In [2]:
# 划分数据集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, random_state=4)
print(X_train.shape, y_train.shape, X_test.shape, y_test.shape)
print(type(X_train), type(y_train))

(404, 13) (404,) (102, 13) (102,)
<class 'numpy.ndarray'> <class 'numpy.ndarray'>


In [3]:
# 使用sklearn提供的linear regression来训练数据
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score

LR = LinearRegression(normalize=True,n_jobs=2, fit_intercept=False)

LR.fit(X_train, y_train)
print(LR.coef_)
print(LR.intercept_)
LR.score(X_test, y_test)

[-0.10765981  0.04839376 -0.02320055  2.99304063 -2.16262312  5.95900965
 -0.01692421 -1.02725147  0.16689425 -0.0104551  -0.3752965   0.01426569
 -0.34632603]
0.0


0.7020310444459503

## 自己实现轮子
### 最简单的线性回归
 不带正则化,不带标准化.
 BGD

In [4]:
# 自己实现轮子
import numpy as np

# 计算cost
def cal_cost(theta, X, y):
    y_hat = X.dot(theta)
    residual = y_hat - y
    result = residual.T.dot(residual)
    return result/y.shape[0]

def cal_grad(theta, X, y):
    y_hat = np.dot(X, theta)
    residual = y_hat - y
    grad = (residual.T.dot(X)).T
    return grad

def my_linear_regression(X, y, alpha=0.03, num_iter=1000):
    m, n = X_train.shape
    theta = np.zeros((n,1))
    y_tmp = y.reshape((m,1))
    
    for i in range(num_iter):
        
        grad = cal_grad(theta, X, y_tmp)
        theta = theta - alpha*grad

    return theta

theta = my_linear_regression(X_train, y_train, alpha = 0.00000001, num_iter=1000000)
print(np.hstack(theta))
print("我们的训练误差", cal_cost(theta, X_train, y_train.reshape(-1,1)))
print("我们的测试误差", cal_cost(theta, X_test, y_test.reshape(-1,1)))

[-0.1106351   0.05385689 -0.01916586  0.7687107   0.22514213  5.53523435
 -0.00894829 -0.95596589  0.17579077 -0.01129689 -0.31605275  0.01521385
 -0.39603141]
我们的训练误差 [[23.87429917]]
我们的测试误差 [[27.8175622]]


### 用矩阵求导等于0的方法来求最优化的参数

In [5]:
def my_linear_regression_matrix_method(X, y):
    m, n =X.shape
    y_tmp = y.reshape((m,1))
    theta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y_tmp)
    return theta

theta = my_linear_regression_matrix_method(X_train, y_train)
print(np.hstack(theta))
print("我们的训练误差", cal_cost(theta, X_train, y_train.reshape(-1,1)))
print("我们的测试误差", cal_cost(theta, X_test, y_test.reshape(-1,1)))
print("sklearn的训练误差", cal_cost(LR.coef_.reshape(-1,1), X_train, y_train.reshape((-1,1))))
print("sklearn的测试误差", cal_cost(LR.coef_.reshape(-1,1), X_test, y_test.reshape((-1,1))))


[-0.10765981  0.04839376 -0.02320055  2.99304063 -2.16262312  5.95900965
 -0.01692421 -1.02725147  0.16689425 -0.0104551  -0.3752965   0.01426569
 -0.34632603]
我们的训练误差 [[23.4811376]]
我们的测试误差 [[27.67810516]]
sklearn的训练误差 [[23.4811376]]
sklearn的测试误差 [[27.67810516]]


## 进阶
从上面运行时间来看用矩阵运算的方法得到最优解似乎是最有效率的方法$\Theta = (X^TX)^{-1}X^Ty$.
但是,注意这里有一个求逆矩阵的操作.
当数据量很大的时候(比如m>1000000), 对一个$m \times m$维的矩阵求逆会需要很大的计算量, 这时用梯度下降等迭代方法求最优值会变得更加有效.
比如:

In [6]:
A = np.random.rand(10000, 10000)
B = np.linalg.inv(A)
# executed in 45.8s, finished 14:14:43 2018-11-13
# 10000 * 10000的矩阵求逆都要这么久, 而在机器学习中,样本数据通常是巨大的

所以必须要想个办法优化此类操作


# 附录
## 为什么选择平方损失函数作为linear regression的损失函数
### 从概率层面解释为什么将平方损失函数作为代价函数
#### 中心极限定理
当样本量N逐渐趋于无穷大时，N个抽样样本的均值的频数逐渐趋于正态分布，其对原总体的分布不做任何要求，意味着无论总体是什么分布，其抽样样本的均值的频数的分布都随着抽样数的增多而趋于正态分布。

对于m个训练集样本，假设样本真实值与预测值之间的差值为$\epsilon$, 即：
$$
y^{(i)} = \hat{y}^{(i)} + \epsilon^{(i)}
$$
由中心极限定理可知 $\epsilon$有如下性质：
1. $\epsilon$是独立同分布的， 即， $x^{(i)}$ 与$x^{(j)}$之间互不影响，并且分布相同（使用的是同一款产品，或做同一件事，总之分布一样）
2. $\epsilon$服从均值为0，方差为$\sigma^2$的高斯分布

#### 极大似然估计
利用已知的样本，反推最有可能导致这些样本的模型参数值；当然服从的模型也要是已知的（模型参数是未知的，就是要求模型参数）
这里$\epsilon$服从正太分布，所以服从的模型是已知的。符合应用极大似然估计的条件。

$$
p(\epsilon) = \frac{1}{\sqrt{2\pi\sigma^2}}exp\left( -\frac{(\epsilon - 0)^2}{2\sigma^2} \right) \\
= \frac{1}{\sqrt{2\pi\sigma^2}}exp\left( -\frac{\epsilon^2}{2\sigma^2} \right)
$$

##### 似然函数
$$
L(\theta) = \prod_{i=1}^m p(\epsilon^{(i)}) = \prod_{i=1}^m \frac{1}{\sqrt{2\pi\sigma^2}}exp\left( -\frac{(\epsilon^{(i)})^2}{2\sigma^2} \right)
\\ =  \prod_{i=1}^m  \frac{1}{\sqrt{2\pi\sigma^2}}exp\left( -\frac{(y^{(i)} - \hat{y}^{(i)})^2}{2\sigma^2} \right) \\
= \prod_{i=1}^m  \frac{1}{\sqrt{2\pi\sigma^2}}exp\left( -\frac{(y^{(i)} - X^{(i)}\theta)^2}{2\sigma^2} \right)
$$

##### 对数似然函数
由于$log(A\cdot B) = logA + logB; log(exp(A)) = A $,因此
$$
l(\theta) = log(L(\theta)) = \sum_{i=1}^m log \left( \frac{1}{\sqrt{2\pi\sigma^2}}exp\left( -\frac{(y^{(i)} - X^{(i)}\theta)^2}{2\sigma^2} \right)\right) \\
= \sum_{i=1}^m log \left( \frac{1}{\sqrt{2\pi\sigma^2}}\right) + \sum_{i=1}^m log \left( exp\left( -\frac{(y^{(i)} - X^{(i)}\theta)^2}{2\sigma^2} \right)\right) \\
= \sum_{i=1}^m log \left( \frac{1}{\sqrt{2\pi\sigma^2}}\right) + \sum_{i=1}^m \left( -\frac{(y^{(i)} - X^{(i)}\theta)^2}{2\sigma^2} \right)
$$
##### 极大化似然函数
$$
\theta^* = arg\underset{\theta}{max}l(\theta) = arg\underset{\theta}{max}\left( \sum_{i=1}^m log \left( \frac{1}{\sqrt{2\pi\sigma^2}}\right) + \sum_{i=1}^m \left( -\frac{(y^{(i)} - X^{(i)}\theta)^2}{2\sigma^2} \right) \right)
$$
在上式中自变量仅为$\theta$，其他可以认为是常量， 因此：
$$
\theta^* = arg\underset{\theta}{max}\sum_{i=1}^m \left( -(y^{(i)} - X^{(i)}\theta)^2\right)
$$
等价于
$$
\theta^* = arg\underset{\theta}{min}\sum_{i=1}^m \left( (y^{(i)} - X^{(i)}\theta)^2\right)
$$
即最小化平方损失函数