# 2 回归问题
author：Tong

### 2.1 线性回归
***请详细阐述线性回归模型的最小二乘法表达***

其实就是对数据集$D = \{(x_1,y_1),...,(x_N,y_N) \}$，$x_i \in R^p,y_i \in R,i = 1,2,...,N$，$X = (x_1,x_2,...,x_N)^T,Y=(y_1,y_2,...,y_N)^T$                        
要拟合X和Y之间的线性关系$\hat{y}=f(w) =w^Tx$。     
而最佳的拟合应该是满足二范数的平方和$\sum\limits_{i=1}^{N}||w^Tx_i-y_i||_2^2$最小的。    
也就是说线性回归模型，就是找到现有数据点的最小二乘拟合。

### 2.3 多项式回归
***为什么多项式回归在实际问题中的表现经常不是很好***

因为实际问题中数据特征之间很多是相关的，多项式回归不能很好地处理此类问题。而且当阶数增加后，多项式回归的稳定性会下降。

### 2.4 决策树模型
***决策树模型与线性模型之间的区别与联系***

![jupyter](./pic/1.9.1.png)       
上面这张图很好地展现了线性模型（左）与决策树模型（右）的区别和联系。他们同样都是在变量空间内进行直线切割，但是决策树模型是对单一变量进行切割，会切很多刀；线性模型则是对变量综合进行切割，且只切一刀。在图像上体现为决策树的分界线都是与坐标轴平行/垂直的，而线性模型的不是。

### 2.5 KKT条件
***什么是KKT条件***

Karush-Kuhn-Tucker (KKT)条件是非线性规划(nonlinear programming)最佳解的必要条件。KKT条件将Lagrange乘数法(Lagrange multipliers)所处理涉及等式的约束优化问题推广至不等式。     
有一个约束优化问题(P)：                   
      $$
      min f(x)  \\
      s.t.\;\;\;g_i(x) \le 0,\; i=1,2,...,m\\
      \;\;\;\;\; h_j(x) = 0,\; j=1,2,...,l
      $$                         
   我们假设$x^*$为满足以上条件的局部最优解，$p^* = f(x^*)$，我们的目的就是要找到$x^*$与$p^*$，满足不等式和等式约束的x集合成为可行域，记作S。     
我们考虑：($x^*$为我们的最优解)               
$$
minf(x)\\
s.t.\;g_1(x) \le 0,\;x \in R^n\\
\;\;\;g_2(x) \le 0\\
\;\;\;g_3(x) \le 0
$$
KKT条件就是：假设$x^*$为最优化问题的局部最优解，且$x^*$ 在某个适当的条件下 ,有：                             
$$
\nabla f(x^*) + \sum\limits_{i=1}^{m}\lambda_i \nabla g(x^*) + \sum\limits_{j=1}^{l}\mu_j \nabla h_j(x^*) = 0\\     
\lambda_i \ge 0,\;i = 1,2,...,m\\
g_i(x^*) \le 0\\
h_j(x^*) = 0\\
\lambda_i g(x^*) = 0
$$      

[Karush-Kuhn-Tucker (KKT)条件](https://zhuanlan.zhihu.com/p/38163970)

### 2.7 代码实践
***使用ch1机器学习数学基础所学的内容，找到一个具体的数据集，使用线性回归模型拟合模型，要求不能使用sklearn，只能使用python与numpy***

In [1]:
import numpy as np

In [63]:
def compute_error(x, y, a, b):
    totalError = (y - (np.dot(x,a) + b.T)) ** 2
    totalError = np.sum(totalError, axis=0)
    results = totalError / float(len(data))
    return results

In [3]:
def leastsq_function(x,y):
    # 单变量时的最小二乘法
    n = len(x)
    sumX = x.sum(axis = 0)
    sumY = y.sum(axis = 0)
    sumXY = x*y.sum(axis = 0)
    sumXX = x*x.sum(axis = 0)
    a = (sumXY - (1/n) * (sumX * sumY)) / (sumXX - (1/n) * sumX * sumX)
    b = sumY/n - a * sumX/n
    return a, b

多变量时的最小二乘法

调用numpy的最小二乘函数

In [60]:
def multi_leastsq_function(x,y):
    A = np.hstack([x, np.ones((len(x),1))])
    W = np.linalg.lstsq(A, y, rcond=None)[0]
    a = W[:-1]
    b = W[-1]
    return a,b

使用矩阵运算      
要找到最合适的$W$        
$$
WA = y
$$    
则满足
$$
W = (A^T A)^{-1} A^T y
$$      

In [91]:
def multi_leastsq_function_matrix(x,y):
    A = np.hstack([x, np.ones((len(x),1))])
    W = np.dot(np.dot(np.linalg.inv(np.dot(A.T,A)),A.T),y[:,np.newaxis])
    W = W.flatten()
    a = W[:-1]
    b = W[-1]
    return a,b

使用波士顿房价数据集

In [4]:
import pandas as pd

In [8]:
from sklearn.datasets import load_boston
boston = load_boston()

In [10]:
X = boston.data
y = boston.target

In [77]:
a, b = multi_leastsq_function(X,y)

In [78]:
a

array([-1.08011358e-01,  4.64204584e-02,  2.05586264e-02,  2.68673382e+00,
       -1.77666112e+01,  3.80986521e+00,  6.92224640e-04, -1.47556685e+00,
        3.06049479e-01, -1.23345939e-02, -9.52747232e-01,  9.31168327e-03,
       -5.24758378e-01])

In [64]:
compute_error(X, y, a, b)

21.894831181729206

In [92]:
a, b = multi_leastsq_function_matrix(X,y)

In [93]:
a

array([-1.08011358e-01,  4.64204584e-02,  2.05586264e-02,  2.68673382e+00,
       -1.77666112e+01,  3.80986521e+00,  6.92224640e-04, -1.47556685e+00,
        3.06049479e-01, -1.23345939e-02, -9.52747232e-01,  9.31168327e-03,
       -5.24758378e-01])

In [94]:
compute_error(X, y, a, b)

21.894831181729206

可以看到两个方法得出的结果是一样的