# Multiple linear regression
---
在多元线性回归中，我们寻找一个可以匹配输入数据到结果的方法。每一个输入数据都是一个具有$m$个特征的*特征向量* $\vec{x} = \left(x_1, x_2, \cdots, x_m\right)$。我们用矩阵$X$来表示所有的输入数据，矩阵中的每一行为一个数据记录，一共有$n$条记录。向量$\vec{y}$为我们的预测值，他们的表示如下。
$$
    X = \left[
    \begin{matrix}
    1 & x_{1,1} & x_{1,2} & \cdots & x_{1,m}\\
    1 & x_{2,1} & x_{2,2} & \cdots & x_{2,m}\\
    1 & \vdots & \vdots & \ddots & \vdots\\
    1 & x_{n,1} & x_{n,2} & \cdots & x_{n,m}\\
    \end{matrix}
    \right]
$$
<br />
<br />
$$
    \vec{y} = \left[
    \begin{matrix}
    y_1\\
    y_2\\
    \vdots\\
    y_n\\
    \end{matrix}
    \right]
$$
第i条数据记录表示为：
<br />
$$
    x_i = 
    \left[
    \begin{matrix}
    1 & x_{i,1} & x_{i,2} & \cdots & x_{i,m}\\
    \end{matrix}
    \right]
$$

我们寻找一个向量$\hat{\beta}$使得$X\hat{\beta}$尽可能的靠近${y}$。${y}$为我们的真实值。
<br />
$$
    \hat{\beta} = \left[
    \begin{matrix}
    \beta_0\\
    \beta_1\\
    \vdots\\
    \beta_m\\
    \end{matrix}
    \right]
$$
<br />
<br />
$$\hat{y} = x \cdot \hat{\beta} = \beta_0 + \beta_1x_1 + \beta_1x_1 + \cdots + \beta_mx_m$$
在最小二乘线性回归模型中，其损失函数为：
$$cost = \sum_{i=1}^{n}({y_i} - \hat{y_i})^2 =\sum_{i=1}^{n}({y_i} - x_i\hat{\beta})^2 $$
<br />
<br />
当损失函数最小时，我们就找到了$\vec{\beta}$。
已知$({y_i} - x_i\hat{\beta})^2$为凸函数，多个凸函数之和，任然为凸函数。
那么我们只需令损失函数求对$\hat{\beta}$， 倒数为零时，我们有最小值。
$$cost = ||y - X\hat{\beta}|| = (y - X\hat{\beta})^T(y - X\hat{\beta})$$
<br />
<br />
求导：
<br />
$$
\begin{align}
\frac {\sigma cost}{\sigma \hat{\beta}} &= y^Ty - y^TX\hat{\beta} - \hat{\beta}^TX^Ty + X^TX\hat{\beta}^T\hat{\beta} &= 0\\
\frac {\sigma cost}{\sigma \hat{\beta}} &= -2X^Ty + 2X^TX\hat{\beta} &= 0\\
X^Ty &= X^TX\hat{\beta}
\end{align}
$$


## 例子：房价分析
---
我将用于此示例的数据集是Windsor房价数据集，其中包含有关安大略省温莎市区房屋销售的信息。 输入变量涵盖了可能对房价产生影响的一系列因素，例如批量大小，卧室数量以及各种设施的存在。
<br />
我从[这个网站](https://vincentarelbundock.github.io/Rdatasets/datasets.html)下载了数据集，该网站提供了大量涵盖大量主题的数据集。

In [13]:
#读取数据
import pandas as pd
import numpy as np
#dataframes
housing_df = pd.read_csv('Housing.csv', delimiter = ',')

从数据集中获取数据矩阵$X$以及房价的结果$y$

In [27]:
#dataframe 转 np矩阵
data = np.array(housing_df)
#获取所有房价信息，作为y值
y = data[:,-1]
#获取特征值矩阵
X = data[:,:-1]
#将最后10条数据取出来作为测试集
n_train = len(y) - 10
#y的训练集和预测集
y_train = y[:-10] # >>> shape(536,)
y_test = y[-10:]# >>> shape(10,)
#构造数据的矩阵
X_train = X[:-10, :] # >>> shape(536, 11)
X_test = X[-10:, :] # >>> shape(10, 11)
#添加一列1
X_train = np.c_[np.ones((X_train.shape[0], 1)), X_train]
X_test = np.c_[np.ones((10, 1)), X_test]

利用我们在上文中得到的公式
$$ X^Ty = X^TX\hat{\beta} $$
计算$\hat{\beta}$
<br />
在这里我们使用
```python
np.linalg.solve()
```
来求解系统，得到$\hat{\beta}$

---
### numpy求解线性方程组的应用
比方所对于方程组$ Ax = b$，我们有，

```python
x = np.linalg.solve(A,b)
```

In [35]:
#利用线性方程组求解beta
beta = np.linalg.solve(np.dot(X_train.T, X_train), np.dot(X_train.T, y_train))

In [36]:
y_hat = np.dot(X_test, beta)
for idx, val in enumerate(y_hat):
    print('prediction = '+str(val)+' actual = '+str(y_test[idx]))

prediction = 97360.65509691092 actual = 82500
prediction = 71774.16590136984 actual = 83000
prediction = 92359.0891976023 actual = 84000
prediction = 77748.274237906 actual = 85000
prediction = 91015.59030664091 actual = 85000
prediction = 97545.11790473228 actual = 91500
prediction = 97360.65509691092 actual = 94000
prediction = 106006.80075598106 actual = 103000
prediction = 92451.69312694679 actual = 105000
prediction = 73458.29493810149 actual = 105000


## 矩阵求导法则
---
- 前导不变，后导转置，$x$是变量矩阵，$a$和$b$为常量矩阵。那么我们有：
$$
    x = \left[
    \begin{matrix}
    x_1\\
    x_2\\
    \vdots\\
    x_m\\
    \end{matrix}
    \right]
$$
<br />
<br />
$$
    a = \left[
    \begin{matrix}
    a_0\\
    a_1\\
    \vdots\\
    a_m\\
    \end{matrix}
    \right]
$$
<br />
<br />
$$
    b = 
    \left[
    \begin{matrix}
    b_1 & b_2 & \cdots & b_m\\
    \end{matrix}
    \right]
$$
<br />
<br />
后导：
<br />
$$\frac {\sigma (bTx)}{\sigma x} = b^T$$
前导：
<br />
$$\frac {\sigma (x^Ta)}{\sigma x} = a$$