### 前言

在前面，我们已经推导过多元线性回归的闭式解，其形式为:
$$w=(X^TX)^{-1}X^Ty$$
多元线性回归的模型为:
$$y_i=x^T_i(X^TX)^{-1}X^Ty$$
上述公式中包含$(X^TX)^{-1}$,也就是需要对矩阵求逆，因此这个方程只在逆矩阵存在的时候适用。然而，矩阵的逆可能并不存在，因此必须要在代码中对此作出判断。

### 从零实现线性回归

In [1]:
#导入库
import numpy as np
import pandas as pd

In [2]:
class LinearRegression():
    def __init__(self):
        self.ws=np.mat([])
    
    def fit(self,X_train,Y_train):
        xMat=np.mat(X_train,dtype='float')
        yMat=np.mat(Y_train,dtype='float').T
        xTx=xMat.T*xMat
        #print(np.shape(xMat),np.shape(yMat),np.shape(xTx))
        if np.linalg.det(xTx)==0.0:#矩阵行列式为0，则矩阵不可逆
            print("Cannot do inverse")
            return
        self.ws=xTx.I*xMat.T*yMat
        #print(np.shape(self.ws))
    
    def predict(self,X_test):
        xMat=np.mat(X_test,dtype='float')
        #print(np.shape(xMat))
        y_predict=xMat*self.ws #这里不用转置，因为我们的输入数据是行向量
        return np.array(y_predict.T)

In [3]:
#读取数据
dataset=pd.read_csv("datasets/50_Startups.csv")
X=dataset.iloc[:,:-1].values
Y=dataset.iloc[:,4].values

In [4]:
#将文本标签转为数值类型
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
from sklearn.compose import ColumnTransformer
labelEncoder=LabelEncoder()
X[:,3]=labelEncoder.fit_transform(X[:,3])
columnTransformer=ColumnTransformer([('Country',OneHotEncoder(),[3])],remainder='passthrough')
X=columnTransformer.fit_transform(X)
print(X[0])

[0.0 0.0 1.0 165349.2 136897.8 471784.1]


In [5]:
#躲避虚拟变量陷阱
X=X[:,1:]
print(X[0])

[0.0 1.0 165349.2 136897.8 471784.1]


In [6]:
#划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.2,random_state=0)

In [7]:
#训练模型
model=LinearRegression()
model.fit(X_train,Y_train)

In [8]:
#预测数据
Y_pred=model.predict(X_test)
print(Y_pred)
print(Y_test)

[[116862.44205399 118661.40080974 124952.97891883  60680.01036438
  170151.07265605 124051.51460777  55021.33309142 105530.20331088
  115467.09705302 155985.45674131]]
[103282.38 144259.4  146121.95  77798.83 191050.39 105008.31  81229.06
  97483.56 110352.25 166187.94]
