In [3]:
import numpy as np

'''
    加载数据集，其中文件中一行为一条数据，前13列为输入变量，最后一列为房价，即输出变量
    波士顿房价数据集共506条数据，根据实验要求，前450条数据作为训练集，后56条数据作为测试集
'''
def loadDataset(filename):
    x = []
    y = []
    with open(filename,'r') as f:
        id = 0
        for line in f:
            ele = line.split()
            ele = list(map(float, ele))
            x.append(ele[:-1])        #取13个输入变量
            x[id].append(1)           #因为将w和b融合为一个整体，故需要在输入变量最后一列添加1
            y.append(ele[-1])         #取输出变量
            id += 1
            
    
    trainX = x[:-56]
    trainY = y[:-56]
    testX = x[-56:]
    testY = y[-56:]
    trainX = np.array(trainX)         #将数组转化为矩阵
    trainY = np.array(trainY)
    testX = np.array(testX)
    testY = np.array(testY)

    return trainX,trainY,testX,testY

'''
    根据最小二乘法求出多元线性回归模型的参数
    其中np.dot(x,y)表示矩阵x乘y,np.linalg.inv(x)表示矩阵求逆，
    最小二乘法求参数的公式为 (X^T X)^(-1) X^T Y
    x为训练数据的输入变量，y为训练数据对应的标记，返回模型的参数
'''
def train(x,y):
    parameter = np.dot(np.dot(np.linalg.inv(np.dot(x.T,x)),x.T),y)
    #parameter = parameter.reshape(parameter.shape[0],1)
    return parameter


'''
    获得测试集的预测结果
    testX为测试数据的输入变量，parameter为多元线性回归模型的参数，返回预测结果
'''
def predict(testX,parameter):
    #print(str(testX.shape) + " " + str(parameter.shape))
    pre = np.dot(testX,parameter)
    return pre

'''
    计算模型预测结果的均方误差
    testY为测试数据对应的标记，pre为测试数据的预测结果，返回均方误差
'''
def getMSE(testY,pre): 
    MSE = 0
    for i in range(len(testY)):
        MSE += (pre[i]-testY[i])*(pre[i]-testY[i])
    MSE /= len(testY)
    return MSE

if __name__ == '__main__':
    filename = './housing_data.txt'
    trainX,trainY,testX,testY = loadDataset(filename)
    parameter = train(trainX,trainY)
    w = parameter[:-1]
    bias = parameter[-1]
    print(w)          #打印参数矩阵
    print(bias)       #打印偏置项
    pre = predict(testX,parameter)
    print(getMSE(testY,pre))
    print(testY)

[-1.12706397e-01  4.84679322e-02  3.51619982e-02  2.43036682e+00
 -1.71555914e+01  3.92937664e+00  1.05952560e-02 -1.40598405e+00
  3.72316544e-01 -1.54340774e-02 -9.03360601e-01  9.74047349e-03
 -5.51630479e-01]
34.26122511497033
[[6.71772e+00 0.00000e+00 1.81000e+01 0.00000e+00 7.13000e-01 6.74900e+00
  9.26000e+01 2.32360e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.20000e-01
  1.74400e+01 1.00000e+00]
 [5.44114e+00 0.00000e+00 1.81000e+01 0.00000e+00 7.13000e-01 6.65500e+00
  9.82000e+01 2.35520e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.55290e+02
  1.77300e+01 1.00000e+00]
 [5.09017e+00 0.00000e+00 1.81000e+01 0.00000e+00 7.13000e-01 6.29700e+00
  9.18000e+01 2.36820e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.85090e+02
  1.72700e+01 1.00000e+00]
 [8.24809e+00 0.00000e+00 1.81000e+01 0.00000e+00 7.13000e-01 7.39300e+00
  9.93000e+01 2.45270e+00 2.40000e+01 6.66000e+02 2.02000e+01 3.75870e+02
  1.67400e+01 1.00000e+00]
 [9.51363e+00 0.00000e+00 1.81000e+01 0.00000e+00 7.13000e-01 6.72800