# 线性回归

In [15]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.ticker import MaxNLocator
from sklearn.preprocessing import StandardScaler

In [16]:
# 从源文件中加载数据，并输出查看数据的各项特征
lines = np.loadtxt('data/USA_Housing.csv',delimiter=',',dtype='str')
header = lines[0]
lines = lines[1:].astype(float)

print('数据特征：',','.join(header[:]))
print('数据标签：',header[-1])
print('数据总条数：',len(lines))

数据特征： Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price
数据标签： Price
数据总条数： 5000


In [17]:
# 划分训练集与测试集
ratio = 0.8
split = int(len(lines) * ratio)
lines = np.random.permutation(lines)
train,test = lines[:split],lines[split:]

# 数据标准化
scaler = StandardScaler()
scaler.fit(train)
train = scaler.transform(train)
test = scaler.transform(test)

# 划分输入和标签
x_train,y_train = train[:,:-1],train[:,-1].flatten()
x_test,y_test = test[:,:-1],test[:,-1].flatten()

In [18]:
# 在X矩阵最后添加一列1，代表常数项
X = np.concatenate([x_train,np.ones((len(x_train),1))],axis = 1)
# @表示矩阵相乘，X.T表示矩阵的转置，np.linalg.inv函数可以计算矩阵的逆
theta = np.linalg.inv(X.T @ X) @ X.T @ y_train
print('回归系数：',theta)

回归系数： [6.52116296e-01 4.66940826e-01 3.37504495e-01 7.38985113e-03
 4.23738278e-01 2.16874316e-15]


In [19]:
# 在测试集上使用回归系数进行预测
X_test = np.concatenate([x_test,np.ones((len(x_test),1))],axis = -1)
y_pred = X_test @ theta

In [20]:
# 计算真实值和测量值之间的RMSE
rmse_loss = np.sqrt(np.square(y_test - y_pred).mean())
print('RMSE:',rmse_loss)

RMSE: 0.27977164270642174


# 使用sklearn中的线性回归模型

In [21]:
from sklearn.linear_model import LinearRegression

# 初始化线性回归模型
linreg = LinearRegression()

# LinearRegression的方法中已经考虑到了线性回归的常数项，所以不用拼接1
linreg.fit(x_train,y_train)

# coef_是训练得到的回归系数，intercept_是常数项
print('回归系数：',linreg.coef_,linreg.intercept_)
y_pred = linreg.predict(x_test)

# 计算预测值和真实值之间的RMSE
rmse_loss = np.sqrt(np.square(y_test - y_pred).mean())
print('RMSE:',rmse_loss)

回归系数： [0.6521163  0.46694083 0.3375045  0.00738985 0.42373828] 2.1674510549121753e-15
RMSE: 0.27977164270642174
