# 预备知识

In [None]:
# 去除warning警报
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 导入数据集方法
from sklearn.datasets import load_boston

In [None]:
# 加载数据
boston = load_boston()

In [None]:
# 查看数据结构
boston.keys()

In [None]:
# 获取数据特征矩阵
X = boston['data']
# 获取数据响应变量
y = boston['target']

In [None]:
# 导入模型
from sklearn.linear_model import LinearRegression

In [None]:
# 创建模型
lr = LinearRegression()

In [None]:
# 模型训练
lr.fit(X, y)

In [None]:
# 模型预测
yhat = lr.predict(X)

In [None]:
# 模型评估
from sklearn.metrics import mean_squared_error, r2_score
# 计算均方误差并打印
MSE = mean_squared_error(y, yhat)
print(MSE)
# 计算均方根误差并打印
RMSE = mean_squared_error(y, yhat)**0.5
print(RMSE)
# 计算均方误差并打印
r_2 = r2_score(y, yhat)
print(r_2)

# 变量选择法

使用sklearn和mlxtend包进行向前变量选择和向后变量选择，如未安装mlxtend包，请在cmd命令行安装（pip install mlxtend）

### 0.导入忽略warning的方法

In [None]:
# 去除warning警报
import warnings 
warnings.filterwarnings("ignore")

### 1.导入数据并拆分为训练集和测试集

In [None]:
# 导入加载数据集的方法
from sklearn.datasets import load_boston
# 导入数据集拆分工具
from sklearn.model_selection import train_test_split

In [None]:
# 加载数据集
boston = load_boston()

In [None]:
# 查看数据集结构
boston.keys()

In [None]:
# 导入特征数据
X = boston.data
# 导入响应变量
y = boston.target

In [None]:
# 查看数据集形状
print("特征数据形状：",X.shape)
print("响应变量形状：",y.shape)

In [None]:
# 按照7：3的比例切割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y,train_size=0.7)
# 查看训练集形状
print("训练集特征维度", X_train.shape)
print("训练集响应变量维度", y_train.shape)
print("测试集特征维度", X_test.shape)
print("测试集响应变量维度", y_test.shape)

### 1.1查看特征与响应变量相关性

In [None]:
import numpy as np
import matplotlib.pyplot as plt
# 将响应变量和特征拼接在一起
full = np.hstack((y.reshape(-1,1),X))
# 利用相关性函数计算响应变量与特征相关性
corr = np.corrcoef(full.T)[0,:]
# 利用柱状图展示相关性
plt.bar(np.arange(0,14),corr)

### 2.线性回归模型

### 2.1模型选择

In [None]:
# 导入线性回归模型
from sklearn.linear_model import LinearRegression

In [None]:
# 创建线性回归模型
lr = LinearRegression()

### 2.2模型训练

In [None]:
# 使用线性回归模型拟合训练集数据
lr.fit(X_train, y_train)

### 2.3模型预测

In [None]:
# 使用拟合之后的模型预测数据
yhat = lr.predict(X_test)

### 2.4模型评估(使用测试集)

In [None]:
# 导入均方误差方法，R方进行模型评估
from sklearn.metrics import mean_squared_error, r2_score
# 计算模型均方误差
MSE = mean_squared_error(y_test, yhat)
print("模型均方误差",MSE)
# 计算模型均方根误差
RMSE = mean_squared_error(y_test, yhat)**0.5
print("模型均方根误差",RMSE)
# 计算模型R方
r_2 = r2_score(y_test, yhat)
print("模型R方",r_2)

### 3.向前变量选择法

In [None]:
# 导入变量选择法
from mlxtend.feature_selection import SequentialFeatureSelector as SFS

### 3.1变量(特征)选择

In [None]:
# 创建向前（Stepwise Regression）选择器
sfs_forward = SFS(lr,
                  k_features=9,
                  forward=True,
                  scoring='neg_mean_squared_error')

In [None]:
# 使用向前选择器拟合训练集数据
sfs_forward.fit(X_train, y_train)

In [None]:
# 输出最佳特征组合
print('Best feature subset:', sfs_forward.k_feature_idx_)

In [None]:
# 使用向前选择法转换训练集、测试集数据
X_sfs_train = sfs_forward.transform(X_train)
X_sfs_test = sfs_forward.transform(X_test)
# 查看转换后特征形状
print("向前选择后训练集特征形状：",X_sfs_train.shape)
print("向前选择后测试集特征形状：",X_sfs_test.shape)

### 3.2 模型训练

In [None]:
# 使用转换后数据拟合模型
lr.fit(X_sfs_train, y_train)

### 3.3模型预测

In [None]:
# 使用拟合之后的模型预测数据
yhat = lr.predict(X_sfs_test)

### 3.4模型评估(使用测试集)

In [None]:
# 导入均方误差方法，R方进行模型评估
from sklearn.metrics import mean_squared_error, r2_score
# 计算模型均方误差
MSE = mean_squared_error(y_test, yhat)
print("模型均方误差",MSE)
# 计算模型均方根误差
RMSE = mean_squared_error(y_test, yhat)**0.5
print("模型均方根误差",RMSE)
# 计算模型R方
r_2 = r2_score(y_test, yhat)
print("模型R方",r_2)

### 4.向后变量选择法

In [None]:
# 导入变量选择法


### 4.1变量(特征)选择

In [None]:
# 创建向后（Stepwise Regression）选择器


In [None]:
# 使用向后选择器拟合训练集数据


In [None]:
# 输出最佳特征组合


In [None]:
# 使用向后选择法转换训练集、测试集数据

# 查看转换后特征形状


### 4.2 模型训练

In [None]:
# 使用转换后数据拟合模型


### 4.3模型预测

In [None]:
# 使用拟合之后的模型预测数据


### 4.4模型评估(使用测试集)

In [None]:
# 导入均方误差方法，R方进行模型评估

# 计算并打印模型均方误差

# 计算并打印模型均方根误差

# 计算并打印模型R方
