In [1]:
##################################################################
#           《Python人工智能编程实践（2024年度版）》开源代码
#-----------------------------------------------------------------
#            @章节号：5.5.3（参数正则化）                 
#            @作者：范淼、徐晟桐 
#            @购书链接：暂无
#            @电子邮箱：fm12@tsinghua.org.cn             
#            @官方交流QQ群号：561500762                        
##################################################################

In [2]:
from sklearn.datasets import load_diabetes


#加载糖尿病数据集。
dataset = load_diabetes()

#查看数据的样本数量和特征维度。
dataset.data.shape

(442, 10)

In [3]:
from sklearn.model_selection import train_test_split


#按照6:4的比例分割出训练和测试集。
X_train, X_test, y_train, y_test = train_test_split(dataset.data, dataset.target, train_size=0.75, random_state=950823)

#查看训练集的样本数量和特征维度。
X_train.shape

(331, 10)

In [4]:
from sklearn.preprocessing import StandardScaler


#初始化特征标准化处理器。
ss = StandardScaler()

#标准化训练数据特征。
X_train = ss.fit_transform(X_train)

#标准化测试数据特征。
X_test = ss.transform(X_test)

In [5]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error


#初始化线性回归器模型，不采用参数正则化。
lr = LinearRegression()

#用训练集数据训练回归器模型。
lr.fit(X_train, y_train)

#用训练好的分类模型，在测试集上预测一遍。
y_predict = lr.predict(X_test)

print('Scikit-learn的线性回归器模型（无参数正则化）在diabetes测试集上的均方根误差为：%.2f。' %(mean_squared_error(y_test, y_predict, squared=False)))

Scikit-learn的线性回归器模型（无参数正则化）在diabetes测试集上的均方根误差为：56.37。


In [6]:
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error


#初始化线性回归器模型，采用参数L2正则化。
lr = Ridge()

#用训练集数据训练回归器模型。
lr.fit(X_train, y_train)

#用训练好的分类模型，在测试集上预测一遍。
y_predict = lr.predict(X_test)

print('Scikit-learn的线性回归器模型（参数L2正则化）在diabetes测试集上的均方根误差为：%.2f。' %(mean_squared_error(y_test, y_predict, squared=False)))

Scikit-learn的线性回归器模型（参数L2正则化）在diabetes测试集上的均方根误差为：56.29。


In [7]:
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error


#初始化线性回归器模型，采用参数L1正则化。
lr = Lasso()

#用训练集数据训练回归器模型。
lr.fit(X_train, y_train)

#用训练好的分类模型，在测试集上预测一遍。
y_predict = lr.predict(X_test)

print('Scikit-learn的线性回归器模型（参数L1正则化）在diabetes测试集上的均方根误差为：%.2f。' %(mean_squared_error(y_test, y_predict, squared=False)))

Scikit-learn的线性回归器模型（参数L1正则化）在diabetes测试集上的均方根误差为：56.03。


In [8]:
from sklearn.preprocessing import PolynomialFeatures


#初始化多项式特征生成器。
pf = PolynomialFeatures(degree=2)

#对训练数据进行特征升维处理。
X_train = pf.fit_transform(X_train)

#对测试数据进行特征升维处理。
X_test = pf.transform(X_test)

#查看升维训练集的样本数量和特征维度
X_train.shape

(331, 66)

In [9]:
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_squared_error


#初始化线性回归器模型，采用参数L1正则化。
lr = Lasso()

#用升维的训练集数据训练回归器模型。
lr.fit(X_train, y_train)

#用训练好的分类模型，在升维的测试集上预测一遍。
y_predict = lr.predict(X_test)

print('Scikit-learn的线性回归器模型（参数L1正则化）在diabetes测试集上的均方根误差为：%.2f。' %(mean_squared_error(y_test, y_predict, squared=False)))

Scikit-learn的线性回归器模型（参数L1正则化）在diabetes测试集上的均方根误差为：55.12。
