In [1]:
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import warnings
warnings.filterwarnings('ignore')

# 加在波士顿房价数据, 并使用线性回归进行预测

In [2]:
boston = load_boston()
X, y = boston.data, boston.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)
lr = LinearRegression()
lr.fit(X_train, y_train)
y_hat = lr.predict(X_test)

print("训练集R^2：", r2_score(y_train, lr.predict(X_train)))
print("测试集R^2：", r2_score(y_test, y_hat))

训练集R^2： 0.7697699488741149
测试集R^2： 0.6354638433202114


# 进行多项式扩展

In [3]:
from sklearn.preprocessing import PolynomialFeatures

for n in range(1, 7):
    poly = PolynomialFeatures(degree=n, include_bias=False)
    Xpoly = poly.fit_transform(X)
    print("扩展后的形状:", Xpoly.shape)
    X_train, X_test, y_train, y_test = train_test_split(Xpoly, y, test_size=0.25, random_state=0)
    lr = LinearRegression()
    lr.fit(X_train, y_train)
    print(n, "阶训练集R^2：", r2_score(y_train, lr.predict(X_train)), ", \t测试集R^2：", r2_score(y_test, lr.predict(X_test)))

扩展后的形状: (506, 13)
1 阶训练集R^2： 0.7697699488741149 , 	测试集R^2： 0.6354638433202114
扩展后的形状: (506, 104)
2 阶训练集R^2： 0.9520519609032728 , 	测试集R^2： 0.6074721959577549
扩展后的形状: (506, 559)
3 阶训练集R^2： 0.9999999999999999 , 	测试集R^2： -9443.834114629808
扩展后的形状: (506, 2379)
4 阶训练集R^2： 1.0 , 	测试集R^2： -1144.2632682199612
扩展后的形状: (506, 8567)
5 阶训练集R^2： 1.0 , 	测试集R^2： -135.30506303428788
扩展后的形状: (506, 27131)
6 阶训练集R^2： 1.0 , 	测试集R^2： -479.7808884607034


# 多项式扩展后使用添加正则化项的线性回归

In [4]:
from sklearn.linear_model  import Lasso, Ridge, ElasticNet

for n in range(1, 7):
    poly = PolynomialFeatures(degree=n, include_bias=False)
    Xpoly = poly.fit_transform(X)
    print(n, "阶扩展后的形状:", Xpoly.shape)
    X_train, X_test, y_train, y_test = train_test_split(Xpoly, y, test_size=0.25, random_state=0)
    
    lr = LinearRegression()
    lr.fit(X_train, y_train)
    print("线性回归训练集R^2：", r2_score(y_train, lr.predict(X_train)), ", \t测试集R^2：", r2_score(y_test, lr.predict(X_test)))
    lass = Lasso()
    lass.fit(X_train, y_train)
    print("lasso训练集R^2：", r2_score(y_train, lass.predict(X_train)), ", \t测试集R^2：", r2_score(y_test, lass.predict(X_test)))
    ridge = Ridge()
    ridge.fit(X_train, y_train)
    print("ridge训练集R^2：", r2_score(y_train, ridge.predict(X_train)), ", \t测试集R^2：", r2_score(y_test, ridge.predict(X_test)))
    elastic = ElasticNet()
    elastic.fit(X_train, y_train)
    print("elasticnet训练集R^2：", r2_score(y_train, elastic.predict(X_train)), ", \t测试集R^2：", r2_score(y_test, elastic.predict(X_test)))
    print()

1 阶扩展后的形状: (506, 13)
线性回归训练集R^2： 0.7697699488741149 , 	测试集R^2： 0.6354638433202114
lasso训练集R^2： 0.7150499874336981 , 	测试集R^2： 0.5516247059049908
ridge训练集R^2： 0.7678858330771392 , 	测试集R^2： 0.6266182204613853
elasticnet训练集R^2： 0.7208704087353837 , 	测试集R^2： 0.5603163143661134

2 阶扩展后的形状: (506, 104)
线性回归训练集R^2： 0.9520519609032728 , 	测试集R^2： 0.6074721959577549
lasso训练集R^2： 0.9068684337013593 , 	测试集R^2： 0.7280316827205042
ridge训练集R^2： 0.9479909766810315 , 	测试集R^2： 0.6072823587681102
elasticnet训练集R^2： 0.9129777927874689 , 	测试集R^2： 0.7432662615022664

3 阶扩展后的形状: (506, 559)
线性回归训练集R^2： 0.9999999999999999 , 	测试集R^2： -9443.834114629808
lasso训练集R^2： 0.9670436511978687 , 	测试集R^2： 0.7305132035316728
ridge训练集R^2： 0.8668315772001219 , 	测试集R^2： -4.509124625879192
elasticnet训练集R^2： 0.9684644152497706 , 	测试集R^2： 0.6960420651896808

4 阶扩展后的形状: (506, 2379)
线性回归训练集R^2： 1.0 , 	测试集R^2： -1144.2632682199612
lasso训练集R^2： 0.983433025482403 , 	测试集R^2： 0.5628285895751588
ridge训练集R^2： 0.9525560719630122 , 	测试集R^2： -7