In [1]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, MultiTaskLasso, Lars \
                          , ElasticNet, MultiTaskElasticNet \
                          , OrthogonalMatchingPursuit, orthogonal_mp \
                          , BayesianRidge, ARDRegression \
                          , SGDRegressor \
                          , PassiveAggressiveRegressor \
                          , HuberRegressor
from sklearn.linear_model import RidgeCV, LassoCV, LassoLarsCV

In [2]:
import numpy as np
import pandas as pd
from sklearn.metrics import mean_squared_error, r2_score

In [3]:
# 线性回归模型要求输入特征之间是独立的，

In [4]:
# 创建数据集1
X = np.random.uniform(size=(1000, 7))
y = 0.09 * X[:,0] - 0.58 * X[:,1] + 0 * X[:,2] + 0.17 * X[:,3] +\
    0 * X[:, 4] + 0.32 * X[:, 5] + 0.46 * X[:, 6] + 0.78
y[::7] += 0.1 * np.random.uniform(size=143)
X_train, X_test = X[:-200], X[-200:]
y_train, y_test = y[:-200], y[-200:]
print(X_train.shape, X_test.shape)
print(y_train.shape, y_test.shape)

(800, 7) (200, 7)
(800,) (200,)


In [5]:
# 创建数据集2(测试共线性)
tmp = X[:, 0] * 0.8 
tmp[::5] += 0.1 * np.random.uniform(size=200)
X2 = np.c_[X , tmp]

y2 = 0.09 * X2[:,0] - 0.58 * X2[:,1] + 0 * X2[:,2] + 0.17 * X2[:,3] +\
    0 * X2[:, 4] + 0.32 * X2[:, 5] + 0.46 * X2[:, 6] + 0.21 * X2[:, 7] + 0.78
y2[::7] += 0.1 * np.random.uniform(size=143)
X2_train, X2_test = X2[:-200], X2[-200:]
y2_train, y2_test = y2[:-200], y2[-200:]
print(X2_train.shape, X2_test.shape)
print(y2_train.shape, y2_test.shape)

(800, 8) (200, 8)
(800,) (200,)


### a) 无共线性的数据集

#### LinearRegression

In [6]:
lr = LinearRegression()
# LinearRegression(positive=True) 表示所有系数均为正

In [7]:
lr.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [8]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46]
for i in range(len(lr.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - lr.coef_[i]))
lr.coef_

第 0 个系数的实际和预测的差距： 0.004765863874887921
第 1 个系数的实际和预测的差距： 0.0021687671009927856
第 2 个系数的实际和预测的差距： 0.004920723229145708
第 3 个系数的实际和预测的差距： 0.0007223548375249467
第 4 个系数的实际和预测的差距： 0.0018867050208826197
第 5 个系数的实际和预测的差距： 0.0037400834400830862
第 6 个系数的实际和预测的差距： 0.0017692767518072694


array([ 0.09476586, -0.58216877, -0.00492072,  0.16927765, -0.00188671,
        0.31625992,  0.45823072])

In [9]:
lr.intercept_

0.7931579806991383

In [10]:
y_pred = lr.predict(X_test)

In [11]:
print(mean_squared_error(y_pred, y_test), r2_score(y_pred, y_test))

0.0003009360160607732 0.994315126919553


#### RidgeRegression

In [12]:
ridge = Ridge(alpha=0.1)
ridge.fit(X_train, y_train)

Ridge(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [13]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46]
for i in range(len(ridge.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - ridge.coef_[i]))
ridge.coef_

第 0 个系数的实际和预测的差距： 0.004592505808094852
第 1 个系数的实际和预测的差距： 0.0012369634643638605
第 2 个系数的实际和预测的差距： 0.004864768519115466
第 3 个系数的实际和预测的差距： 0.0010184891107462013
第 4 个系数的实际和预测的差距： 0.0018225513262014835
第 5 个系数的实际和预测的差距： 0.004326405563660873
第 6 个系数的实际和预测的差距： 0.0024695978313302724


array([ 0.09459251, -0.58123696, -0.00486477,  0.16898151, -0.00182255,
        0.31567359,  0.4575304 ])

In [14]:
ridge.intercept_

0.7935138866728013

#### Lasso

In [15]:
lasso = Lasso(alpha=0.001)
lasso.fit(X_train, y_train)

Lasso(alpha=0.001, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

In [16]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46]
# 可以看出Lasso可以识别出前面系数为0的列，他们的系数预测为0
for i in range(len(lasso.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - lasso.coef_[i]))
lasso.coef_

第 0 个系数的实际和预测的差距： 0.00769833536743432
第 1 个系数的实际和预测的差距： 0.01138385956872956
第 2 个系数的实际和预测的差距： 0.0
第 3 个系数的实际和预测的差距： 0.013512953554929735
第 4 个系数的实际和预测的差距： 0.0
第 5 个系数的实际和预测的差距： 0.01842991316139997
第 6 个系数的实际和预测的差距： 0.014464592576535762


array([ 0.08230166, -0.56861614, -0.        ,  0.15648705, -0.        ,
        0.30157009,  0.44553541])

#### ElasticNet

In [17]:
enet = ElasticNet(alpha=0.01, l1_ratio=0.001)
enet.fit(X_train, y_train)

ElasticNet(alpha=0.01, copy_X=True, fit_intercept=True, l1_ratio=0.001,
      max_iter=1000, normalize=False, positive=False, precompute=False,
      random_state=None, selection='cyclic', tol=0.0001, warm_start=False)

In [18]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46]
# 既用了l1,也用了l2, 所有无法将系数为0的特征识别为0；
for i in range(len(enet.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - enet.coef_[i]))
enet.coef_

第 0 个系数的实际和预测的差距： 0.007438377296528159
第 1 个系数的实际和预测的差距： 0.0639888536399964
第 2 个系数的实际和预测的差距： 0.0011846280568969384
第 3 个系数的实际和预测的差距： 0.021676005360319273
第 4 个系数的实际和预测的差距： 0.0020751700076486294
第 5 个系数的实际和预测的差距： 0.04479906341768858
第 6 个系数的实际和预测的差距： 0.05181479095942587


array([ 0.08256162, -0.51601115, -0.00118463,  0.14832399,  0.00207517,
        0.27520094,  0.40818521])

#### b) 存在共线性的数据集

#### LinearRegression

In [19]:
lr2 = LinearRegression()
lr2.fit(X2_train, y2_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

In [20]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46, 0.21]
# 第0个和最后一个系数和实际相差较多，因为这两个系数之间存在共线性
for i in range(len(lr2.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - lr2.coef_[i]))

第 0 个系数的实际和预测的差距： 0.04705510500915927
第 1 个系数的实际和预测的差距： 0.002866158728298651
第 2 个系数的实际和预测的差距： 0.0027208542823393177
第 3 个系数的实际和预测的差距： 0.0009782458332392996
第 4 个系数的实际和预测的差距： 0.003239549094000538
第 5 个系数的实际和预测的差距： 0.00143718341685517
第 6 个系数的实际和预测的差距： 0.0019159469102332238
第 7 个系数的实际和预测的差距： 0.058573626118876204


#### RidgeRegression 

In [21]:
ridge2 = Ridge(alpha=0.1)
ridge2.fit(X2_train, y2_train)

Ridge(alpha=0.1, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001)

In [22]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46, 0.21]
# 针对共线性处理，可以看到RidgeRegression的处理比LinearRegression要好
for i in range(len(ridge2.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - ridge2.coef_[i]))
ridge2.coef_

第 0 个系数的实际和预测的差距： 0.05266623058583009
第 1 个系数的实际和预测的差距： 0.0038318477915395555
第 2 个系数的实际和预测的差距： 0.0026867218173432616
第 3 个系数的实际和预测的差距： 0.0012943844346738065
第 4 个系数的实际和预测的差距： 0.0031736311807101067
第 5 个系数的实际和预测的差距： 0.0020092871341176877
第 6 个系数的实际和预测的差距： 0.0026086210379070995
第 7 个系数的实际和预测的差距： 0.06594375286289528


array([ 0.14266623, -0.57616815, -0.00268672,  0.16870562, -0.00317363,
        0.31799071,  0.45739138,  0.14405625])

#### Lasso

In [23]:
lasso2 = Lasso(alpha=0.001)
lasso2.fit(X2_train, y2_train)

Lasso(alpha=0.001, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

In [24]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46, 0.21]
# Lasso识别了第一个和最后一个的共线性，并且做了加总处理0.09+0.21*0.8=0.258，
# 接近预测出来的第一个变量前面的系数，而最后一个变量前面的系数变为0了，减少了特征，所以可以用来做特征筛选
for i in range(len(lasso2.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - lasso2.coef_[i]))
lasso2.coef_

第 0 个系数的实际和预测的差距： 0.154810622126104
第 1 个系数的实际和预测的差距： 0.01734918098079352
第 2 个系数的实际和预测的差距： 0.0
第 3 个系数的实际和预测的差距： 0.014177697430921676
第 4 个系数的实际和预测的差距： 0.0
第 5 个系数的实际和预测的差距： 0.01567938581683742
第 6 个系数的实际和预测的差距： 0.01432491068075098
第 7 个系数的实际和预测的差距： 0.21


array([ 0.24481062, -0.56265082, -0.        ,  0.1558223 , -0.        ,
        0.30432061,  0.44567509,  0.        ])

#### ElasticNet

In [25]:
enet2 = ElasticNet(alpha=0.01, l1_ratio=0.005)
enet2.fit(X2_train, y2_train)

ElasticNet(alpha=0.01, copy_X=True, fit_intercept=True, l1_ratio=0.005,
      max_iter=1000, normalize=False, positive=False, precompute=False,
      random_state=None, selection='cyclic', tol=0.0001, warm_start=False)

In [26]:
true_coef = [0.09, -0.58, 0, 0.17, 0, 0.32, 0.46, 0.21]
# ElasticNet会对共线性做处理，但是不像Lasso只会选择一个，ElasticNet两个都会选择，
# 这里第0个系数和第7个系数都有值；不像Lasso直接把第7个前面的系数设为0了；
for i in range(len(enet2.coef_)):
    print("第", i,"个系数的实际和预测的差距：", abs(true_coef[i] - enet2.coef_[i]))
enet2.coef_

第 0 个系数的实际和预测的差距： 0.05624114921415915
第 1 个系数的实际和预测的差距： 0.0689379495276885
第 2 个系数的实际和预测的差距： 0.00013766843256831824
第 3 个系数的实际和预测的差距： 0.022507265041577962
第 4 个系数的实际和预测的差距： 0.0007123395454513017
第 5 个系数的实际和预测的差距： 0.043306251354119696
第 6 个系数的实际和预测的差距： 0.05217394629366601
第 7 个系数的实际和预测的差距： 0.09513443298562561


array([ 1.46241149e-01, -5.11062050e-01,  1.37668433e-04,  1.47492735e-01,
        7.12339545e-04,  2.76693749e-01,  4.07826054e-01,  1.14865567e-01])