# 練習時間

試著使用 sklearn datasets 的其他資料集 (boston, ...)，來訓練自己的線性迴歸模型，並加上適當的正則化來觀察訓練情形。

In [26]:
# 讀取boston資料集
boston = datasets.load_boston()
# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2)
# 建立一個線性回歸模型
lin_regr = linear_model.LinearRegression()
# 將訓練資料丟進去模型訓練
lin_regr.fit(x_train, y_train)
# 將測試資料丟進模型得到預測結果
y_pred = lin_regr.predict(x_test)

In [27]:
print(lin_regr.coef_)

[-1.05309491e-01  4.71123225e-02  3.11641119e-02  3.89606495e+00
 -1.61056533e+01  3.95059171e+00  5.58730473e-03 -1.49261344e+00
  3.11651648e-01 -1.09846252e-02 -9.38618372e-01  1.18361155e-02
 -5.89926864e-01]


In [28]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 25.55


## Lasso

In [67]:
lasso = linear_model.Lasso(alpha=0.2) 
lasso.fit(x_train, y_train)
y_pred = lasso.predict(x_test)

In [68]:
print(lasso.coef_) #很多變成0，shows why Lasso could do feature selection

[-0.09324264  0.04840798 -0.00944716  0.47538449 -0.          3.50130046
  0.         -1.13814721  0.30011817 -0.01436592 -0.79353669  0.01224507
 -0.65148798]


In [69]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 24.79


## Rigge

In [82]:
ridge = linear_model.Ridge(alpha=0)
ridge.fit(x_train, y_train)
y_pred = ridge.predict(x_test)

In [83]:
ridge.coef_

array([-1.05309491e-01,  4.71123225e-02,  3.11641119e-02,  3.89606495e+00,
       -1.61056533e+01,  3.95059171e+00,  5.58730473e-03, -1.49261344e+00,
        3.11651648e-01, -1.09846252e-02, -9.38618372e-01,  1.18361155e-02,
       -5.89926864e-01])

In [84]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 25.55


調整Lasso的alpha時，模型表現可以略好於linear regression；但Ridge沒有太大差別。
一味使用Lasso或Ridge並不一定會讓結果變更好，可先檢視是否為overfitting之狀況。

# **範例**

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
# 讀取糖尿病資料集
diabetes = datasets.load_diabetes()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=4)

# 建立一個線性回歸模型
regr = linear_model.LinearRegression()

# 將訓練資料丟進去模型訓練
regr.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = regr.predict(x_test)

In [3]:
print(regr.coef_)

[  33.40877011 -292.24672884  481.07153405  369.06269614 -966.37849405
  589.81383056  232.61924401  288.3263166   802.72704593   37.81285219]


In [4]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 2939.42


# LASSO 

In [5]:
# 讀取糖尿病資料集
diabetes = datasets.load_diabetes()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=4)

# 建立一個線性回歸模型
lasso = linear_model.Lasso(alpha=1.0) #決定正則化的強度

# 將訓練資料丟進去模型訓練
lasso.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = lasso.predict(x_test)

In [6]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
lasso.coef_

array([  0.        ,  -0.        , 321.203877  ,  57.74744332,
         0.        ,   0.        ,  -0.        ,   0.        ,
       332.41817196,   0.        ])

In [7]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 3505.84


# Ridge


In [8]:
# 讀取糖尿病資料集
diabetes = datasets.load_diabetes()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=4)

# 建立一個線性回歸模型
ridge = linear_model.Ridge(alpha=1.0) #決定正則化的強度

# 將訓練資料丟進去模型訓練
ridge.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = regr.predict(x_test)

In [9]:
# 印出 Ridge 的參數，可以很明顯看到比起 Linear Regression，參數的數值都明顯小了許多
print(ridge.coef_)

[  48.8125786   -85.49511577  270.22532535  201.91767903   17.41308665
  -19.04346706 -136.47737574  122.26503311  247.60074795   95.59855598]


In [10]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 2939.42


可以看見 LASSO 與 Ridge 的結果並沒有比原本的線性回歸來得好， 這是因為目標函數被加上了正規化函數，讓模型不能過於複雜，相當於限制模型擬合資料的能力。因此若沒有發現 Over-fitting 的情況，是可以不需要一開始就加上太強的正規化的。