In [31]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [32]:
# 讀取糖尿病資料集
diabetes = datasets.load_diabetes()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=4)

# 建立一個線性回歸模型
regr = linear_model.LinearRegression()

# 將訓練資料丟進去模型訓練
regr.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = regr.predict(x_test)

In [33]:
print(regr.coef_)

[  33.40877011 -292.24672884  481.07153405  369.06269614 -966.37849405
  589.81383056  232.61924401  288.3263166   802.72704593   37.81285219]


In [34]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 2939.42


### LASSO

In [35]:
# 讀取糖尿病資料集
diabetes = datasets.load_diabetes()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=4)

# 建立一個線性回歸模型
lasso = linear_model.Lasso(alpha=1.0)

# 將訓練資料丟進去模型訓練
lasso.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = lasso.predict(x_test)

In [36]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
lasso.coef_

array([  0.        ,  -0.        , 321.203877  ,  57.74744332,
         0.        ,   0.        ,  -0.        ,   0.        ,
       332.41817196,   0.        ])

In [37]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 3505.84


### Ridge

In [38]:
# 讀取糖尿病資料集
diabetes = datasets.load_diabetes()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size=0.2, random_state=4)

# 建立一個線性回歸模型
ridge = linear_model.Ridge(alpha=1.0)

# 將訓練資料丟進去模型訓練
ridge.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = regr.predict(x_test)

In [39]:
# 印出 Ridge 的參數，可以很明顯看到比起 Linear Regression，參數的數值都明顯小了許多
print(ridge.coef_)

[  48.8125786   -85.49511577  270.22532535  201.91767903   17.41308665
  -19.04346706 -136.47737574  122.26503311  247.60074795   95.59855598]


In [40]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 2939.42


可以看見 LASSO 與 Ridge 的結果並沒有比原本的線性回歸來得好，
這是因為目標函數被加上了正規化函數，讓模型不能過於複雜，相當於限制模型擬和資料的能力。因此若沒有發現 Over-fitting 的情況，是可以不需要一開始就加上太強的正規化的。

## 練習時間
請使用其他資料集 (boston, wine)，並調整不同的 alpha 來觀察模型訓練的情形。

## [作業重點]
使用 Sklearn 中的 Lasso, Ridge 模型，來訓練各種資料集，務必了解送進去模型訓練的**資料型態**為何，也請了解模型中各項參數的意義。

機器學習的模型非常多種，但要訓練的資料多半有固定的格式，確保你了解訓練資料的格式為何，這樣在應用新模型時，就能夠最快的上手開始訓練！

試著使用 sklearn datasets 的其他資料集 (boston, ...)，來訓練自己的線性迴歸模型，並加上適當的正則話來觀察訓練情形。

In [41]:
# 讀取資料集
boston = datasets.load_boston()

# 為方便視覺化，我們只使用資料集中的 1 個 feature (column)
X = boston.data[:, np.newaxis, 2]

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(X, boston.target, test_size=0.1, random_state=4)

# 建立一個線性回歸模型
regr = linear_model.LinearRegression()

# 將訓練資料丟進去模型訓練
regr.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = regr.predict(x_test)

# 印出各特徵對應的係數
print(logreg.coef_)

# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

[[-1.44211040e-01  2.95499017e-01  1.84799173e-01 -2.36167399e-01
  -4.77707613e-02  3.03175026e-01  5.92494373e-01 -4.52601838e-02
   1.17263588e-01  8.10018196e-02 -1.56745351e-02  4.53762817e-01
   1.00830320e-02]
 [ 6.60796059e-01 -7.62991972e-01 -1.54752478e-01  2.27506482e-01
   6.97186874e-04  2.43248050e-01  4.00875293e-01  6.63914663e-02
   2.87382125e-01 -1.32878519e+00  2.96103055e-01  4.38575193e-01
  -1.06870258e-02]
 [-5.16585018e-01  4.67492955e-01 -3.00466948e-02  8.66091647e-03
   4.70735745e-02 -5.46423076e-01 -9.93369665e-01 -2.11312824e-02
  -4.04645713e-01  1.24778337e+00 -2.80428520e-01 -8.92338009e-01
   6.03993775e-04]]
Mean squared error: 63.06


In [49]:
### LASSO
# 讀取資料集
boston = datasets.load_boston()

# 為方便視覺化，我們只使用資料集中的 1 個 feature (column)
X = boston.data[:, np.newaxis, 2]

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(X, boston.target, test_size=0.1, random_state=4)

# 建立一個線性回歸模型
lasso = linear_model.Lasso(alpha=1.0)

# 將訓練資料丟進去模型訓練
lasso.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = lasso.predict(x_test)

# 印出各特徵對應的係數
print(logreg.coef_)

# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

[[-1.44211040e-01  2.95499017e-01  1.84799173e-01 -2.36167399e-01
  -4.77707613e-02  3.03175026e-01  5.92494373e-01 -4.52601838e-02
   1.17263588e-01  8.10018196e-02 -1.56745351e-02  4.53762817e-01
   1.00830320e-02]
 [ 6.60796059e-01 -7.62991972e-01 -1.54752478e-01  2.27506482e-01
   6.97186874e-04  2.43248050e-01  4.00875293e-01  6.63914663e-02
   2.87382125e-01 -1.32878519e+00  2.96103055e-01  4.38575193e-01
  -1.06870258e-02]
 [-5.16585018e-01  4.67492955e-01 -3.00466948e-02  8.66091647e-03
   4.70735745e-02 -5.46423076e-01 -9.93369665e-01 -2.11312824e-02
  -4.04645713e-01  1.24778337e+00 -2.80428520e-01 -8.92338009e-01
   6.03993775e-04]]
Mean squared error: 63.06
