## [作業重點]
使用 Sklearn 中的 Lasso, Ridge 模型，來訓練各種資料集，務必了解送進去模型訓練的**資料型態**為何，也請了解模型中各項參數的意義。

機器學習的模型非常多種，但要訓練的資料多半有固定的格式，確保你了解訓練資料的格式為何，這樣在應用新模型時，就能夠最快的上手開始訓練！

## 練習時間
試著使用 sklearn datasets 的其他資料集 (boston, ...)，來訓練自己的線性迴歸模型，並加上適當的正則化來觀察訓練情形。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

In [2]:
# 讀取波士頓房價資料集 (回歸問題)
boston = datasets.load_boston()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.3, random_state=4)

# 訓練一個 Lasso 回歸模型 (不設定 alpha 值)
reg = linear_model.Lasso().fit(x_train, y_train)

# 得到預測結果
y_pred = reg.predict(x_test)

# 訓練後的模型參數
print(reg.coef_)

# MAE 評估 
print("Mean absolute error: %.2f" % mean_absolute_error(y_test, y_pred))


[-0.07960576  0.05692846 -0.01455237  0.         -0.          0.14020219
  0.02303066 -0.81626973  0.29846294 -0.01755403 -0.60533766  0.00809172
 -0.77202042]
Mean absolute error: 4.22


In [3]:
# 訓練一個 Lasso 回歸模型 (alpha 值設定為 0.1)
reg = linear_model.Lasso(alpha = 0.1).fit(x_train, y_train)

# 得到預測結果
y_pred = reg.predict(x_test)

# 訓練後的模型參數
print(reg.coef_)

# MAE 評估 
print("Mean absolute error: %.2f" % mean_absolute_error(y_test, y_pred))

[-0.11459839  0.05678739 -0.06011968  2.43636946 -0.          3.15301549
 -0.01186498 -1.2880925   0.30666581 -0.01574493 -0.66530959  0.01009966
 -0.5666523 ]
Mean absolute error: 3.86


In [4]:
# 訓練一個 Lasso 回歸模型 (alpha 值設定為 0.2)
reg = linear_model.Lasso(alpha = 0.2).fit(x_train, y_train)

# 得到預測結果
y_pred = reg.predict(x_test)

# 訓練後的模型參數
print(reg.coef_)

# MAE 評估 
print("Mean absolute error: %.2f" % mean_absolute_error(y_test, y_pred))

[-0.11391407  0.05734418 -0.04705182  0.35936314 -0.          2.87782463
 -0.00616356 -1.23691638  0.32185455 -0.01660225 -0.67369535  0.01009112
 -0.59619619]
Mean absolute error: 3.85


In [5]:
# 訓練一個 Lasso 回歸模型 (alpha 值設定為 0.3)
reg = linear_model.Lasso(alpha = 0.3).fit(x_train, y_train)

# 得到預測結果
y_pred = reg.predict(x_test)

# 訓練後的模型參數
print(reg.coef_)

# MAE 評估 
print("Mean absolute error: %.2f" % mean_absolute_error(y_test, y_pred))

[-1.10112991e-01  5.74531486e-02 -4.19452982e-02  0.00000000e+00
 -0.00000000e+00  2.54073746e+00 -1.37275863e-03 -1.17937683e+00
  3.21827415e-01 -1.68430900e-02 -6.67618552e-01  9.87123265e-03
 -6.20584179e-01]
Mean absolute error: 3.88


總結: 不設定alpha時,MAE值為4.22; 設定alpha為0.1時,MAE值為3.86,明顯下降許多; 提高alpha到0.2時,MAE值為3.85,提高alpha到0.3時,MAE值為3.88,MAE值不降反升,對這個模型來說,當alpha設定為0.1或0.2便可有效抑制模型的過擬合。