## [作業重點]
使用 Sklearn 中的 Lasso, Ridge 模型，來訓練各種資料集，務必了解送進去模型訓練的**資料型態**為何，也請了解模型中各項參數的意義。

機器學習的模型非常多種，但要訓練的資料多半有固定的格式，確保你了解訓練資料的格式為何，這樣在應用新模型時，就能夠最快的上手開始訓練！

## 練習時間
試著使用 sklearn datasets 的其他資料集 (boston, ...)，來訓練自己的線性迴歸模型，並加上適當的正則化來觀察訓練情形。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
boston = datasets.load_boston()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2, random_state=1)

# 建立一個線性回歸模型
lasso = linear_model.Lasso(alpha=0.5)

# 將訓練資料丟進去模型訓練
lasso.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = lasso.predict(x_test)

In [3]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
lasso.coef_

array([-0.08502862,  0.05902397, -0.02933428,  0.        , -0.        ,
        1.7356433 ,  0.00713279, -0.91048397,  0.26353153, -0.01367745,
       -0.7853728 ,  0.00763055, -0.6792184 ])

In [4]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 28.73


In [5]:
boston = datasets.load_boston()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, test_size=0.2, random_state=1)

# 建立一個線性回歸模型
ridge = linear_model.Ridge(alpha=0.5)

# 將訓練資料丟進去模型訓練
ridge.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = ridge.predict(x_test)

In [6]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
ridge.coef_

array([-1.09155977e-01,  5.84215921e-02, -6.59599834e-03,  2.01445014e+00,
       -1.39428516e+01,  3.14390988e+00, -2.06521456e-04, -1.41706889e+00,
        2.92584226e-01, -1.16575218e-02, -9.25297214e-01,  7.61355227e-03,
       -5.51331167e-01])

In [7]:
# 預測值與實際值的差距，使用 MSE
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 23.18


In [8]:
bc = datasets.load_breast_cancer()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(bc.data, bc.target, test_size=0.2, random_state=1)

# 建立一個線性回歸模型
lasso = linear_model.Lasso(alpha=0.001)

# 將訓練資料丟進去模型訓練
lasso.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = lasso.predict(x_test)

  positive)


In [9]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
lasso.coef_

array([ 1.82576803e-01, -1.59693772e-03, -7.99585757e-03, -8.26791392e-04,
       -0.00000000e+00, -0.00000000e+00, -0.00000000e+00, -0.00000000e+00,
       -0.00000000e+00, -0.00000000e+00, -0.00000000e+00, -3.56044324e-02,
       -1.07768399e-02, -3.42667349e-05, -0.00000000e+00,  0.00000000e+00,
        0.00000000e+00, -0.00000000e+00, -0.00000000e+00,  0.00000000e+00,
       -2.47603309e-01, -6.98508090e-03,  5.44357632e-03,  1.10125749e-03,
       -0.00000000e+00, -0.00000000e+00, -3.97733465e-01, -7.87641112e-01,
       -2.66299748e-01, -0.00000000e+00])

In [10]:
# 預測值與實際值的差距，使用 MSE
print("R2: %.2f"
      % r2_score(y_test, y_pred))

R2: 0.69


In [11]:
bc = datasets.load_breast_cancer()

# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(bc.data, bc.target, test_size=0.2, random_state=1)

# 建立一個線性回歸模型
ridge = linear_model.Ridge(alpha=0.001)

# 將訓練資料丟進去模型訓練
ridge.fit(x_train, y_train)

# 將測試資料丟進模型得到預測結果
y_pred = ridge.predict(x_test)

In [12]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
ridge.coef_

array([ 2.86218109e-01, -6.41921672e-03, -2.34294235e-02, -7.40710050e-04,
       -4.47841964e-01,  3.60836719e+00, -1.56487480e+00, -1.09827125e+00,
        5.90678710e-02,  1.11165928e+00, -8.22321247e-02, -2.54371959e-02,
        2.17074151e-02, -4.52814469e-04, -1.04805318e+01,  2.18493026e-02,
        3.23620794e+00, -7.36344117e+00, -4.88083585e+00,  9.64755784e-01,
       -2.42428028e-01, -2.93610163e-03,  2.88941965e-03,  1.20188235e-03,
       -5.93885017e-01, -2.45147388e-02, -2.77423530e-01, -1.34700544e+00,
       -2.38522512e-01, -3.81192163e+00])

In [13]:
# 預測值與實際值的差距，使用 MSE
print("R2: %.2f"
      % r2_score(y_test, y_pred))

R2: 0.73
