## [作業重點]
使用 Sklearn 中的 Lasso, Ridge 模型，來訓練各種資料集，務必了解送進去模型訓練的**資料型態**為何，也請了解模型中各項參數的意義。

機器學習的模型非常多種，但要訓練的資料多半有固定的格式，確保你了解訓練資料的格式為何，這樣在應用新模型時，就能夠最快的上手開始訓練！

## 練習時間
試著使用 sklearn datasets 的其他資料集 (boston, ...)，來訓練自己的線性迴歸模型，並加上適當的正則話來觀察訓練情形。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score

In [3]:
# 讀取boston資料集
bs = datasets.load_boston()
bs.target
#連續型資料，用線性回歸

array([ 24. ,  21.6,  34.7,  33.4,  36.2,  28.7,  22.9,  27.1,  16.5,
        18.9,  15. ,  18.9,  21.7,  20.4,  18.2,  19.9,  23.1,  17.5,
        20.2,  18.2,  13.6,  19.6,  15.2,  14.5,  15.6,  13.9,  16.6,
        14.8,  18.4,  21. ,  12.7,  14.5,  13.2,  13.1,  13.5,  18.9,
        20. ,  21. ,  24.7,  30.8,  34.9,  26.6,  25.3,  24.7,  21.2,
        19.3,  20. ,  16.6,  14.4,  19.4,  19.7,  20.5,  25. ,  23.4,
        18.9,  35.4,  24.7,  31.6,  23.3,  19.6,  18.7,  16. ,  22.2,
        25. ,  33. ,  23.5,  19.4,  22. ,  17.4,  20.9,  24.2,  21.7,
        22.8,  23.4,  24.1,  21.4,  20. ,  20.8,  21.2,  20.3,  28. ,
        23.9,  24.8,  22.9,  23.9,  26.6,  22.5,  22.2,  23.6,  28.7,
        22.6,  22. ,  22.9,  25. ,  20.6,  28.4,  21.4,  38.7,  43.8,
        33.2,  27.5,  26.5,  18.6,  19.3,  20.1,  19.5,  19.5,  20.4,
        19.8,  19.4,  21.7,  22.8,  18.8,  18.7,  18.5,  18.3,  21.2,
        19.2,  20.4,  19.3,  22. ,  20.3,  20.5,  17.3,  18.8,  21.4,
        15.7,  16.2,

In [9]:
#LASSO
# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(bs.data, bs.target, test_size=0.1, random_state=4)

# 建立模型
lasso = linear_model.Lasso(alpha=1.0)

# 訓練模型
lasso.fit(x_train, y_train)

# 預測測試集
y_pred = lasso.predict(x_test)

print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 23.25


In [10]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
lasso.coef_

array([-0.07256167,  0.049677  , -0.        ,  0.        , -0.        ,
        0.80504721,  0.02330318, -0.68471274,  0.26857502, -0.01526236,
       -0.71722423,  0.00834102, -0.77160917])

In [11]:
#Ridge
# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(bs.data, bs.target, test_size=0.1, random_state=4)

# 建立模型
ridge = linear_model.Ridge(alpha=1.0)

# 訓練模型
ridge.fit(x_train, y_train)

# 預測測試集
y_pred = ridge.predict(x_test)

print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 17.34


In [12]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
ridge.coef_

array([ -1.21252383e-01,   4.95144936e-02,  -1.12401718e-02,
         2.89351315e+00,  -1.00608832e+01,   3.66023694e+00,
        -4.37201416e-03,  -1.38975681e+00,   3.01632305e-01,
        -1.32209825e-02,  -8.52842040e-01,   9.96596180e-03,
        -5.44637977e-01])

In [13]:
#一般線性回歸
# 切分訓練集/測試集
x_train, x_test, y_train, y_test = train_test_split(bs.data, bs.target, test_size=0.1, random_state=4)

# 建立模型
reg = linear_model.LinearRegression()

# 訓練模型
reg.fit(x_train, y_train)

# 預測測試集
y_pred = reg.predict(x_test)

print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 17.03


In [14]:
# 印出各特徵對應的係數，可以看到許多係數都變成 0，Lasso Regression 的確可以做特徵選取
reg.coef_

array([ -1.24793110e-01,   4.83961673e-02,   1.88111508e-02,
         3.08800922e+00,  -1.73655165e+01,   3.60982405e+00,
         2.27233321e-03,  -1.49381500e+00,   3.19455416e-01,
        -1.27236845e-02,  -9.28369630e-01,   9.60925451e-03,
        -5.34508193e-01])