## [作業重點]
使用 Sklearn 中的 Lasso, Ridge 模型，來訓練各種資料集，務必了解送進去模型訓練的**資料型態**為何，也請了解模型中各項參數的意義。

機器學習的模型非常多種，但要訓練的資料多半有固定的格式，確保你了解訓練資料的格式為何，這樣在應用新模型時，就能夠最快的上手開始訓練！

## 練習時間
試著使用 sklearn datasets 的其他資料集 (boston, ...)，來訓練自己的線性迴歸模型，並加上適當的正則化來觀察訓練情形。

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

from sklearn.model_selection import cross_val_score

import warnings
warnings.filterwarnings('ignore')

In [3]:

# 讀取 boston 資料集 - ridge
boston = datasets.load_boston()

print('target y : %s \n' % boston.target[0:5])
print('shape:\n', boston.data.shape)
print('\nfeature name:\n', boston.feature_names)
# print('\ntarget names:\n', boston.target_names)

# # 為方便視覺化，我們只使用資料集中的 1 個 feature (column)
# X = boston.data[:, np.newaxis, 2]
# print("Data shape: ", X.shape) # 我們取出的其中一個 feature

# 上述範例是為了視覺化方便只取1個feature，這次用所有feature
X = boston.data
y = boston.target

# train test split - 切分訓練集/測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 87)

target y : [24.  21.6 34.7 33.4 36.2] 

shape:
 (506, 13)

feature name:
 ['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO'
 'B' 'LSTAT']


In [6]:
# model - 建立一個線性回歸模型 - LinearRegression
reg = linear_model.LinearRegression()

# fit (train model) - 將訓練資料丟進去模型訓練
reg.fit(X_train, y_train)
# cross validation
print(f'\n c.v. score : {cross_val_score(reg, X_train, y_train, cv=5).mean()}\n')

# predict - 將測試資料丟進模型得到預測結果
y_pred = reg.predict(X_test)


print(reg.coef_)

# evaluation - 預測值與實際值的差距，使用 MSE
mse = mean_squared_error(y_test, y_pred)
print("MSE : %.2f" % mse)



 c.v. score : 0.4783611889654359

[  33.40877011 -292.24672884  481.07153405  369.06269614 -966.37849405
  589.81383056  232.61924401  288.3263166   802.72704593   37.81285219]
MSE : 2939.42


In [7]:
# model - 建立一個線性回歸模型 - Lasso
lasso = linear_model.Lasso(alpha=0.001)

# fit (train model) - 將訓練資料丟進去模型訓練
lasso.fit(X_train, y_train)
# cross validation
print(f'\n c.v. score : {cross_val_score(lasso, X_train, y_train, cv=5).mean()}\n')

# predict - 將測試資料丟進模型得到預測結果
y_pred = lasso.predict(X_test)


print(lasso.coef_)

# evaluation - 預測值與實際值的差距，使用 MSE
mse = mean_squared_error(y_test, y_pred)
print("MSE : %.2f" % mse)


 c.v. score : 0.47832715911287227

[  33.67286538 -291.04286293  481.70890733  368.32942092 -898.42842086
  538.72767558  199.24998287  274.4977345   778.40546382   37.12251045]
MSE : 2933.45


In [8]:
# model - 建立一個線性回歸模型 - Ridge
ridge = linear_model.Ridge(alpha=0.01)

# fit (train model) - 將訓練資料丟進去模型訓練
ridge.fit(X_train, y_train)
# cross validation
print(f'\n c.v. score : {cross_val_score(ridge, X_train, y_train, cv=5).mean()}\n')

# predict - 將測試資料丟進模型得到預測結果
y_pred = ridge.predict(X_test)


print(ridge.coef_)

# evaluation - 預測值與實際值的差距，使用 MSE
mse = mean_squared_error(y_test, y_pred)
print("MSE : %.2f" % mse)


 c.v. score : 0.47859823453040945

[  38.87160545 -283.00366006  485.04076958  362.44759568 -419.24994069
  168.12496699  -18.83740996  203.84384894  594.04104023   37.9221091 ]
MSE : 2908.78
