## [作業重點]
使用 Sklearn 中的 Lasso, Ridge 模型，來訓練各種資料集，務必了解送進去模型訓練的**資料型態**為何，也請了解模型中各項參數的意義。

機器學習的模型非常多種，但要訓練的資料多半有固定的格式，確保你了解訓練資料的格式為何，這樣在應用新模型時，就能夠最快的上手開始訓練！

## 練習時間
試著使用 sklearn datasets 的其他資料集 (boston, ...)，來訓練自己的線性迴歸模型，並加上適當的正則話來觀察訓練情形。

In [2]:
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import datasets, linear_model 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import mean_squared_error, r2_score

In [4]:
#讀取boston資料集
boston= datasets.load_boston()

x_train, x_test, y_train, y_test= train_test_split(boston.data,boston.target,test_size=0.4,random_state=4)
regr=linear_model.LinearRegression()
regr.fit(x_train,y_train)
y_pred=regr.predict(x_test)

In [5]:
#print('y=ax+b的 a係數:',regr.coef_)
#print('y=ax+b的 b截距:',regr.intercept_ )
#print('R平方',r_squared)

print(regr.coef_)

[-9.11634623e-02  4.97311579e-02  1.04332182e-02  2.57824667e+00
 -1.53472648e+01  3.87674688e+00 -6.45064385e-03 -1.46993464e+00
  3.30364542e-01 -1.56834777e-02 -7.27226512e-01  9.47079274e-03
 -4.69419821e-01]


In [6]:
print("Mean squared error: %.2f" % mean_squared_error(y_test,y_pred))

Mean squared error: 29.56


In [7]:
#LASSO

lasso=linear_model.Lasso(alpha=1.0)
lasso.fit(x_train,y_train)
y_pred=lasso.predict(x_test)

In [8]:
print(lasso.coef_)

[-0.02569227  0.05537001 -0.01090303  0.         -0.          0.
  0.02664175 -0.61402585  0.29327836 -0.0191784  -0.4333171   0.00790314
 -0.75582182]


In [9]:
print("Mean squared error: %.2f" % mean_squared_error(y_test,y_pred))

Mean squared error: 41.84


In [10]:
#Ridge

ridge=linear_model.Ridge(alpha=1.0)
ridge.fit(x_train,y_train)
y_pred=ridge.predict(x_test)

In [11]:
print(ridge.coef_)

[-0.08224731  0.05075793 -0.0231586   2.20212557 -7.42665329  3.90338631
 -0.01485354 -1.36566307  0.31278055 -0.0163995  -0.65596389  0.00982458
 -0.4795507 ]


In [12]:
print("Mean squared error: %.2f"
      % mean_squared_error(y_test, y_pred))

Mean squared error: 30.10


In [None]:
可以看見 LASSO 與 Ridge 的結果並沒有比原本的線性回歸來得好， 這是因為目標函數被加上了正規化函數，讓模型不能過於複雜，相當於限制模型擬和資料的能力。因此若沒有發現 Over-fitting 的情況，是可以不需要一開始就加上太強的正規化的。