## 作業

請閱讀相關文獻，並回答下列問題

[脊回歸 (Ridge Regression)](https://blog.csdn.net/daunxx/article/details/51578787)
[Linear, Ridge, Lasso Regression 本質區別](https://www.zhihu.com/question/38121173)

1. LASSO 回歸可以被用來作為 Feature selection 的工具，請了解 LASSO 模型為什麼可用來作 Feature selection
2. 當自變數 (X) 存在高度共線性時，Ridge Regression 可以處理這樣的問題嗎?


## Ans1
L1正則化將系數w的l1範數作為懲罰項加到損失函數上，由於正則項非零，這就迫使那些弱的特征所對應的系數變成0。  
因此L1正則化往往會使學到的模型很稀疏（系數w經常為0），這個特性使得L1正則化成為一種很好的特征選擇方法。

正則項的權重就會越大，優化參數的結果就會偏好更小的參數值(W)，甚至很多W會變成0  
當α 很大時，影響最小的W (feature)就會被留下來，所以可以當作Feature selection  
y = wTx，當W很大，模型曲線就變得很複雜，W變小，曲線平滑。  
通過降低權重係數的辦法來降低過擬合  
那麼在線性模型中，降低權重係數就意味著與之相關的特徵並不重要，實際上就是對特徵做了一定的篩選。  
LASSO的方法可以將某些權重係數降為零，這意味著，只有不會讓模型變overfiting的權重係數的特徵才會出現在模型中。

原文網址：https://kknews.cc/other/v69vno4.html

## Ans2
根據: https://blog.csdn.net/daunxx/article/details/51578787  
當使用最小二乘法計算線性回歸模型參數的時候，如果數據集合矩陣（也叫做設計矩陣(design matrix)）X，
存在多重共線性，那麼最小二乘法對輸入變量中的噪聲非常的敏感，
其解會極為不穩定。為了解決這個問題，就有了這一節脊回歸（Ridge Regression ）。

一般的線性回歸其模型是y= wTx，顯然，就是因為w在數值上非常的大，所以，如果輸入變量x有一個微小的變動，
其反應在輸出結果上也會變得非常大，這就是對輸入變量總的噪聲非常敏感的原因。

所謂脊回歸，就是對於一個線性模型，在原來的損失函數加入參數的l2範數的懲罰項
往極端化想，如果α -> ∞，則W勢必要很->0，才能滿足最小化 Loss function
所以α 很大，就會導致大部分W都必須很小(模型就會變簡單)


# 範例
參考: https://www.itread01.com/content/1541226637.html  
L1正則化將系數w的l1範數作為懲罰項加到損失函數上，由於正則項非零，這就迫使那些弱的特征所對應的系數變成0。  
因此L1正則化往往會使學到的模型很稀疏（系數w經常為0），這個特性使得L1正則化成為一種很好的特征選擇方法。

Scikit-learn為線性回歸提供了Lasso，為分類提供了L1邏輯回歸。  
下面的例子在波士頓房價數據上運行了Lasso，其中參數alpha是通過grid search進行優化的

In [20]:
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_boston
import numpy as np

#A helper method for pretty-printing linear models
def pretty_print_linear(coefs, names = None, sort = False):
    if names == None:
        names = ["X%s" % x for x in range(len(coefs))]
    lst = zip(coefs, names)
    if sort:
        lst = sorted(lst, key = lambda x:-np.abs(x[0]))
    return " + ".join("%s * %s" % (round(coef, 3), name) for coef, name in lst)

boston = load_boston()
scaler = StandardScaler()
X = scaler.fit_transform(boston["data"])
Y = boston["target"]
names = boston["feature_names"]

lasso = Lasso(alpha=.3)
lasso.fit(X, Y)

print("Lasso model: \n", pretty_print_linear(lasso.coef_, sort = True))
print(lasso.coef_)

lasso = Lasso(alpha=5)
lasso.fit(X, Y)

print("Lasso model: \n", pretty_print_linear(lasso.coef_, sort = True))
print(lasso.coef_)



Lasso model: 
 -3.707 * X12 + 2.992 * X5 + -1.757 * X10 + -1.081 * X7 + -0.7 * X4 + 0.631 * X11 + 0.54 * X3 + -0.236 * X0 + 0.081 * X1 + -0.0 * X2 + -0.0 * X6 + 0.0 * X8 + -0.0 * X9
[-0.23616802  0.08100299 -0.          0.54017417 -0.70027816  2.99189989
 -0.         -1.08067403  0.         -0.         -1.75682067  0.63108483
 -3.70696598]
Lasso model: 
 -1.484 * X12 + 0.478 * X5 + -0.0 * X0 + 0.0 * X1 + -0.0 * X2 + 0.0 * X3 + -0.0 * X4 + -0.0 * X6 + 0.0 * X7 + -0.0 * X8 + -0.0 * X9 + -0.0 * X10 + 0.0 * X11
[-0.          0.         -0.          0.         -0.          0.47793742
 -0.          0.         -0.         -0.         -0.          0.
 -1.4842917 ]


# 可以看到當alpha調大，更多W變成0