<div style="text-align:right;color:navy">Machine Learning & Data Analysis &nbsp;  &nbsp;  &nbsp; Janurary 7, 2022</div>

# Lab 8:  Algorithms for Machine Learning

## 機器學習演算法

我們來討論一下常見的機器學習演算法，這些演算法背後的原理，需要花很多時間理解，我們只做簡單的介紹，並不做推導。今天主要的目的是學習如何使用這些演算法。

其實我們在之前的課程中，已經使用過三個演算法，分別是 [k-Nearest Neighbors.](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier)、 [Logistic Regression.](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html#sklearn.linear_model.LogisticRegression)、 [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)，利用這些演算法，造出估計器(Estimators)，經由訓練資料集(Training set)上的擬合(Fit)，再對測試資料集做預測(Predict)，為了增加選擇性，今天再談幾個演算法。

今天討論的機器學習演算法分為兩類：監督學習演算法、非監督學習演算法，監督學習演算法中因目的不同，又有分類演算法及迴歸演算法兩種類型，條列如下：

**監督學習 (Supervised algorithm)**  
* 分類演算法(Classification algorithm)  
  - 邏輯迴歸(Logistic regression)  
  - 線性判別分析(Linear discriminant analysis)  
  - K鄰近(K nearest neighbors)  
  - 樸素貝氏演算法(Naive Bayes)  
  - 支持向量機(Support vector machines)  
  - 決策樹(Decision tree)  
* 迴歸演算法(Regression algorithm)  
  - 線性迴歸(Linear regression)  
  - 嶺迴歸(Ridge regression)

**非監督學習  (Unsupervised algorithm)**
* 分群演算法
  - K-means  
  - 支持向量機(Support vector machines)  
  - 最大期望演算法(Maximize expectation)  
  
   

## 監督學習 (Supervised algorithm)
### 迴歸演算法
我們先開始討論迴歸演算法

#### 廣義線性模型(Generalized Linear Models)  
在某些狀況下目標值(target value)是各個特徵(Features)(輸入變數(input variables))的線性組合。用數學語言來描述是這樣的： 假設 $\hat y$ 是目標值的預測值，則有

$$\hat{y}(w, x) = w_0 + w_1 x_1 + ... + w_p x_p$$

在整個模組中, 我們把向量 $w=(w_1,...,w_p)$ 記作 coef_ (係數)，並把 $w_0$ 記作 intercept_ (截距).

#### 線性迴歸(Linear regression)   
[LinearRegression](https://sklearn.apachecn.org/#/docs/master/2)  
普通最小二乘法([Ordinary Least Squares](https://en.wikipedia.org/wiki/Ordinary_least_squares))： 擬合一個帶有係數 $w=(w_0,w_1,...,w_p)$ 的線性模型使得資料集實際觀測資料和預測資料（估計值）之間的殘差平方和最小(minimizes the sum of squared residuals,)。 其數學運算式為:  
$$\min_{w} {|| X w - y||_2}^2$$

![LinearRegression](https://scikit-learn.org/stable/_images/sphx_glr_plot_ols_001.png)

[LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) 會調用 fit 方法來擬合資料 $X， y$，並且將線性模型的係數 $w$ 存儲在其成員變數 coef_ 及 intercep_中。:  


### Exercise

這個例題是有關於波士頓房價的迴歸檢測，請嘗試用不同的特徵來做迴歸  
[Example](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html)  

我們試試使用下列特徵：

ZN：25,000平方英尺以上的土地劃為住宅用地的比例。  
RM：每個住宅的平均房間數。  
AGE：1940年之前建造的自有住房的比例  
CHAS：有沒有河流經過 (如果等於1，說明有，等於0就說明沒有)  
CRIM：犯罪率   

[Boston house prices dataset](https://scikit-learn.org/stable/datasets/toy_dataset.html#boston-dataset)

#### Step 1
下載資料並觀察資料

In [2]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.linear_model import LinearRegression 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, explained_variance_score

boston = load_boston()
boston_X = boston['data']
boston_y = boston['target']
features = boston['feature_names']

X = pd.DataFrame(boston_X, columns= features)
#y = pd.DataFrame(boston_y,columns=['Price'])    # Try this, shape of y will be (506,1), a 2D dataframe. This will give .coef_ a (1,# of features) array!!!!
y = pd.Series(boston_y, name='price')
X

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.0900,1.0,296.0,15.3,396.90,4.98
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.90,9.14
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.90,5.33
...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0,391.99,9.67
502,0.04527,0.0,11.93,0.0,0.573,6.120,76.7,2.2875,1.0,273.0,21.0,396.90,9.08
503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0,396.90,5.64
504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0,393.45,6.48


#### Step 2
選擇要分析的特徵，並觀察資料特徵間的相關性。

[Pandas : Computations / descriptive stats](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats)  
[DataFrame.corr](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html#pandas.DataFrame.corr)

In [7]:
#X.isnull().sum()
chosen_feat = ['CRIM','ZN','RM','AGE','CHAS']
X1=X.loc[:,chosen_feat]
X1

frame=X1.join(y)
frame.corr()
X1

Unnamed: 0,CRIM,ZN,RM,AGE,CHAS
0,0.00632,18.0,6.575,65.2,0.0
1,0.02731,0.0,6.421,78.9,0.0
2,0.02729,0.0,7.185,61.1,0.0
3,0.03237,0.0,6.998,45.8,0.0
4,0.06905,0.0,7.147,54.2,0.0
...,...,...,...,...,...
501,0.06263,0.0,6.593,69.1,0.0
502,0.04527,0.0,6.120,76.7,0.0
503,0.06076,0.0,6.976,91.0,0.0
504,0.10959,0.0,6.794,89.3,0.0


In [None]:
y.shape

#### Step 3
使用 Train test split 資料分為訓練集、驗證集，驗證集為十分之一，random_state=42。  
使用 LinearRegression 演算法，用 fit 方法來擬合訓練集資料，  
用 score 方法計算訓練集的 R2 score

In [59]:
X_train,X_test,y_train,y_test = train_test_split(X1, y, test_size = 0.33, random_state=42)
reg = LinearRegression()
reg.fit(X_train,y_train)


LinearRegression()

#### Step 4  
對驗證集做預測，計算並列印出你的 Explained variance score, MSE, R2 誤差

In [60]:
y_pred = reg.predict(X_test)

# The explained_variance_score
print('Explained variance score: %.2f'
      % explained_variance_score(y_test,y_pred))
# The mean squared error
print('Mean squared error: %.2f'
      % mean_squared_error(y_test,y_pred))
# The coefficient of determination: 1 is perfect prediction
print('Coefficient of determination: %.2f'
      % r2_score(y_test,y_pred))

Explained variance score: 0.37
Mean squared error: 3696.80
Coefficient of determination: 0.36


#### Step 5  
列印出你的迴歸方程式

In [21]:
strings = str(round(clf.intercept_,3))
for i in range(len(chosen_feat)):
    if reg.coef_[i]>= 0:
        word = '+' + str(round(reg.coef_[i],3)) + '*' + chosen_feat[i]
    else:
        word = '-' + str(round(-reg.coef_[i],3)) + '*' + chosen_feat[i]
    strings += word

print('The regression equation is: \n price =',strings)

The regression equation is: 
 price = -22.38-0.229*CRIM+0.015*ZN+7.631*RM-0.049*AGE+5.488*CHAS


下個練習是有關於糖尿病的迴歸檢測，請嘗試用不同的特徵來做迴歸

### Exercise 1
利用 datasets.load_diabetes 所提供的資料，使用 [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) 做糖尿病的迴歸檢測，
1. 請嘗試用不同的特徵來做迴歸
2. 使用 Train test split 資料分為訓練集、檢視集，檢視集為10分之一
3. 列印出你的迴歸方程式
4. 列印出你的 Explained variance score, MSE, R2 誤差

如果對 'bmi','bp','s1','s2' 做迴歸，random_state=42，應該得到：  
The regression equation is $y = 152.146 + 798.162*bmi + 379.811*bp + 191.656*s1 - 175.381*s2$  
Explained variance score: 0.44  
Mean squared error: 3413.58  
Coefficient of determination: 0.44  

[Coefficient of determination](https://zh.wikipedia.org/wiki/%E5%86%B3%E5%AE%9A%E7%B3%BB%E6%95%B0)  
[Coefficient of determination 2](https://www.britannica.com/science/coefficient-of-determination)  
[醫學統計學](https://wangcc.me/LSHTMlearningnote/)  
[OLS](https://wangcc.me/LSHTMlearningnote/OLS.html)

In [57]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, explained_variance_score

# Load the diabetes dataset
diabetes = datasets.load_diabetes()
diabetes

X_diabetes = diabetes['data']
y_diabetes = diabetes['target']
features = diabetes['feature_names']

X= pd.DataFrame(X_diabetes, columns=features)
y= pd.Series(y_diabetes)
# Use 'bmi','bp','s1','s2' features
chosen_feat = ['bmi','bp','s1','s2']

# 建立 X 資料
X1 = X.loc[:,chosen_feat]

# 使用 Train test split 資料分為訓練集、檢視集，檢視集為10分之一
X_train,X_test,y_train,y_test = train_test_split(X1, y, test_size = 0.1, random_state = 42)

# 建立 linear regression object
clf = linear_model.LinearRegression()

# Train the model using the training sets
clf.fit(X_train,y_train)

# Make predictions using the testing set
y_pred = clf.predict(X_test)

# 列印出你的迴歸方程式
strings = str(round(clf.intercept_,3))
for i in range(len(chosen_feat)):
    if reg.coef_[i]>= 0:
        word = '+' + str(round(reg.coef_[i],3)) + '*' + chosen_feat[i]
    else:
        word = '-' + str(round(-reg.coef_[i],3)) + '*' + chosen_feat[i]
    strings += word

print('The regression equation is: \n price =',strings)

# 列印出你的 Explained variance score, MSE, R2 誤差
# The explained_variance_score
print('Explained variance score: %.2f'
      % explained_variance_score(y_test,y_pred))
# The mean squared error
print('Mean squared error: %.2f'
      % mean_squared_error(y_test,y_pred))
# The coefficient of determination: 1 is perfect prediction
print('Coefficient of determination: %.2f'
      % r2_score(y_test,y_pred))


The regression equation is: 
 price = 152.146-0.229*bmi+0.015*bp+7.631*s1-0.049*s2
Explained variance score: 0.44
Mean squared error: 3413.58
Coefficient of determination: 0.44


#### 嶺迴歸(Ridge regression)  
嶺迴歸專門用於共線性資料分析的「有偏估計」迴歸方法,通過放棄最小二乘法的無偏性(Unbias: 在反覆抽樣的情況下,樣本均值的集合的期望等於總體均值),以損失部分資訊、降低精度為代價獲得迴歸係數更為符合實際、更可靠的迴歸方法,對共線性問題和病態資料的擬合要強於最小二乘法,經常用於多維問題與不適定問題(ill-posed problem)。

Ridge regression 通過對係數的大小施加懲罰來解決普通最小二乘法(Ordinary Least Squares)的一些問題。 嶺係數最小化的是帶懲罰項的殘差平方和，數學形式如下
$$\min_{w} {{|| X w - y||_2}^2 + \alpha {||w||_2}^2}$$
其中, $\alpha≥0$ 是一個控制縮減量(amount of shrinkage)的複雜度參數: $\alpha≥0$ 的值越大, 縮減量就越大，故而線性模型的係數對共線性(collinearity)就越 Robust.  
[Ridge regression](https://en.wikipedia.org/wiki/Ridge_regression)

![Ridge coefficients as a function of the regularization](https://scikit-learn.org/stable/_images/sphx_glr_plot_ridge_path_001.png)
[Ridge coefficients as a function of the regularization](https://scikit-learn.org/stable/auto_examples/linear_model/plot_ridge_path.html#sphx-glr-auto-examples-linear-model-plot-ridge-path-py)

請參考  [Ride Regression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html)

[Ridge](https://ask.hellobi.com/blog/lsxxx2011/10581)  
[Boston](https://zhuanlan.zhihu.com/p/345972548)  
[嶺回歸&Lasso回歸](https://kknews.cc/zh-tw/tech/l49o6l2.html)

### Exercise

這個例題是有關於波士頓房價的嶺迴歸檢測，請嘗試用不同的特徵來做迴歸  

我們試試使用下列特徵：

ZN：25,000平方英尺以上的土地劃為住宅用地的比例。  
RM：每個住宅的平均房間數。  
AGE：1940年之前建造的自有住房的比例  
CHAS：有沒有河流經過 (如果等於1，說明有，等於0就說明沒有)  
CRIM：犯罪率   

[Boston house prices dataset](https://scikit-learn.org/stable/datasets/toy_dataset.html#boston-dataset)

#### Step 1
- 下載資料並選擇要分析的特徵
- 使用 Train test split 資料分為訓練集、驗證集，驗證集為十分之一，random_state=42。
- 使用 [Ride Regression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html) 演算法，用 fit 方法來擬合訓練集資料，
- 用 score 方法計算訓練集的 R2 score

In [13]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston
from sklearn.linear_model import Ridge 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, explained_variance_score

boston = load_boston()
boston_X = boston['data']
boston_y = boston['target']
features = boston['feature_names']

X = pd.DataFrame(boston_X, columns= features)
#y = pd.DataFrame(boston_y,columns=['Price'])    # Try this, shape of y will be (506,1), a 2D dataframe. This will give .coef_ a (1,# of features) array!!!!
y = pd.Series(boston_y, name='price')
chosen_feat = ['CRIM','ZN','RM','AGE','CHAS']
X1=X.loc[:,chosen_feat]

X_train,X_test,y_train,y_test = train_test_split(X1,y, test_size=0.1, random_state=42)
clf = Ridge()
clf.fit(X_train, y_train)
clf.score(X_train,y_train)

0.568648882825215

#### Step 2
對驗證集做預測，計算並列印出你的 Explained variance score, MSE, R2 誤差

In [56]:
y_pred = clf.predict(X_test)

# The explained_variance_score
print('Explained variance score: %.2f'
      % explained_variance_score(y_test, y_pred))
# The mean squared error
print('Mean squared error: %.2f'
      % mean_squared_error(y_test, y_pred))
# The coefficient of determination: 1 is perfect prediction
print('Coefficient of determination: %.2f'
      % r2_score(y_test, y_pred))

Explained variance score: 0.38
Mean squared error: 3766.37
Coefficient of determination: 0.38


#### Step 3
列印出你的迴歸方程式

In [17]:
strings = str(round(clf.intercept_,3))
for i in range(len(chosen_feat)):
    if reg.coef_[i]>= 0:
        word = '+' + str(round(reg.coef_[i],3)) + '*' + chosen_feat[i]
    else:
        word = '-' + str(round(-reg.coef_[i],3)) + '*' + chosen_feat[i]
    strings += word

print('The regression equation is: \n price =',strings)

The regression equation is: 
 price = -22.38-0.229*CRIM+0.015*ZN+7.631*RM-0.049*AGE+5.488*CHAS


### Exercise 2
利用 datasets.load_diabetes 所提供的資料，使用 [Ridge regression Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html) 做糖尿病的回迴歸檢測，
1. 請嘗試用不同的特徵來做迴歸
2. 使用 Train test split 資料分為訓練集、驗證集，檢視集為十分之一
3. 對 $\alpha$ 值 0.01, 0.1, 0.4, 0.6 做嶺迴歸
4. 列印出 $\alpha$ 的值及其對應迴歸方程式、誤差 Explained variance score,MSE,r2

如果對 'bmi','bp','s1','s2' 做迴歸，random_state=42，應該得到：  
For alpha =  0.01  
The regression equation is $y = 152.15 + 788.368*bmi + 380.067*bp + 175.109*s1 - 156.567*s2$  
Explained variance score: 0.44  
Mean squared error: 3420.85  
Coefficient of determination: 0.44  

For alpha =  0.1  
The regression equation is y = $152.175 + 713.359*bmi + 372.982*bp + 108.749*s1 - 71.133*s2$  
Explained variance score: 0.43  
Mean squared error: 3466.00  
Coefficient of determination: 0.43  

For alpha =  0.4  
The regression equation is $y = 152.202 + 550.908*bmi + 327.796*bp + 76.09*s1 + 0.486*s2$  
Explained variance score: 0.41  
Mean squared error: 3635.75  
Coefficient of determination: 0.41  

For alpha =  0.6  
The regression equation is $y = 152.205 + 481.02*bmi + 299.573*bp + 72.551*s1 + 16.544*s2$  
Explained variance score: 0.38  
Mean squared error: 3766.37  
Coefficient of determination: 0.38  

In [55]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, explained_variance_score

# Load the diabetes dataset
diabetes = datasets.load_diabetes()
diabetes

X_diabetes = diabetes['data']
y_diabetes = diabetes['target']
features = diabetes['feature_names']

X= pd.DataFrame(X_diabetes, columns=features)
y= pd.Series(y_diabetes)
# Use 'bmi','bp','s1','s2' features
chosen_feat = ['bmi','bp','s1','s2']

# 建立 X 資料
X1 = X.loc[:,chosen_feat]

# 使用 Train test split 資料分為訓練集、檢視集，檢視集為10分之一
X_train,X_test,y_train,y_test = train_test_split(X1, y, test_size = 0.10, random_state=42)
 
x = [0.01,0.1,0.4,0.6]
print(x)
for j in x:
    clf = linear_model.Ridge(alpha=j)
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    strings = str(round(clf.intercept_,3))
    for i in range(len(chosen_feat)):
        if reg.coef_[i]>= 0:
            word = '+' + str(round(reg.coef_[i],3)) + '*' + chosen_feat[i]
        else:
            word = '-' + str(round(-reg.coef_[i],3)) + '*' + chosen_feat[i]
    strings += word
    print('for alpha =', j)
    print('The regression equation is: \n price =',strings)
    print('Explained variance score: %.2f'
      % explained_variance_score(y_test, y_pred))
    print('Mean squared error: %.2f'
      % mean_squared_error(y_test, y_pred))
    print('Coefficient of determination: %.2f'
      % r2_score(y_test, y_pred))

    



[0.01, 0.1, 0.4, 0.6]
for alpha = 0.01
The regression equation is: 
 price = 152.15-0.049*s2
Explained variance score: 0.44
Mean squared error: 3420.85
Coefficient of determination: 0.44
for alpha = 0.1
The regression equation is: 
 price = 152.175-0.049*s2
Explained variance score: 0.43
Mean squared error: 3466.00
Coefficient of determination: 0.43
for alpha = 0.4
The regression equation is: 
 price = 152.202-0.049*s2
Explained variance score: 0.41
Mean squared error: 3635.75
Coefficient of determination: 0.41
for alpha = 0.6
The regression equation is: 
 price = 152.205-0.049*s2
Explained variance score: 0.38
Mean squared error: 3766.37
Coefficient of determination: 0.38


### 分類演算法(Classification algorithm)
#### 邏輯迴歸(Logistic regression) 
Logistic迴歸，雖然名字裡有 “迴歸” 二字，但實際上是解決分類問題的一類線性模型。 在某些文獻中，logistic迴歸又被稱作 logit迴歸，最大熵分類(maximum-entropy classification (MaxEnt))，或 對數線性分類器(log-linear classifier)。 在該模型中，使用函數 logistic function 把試驗(trial)的可能的輸出結果建模為概率分佈(Probability distribution):
$$p(X)=\frac{e^{c+Xw}}{1+e^{c+Xw}}$$
整理後可以得到
$$\log{\frac{p(X)}{1-p(X)}}=c+Xw$$
方程式左邊被稱為 log-odds 或 logit

scikit-learn  [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html) 處理正則化(Regulization)問題使用 L1 和 L2 正則化。作為一個優化問題，**<font color='blue'>penalty<font color='black'>** 懲罰項，帶 L2 的二分類 logistic 迴歸要最小化以下代價函數（cost function）：
$$\min_{w, c} \frac{1}{2}w^T w + C \sum_{i=1}^n \log(\exp(- y_i (X_i^T w + c)) + 1) $$.
類似的, 帶有 L1 正則化的 logistic regression 求解下面的問題：
$$\min_{w, c} \|w\|_1 + C \sum_{i=1}^n \log(\exp(- y_i (X_i^T w + c)) + 1)$$.
注意, 在這個記法中, 假定了第 i 次試驗的觀測值 yi 在集合 −1,1 中取值。

在 LogisticRegression 使用 **<font color='blue'>solver<font color='black'>** 求解器 : “liblinear”, “newton-cg”, “lbfgs”, “sag” 和 “saga”。實現了這些優化演算法，請參考 [LogisticRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)

[正規化](https://medium.com/jameslearningnote/%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90-%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E7%AC%AC5-4%E8%AC%9B-%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92%E9%80%B2%E9%9A%8E%E5%AF%A6%E7%94%A8%E6%8A%80%E5%B7%A7-%E6%AD%A3%E8%A6%8F%E5%8C%96-8dd14fcd3140)

邏輯迴歸我們已經使用了好幾次，這裡就不再多做練習。邏輯回歸也可以用來做 multi-class 分類，但是我們有下一個方法，在做 multi-class 分類上更方便。



#### 線性判別分析(Linear discriminant analysis)
線性判別分析( [discriminant_analysis.LinearDiscriminantAnalysis](https://scikit-learn.org/stable/modules/generated/sklearn.discriminant_analysis.LinearDiscriminantAnalysis.html) )是一個經典的分類器，找出線性決策平面。他可以很容易計算得到閉式解(即解析解)，天生具有多分類的特性，在實踐中已經被證明很有效，並且沒有超參數要去調節。

LDA 分類器的數學化形式  
LDA 可以通過簡單的概率模型推導出來，對每一個類別 $k$ 的類條件分佈 $P(X|y=k)$ 進行建模。 有了類條件概率分佈(class conditional distribution)後，預測就可以通過貝葉斯定理所獲得。
$$P(y=k | X) = \frac{P(X | y=k) P(y=k)}{P(X)} = \frac{P(X | y=k) P(y = k)}{ \sum_{l} P(X | y=l) \cdot P(y=l)}$$
我們<font color='blue'>選擇能夠使上述條件概率最大化的類別 $k$ 作為預測結果<font color='black'> 。

更具體地說，對於線性以及二次判別分析，類條件分佈 $P(X|y)$ 被建模成多變數高斯分佈(multivariate Gaussian distribution), 其密度函數如下所示：
$$P(X | y=k) = \frac{1}{(2\pi)^{d/2} |\Sigma_k|^{1/2}}\exp\left(-\frac{1}{2} (X-\mu_k)^t \Sigma_k^{-1} (X-\mu_k)\right)$$
其中 $d$ 是特徵分量的個數。
為了把該模型作為分類器使用，我們只需要從訓練資料中估計出類的先驗概率 $P(y=k)$ (通過$(y=k)$的樣本的比例得到） 類別均值 $\mu_k$ （通過經驗樣本的類別均值得到）以及協方差矩陣 (通過經驗樣本的類別協方差或者正則化的估計器 estimator 得到)。

在LDA中，假定每個類的高斯分佈與其他所有類共用同一個協方差矩陣 $\Sigma_k = \Sigma$ 。這樣一個假設就導致了線性決策面(linear decision surfaces), 我們得到：
$$\log P(y=k | x) = -\frac{1}{2} (x-\mu_k)^t \Sigma^{-1} (x-\mu_k) + \log P(y = k) + Cst.$$
log-posterior of LDA
$$\log P(y=k | x) = \omega_k^t x + \omega_{k0} + Cst.$$
其中 $\omega_k = \Sigma^{-1} \mu_k$，及 $\omega_{k0} =
-\frac{1}{2} \mu_k^t\Sigma^{-1}\mu_k + \log P (y = k)$


### Exapmple
在 [Wine recognition dataset](https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-dataset) 資料上，使用線性判別分析( LinearDiscriminantAnalysis )分類，請參考:[sklearn.datasets.load_wine](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine)。

#### Step 1
使用 Train test split 資料分為訓練集、驗證集，驗證集為十分之一，random_state=42


In [63]:
from sklearn.datasets import load_wine
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import cross_validate
from sklearn.metrics import accuracy_score, balanced_accuracy_score

wine = load_wine()

X = wine['data']
y = wine['target']
features = wine['feature_names']

# 使用 Train test split 資料分為訓練集、檢視集，檢視集為10分之一
X_train,X_test,y_train,y_test = train_test_split(X,y, test_size=0.1, random_state=42)

#### Step 2
對估計量模型 Linear discriminant analysis 做交叉驗證(Cross-Validation)。使用 sklearn.model_selection.cross_validate 對 training set 做交叉驗證，設定 10-fold ， scoring Metrics 使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來

In [64]:
# Create linear regression object
clf = LinearDiscriminantAnalysis()

# Cross validate
scores = cross_validate(clf, X, y, scoring = ['accuracy','balanced_accuracy'], cv=10)
print('The accuracy is',scores['test_accuracy'].mean())
print('The balance accuracy is',scores['test_balanced_accuracy'].mean())

The accuracy is 0.9774509803921569
The balance accuracy is 0.9782539682539684


#### Step 3
在驗證集做預測，使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來。

In [65]:
# Train the model using the training sets
clf.fit(X_train,y_train)

# Make predictions using the testing set
y_pred = clf.predict(X_test)

print('The accuracy for the test set is',accuracy_score(y_test,y_pred))
print('The balance accuracy for the test set is',
      balanced_accuracy_score(y_test,y_pred))

The accuracy for the test set is 1.0
The balance accuracy for the test set is 1.0


### Exercise 3
在 Iris Dataset 資料上，
1. 使用 Train test split 資料分為訓練集、驗證集，驗證集為十分之一，random_state=42
2. 對估計量模型 Linear discriminant analysis 做交叉驗證(Cross-Validation)。使用 [sklearn.model_selection.cross_validate](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html) 對 training set 做交叉驗證，設定 10-fold ， scoring Metrics 使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來
3. 在驗證集做預測，使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來。

In [None]:
import numpy as np
from sklearn import datasets, linear_model
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split,cross_validate
from sklearn.metrics import accuracy_score, balanced_accuracy_score

# Load the diabetes dataset


# 使用 Train test split 資料分為訓練集、檢視集，檢視集為10分之一


# Create LinearDiscriminantAnalysis object


# Cross validate，將結果列印出來


# Train the model using the training sets


# Make predictions using the testing set，將結果列印出來。



#### K鄰近(K nearest neighbors) 
這方法我們已經使用很多次了，這裡就不再多談。  
[KNeighborsClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier)

#### 樸素貝氏演算法(Naive Bayes) 
##### Bayes's theorem (貝氏定理)
貝氏定理是關於隨機事件A和B的條件概率的一則定理。

$${\displaystyle P(A\mid B)={\frac {P(B\mid A)P(A)}{P(B)}}}$$

其中 ${\displaystyle A}$ 以及 ${\displaystyle B}$ 為隨機事件，且 ${\displaystyle P(B)}$ 不為零。${\displaystyle P(A|B)}$ 是指在事件 ${\displaystyle B}$ 發生的情況下事件 ${\displaystyle A}$ 發生的機率。

在貝氏定理中，每個名詞都有約定俗成的名稱：

> ${\displaystyle P(A\,|\,B)}$ 是已知 ${\displaystyle B}$ 發生後，${\displaystyle A}$ 的條件機率。也由於得自 ${\displaystyle B}$ 的取值而被稱作 ${\displaystyle A}$ 的後驗機率(Posterior prabability)。 <br>
> ${\displaystyle P(A)})$ 是 ${\displaystyle A}$ 的先驗機率（Prior probability或邊緣機率）。之所以稱為"先驗"是因為它不考慮任何 ${\displaystyle B}$ 方面的因素。 <br>
> ${\displaystyle P(B\,|\,A)}$ 是已知 ${\displaystyle A}$ 發生後， ${\displaystyle B}$ 的條件機率。 <br>
> ${\displaystyle P(B)}$ 是 ${\displaystyle B}$ 的先驗機率。 <br>

按這些術語，貝氏定理可表述為： <br>
      後驗機率 = (似然性*先驗機率)/標准化常量 <br>
也就是說，後驗機率與先驗機率和相似度的乘積成正比。

另外，比例 ${\displaystyle P(B|A)/P(B)}$ 也有時被稱作標准似然度（standardised likelihood），貝氏定理可表述為：

後驗機率 = 標准似然度*先驗機率

[維基百科-貝氏定理](https://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86)

##### 應用貝氏定理
當我們想用「特徵」(features)來判斷「類別」(labels)時，可以利用「貝氏定理」：

$$P(類別~|~{\rm 特徵}) = \frac{P({\rm 特徵}~|~類別)P(類別)}{P({\rm 特徵})}$$

經由計算 Prior probability，$P({\rm 特徵}~|~類別)、P(類別)、P(特徵)$，可以得到在某個「特徵」下，屬於某「類別」的機率。

當利用特徵直接計算類別的機率「$P(類別~|~{\rm 特徵})$」的演算法，我們稱為 Discrinative learning algorithm，而由計算 Prior probability，$P(特徵~|~類別)、P(類別)、P(特徵)$，可以得到在特徵下，屬於某類別的機率「$P(特徵~|~類別)$」，我們稱為 Generative learning algorithm。在 generative model 中，計算 $P(特徵~|~類別)$ 是很困難的，但經由假設，這個計算過程就簡單多了。

#### Gaussian Naive Bayes (樸素貝氏演算法)
[GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNB)  
假設特徵及類別都是常態分佈，適用於高維度計算。


### Exapmple
在 [Wine recognition dataset](https://scikit-learn.org/stable/datasets/toy_dataset.html#wine-dataset) 資料上，使用Gaussian Naive Bayes (樸素貝氏演算法)分類，請參考:[sklearn.datasets.load_wine](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html#sklearn.datasets.load_wine)。

#### Step 1
使用 Train test split 資料分為訓練集、驗證集，驗證集為十分之一，random_state=42


In [None]:
from sklearn.datasets import load_wine
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import cross_validate
from sklearn.metrics import accuracy_score, balanced_accuracy_score

wine = 

X = 
y = 
features = 

# 使用 Train test split 資料分為訓練集、檢視集，檢視集為10分之一
X_train,X_test,y_train,y_test = train_test_split()

#### Step 2
對估計量模型 Linear discriminant analysis 做交叉驗證(Cross-Validation)。使用 sklearn.model_selection.cross_validate 對 training set 做交叉驗證，設定 10-fold ， scoring Metrics 使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來

In [None]:
# Create linear regression object
clf = 

# Cross validate
scores = cross_validate()
print('The accuracy is',scores[].)
print('The balance accuracy is',scores[].)

#### Step 3
在驗證集做預測，使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來。

In [None]:
# Train the model using the training sets
clf.fit()

# Make predictions using the testing set
y_pred = clf.predict()

print('The accuracy for the test set is',accuracy_score())
print('The balance accuracy for the test set is',
      balanced_accuracy_score())

### Exercise 4
在 Iris Dataset 資料上，
1. 使用 Train test split 資料分為訓練集、驗證集，驗證集為十分之一，random_state=42
2. 對估計量模型 [GaussianNB](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNB) 做交叉驗證(Cross-Validation)。使用 [sklearn.model_selection.cross_validate](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_validate.html) 對 training set 做交叉驗證，設定 10-fold ， scoring Metrics 使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來
3. 在驗證集做預測，使用 accuracy_score、balance_accuracy_score 來評估，將結果列印出來。

In [None]:
import numpy as np
from sklearn import datasets, linear_model
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split,cross_validate
from sklearn.metrics import accuracy_score, balanced_accuracy_score

# Load the diabetes dataset


# 使用 Train test split 資料分為訓練集、檢視集，檢視集為10分之一


# Create GaussianNB object


# Cross validate


# Train the model using the training sets，將結果列印出來


# Make predictions using the testing set，將結果列印出



#### 支持向量機(Support vector machines)

支持向量機（SVM）原始的概念，最早是由俄羅斯籍數學家佛拉基米爾‧萬普尼克（Vladimir Naumovich Vapnik）等人於1963年所提出。支持向量機屬於監督學習，可以用來處理分類問題(Classification problems)。

如何將一羣屬於不同類別的資料分類？一個非常直覺的做法是用直線、曲線、平面、或曲面把它們分隔開來。

但是如何分隔？用直線(平面)、還是曲線(曲面)？

怎樣找出最恰當的分隔？那一個直線(平面、曲線、曲面)最好？

###### 先載入需要的模組。

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

使用[sklearn.datasets.make_blobs](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs)建立兩組資料。

In [None]:
from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=50, centers=2,
                  random_state=0, cluster_std=0.60)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')

對以上的資料，可以用直線將它們分開。使用 <br>
$\quad y=x+0.65$ <br>
及 <br>
$\quad y=-0.2x+2.9$ <br>
都可以。執行下列程式，觀察後，你覺得那一條較好？

In [None]:
xfit = np.linspace(-1, 3.5)
fig, axes = plt.subplots(1,2,figsize=(13,4))

for (i,(m,b)) in enumerate([(1, 0.65),(-0.2, 2.9)]):
    axes[i].scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
    axes[i].text(-1, 2, '$y=%3.1f x+%3.2f$' %(m,b), fontsize=12)
    axes[i].plot(xfit, m * xfit + b, '-k')

若加入一個新的資料，$(0.6,2.1)$紅色叉叉，你覺得它應該屬於那一類？ <br>
執行下列程式，$(0.6,2.1)$用紅色叉叉表示，觀察後，你覺得它應該屬於那一類？

In [None]:
xfit = np.linspace(-1, 3.5)
fig, axes = plt.subplots(1,2,figsize=(13,4))

for (i,(m,b)) in enumerate([(1, 0.65),(-0.2, 2.9)]):
    axes[i].scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
    axes[i].text(-1, 2, '$y=%3.1f x+%3.1f$' %(m,b), fontsize=12)
    axes[i].plot([0.6], [2.1], 'x', color='red', markeredgewidth=2, markersize=10)
    axes[i].plot(xfit, m * xfit + b, '-k')

- 對於$\, y=x+0.65$，我們判定它屬於「綠色」那一類， <br>
- 但是對於$\, y=-0.2x+2.9$，我們判定它屬於「黃色」那一類

有很多選擇

In [None]:
xfit = np.linspace(-1, 3.5)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plt.plot([0.6], [2.1], 'x', color='red', markeredgewidth=2, markersize=10)

for m, b in [(1, 0.65), (0.5, 1.6), (-0.2, 2.9)]:
    plt.plot(xfit, m * xfit + b, '-k')

執行下列程式，觀察圖中A、B、C三點。你覺得使用$\, y=x+0.7$ 當分界線來判斷A、B、C三點的屬性，那一個比較有把握？

In [None]:
xfit = np.linspace(-1, 3.5)
(m,b)=(1, 0.65)
plt.scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
plt.text(-1, 1, '$y=%3.1f x+%3.1f$' %(m,b), fontsize=12)
plt.plot(xfit, m * xfit + b, '-k')
plt.text(0, 5.3, 'A', fontsize=15)
plt.text(2.8, 0.7, 'B', fontsize=15)
plt.text(2.4, 3.4, 'C', fontsize=15)
plt.plot([-0.05,0.78],[5.45,1.47],'bo--',[2.75,2.2],[0.75,2.9],'yo--',[2.33,2.42],[3.45,3.1],'ro-')

A 最有把握，B 次之，C 似乎沒什麼把握。為什麼有這樣的結論？

依據 A、B、C 三點到分界線 $\, y=x+0.7$  的距離來判斷。

根據這個想法，一個理想的分界線，是使得「分界線到這些 training data 的最小距離」最大的那一個！

執行下列程式，你覺得那一個分界線最理想？

In [None]:
xfit = np.linspace(-1, 3.5)
fig, axes = plt.subplots(1,3,figsize=(18,4))

for (i,(m,b,d)) in enumerate([(1, 0.65, 0.33),(-0.2, 2.9, 0.2),(0.5, 1.6, 0.55)]):
    axes[i].scatter(X[:, 0], X[:, 1], c=y, s=50, cmap='summer')
    axes[i].plot([0.6], [2.1], 'x', color='red', markeredgewidth=2, markersize=10)
    yfit = m * xfit + b
    axes[i].plot(xfit, yfit, '-k')
    axes[i].fill_between(xfit, yfit - d, yfit + d, edgecolor='none',
                         color='#AAAAAA', alpha=0.4)
    axes[i].text(-1, 2, '$y=%3.1f x+%3.1f$' %(m,b), fontsize=10)

當然是 $\, y=0.5x+1.6$ 最好，因為它有最寬的間隔(margin)。

### 使用支持向量機（SVM）
支持向量機（SVM）就是一個可以讓我們找出最大間隔(margin)的 estimator，其使用語法請參考[sklearn.svm: Support Vector Machines](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.svm)，我們使用其中的[sklearn.svm.SVC](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)。

C : float, optional (default=1.0) <br>
Regularization parameter. The strength of the regularization is inversely proportional to C. Must be strictly positive. The penalty is a squared l2 penalty.

kernel : string, optional (default=’rbf’) <br>
Specifies the kernel type to be used in the algorithm. It must be one of **‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’ or a callable**. If none is given, ‘rbf’ will be used.

核函数 可以是以下任何形式：:

線性: $\langle x, x'\rangle$. <br>
多项式: $(\gamma \langle x, x'\rangle + r)^d$. d 是關键詞 degree, r 指定 coef0。 <br>
rbf: $e^{(-\gamma \|x-x'\|^2)}$. $\gamma$ 是關键詞 gamma, 必須大於 0。 <br>
sigmoid $(\tanh(\gamma \langle x,x'\rangle + r))$, 其中 r 指定 coef0。 <br>

給定訓練向量 $x_i \in \mathbb{R}^p$, $i=1,…, n$, 和一個向量$ y \in \{1, -1\}^n$, SVC能解決 如下主要問題:

$$\min_{w, b, \zeta}\frac{1}{2} w^T w + C\sum_{i=1}^{n} \zeta_i \\
y_i (w^T \phi (x_i) + b) \geq 1 - \zeta_i, \\
 \zeta_i \geq 0, i=1, ..., n$$

它的對偶是

$$\min_{\alpha} \frac{1}{2} \alpha^T Q \alpha - e^T \alpha \\
y^T \alpha = 0\\
 0 \leq \alpha_i \leq C, i=1, ..., n$$

其中 $e$ 是所有的向量， $C > 0$ 是上界，$Q$ 是一個 n 由 n 個半正定矩陣， 而 $Q_{ij} \equiv y_i y_j K(x_i, x_j)$ ，其中 $K(x_i, x_j) = \phi (x_i)^T \phi (x_j)$ 是內核。所以訓練向量是通過函數 $\phi$，間接反映到一個更高維度的（無窮的）空間。


#### 套用模型
使用 linear 線性的核函数(Kernel function)，

In [None]:
from sklearn.svm import SVC # "Support vector classifier"
model = SVC(kernel='linear', C=1E10)

#### 訓練 model

In [None]:
model.fit(X, y)

SVM 決策函數取決於訓練集的一些子集, 稱作支持向量. 這些支援向量的部分特性可以在屬性 support_vectors_, support_ 和 n_support_ 找到:

- support_vectors_: 支援向量(support vectors) <br>
- support_ : 支援向量的 indeice <br>
- n_support_ : 每一個類別中的支援向量
- coef_ : 
- intercept_:

另外SVM 決策函數(Decision function)可在方法 [decision_function(self, X)](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC.decision_function)找到。

請試著了解其意義

In [None]:
model.support_vectors_

In [None]:
model.support_

In [None]:
model.n_support_

In [None]:
model.coef_

In [None]:
model.intercept_

In [None]:
model.decision_function(X)

In [None]:
model.predict(X)