# 支援向量機 (Support Vector Machine, SVM)

支援向量機（SVM）是一種強大的監督式學習演算法，主要用於分類和回歸問題。SVM 透過構建一條最佳超平面（Hyperplane）來將不同類別的數據分開，並最大化類別之間的間隔。

## 主要特點
- **適用於線性和非線性問題**：透過核函數將數據映射到高維空間，處理非線性分類問題。
- **對小樣本和高維數據表現良好**：即使在樣本較少的情況下，也能提供良好的泛化能力。
- **能夠處理異常值**：透過間隔最大化減少異常值的影響。

---

## SVM 的工作原理
1. **尋找最佳超平面**  
   - 將不同類別的數據點分開，並最大化類別之間的「間隔 (Margin)」。
   - 超平面的方程式：
     \[
     w \cdot x + b = 0
     \]
   - 其中：
     - \( w \) 是權重向量
     - \( x \) 是特徵向量
     - \( b \) 是偏差項

2. **支持向量**  
   - 與超平面最近的數據點稱為支持向量，這些點決定了最佳分隔邊界。

3. **最大化間隔 (Margin Maximization)**  
   - SVM 嘗試找到使正、負類別數據點之間的間隔最大化的超平面，間隔定義為：
     \[
     \text{Margin} = \frac{2}{\|w\|}
     \]

---

## 損失函數（合頁損失 Hinge Loss）
SVM 目標是最小化以下損失函數：

\[
L(w, b) = \sum_{i=1}^{n} \max(0, 1 - y_i (w \cdot x_i + b)) + \lambda \|w\|^2
\]

其中：
- \( y_i \) 表示真實標籤（+1 或 -1）
- \( \lambda \) 是正則化參數，用於控制模型的複雜度

---

## 核函數 (Kernel Function)
當數據線性不可分時，SVM 使用核函數將數據映射到更高維的特徵空間，使其變得可分。常見的核函數包括：

1. **線性核 (Linear Kernel)**：
   \[
   K(x_i, x_j) = x_i \cdot x_j
   \]
   - 適用於線性可分的數據。

2. **多項式核 (Polynomial Kernel)**：
   \[
   K(x_i, x_j) = (x_i \cdot x_j + c)^d
   \]
   - 適用於較複雜的數據關係。

3. **高斯徑向基核 (RBF Kernel, Radial Basis Function)**：
   \[
   K(x_i, x_j) = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right)
   \]
   - 適用於非線性數據，常用於實際應用中。

4. **Sigmoid 核 (Sigmoid Kernel)**：
   \[
   K(x_i, x_j) = \tanh(\alpha x_i \cdot x_j + c)
   \]
   - 類似於神經網絡的激活函數。

---

## SVM 的優缺點
### 優點
- **對高維數據效果良好**：在特徵數遠大於樣本數的情況下，仍能表現良好。
- **抗過擬合能力強**：透過正則化參數控制模型複雜度。
- **適用於非線性數據**：使用核函數解決複雜的決策邊界。

### 缺點
- **訓練時間較長**：在大規模數據上訓練時間較慢，尤其是非線性核函數。
- **對於噪聲敏感**：當數據中存在重疊時，分類效果可能會下降。
- **難以調參**：核函數類型和超參數（如 C 和 γ）需要仔細調整。

---

## 重要參數
- **`C` (正則化參數)**：  
  - 控制間隔的大小與錯誤分類的權衡。
  - \( C \) 越大，分類錯誤懲罰越嚴格，可能過擬合。
  - \( C \) 越小，容許錯誤較多，可能欠擬合。

- **`gamma` (γ, RBF 核的參數)**：  
  - 控制影響範圍，γ 值越大，影響範圍越小（更趨於擬合），γ 值越小，影響範圍越大。

---

## SVM 的應用範圍
- **文本分類**：垃圾郵件檢測、情感分析等。
- **圖像識別**：手寫數字識別、人臉識別等。
- **醫療診斷**：疾病分類、癌症檢測等。
- **金融領域**：信用評估、欺詐偵測等。

In [1]:
from sklearn import svm
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import svm, metrics

In [2]:
# 載入我之前做以清整過的鐵達尼號資料集
data = pd.read_csv('tanic_clearn_data.csv')

In [3]:
X = data[data.columns[1:]]
y = data[['Survived']]

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.3, random_state= 33)

In [5]:
X.isna().sum() #再次確認資料是已經沒有遺失值的、且可使用的

Pclass         0
Sex            0
SibSp          0
Parch          0
Embarked       0
Initial        0
Age_band       0
Family_Size    0
Alone          0
Fare_cat       0
dtype: int64

In [6]:
model_linear = svm.SVC(kernel='linear', C=0.1)
model_linear.fit(X_train, y_train)
pred_linear = model_linear.predict(X_test)
accuracy_score_linear = metrics.accuracy_score(pred_linear, y_test)
print('Accuracy for linear SVM is', accuracy_score_linear)

Accuracy for linear SVM is 0.8395522388059702


  y = column_or_1d(y, warn=True)


In [10]:
#rbf 常用於非線性可分支持向量機，具備良好的性能。
model_rbf = svm.SVC(kernel='rbf',C=1,gamma=0.1)
model_rbf.fit(X_train,y_train)
pred_rbf = model_rbf.predict(X_test)
accuracy_score_rbf = metrics.accuracy_score(pred_rbf,y_test)
print('Accuracy for rbf SVM is ',accuracy_score_rbf)

Accuracy for rbf SVM is  0.8582089552238806


  y = column_or_1d(y, warn=True)


In [9]:
#poly 
model_poly = svm.SVC(kernel='poly',C=0.5,gamma='auto')
model_poly.fit(X_train,y_train)
pred_rbf = model_poly.predict(X_test)
accuracy_score_rbf = metrics.accuracy_score(pred_rbf,y_test)
print('Accuracy for rbf SVM is ',accuracy_score_rbf)

Accuracy for rbf SVM is  0.8507462686567164


  y = column_or_1d(y, warn=True)
