# 08장 SVM (Support Vector Machine)
---
- Dates : Sep 04, 2024  
- Author : JaeEun Yoo
---

## SVM(Support Vector Machine)이란?
- 서포트 벡터 머신(이하 SVM)은 결정 경계(Decision Boundary), 즉 분류를 위한 기준 선을 정의하는 모델
- 분류되지 않은 새로운 점이 나타나면 어느 쪽에 속하는지 확인하여 분류 과제를 수행
- 두 클래스로부터 최대한 멀리 떨어져 있는(즉 확실하게 클래스가 나뉘는) 결정 경계를 찾는 분류기로, 특정 조건을 만족하는 동시에 클래스를 분류하는 것을 목표로 함
- 결정 경계를 통해 어느 쪽에 속하는지 판단하는 것으로, 선형이나 비선형 분류, 회귀, 이상치 탐색에도 사용할 수 있는 강력한 성능을 갖는 지도 학습 모델


![numpy array 01](./figures/svm_01.png)

## 결정경계(Decision Boundary)란?

- 두 데이터 분포를 완벽하게 나누는 선, 즉 결정 경계는 무수히 많이 존재할 수 있음
- 두 데이터 분포를 가장 정확하게 분류할 수 있는 단 하나의 결정 경계를 선택해야하며, 이를 최적의 Decision Boundary(최적의 결정경계)라고 함


![numpy array 01](./figures/svm_03.png)

- Graph C : 선이 파란색 부류와 너무 가까워서 아슬아슬
- Graph F : 두 클래스(분류) 사이에서 거리가 가장 멈
- 결정 경계는 **데이터 군으로부터 최대한 멀리 떨어지는 게 최적임**
- 서포트 벡터 머신(Support Vector Machine)이라는 이름에서 **Support Vectors는 결정 경계와 가까이 있는 데이터 포인트**들을 의미함
- 이 데이터들이 경계를 정의하는 결정적인 역할을 함

## SVM의 종류

### Margin이란?

- 마진(Margin)은 **결정 경계와 서포트 벡터 사이의 거리**

![numpy array 01](./figures/svm_02.png)

- 가운데 실선이 '결정 경계'
- 실선으로부터 검은 테두리가 있는 빨간점 1개, 파란점 2개까지 영역을 두고 점선을 그여졌으므로, 해당 점은 '서포트 벡터'
- 점선으로부터 결정 경계까지의 거리가 바로 '마진(Margin)'
- 결정 경계를 기준으로 서포트 벡터의 거리가 멀 수록 최적의 결정경계이다 -->  **마진을 최대화해야한다.**



![numpy array 01](./figures/svm_04.png)

* Cluster : 데이터가 모여있는 집합 또는 데이터군
* Decision boundry (Separating line 또는 Classifier) : 결정 경계
* Support Vectors : 결정 경계에서 가장 가까운 데이터 점
* Margin : 결정 경계로부터 Support Vectors 까지의 거리

> **SVM의 장점!**
- SVM에서는 결정 경계를 정의하는 게 결국 서포트 벡터이기 때문에 데이터 포인트 중에서 **서포트 벡터만 잘 골라내면** 나머지 쓸 데 없는 수많은 데이터 포인트들을 무시할 수 있다 ->  **빠르다!**

---
## SVM의 종류

### Hard margin vs Soft margin

![numpy array 01](./figures/svm_05.png)

- Hard margin 분류 : 모든 샘플이 도로 바깥쪽에 분류됨 (좌)
- Hard margin분류는 훈련 세트가 선형적으로 구분되는 경우에만 가능하며 이상치에 매우 민감함
- e.g.) 파란색 클래스에 빨간색 데이터가 섞여 있어 하드 마진을 찾을 수 없게 되거나, 데이터 이상치로 인한 일반화가 되지 않을 수 있음
- **실제로 하드 마진이 가능한 데이터 분류는 거의 없음**

- Soft margin 분류 : 마진을 가능한 한 넓게 유지하며 마진 오류를 발생시키지 않는 적절한 균형을 잡도록 분류됨 (우)
- 마진폭을 가능한한 넓게 유지하면서 이상치가 발생하더라도 어느 정도 허용함

## Soft Margin

![numpy array 01](./figures/svm_06.png)

- **Soft Margin은 SVM에서 Margin은 최대화 하면서 약간의 오류를 허용하는 방법**
- Soft Margin의 핵심 아이디어
1) **마진 최대화**  
* 결정 경계에서 가장 가까운 데이터(Supprot Vectors)와 결정 경계 사이의 거리를 최대화
2) **약간의 Error 허용**  
* 일부 데이터는 경계를 넘어서거나 마진 내에 위치할 수 있으며, 이를 통해 모델이 더 유연하게 데이터에 적응할 수 있게 한다.

위의 두가지 아이디어를 충족시키기 위해 SVM에서는 **“C”라고 불리는 penalty parameter를 사용함**

### C pararmeter

![numpy array 01](./figures/svm_07.png)

**C값이 클수록**
- Hard margin(Error 허용 안 함), 오류를 거의 허용하지 않음
- 모델은 데이터를 최대한 올바르게 분류하려고 하기 때문에 margin은 작아지고 overfitting(과적합)의 위험이 발생

**C값이 작을수록**
- Soft margin(Error를 허용함). 비교적 더 많은 오류를 허용함
- 모델은 margin을 최대화 하면서 일부 데이터가 잘못 분류되는 것을 허용함

---
## Kernel

- SVM의 기본 아이디어는 데이터를 고차원 공간으로 매핑하여 선형적으로 분리할 수 있는 초평면을 찾는 것
- 앞서 설명한 것들은 모두 Linear하게 분리가 가능한 데이터셋이였지만 만약 선형으로 분리 할 수 없는 데이터셋이 있다면?

<br>  
  
- **Kernel**은 데이터를 현재 차원보다 더 높은 차원으로 매핑하여 선형적으로 분리 가능하게 만드는 함수
- Kernel 함수는 두 벡터의 내적을 계산하여 새로운 고차원 공간으로 변환된 결과를 나타내는데, 이를 통해 비선형적인 데이터도 선형적으로 분리할 수 있음

![numpy array 01](./figures/svm_08.png)

- 위와같은 데이터는 어떤식으로도 선형으로는 분류할 수 없는 데이터
- SVM을 적용하기 위해 Kernel을 활용하여 2차원 데이터를 3차원 데이터로 변경

![numpy array 01](./figures/svm_09.png)

- 2차원 데이터를 3차원 데이터로 변경한 뒤 데이터군을 분리할 수 있는 초평면을 구성함으로써 SVM을 사용할 수 있음
- 그러나 저차원 데이터를 분류하기 위해 고차원 데이터 형태로 실제 변환하는 작업은 효율적이지 못함
- SVM에서는 이러한 고차원 공간으로의 변환 작업을 직접 수행하지 않고 효율적으로 계산할 수 있는 **Kernel Trick**을 제시

### Kernel Trick

- 데이터를 명시적으로 고차원 공간으로 변환하지 않고, Kernel 함수를 통해 변환된 고차원 공간에서의 내적을 효율적으로 계산하는 방법
- Kernel Trick을 사용하면 계산 비용을 크게 줄이면서도 고차원 공간에서의 분리를 가능하게 함

1) Linear kernel : 원래 공간에서 선형 분리를 수행
2) Polynomial kernel : 입력 벡터의 다항식 형태로 매핑
3) **RBF kernel (=Gaussian kernel)** : 가우시안 커널이라고도 하며, 무한 차원 공간으로 매핑
4) Sigmoid kernel :신경망에서 사용하는 활성화 함수와 유사한 형태

### RBF kernel

- kernel 함수 중 Default로 지정되어 가장 많이 사용되는 함수
- 두 데이터 포인트 x와 y 사이의 거리에 기초하여 다음과 같이 정의

![numpy array 01](./figures/svm_10.png)

- ∥x−y∥ : 두 벡터 x와 y 사이의 유클리드 거리
- γ : 커널의 폭을 조절하는 매개변수로 사용 (반드시 양수)

 - γ(gamma)는 데이터 포인트 사이의 유사성을 측정하는데 사용됨
- 쉽게 표현하면 **결정 경계를 얼마나 유연하게 그을지 정해주는 매개변수**
- 학습 데이터에 얼마나 민감하게 반응할 것인지 모델을 조정하는 것이므로 SVM의 C파라미터와 비슷함

![numpy array 01](./figures/svm_11.png)

---
## 실습 : 붓꽃 데이터 분류하기

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score



In [None]:

# 데이터셋 생성
# iris 데이터셋을 사용합니다.
iris = datasets.load_iris()


In [None]:
print(iris.keys())

In [None]:
print(iris)

In [None]:
print(iris['feature_names'])

In [None]:
iris.data.shape

In [None]:
X = iris.data[:, :2]  # 꽃잎 길이와 폭만 사용
y = iris.target

In [None]:
iris['target_names']

In [None]:
y

In [None]:

# 데이터셋을 훈련 세트와 테스트 세트로 나눔
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


In [None]:

# SVM 모델 생성 및 학습 (RBF 커널 사용)
model = svm.SVC(kernel='rbf', gamma='scale')


In [None]:
model.fit(X_train, y_train)


In [None]:

# 테스트 데이터로 예측 수행
y_pred = model.predict(X_test)

# 모델 성능 평가
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:\n", classification_report(y_test, y_pred))


In [None]:
# 학습 데이터와 결정 경계 시각화
def plot_decision_boundary(X, y, model):
    h = .02  # 결정 경계의 해상도
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    plt.contourf(xx, yy, Z, alpha=0.8)
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o')
    plt.xlabel('Sepal length')
    plt.ylabel('Sepal width')
    plt.title('SVM with RBF Kernel')
    plt.show()


In [None]:
# 결정 경계 시각화
plot_decision_boundary(X_train, y_train, model)

>refer
- https://velog.io/@jjw9599/Support-Vector-Machine01
- https://idkim97.github.io/machine%20learning/MachineLearning_SVM/
- https://velog.io/@hyesoup/%EC%84%9C%ED%8F%AC%ED%8A%B8-%EB%B2%A1%ED%84%B0-%EB%A8%B8%EC%8B%A0Support-Vector-Macine-SVM
- https://ittrue.tistory.com/44