# SVM

In [4]:
# 사용할 데이터셋
from sklearn.datasets import load_boston, load_breast_cancer

# 머신러닝용 데이터
from sklearn.model_selection import train_test_split

# 사용할 모델
from sklearn.svm import SVC, SVR

## 분류(SVC)

In [17]:
# 1. 데이터 셋 불러오기 data, target 나눠서 담기
X, y = load_breast_cancer(return_X_y = True)
# print(X.shape, y.shape)

# 2. 데이터 셋 train/test로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y)
# print(X_train.shape, y_train.shape)

# 3. 학습
model = SVC(kernel = 'linear') # default는 비선형 => kernel = 'linear'를 통해 선형으로 조정
model.fit(X_train, y_train) # default가 kernel trick 사용한 것.

# 4. 평가(학습 평가/예측 평가)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")


학습 : 0.9694835680751174
예측 : 0.9440559440559441


## 회귀

In [18]:
# 1. 데이터 셋 불러오기 data, target 나눠서 담기
X, y = load_boston(return_X_y = True)

# 2. 데이터 셋 train/test로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 3. 학습
''' 선형 데이터, 정제 데이터에 비선형을 적용하면 
선형보다 오히려 성능이 감소할 수 있다.'''
model = SVR(kernel = 'linear')
model.fit(X_train, y_train)

# 4. 평가(학습 평가/예측 평가)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

학습 : 0.6920647534420035
예측 : 0.7371883844740066


## 비선형 SVM

### 분류

In [19]:
# 1. 데이터 셋 불러오기 data, target 나눠서 담기
X, y = load_breast_cancer(return_X_y = True)
# print(X.shape, y.shape)

# 2. 데이터 셋 train/test로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y)
# print(X_train.shape, y_train.shape)

# 3-1. 다항식 특성 추가
model = SVC(kernel = 'poly')
model.fit(X_train, y_train)

# 3-2. 다항식 특성 추가 평가(학습 평가/예측 평가)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

# 4-1. RBF 커널 트릭
model = SVC(kernel = 'rbf')
model.fit(X_train, y_train)

# 4-2. RBF 커널 트릭 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

학습 : 0.9107981220657277
예측 : 0.9090909090909091
학습 : 0.9154929577464789
예측 : 0.916083916083916


### 회귀

In [21]:
# 1. 데이터 셋 불러오기 data, target 나눠서 담기
X, y = load_boston(return_X_y = True)

# 2. 데이터 셋 train/test로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 3-1. 다항 특성 추가
model = SVR(kernel = 'poly')
model.fit(X_train, y_train)

# 3-2. 다항 특성 추가 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

# 4-1. RBF 커널 트릭
model = SVR(kernel = 'rbf')
model.fit(X_train, y_train)

# 4-2. RBF 커널 추가 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

학습 : 0.19695296628633996
예측 : 0.27245116787804724
학습 : 0.18736760182924528
예측 : 0.2902307327185887


### 매개변수

* kernel
  * poly(degree)
    * degree는 차수
  * rbf(gamma)
    * gamma(가우시안 함수의 표준편차)
      * gamma가 클수록 데이터들이 가지는 거리가 짧아짐(반비례)
      * gamma가 작을수록 데이터들이 가지는 거리가 넓어짐
* 하드마진 vs 소프트마진
  * C (default = 0.1)
    * C를 낮게 설정하면 => 이상치가 존재함(소프트 마진) => 너무 낮으면 과소적합 
    * C를 높게 설정하면 => 이상치가 없음! (하드 마진) => 너무 높으면 과대적합 

In [25]:
# 1. 데이터 셋 불러오기 data, target 나눠서 담기
X, y = load_breast_cancer(return_X_y = True)
# print(X.shape, y.shape)

# 2. 데이터 셋 train/test로 나누기
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 3-1. 다항식 특성 추가
model = SVC(kernel = 'poly', degree = 4)
model.fit(X_train, y_train)

# 3-2. 다항식 특성 추가 평가(학습 평가/예측 평가)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

# 4-1. RBF 커널 트릭
model = SVC(kernel = 'rbf', gamma = 'scale')
model.fit(X_train, y_train)

# 4-2. RBF 커널 트릭 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

# 5-1. C값 조정
model = SVC(kernel = 'rbf', C = 0.1)
model.fit(X_train, y_train)

# 5-2. C값 조정 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

학습 : 0.903755868544601
예측 : 0.9300699300699301
학습 : 0.9061032863849765
예측 : 0.9440559440559441
학습 : 0.8779342723004695
예측 : 0.9230769230769231
