# SVM

In [3]:
# 우리가 사용할 데이터셋(정리가 끝남)
from sklearn.datasets import load_boston, load_breast_cancer

# 머신러닝용 데이터
from sklearn.model_selection import train_test_split

# 우리가 사용할 모델
from sklearn.svm import SVC, SVR

## 분류(SVC)

In [4]:
# 1. 데이터셋을 불러와야 함
X, y = load_breast_cancer(return_X_y=True)
print(X.shape, y.shape) # x만 대문자인 이유는 일반 1차원이 아니라 2차원 데이터라서 (옛날표기느낌이란다)

# 2. train/test로(학습용/검증용) 나눠야 함 -> 4개씩 나뉘어진다는걸 알기
X_train, X_test, y_train, y_test = train_test_split(X, y)
print(X_train.shape, y_train.shape)

# 3. 학습
model = SVC() # model = SVC(kernel = 'linear') 이렇게 하면 선형으로 바뀜 : 이론상에서 선형 svm은 커널을 쓰지않지만 코딩에서는 편의성을 위해 쓴다!!(이런식으로 이론과 현실이 안맞는경우가 있음. 편의성 때문에!!)
# "선형은 비선형의 특수경우다" 라고 생각하면 꿀팁이란다
model.fit(X_train, y_train)

# 4. 평가(학습의평가와 예측의평가로 나뉨)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

(569, 30) (569,)
(426, 30) (426,)
학습 : 0.92018779342723
예측 : 0.8951048951048951


## 회귀 

In [5]:
# 1. 데이터셋을 불러와야 함
X, y = load_boston(return_X_y=True)

# 2. train/test로(학습용/검증용) 나눠야 함 -> 4개씩 나뉘어진다는걸 알기
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 3. 학습
model = SVR() # SVR(kernel = 'linear') 이렇게하면 선형으로 바뀐다
model.fit(X_train, y_train)

# 4. 평가(학습의평가와 예측의평가로 나뉨)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

학습 : 0.19438466342101957
예측 : 0.27414236582464513


## 비선형 SVM

### 분류 


In [6]:
# 1. 데이터셋을 불러와야 함
X, y = load_breast_cancer(return_X_y=True)
print(X.shape, y.shape) # x만 대문자인 이유는 일반 1차원이 아니라 2차원 데이터라서 (옛날표기느낌이란다)

# 2. train/test로(학습용/검증용) 나눠야 함 -> 4개씩 나뉘어진다는걸 알기
X_train, X_test, y_train, y_test = train_test_split(X, y)
print(X_train.shape, y_train.shape)

# 3-1. 다항식 특성 추가
model = SVC(kernel = 'poly')
model.fit(X_train, y_train)

# 3-2. 다항식 특성 추가 평가 (학습, 예측)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

# 4-1. RBF 커널 트릭
model = SVC(kernel = 'rbf')
model.fit(X_train, y_train)

# 4-2. RBF 커널 트릭 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

(569, 30) (569,)
(426, 30) (426,)
학습 : 0.9061032863849765
예측 : 0.9300699300699301
학습 : 0.9131455399061033
예측 : 0.9370629370629371


### 회귀 

In [7]:
# 1. 데이터셋을 불러와야 함
X, y = load_breast_cancer(return_X_y=True)
print(X.shape, y.shape) # x만 대문자인 이유는 일반 1차원이 아니라 2차원 데이터라서 (옛날표기느낌이란다)

# 2. train/test로(학습용/검증용) 나눠야 함 -> 4개씩 나뉘어진다는걸 알기
X_train, X_test, y_train, y_test = train_test_split(X, y)
print(X_train.shape, y_train.shape)

# 3-1. 다항식 특성 추가
model = SVC(kernel = 'poly', degree = 10)
model.fit(X_train, y_train)

# 3-2. 다항식 특성 추가 평가 (학습, 예측)
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

# 4-1. RBF 커널 트릭
model = SVC(kernel = 'rbf', gamma = 0.1)
model.fit(X_train, y_train)

# 4-2. RBF 커널 트릭 평가
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

# 5-1. C값 조정
model = SVC(kernel = 'linear', C = 0.1)
model.fit(X_train, y_train)

# 5-2. C값 조정
print(f"학습 : {model.score(X_train, y_train)}")
print(f"예측 : {model.score(X_test, y_test)}")

(569, 30) (569,)
(426, 30) (426,)
학습 : 0.9084507042253521
예측 : 0.8531468531468531
학습 : 1.0
예측 : 0.5664335664335665
학습 : 0.9694835680751174
예측 : 0.9090909090909091


### 다항식 특성 추가 

### 커널 기법

## 매개변수 설정 (개념 이해할줄알아야한다고 강조함)
* kernel
  * poly(degree)
    * degree는 차수!
  * rbf(gamma)
    * gamma(가우시안 함수의 표준편차)
      * gamma 클수록 데이터들이 가지는 거리가 짧아짐
      * gamma 작을수록 데이터들이 가지는 거리가 넓어짐
* 하드마진 vs 소프트마진
  * c 조절
    * c 를 낮게 설정하면 ==> 이상치가 존재함 (소프트마진)
      * c를 너무 낮게 설정하면 ==> 과소적합
    * c 를 높게 설정하면 ==> 이상치 없음! (하드 마진)
      * c를 너무 높게 설정하면 ==> 과대적합