## SVM

![svm](./svm.png)

- 1. SVM : 최적의 `구분`선(결정경계선)을 찾아 관측치의 `범주 예측` => '이진분류'에만 사용가능하다. 서포트벡터만으로 범주의 구분 기준인 결정경계선을 정하기 때문에 학습효율이 높다

- 2. 서포트벡터(Support vector) : 마진(결정경계선과 서포트벡터와의 거리) 과 맞닿아서 결정경계선의 위치와 각도를 정해줄 수 있는 기준이 되는 관측치 -> 결정경계선을 지지(support)

- 3. 주의: 기계학습에서 거리(distance)를 통해 분류나 회귀모델을 만들 때는 반드시 데이터 정규화나 표준화를 해줘야한다.(변수마다 스케일이 다르게 되면 모델 성능이 떨어지기 때문)

- 4. 최적의 결정경계선 : 독립변수가 k개라 했을 때, 최소 k+1개의 서포트벡터가 필요. 

- 5. 가중치 : 
![w](./가중치.png)

- 6. `소프트마진` : 대부분의 데이터에는 이상치가 존재한다. 이상치를 허용하지 않는 경우 과적합이 발생하기 때문에, 어느정도 이상치를 허용해주는 것이 좋다. 이것이 바로 소프트 마진. (반대개념 : 하드마진)
    - 이상치를 조정해주는 매개변수로 C와 Gamma가 사용된다.
    - C값은 이상치에 대한 민감도를 조정해주는 것 (= 결정경계선의 유연함을 조정해주는 것)
    - Gamma값은 관측치가 영향력을 행사하는 거리를 조정해주는 것. (값이 클수록 영향력의 거리는 짧아지게 되고, 값이 작을수록 영향력의 길이는 길어지게 된다.) 이는 가우시안 분포의 표준편차를 조정해주는 것으로, Gamma 값이 클수록 작은 표준편차를 갖게 된다. 
    (Gamma값이 커질수록 각각의 관측치에 대한 결정경계선 범위가 작아져서 결국 여러 개의 결정경계선이 생기게 된다...? 모르겠다~)
    - 따라서 SVM 모델을 만들때는 C값과 Gamma값을 잘 조정해가면서 모델의 복잡도를 적정 수준으로 맞춰줘야 한다. 

![kerneltrick](./커널.png)

 - 7. 하지만 이상치의 상태가 극단적인 경우, `커널기법(kernel trick)` 사용 - 커널기법은 기준의 데이터를 고차원 공간으로 확장하여 새로운 결정경계선을 만들어내는 방법
 ![kerneltrick](./커널기법.png)
 ![kerneltrick](./커널기법2.png)


## SVM 실습

1. 패키지 임포트

In [1]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
import sklearn.svm as svm
from sklearn.svm import SVC
import pandas as pd

2. 데이터 불러오기 및 확인

In [2]:
df = pd.read_excel('./Raisin_Dataset/Raisin_Dataset.xlsx')
df.head()

Unnamed: 0,Area,MajorAxisLength,MinorAxisLength,Eccentricity,ConvexArea,Extent,Perimeter,Class
0,87524,442.246011,253.291155,0.819738,90546,0.758651,1184.04,Kecimen
1,75166,406.690687,243.032436,0.801805,78789,0.68413,1121.786,Kecimen
2,90856,442.267048,266.328318,0.798354,93717,0.637613,1208.575,Kecimen
3,45928,286.540559,208.760042,0.684989,47336,0.699599,844.162,Kecimen
4,79408,352.19077,290.827533,0.564011,81463,0.792772,1073.251,Kecimen


3. 독립변수와 종속변수 테이블분리 및 데이터 정규화

In [3]:
# 독립변수, 종속변수 분리
df_x = df.drop(['Area','Class'], axis=1)
df_y = df[['Class']]

# 데이터 정규화 적용
MinMaxScaler = MinMaxScaler()
df_minmax = MinMaxScaler.fit_transform(df_x)

# 칼럼명 결합
df_x = pd.DataFrame(data=df_minmax, columns=df_x.columns)
df_x.head()

Unnamed: 0,MajorAxisLength,MinorAxisLength,Eccentricity,ConvexArea,Extent,Perimeter
0,0.280714,0.314376,0.767872,0.255504,0.831422,0.271791
1,0.234638,0.284945,0.738636,0.208864,0.667854,0.241842
2,0.280741,0.351778,0.733009,0.268084,0.565754,0.283594
3,0.078935,0.18662,0.548194,0.084089,0.701809,0.108284
4,0.164011,0.422064,0.350968,0.219472,0.906315,0.218493


4. 학습셋과 테스트셋 분리

In [4]:
x_train, x_test, y_train, y_test = train_test_split(df_x, df_y, test_size=0.4, random_state=10)

print('train data 개수:', len(x_train))
print('test data 개수:', len(x_test))

train data 개수: 540
test data 개수: 360


5. 선형 SVM 모델 성능 확인

In [None]:
# 3차항(degree), 학습 반복횟수(max_iter) 10000 설정
# 모델 생성
svm_model = SVC(kernel='linear', degree=3, gamma='auto', C=10, max_iter=1000)
# 훈련시키기
svm_model.fit(x_train, y_train)

# 정확도
print(svm_model.score(x_train, y_train))
print(svm_model.score(x_test, y_test))

> 파라미터 설명 : SVC() 함수 이용하여 모델 생성, kernel 매개변수의 기본값은 rbf (option : poly, sigmoid, precomputed)

> RBF Kernel : 가우시안 방사 기저 함수 ??

6. rbf SVM C값 1~30별 모델 성능 확인

In [5]:
scores = []

for C_point in [*range(1,31)]:
    svc = SVC(kernel='rbf', C=C_point, max_iter=1000)
    C_model = svc.fit(x_train, y_train)
    train_score = C_model.score(x_train, y_train)
    test_score = C_model.score(x_test, y_test)
    print('rbf SVM : C:{}, train set score:{:2f}, test set score:{:2f}'.format(C_point, train_score, test_score))
    scores.append([train_score, test_score])

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


rbf SVM : C:1, train set score:0.857407, test set score:0.883333
rbf SVM : C:2, train set score:0.864815, test set score:0.880556
rbf SVM : C:3, train set score:0.862963, test set score:0.886111
rbf SVM : C:4, train set score:0.861111, test set score:0.880556
rbf SVM : C:5, train set score:0.861111, test set score:0.880556
rbf SVM : C:6, train set score:0.862963, test set score:0.883333
rbf SVM : C:7, train set score:0.866667, test set score:0.883333
rbf SVM : C:8, train set score:0.864815, test set score:0.883333
rbf SVM : C:9, train set score:0.864815, test set score:0.883333
rbf SVM : C:10, train set score:0.864815, test set score:0.891667
rbf SVM : C:11, train set score:0.864815, test set score:0.891667
rbf SVM : C:12, train set score:0.862963, test set score:0.891667
rbf SVM : C:13, train set score:0.864815, test set score:0.891667
rbf SVM : C:14, train set score:0.864815, test set score:0.891667
rbf SVM : C:15, train set score:0.864815, test set score:0.897222
rbf SVM : C:16, tra

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


rbf SVM : C:25, train set score:0.861111, test set score:0.886111
rbf SVM : C:26, train set score:0.861111, test set score:0.888889
rbf SVM : C:27, train set score:0.862963, test set score:0.888889
rbf SVM : C:28, train set score:0.861111, test set score:0.886111
rbf SVM : C:29, train set score:0.861111, test set score:0.886111
rbf SVM : C:30, train set score:0.861111, test set score:0.886111


  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


> test set score 이 10 ~ 20 까지 올랐다가 21부터 감소하기 시작 => C값은 15가 최적으로 판단

7. rbf SVM gamma값 0.1~20별 모델 성능 확인

In [6]:
scores = []

for gamma_point in [0.1, 0.5, 1, 5, 10, 20]:
    svc = SVC(kernel='rbf', C=10, gamma=gamma_point, max_iter=1000)
    model = svc.fit(x_train, y_train)
    train_score = model.score(x_train, y_train)
    test_score = model.score(x_test, y_test)
    print("rbf SVM : gamma:{}, train set score:{:2f}, test set score:{:2f}".format(gamma_point, train_score, test_score))
    scores.append([train_score, test_score])
    

rbf SVM : gamma:0.1, train set score:0.862963, test set score:0.866667
rbf SVM : gamma:0.5, train set score:0.864815, test set score:0.880556
rbf SVM : gamma:1, train set score:0.861111, test set score:0.877778
rbf SVM : gamma:5, train set score:0.862963, test set score:0.880556
rbf SVM : gamma:10, train set score:0.864815, test set score:0.883333
rbf SVM : gamma:20, train set score:0.879630, test set score:0.872222


  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


> 테스트셋의 정확도를 볼때, gamma값은 5~10에서 높은 정확도를 보인다.