# ▒ Support Vector Machine ▒

## 0. 환경설정

In [7]:
import os
import numpy as np
import pandas as pd
import collections
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.svm import SVC
#from sklearn.svm import SVR
from sklearn.model_selection import GridSearchCV

from sklearn.metrics import confusion_matrix
import seaborn as sns

## 1. 데이터 준비

### Iris dataset

- 150개의 붓꽃에 대한 데이터
- sepal length: 꽃받침의 길이
- sepal width: 꽃받침의 너비
- petal length: 꽃잎의 길이
- petal width: 꽃잎의 너비
- species: 붓꽃의 종류 (setosa, versicolor, virginica)

In [8]:
iris = sns.load_dataset('iris')
print(iris.shape)
iris.head()

(150, 5)


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


### 데이터 분할
- 전체 데이터를 7:3으로 분할하여 각각 학습 데이터, 시험 데이터로 사용한다.
- 입력 데이터를 표준화한다.

In [9]:
X = iris[['sepal_length','sepal_width',\
              'petal_length','petal_width']]
y = iris.iloc[:,4]

In [10]:
X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size = 0.3, random_state=123)

In [11]:
scaler = StandardScaler()   
scaler.fit(X_train)
X_train = pd.DataFrame(scaler.transform(X_train))
X_test = pd.DataFrame(scaler.transform(X_test))

## 2. Support Vector Machine

### Grid Search를 이용한 모형 적합(최적의 조합 찾아 성능 높이기)

In [21]:
param_grid = [{'kernel': ['linear','sigmoid','rbf','poly'], 
               'gamma': [1e-1, 1e-2, 1e-3, 1e-4], 
               'C': [1, 10, 100, 1000]}]
best_grid = GridSearchCV(SVC(), param_grid, refit=True, verbose = 1)
best_svm_model = best_grid.fit(X_train, y_train)
best_svm_fit = best_svm_model.predict(X_train)

Fitting 5 folds for each of 64 candidates, totalling 320 fits


In [16]:
print('GridSearchCV 최적 파라미터:', best_grid.best_params_)

GridSearchCV 최적 파라미터: {'C': 1, 'gamma': 0.1, 'kernel': 'sigmoid'}


### 시험 자료에 적합하여 정분류율 및 confusion matrix를 구한다.

In [17]:
y_test_pred_svm = best_svm_model.predict(X_test)
confusion_matrix(y_test, y_test_pred_svm)

array([[18,  0,  0],
       [ 0, 10,  0],
       [ 0,  3, 14]])

In [19]:
best_svm_model.score(X_test, y_test)

0.9333333333333333