### 참조 url
- https://wooono.tistory.com/111

### SVM(서포트벡터머신)
- 마진을 최대로 만드는 직선을 계산하여 데이터를 분류하는 방법이 서포트 벡터 머신(SVM)이다.
- 분류(classification), 회귀(regression), 특이점 판별(outliers detection) 에 쓰이는 지도 학습 머신 러닝 방법 중 하나이다.
    - SVC
        * Classification 에 사용되는 SVM 모델을 의미하며, SVM 의 끝문자인 M 을 Classification 의 첫 문자인 C 로 바꾼 것이다.
    - SVR
       * Regression 에 사용되는 SVM 모델을 의미하며, SVM 의 끝문자인 M 을 Regression 의 첫 문자인 R 로 바꾼 것이다. 
    - 특이점 판별(outlier detection) 에는 OneClassSVM 이 사용된다.

In [4]:
import pandas as pd
t_df = pd.read_pickle('./dataset/t_df.pkl')
t_df.head()

Unnamed: 0,pclass,survived,sex,age,embarked,family
0,1,1,0,29.0,2,0
1,1,1,1,0.92,2,3
2,1,0,0,2.0,2,3
3,1,0,1,30.0,2,3
4,1,0,0,25.0,2,3


In [5]:
import pandas as pd
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

t_df = pd.read_pickle('./dataset/t_df.pkl')

X = t_df.drop('survived', axis=1)
y = t_df['survived']

X = preprocessing.StandardScaler().fit(X).transform(X)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

In [2]:
# 분류모델
from sklearn.metrics import accuracy_score
from sklearn import svm

# 벡터 공간으로 매핑하는 함수를 커널이라고 함
svm_model = svm.SVC(kernel='rbf', random_state=0) # 분류는 SCV, kernel - 기본(default) rbf
svm_model.fit(X_train, y_train)
svm_pred = svm_model.predict(X_test)
svm_accuracy = accuracy_score(y_test, svm_pred)
print('svm 예측정확도 :', svm_accuracy)

svm 예측정확도 : 0.8091603053435115


In [9]:
# 회귀 -> SVR 
from sklearn import datasets
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error
from sklearn.utils import shuffle
import numpy as np
import warnings
warnings.filterwarnings('ignore')

data = datasets.load_boston()
X, y = shuffle(data.data, data.target, random_state=7)

num_training = int(0.8 * len(X)) # 학습용 data를 80%로
X_train, y_train = X[:num_training], y[:num_training]
X_test, y_test = X[num_training:],y[num_training:]

# C는 학습 오류에 대한 패널티의 정도 -> C를 높여주면 학습데이터에 좀 더 최적화
# epsilon -> 마진 크기
svr = SVR(kernel='linear', C=1.0, epsilon=0.1)
svr.fit(X_train, y_train)
y_pred = svr.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)

print(f' mse:{mse: .3f}','\n')
print(f' rsme: {rmse : .3f}', '\n')

 mse: 15.377 

 rsme:  3.921 

