In [1]:
# 서포트벡터머신(Support Vector Machine : SVM)
# - 최적의 분리 초평면(Hyperplane)을 찾아서 데이터를 분류
# - 마진을 최대화 하는 결정경계를 찾아서 데이터를 분류

In [2]:
# SVC : 이진 분류
# Linear SVC : 다지 분류
# SVR
# Linear SVR

In [3]:
# SVM 기법은 오차의 허용범위에 따라 하드 마진과 소프트 마진이 있다.

In [4]:
# 선형 커널 : 기본 유형, 1차원이며 다른 함수보다 속도가 빠르다
# 다항 커널 : 선형 커널의 일반화된 커널, 자주 사용되지 않는다.
# 가우시안 커널 : 일반적으로 사용되는 커널, 주로 데이터에 대한 사전 지식이 없을 때 사용
# 가우시안 RBF 커널 : 가장 많이 사용되는 커널
# 시그모이드 커널 : 인공신경망에서 선호되는 커널, 다층 퍼셉트론 모델과 유사

In [5]:
# sklear.svm.SVC
# - C : Error를 어느 정도 허용할 것인지 조정
#       C가 크면 Hard Margine, C가 작으면 Soft Margin(default = 1.0)
# - kernel : 커널 유형
#            'rbf'(default), 'linear', 'poly', 'sigmoid'
# - gamma : 결정경계의 곡률 (초평면의 기울기)
#           (default = 'scale' = 1/(데이터차원*분산))

In [6]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_breast_cancer

In [7]:
# 이진 분류
breast_cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(breast_cancer.data,breast_cancer.target,test_size = 0.2, random_state = 1234,stratify = breast_cancer.target)

In [8]:
# probability = True : 확률값 반환, roc-auc 계산을 위함
svm_1 = SVC(kernel = 'linear', C =0.5, probability = True)
model_svm_1 = svm_1.fit(X_train,y_train)

In [9]:
svm_2 = SVC(kernel = 'rbf', C = 0.5, probability = True)
model_svm_2 = svm_2.fit(X_train,y_train)

In [10]:
# predict_proba : 확률
from sklearn.metrics import roc_curve,auc
y_pred_1 = model_svm_1.predict_proba(X_test)[:,1]
y_pred_2 = model_svm_2.predict_proba(X_test)[:,1]

In [11]:
fpr_1, tpr_1, thresholds_1 = roc_curve(y_test,y_pred_1)
fpr_2, tpr_2, thresholds_2 = roc_curve(y_test,y_pred_2)
AUC_1 = auc(fpr_1, tpr_1)
AUC_2 = auc(fpr_2, tpr_2)
print(AUC_1, AUC_2)

0.9831349206349207 0.9718915343915344


In [12]:
# 다지 분류
# sklearn.svm.LinearSVC
# C : Error를 어느 정도 허용할 것인지 조정
#     C가 크면 Hard Margin, C가 작으면 Soft Margin(default = 1.0)

In [13]:
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

In [14]:
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size = 0.2, random_state = 1234, stratify = iris.target)

In [15]:
svm_multi = LinearSVC(C = 0.05)
model_svm_multi = svm_multi.fit(X_train, y_train)



In [16]:
from sklearn.metrics import f1_score
y_pred = model_svm_multi.predict(X_test)

In [17]:
macro_f1 = f1_score(y_test,y_pred,average='macro')
print(macro_f1)

0.8976982097186701


In [18]:
# 서포트벡터머신 회귀(SVM Regression)
# sklearn.svm.SVR
# C : Error를 어느 정도 허용할 것인지 조정
#     C가 크면 Hard Margin, C가 작으면 soft Margin(default = 1.0)
# Epsilon : 엡실론 값(default = 0.1)
# kernel : 커널 유형
#          'rbf'(default), 'linear', 'poly', 'sigmoid'
# gamma : 결정경계의 곡률(초평면의 기울기)
#         (default = 'scale' = 1/(데이터차원*분산))

In [19]:
# sklearn.svm.LinearSVR
# C : Error를 어느 정도 허용할 것인지 조정
#     C가 크면 Hard Margin, C가 작으면 Soft Margin (default = 1.0)
# loss : 손실 함수
#        'epsilon_insensitive' : L1 손실
#        'squared_epsilon_insensitive' : L2 손실

In [20]:
from sklearn.svm import SVR, LinearSVR
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_diabetes

In [21]:
diabetes = load_diabetes()

X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target, test_size = 0.2, random_state = 1234)

In [22]:
svm_svr = SVR(C=0.05)
model_svm_svr = svm_svr.fit(X_train,y_train)

In [23]:
svm_svr_lr = LinearSVR(C=0.05)
model_svm_svr_lr = svm_svr_lr.fit(X_train,y_train)



In [24]:
from sklearn.metrics import mean_absolute_error
y_pred_1 = model_svm_svr.predict(X_test)
y_pred_2 = model_svm_svr_lr.predict(X_test)
mae_1 = mean_absolute_error(y_test,y_pred_1)
mae_2 = mean_absolute_error(y_test,y_pred_2)
print(mae_1,mae_2)

62.86386215254686 133.67625325594224
