In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
from sklearn.datasets import load_iris
iris = load_iris()

data = iris['data']
feature_names = iris["feature_names"]
target = iris["target"]

df_iris = pd.DataFrame(data, columns = feature_names)
df_iris["target"] = target

In [3]:
X = df_iris.drop("target",axis = 1)
y = df_iris["target"]

X_train,X_test,y_train,y_test = train_test_split(X,y, test_size = 0.25, random_state = 10, stratify = y)

### 서포트 벡터 머신(SVM, Support Vector Machine)
- 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적인 이진 선형 분류 모델을 만듦
- 경계로 표현되는 데이터들 중 가장 큰 폭을 가진 경계를 찾는 알고리즘
- 이진 분류만 가능
    - ovr 전략
    - hyperparameter 옵션
- SVC(Support Vector Classifier)

In [4]:
from sklearn.svm import SVC

# 모델 생성
model_svc = SVC(kernel = "linear", C=10)

# 모델 적용
model_svc.fit(X_train,y_train)

# 예측
y_pred = model_svc.predict(X_test)

# 정확도
print((y_pred == y_test).mean())

# 성능평가
from sklearn.metrics import classification_report
print(classification_report(y_test,y_pred))

1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        12
           1       1.00      1.00      1.00        13
           2       1.00      1.00      1.00        13

    accuracy                           1.00        38
   macro avg       1.00      1.00      1.00        38
weighted avg       1.00      1.00      1.00        38



In [7]:
# 각 클래스(target값)에 대한 확률값을 return 해주는 함수
model_svc.decision_function(X_test)[:5]

array([[-0.23926426,  2.28023685,  0.75592725],
       [-0.23873309,  2.25788457,  0.84262294],
       [-0.2664893 ,  1.18041355,  2.24577395],
       [-0.27962692,  1.18000795,  2.26709796],
       [-0.27749846,  0.83443234,  2.28541916]])

SVC 학습모델의 속성값
- n_support_ : 각 클래스의 서포트의 개수
- support_ : 각 클래스의 서포트의 인덱스 
- supprot_vectors_ : 각 클래스의 서포트의 x값.
- coef_ : w 벡터
- intercept_ : w0
- dual_coef_ : 각 원소가 ai yi로 이루어진 벡터

In [5]:
model_svc.dual_coef_

array([[ 0.00000000e+00,  4.60829074e-01, -4.60829074e-01,
        -0.00000000e+00, -0.00000000e+00, -2.02962647e-15,
        -0.00000000e+00, -0.00000000e+00, -0.00000000e+00,
        -0.00000000e+00, -0.00000000e+00, -2.03660749e-01,
        -0.00000000e+00, -0.00000000e+00, -0.00000000e+00,
        -0.00000000e+00, -0.00000000e+00],
       [ 1.58115697e-01,  4.55450521e-02,  0.00000000e+00,
         5.40541626e+00,  1.00000000e+01,  0.00000000e+00,
         1.00000000e+01,  3.25958151e+00,  1.00000000e+01,
         1.00000000e+01, -4.39709210e-01, -0.00000000e+00,
        -1.00000000e+01, -1.00000000e+01, -1.00000000e+01,
        -1.00000000e+01, -8.22528857e+00]])