# Multiclass SVM 구현

In [15]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

#IRIS 데이터 로드
iris =  sns.load_dataset('iris') 
X= iris.iloc[:,:4] #학습할데이터
y = iris.iloc[:,-1] #타겟
print(y)

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object


In [16]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=48)

In [17]:
def standardization(train, test):
    scaler = StandardScaler()
    train = scaler.fit_transform(train)
    test = scaler.transform(test)
    return train, test

X_train, X_test = standardization(X_train, X_test)

In [18]:
X_train

array([[ 0.78522493,  0.32015325,  0.77221097,  1.04726529],
       [-0.26563371, -1.29989934,  0.0982814 , -0.11996537],
       [ 0.43493872,  0.78302542,  0.94069336,  1.43634218],
       [-0.84944407,  0.78302542, -1.24957775, -1.28719604],
       [-0.38239578, -1.7627715 ,  0.15444219,  0.13941922],
       [ 0.55170079, -0.374155  ,  1.05301496,  0.7878807 ],
       [ 0.31817664, -0.14271892,  0.65988937,  0.7878807 ],
       [ 0.20141457, -0.374155  ,  0.43524618,  0.39880381],
       [-1.66677857, -0.14271892, -1.36189934, -1.28719604],
       [-0.14887164, -0.60559109,  0.21060299,  0.13941922],
       [-0.14887164, -1.06846325, -0.12636179, -0.24965767],
       [ 0.31817664, -0.60559109,  0.15444219,  0.13941922],
       [ 0.66846286, -0.83702717,  0.88453256,  0.91757299],
       [ 0.0846525 , -0.14271892,  0.77221097,  0.7878807 ],
       [-0.49915786, -0.14271892,  0.43524618,  0.39880381],
       [-0.26563371, -0.60559109,  0.65988937,  1.04726529],
       [ 2.18636979,  1.

In [19]:
X_test

array([[-0.14887164, -0.374155  ,  0.26676379,  0.13941922],
       [ 0.31817664, -0.60559109,  0.54756778,  0.00972692],
       [ 0.31817664, -1.06846325,  1.05301496,  0.26911151],
       [-1.5500165 , -1.7627715 , -1.36189934, -1.15750374],
       [ 0.0846525 ,  0.32015325,  0.60372857,  0.7878807 ],
       [ 0.78522493, -0.14271892,  0.99685416,  0.7878807 ],
       [-0.84944407,  1.70876975, -1.24957775, -1.15750374],
       [ 0.20141457, -0.14271892,  0.60372857,  0.7878807 ],
       [-0.38239578,  2.63451409, -1.30573855, -1.28719604],
       [-0.38239578, -1.29989934,  0.15444219,  0.13941922],
       [ 0.66846286,  0.08871717,  0.99685416,  0.7878807 ],
       [-0.38239578,  1.0144615 , -1.36189934, -1.28719604],
       [-0.49915786,  0.78302542, -1.13725615, -1.28719604],
       [ 0.43493872, -0.60559109,  0.60372857,  0.7878807 ],
       [ 0.55170079, -1.7627715 ,  0.37908538,  0.13941922],
       [ 0.55170079,  0.55158933,  0.54756778,  0.52849611],
       [-1.19973028,  0.

In [22]:
# One-hot encoding
y_train = pd.get_dummies(y_train)

print(y_train)
y_train.shape

     setosa  versicolor  virginica
110   False       False       True
69    False        True      False
148   False       False       True
39     True       False      False
53    False        True      False
..      ...         ...        ...
64    False        True      False
91    False        True      False
81    False        True      False
51    False        True      False
0      True       False      False

[120 rows x 3 columns]


(120, 3)

In [23]:
# OVR 사용 

# class 0 인 경우  vs 나머지
svm_1 = SVC(kernel ='rbf', C = 5, gamma = 5)
# class 1 인 경우  vs 나머지
svm_2 = SVC(kernel ='rbf', C = 5, gamma = 5)
# class 2 인 경우  vs 나머지
svm_3 = SVC(kernel ='rbf', C = 5, gamma = 5)

In [26]:
# 학습
svm_1.fit(X_train, y_train.iloc[:,0])
svm_2.fit(X_train, y_train.iloc[:,1])
svm_3.fit(X_train, y_train.iloc[:,2])

print(svm_1.predict(X_test))
print(svm_2.predict(X_test))
print(svm_3.predict(X_test))

[False False False False False False  True False  True False False  True
  True False False False  True False False False  True False False False
 False  True  True False False False]
[ True  True  True False False False False False False  True False False
 False False  True  True False False False False False False  True  True
 False False False False False  True]
[False False False False  True  True False  True False False  True False
 False  True False False False False False  True False  True False False
  True False False  True  True False]


In [29]:
# 부호가 모든 같은 경우가 있는가? -> 모두 동점인 경우가 생긴다.
for i in range(len(X_test)):
    # 값의 부호를 이용해 모두가 동점인 경우가 있는지 출력하고자 한다.
    if (np.sign(svm_1.decision_function(X_test)[i]) == np.sign(svm_2.decision_function(X_test)[i])) and (np.sign(svm_2.decision_function(X_test)[i]) == np.sign(svm_3.decision_function(X_test)[i])):
        print(f"The Score is same at index[{i}].")

The Score is same at index[3].
The Score is same at index[17].
The Score is same at index[18].


In [30]:
# decision function을 이용해서 동점 처리
# decision function : SVM 모델의 결정 함수 값 반환 (결과 : 클래스 경계로부터의 거리)

def one_rest_svm_predict(models, data, labels): # 예측 수행 함수
    distance = None # 초기화 진행
    
    for model in models: # 주어진 모든 svm 모델에 대해 반복
        if distance is None: # 초기화 안 되어 있을 경우
            distance = model.decision_function(data) # decision_function으로 초기화
        else:
            distance = np.vstack((distance, model.decision_function(data))) # 모델이 비어있지 않으면 배열 stack (수직방향으로)
            # 중요! 쌓이는 데이터의 차원(데이터의 열 수는 동일해야 한다.)
            
    # 반복문 수행 후 distacne 의 row에는 모델의 수 , columns 에는 len(data) 가 저장된다.
    # 계산의 편의를 위해 Transpose // 행이 데이터 샘플을 나타내도록 변경
    distance = distance.T
    
    result = [] # 예측 결과값에 대한 distance를 저장하는 배열 생성
    
    for pred in distance:
        result.append(labels[pred.argmax()]) 
        # 각 예측들에 대해서 가장 큰 값을 가지는 결과값(argmax) 에 해당하는 꽃을 저장

    
    print(f"prediction : \n {result}") # 예측 결과 출력
    return result

models = [svm_1, svm_2, svm_3]
labels = ["setosa", "versicolor", "virginica"]

prediction = one_rest_svm_predict(models, X_test, labels) # 함수 호출을 통한 예측 수행

accuracy_score(y_test,prediction) # 정확도 계산

prediction : 
 ['versicolor', 'versicolor', 'versicolor', 'virginica', 'virginica', 'virginica', 'setosa', 'virginica', 'setosa', 'versicolor', 'virginica', 'setosa', 'setosa', 'virginica', 'versicolor', 'versicolor', 'setosa', 'versicolor', 'virginica', 'virginica', 'setosa', 'virginica', 'versicolor', 'versicolor', 'virginica', 'setosa', 'setosa', 'virginica', 'virginica', 'versicolor']


0.8666666666666667