# Multiclass SVM 구현

In [87]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

#IRIS 데이터 로드
iris =  sns.load_dataset('iris') 
X= iris.iloc[:,:4] #학습할데이터
y = iris.iloc[:,-1] #타겟
print(y)

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object


In [88]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=48)

In [89]:
def standardization(train, test):
    scaler = StandardScaler()
    train = scaler.fit_transform(train)
    test = scaler.transform(test)
    return train, test

X_train, X_test = standardization(X_train, X_test)

In [90]:
X_train

array([[ 0.78522493,  0.32015325,  0.77221097,  1.04726529],
       [-0.26563371, -1.29989934,  0.0982814 , -0.11996537],
       [ 0.43493872,  0.78302542,  0.94069336,  1.43634218],
       [-0.84944407,  0.78302542, -1.24957775, -1.28719604],
       [-0.38239578, -1.7627715 ,  0.15444219,  0.13941922],
       [ 0.55170079, -0.374155  ,  1.05301496,  0.7878807 ],
       [ 0.31817664, -0.14271892,  0.65988937,  0.7878807 ],
       [ 0.20141457, -0.374155  ,  0.43524618,  0.39880381],
       [-1.66677857, -0.14271892, -1.36189934, -1.28719604],
       [-0.14887164, -0.60559109,  0.21060299,  0.13941922],
       [-0.14887164, -1.06846325, -0.12636179, -0.24965767],
       [ 0.31817664, -0.60559109,  0.15444219,  0.13941922],
       [ 0.66846286, -0.83702717,  0.88453256,  0.91757299],
       [ 0.0846525 , -0.14271892,  0.77221097,  0.7878807 ],
       [-0.49915786, -0.14271892,  0.43524618,  0.39880381],
       [-0.26563371, -0.60559109,  0.65988937,  1.04726529],
       [ 2.18636979,  1.

In [91]:
X_test

array([[-0.14887164, -0.374155  ,  0.26676379,  0.13941922],
       [ 0.31817664, -0.60559109,  0.54756778,  0.00972692],
       [ 0.31817664, -1.06846325,  1.05301496,  0.26911151],
       [-1.5500165 , -1.7627715 , -1.36189934, -1.15750374],
       [ 0.0846525 ,  0.32015325,  0.60372857,  0.7878807 ],
       [ 0.78522493, -0.14271892,  0.99685416,  0.7878807 ],
       [-0.84944407,  1.70876975, -1.24957775, -1.15750374],
       [ 0.20141457, -0.14271892,  0.60372857,  0.7878807 ],
       [-0.38239578,  2.63451409, -1.30573855, -1.28719604],
       [-0.38239578, -1.29989934,  0.15444219,  0.13941922],
       [ 0.66846286,  0.08871717,  0.99685416,  0.7878807 ],
       [-0.38239578,  1.0144615 , -1.36189934, -1.28719604],
       [-0.49915786,  0.78302542, -1.13725615, -1.28719604],
       [ 0.43493872, -0.60559109,  0.60372857,  0.7878807 ],
       [ 0.55170079, -1.7627715 ,  0.37908538,  0.13941922],
       [ 0.55170079,  0.55158933,  0.54756778,  0.52849611],
       [-1.19973028,  0.

## One vs Rest

위 데이터를 통해 먼저 one vs rest 방법을 사용하여 구현해보도록 한다.  
one vs rest는 N개의 클래스가 있다면 각각의 클래스에 대해서 1:N-1 즉, 클래스가 맞는지와 아닌지 두가지로 구분해주는 머신을 만들어 최종 결과를 내는 방식이다.

우선 get_dummies를 이용하여 3개의 클래스를 one-hot-encoding을 시켜준다.

In [93]:
y_train = pd.get_dummies(y_train)
y_train.head()

Unnamed: 0,setosa,versicolor,virginica
110,0,0,1
69,0,1,0
148,0,0,1
39,1,0,0
53,0,1,0


In [94]:
n_class = y_train.shape[1]
n_class

3

위에서 3가지 클래스에 대해 one-hot-encoding해준 encoded y_train과 기존의 X_train을 svm에 fit 시켜줘준 후 클래스 별 classifier을 만들어준다.

In [32]:
svm_setosa = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_setosa.fit(X_train, y_train.iloc[:,0])

svm_versicolor = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_versicolor.fit(X_train, y_train.iloc[:,1])
               
svm_virginica = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_virginica.fit(X_train, y_train.iloc[:,2])

SVC(C=5, gamma=5)

이후 실제 X_test 데이터에 대해서 각각의 svm을 적용시켰을 때 나타나는 예측 결과는 다음과 같았다.

In [45]:
print("1번째 class인 setosa에 대한 clssifier 결과")
print(svm_setosa.predict(X_test))
print("---------------------------------------------------------------")
print("2번째 class인 versicolor에 대한 clssifier 결과")
print(svm_versicolor.predict(X_test))
print("---------------------------------------------------------------")
print("3번째 class인 virginica에 대한 clssifier 결과")
print(svm_virginica.predict(X_test))

1번째 class인 setosa에 대한 clssifier 결과
[0 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 1 1 0 0 0]
---------------------------------------------------------------
2번째 class인 versicolor에 대한 clssifier 결과
[1 1 1 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 0 1 1 0 0 0 0 0 1]
---------------------------------------------------------------
3번째 class인 virginica에 대한 clssifier 결과
[0 0 0 0 1 1 0 1 0 0 1 0 0 1 0 0 0 0 0 1 0 1 0 0 1 0 0 1 1 0]


이러한 예측 결과 이진 분류값을 실제와 비교하여 최종 분류예측을 진행하도록 하자.  
가장 이상적인 경우는 결국 하나의 classifier에 대해서만 1이 나오고 나머지는 0이 나오는 경우이다. 하지만 모든 경우가 이상적일 수 없고 다른 경우가 나올 확률도 존재하기 때문에 각각의 경우의 수를 따져서 판단할 필요가 있다.

**(이상적인 경우)**
* 하나의 classifier에 대해서만 1이 나오고 나머지는 0인 경우(ex. setosa : 1, versicolor : 0, virginica : 0)

**(예외의 경우)**
* 2개 이상의 classifier에 대해 1이 나오는 경우  
(ex1. setosa : 1, versicolor : 1, virginica : 0)  
(ex2. setosa : 1, versicolor : 1, virginica : 1)
* 어떠한 classifier에 대해서도 분류되지 않고 0이 나오는 경우

따라서 이러한 예외의 경우에 대해서는 **desicion_function**이라는 방법을 사용하도록 한다. desicion function은 classification에 대해 예측의 불확실성을 추정해주는 기능으로 각 sample마다 하나의 실수 값이 나온다. 이 실수값은 1에 속한다고 믿는 정도로 그 크기가 클수록 1을 예측하는 정도가 커짐을 의미한다. 이에 따라서 일반적으로 값이 양수가 나오고 그 값이 크면 클수록 해당 클래스로 분류될 가능성이 높다고 말할 수 있다.

In [42]:
print("1번째 class인 setosa에 대한 decision function")
print(svm_setosa.decision_function(X_test))
print("---------------------------------------------------------------------------")
print("2번째 class인 versicolor에 대한 decision function")
print(svm_versicolor.decision_function(X_test))
print("---------------------------------------------------------------------------")
print("3번째 class인 virginica에 대한 decision function")
print(svm_virginica.decision_function(X_test))

1번째 class인 setosa에 대한 decision function
[-1.12359969 -0.86782512 -0.65599247 -0.50194294 -0.76541147 -0.8819188
  1.07735938 -0.99156769  0.50201986 -0.9984315  -0.84532712  0.17062549
  0.34917127 -0.9813287  -0.72783399 -0.93313988  1.28153212 -0.56827872
 -0.73092732 -0.99670034  0.43553308 -0.96967771 -0.83939495 -1.03305682
 -0.75566609  1.13888006  0.42965012 -1.04268452 -0.93608147 -1.06090982]
---------------------------------------------------------------------------
2번째 class인 versicolor에 대한 decision function
[ 1.37946585  0.64158717  0.08334644 -0.37103802 -0.2487255  -0.81469931
 -1.03237441 -0.865664   -0.79146099  0.98627485 -0.74374355 -0.65274563
 -0.72754177 -0.82140043  0.49349433  0.71459247 -1.11781529 -0.16565136
 -0.22738953 -0.99528903 -0.76367034 -0.98134121  0.10485724  1.07435138
 -0.5638643  -1.05835082 -0.76129344 -1.05493883 -0.89285055  1.17216254]
---------------------------------------------------------------------------
3번째 class인 virginica에 대한 decision

위의 각 class 별 decision function을 보면 3가지 사실을 알 수 있다.
1. 이상적인 경우에는 결국 decision function이 양수인 값이 1이고 음수인 값에서는 0으로 분류한다.
2. 예외의 경우에서 2개 이상이 1이 나오는 경우는 1에서 모두 decision function 값이 양수고 0은 음수이다.
3. 모두 0이 나온 경우는 decision function 값이 모두 음수이다.

여기서 이 3가지 경우 모두 결국 하나의 sample 데이터에서 3가지 class 별 decision function 값이 주어질텐데 양수, 음수와 상관없이 가장 높은 값을 가지는 class로 분류하면 된다고 결론내릴 수 있다.  
따라서 각 class의 decision function 값을 비교하며 class를 분류해보도록 한다.

In [67]:
class_name = ['setosa','versicolor','virginica'] # 분류할 class name 정의

def OVR_predict_multiclass_svm(data, class_name): # 최종 class로 분류해주는 함수 정의
    
    svm_machines = []
    
    for i in range(len(class_name)): # class 크기별로 svm을 적용시킨 값을 svm_machines에 저장.
        svm = SVC(kernel='rbf', C=5, gamma=5)
        svm.fit(X_train, y_train.iloc[:,i])
        svm_machines.append(svm)
    
    result = []
    for j in range(len(data)): # 전체 data의 길이만큼 for문을 통해 각 class 별 decision function 값의 argmax 값을 반환.
        sample_df = []
        for k in range(len(class_name)):
            sample_df.append(svm_machines[k].decision_function(data)[j])
        result.append(np.argmax(sample_df))
        
    class_result = pd.DataFrame(result).replace({0 : class_name[0], 1 : class_name[1], 2 : class_name[2]}) # 반환한 index값에 따라서 class_name으로 대체해줌.
    
    return class_result

y_pred = OVR_predict_multiclass_svm(X_test, class_name)

In [69]:
y_pred

Unnamed: 0,0
0,versicolor
1,versicolor
2,versicolor
3,virginica
4,virginica
5,virginica
6,setosa
7,virginica
8,setosa
9,versicolor


최종 예측값인 y_pred은 위와같이 나오게 된다.

In [71]:
print("one vs rest SVM Accuracy : {}".format(accuracy_score(y_test, y_pred)))

one vs rest SVM Accuracy : 0.8666666666666667


그리고 이 결과 one vs rest를 통한 SVM 정확도 값은 약 0.87로 나옴을 확인할 수 있다.

## 사이킷런의 Multiclass SVM 결과와 비교

In [73]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=48)

svm = SVC(kernel ='rbf', C = 5, gamma = 5)
svm.fit(X_train, y_train)
y_pred = svm.predict(X_test)

print("Sklearn Multiclass SVM Accuracy : {}".format(accuracy_score(y_test, y_pred)))

Sklearn Multiclass SVM Accuracy : 0.8666666666666667


사이킷런에서 제공하는 multiclass svm의 결과 역시 정확도 값이 약 0.87로 같음을 알 수 있다.

## One VS One

one vs one 방법은 3개의 클래스에 대해서 3가지 머신을 만드는 방법이다.
3개의 클래스 : A, B, C
    
1. A or B
2. A or C
3. B or C

따라서 먼저 train 데이터에서 각 방법에 따라서 구분된 두가지 클래스를 제외한 나머지는 제거한 후에 모델에 fitting한다.

In [210]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=48)

In [211]:
def standardization(train, test):
    scaler = StandardScaler()
    train = scaler.fit_transform(train)
    test = scaler.transform(test)
    return train, test

X_train, X_test = standardization(X_train, X_test)

In [170]:
set_ver_X = X_train[y_train != "virginica"] # virginia가 아닌 X_train 데이터만 추출
set_vir_X = X_train[y_train != "versicolor"] # versicolor가 아닌 X_train 데이터만 추출
ver_vir_X = X_train[y_train != "setosa"] # setosa가 아닌 X_train 데이터만 추출

이후 fitting을 위한 y_train에도 one-hot-encoding을 시켜준다.

In [171]:
set_ver_encoded = pd.get_dummies(y_train[y_train != 'virginica'], drop_first=True) # 1이면 versicolor, 0이면 setosa
set_vir_encoded = pd.get_dummies(y_train[y_train != 'versicolor'], drop_first=True) # 1이면 virginica, 0이면 setosa
ver_vir_encoded = pd.get_dummies(y_train[y_train != 'setosa'], drop_first=True) # 1이면 virginica, 0이면 versicolor

one-hot-encoding한 y_train과 X_train을 svm에 학습시켜준 후 그 결과를 해석해보도록 한다.

In [172]:
svm_set_ver = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_set_ver.fit(set_ver_X, set_ver_encoded)

svm_set_vir = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_set_vir.fit(set_vir_X, set_vir_encoded)

svm_ver_vir = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_ver_vir.fit(ver_vir_X, ver_vir_encoded)

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


SVC(C=5, gamma=5)

In [173]:
svm_set_ver.predict(X_test)

array([1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1,
       1, 1, 1, 0, 0, 1, 1, 1], dtype=uint8)

virginica가 아닌 데이터를 가지고 했을 때의 예측 결과로 1일때는 versicolor, 0일때는 setosa를 의미한다.

In [174]:
svm_set_vir.predict(X_test)

array([1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1,
       1, 1, 1, 0, 0, 1, 1, 1], dtype=uint8)

versicolor가 아닌 데이터를 가지고 했을 때의 예측 결과로 1일때는 virginica, 0일때는 setosa를 의미한다.

In [175]:
svm_ver_vir.predict(X_test)

array([0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1,
       0, 0, 1, 1, 1, 1, 1, 0], dtype=uint8)

setosa가 아닌 데이터를 가지고 했을 때의 예측 결과로 1일때는 virginica, 0일때는 versicolor를 의미한다.

3가지 분류 머신에 대해 이진 분류로 나오므로 one vs rest와 같이 동점인 상황이 나오지 않는다. 따라서 따로 decision function과 같이 불확실한 예측에 대해 조정할 필요 없이 단순히 분류된 수치를 통해 최종 분류를 진행하면 된다. 그리고 이를 voting 방식을 통해 진행한다.

In [217]:
class_name = ['setosa','versicolor','virginica'] # 분류할 class name 정의

def OVO_predict_multiclass_svm(data, class_name): # 최종 class로 분류해주는 함수 정의
    
    pred = []
    
    for i in range(len(class_name)): # class 크기별로 svm을 적용시킨 값을 pred에 저장.
        not_X = X_train[y_train != class_name[i]] # i번째 class를 제외한 나머지 클래스에 대해 필요한 X_train 데이터 설정.
        not_encoded = pd.get_dummies(y_train[y_train != class_name[i]], drop_first=True) # 해당 두 클래스의 one-hot-encoding 설정.
        svm = SVC(kernel='rbf', C=5, gamma=5)
        svm.fit(not_X, not_encoded) # 위에서 정의한 X 데이터와 encoded 데이터를 fitting 해줌.
        not_pred = svm.predict(data) # 예측값 추출.
        pred.append(not_pred)
    
    result = []
    
    for j in range(len(pred[0])): # y_test 길이만큼 반복문을 진행해 하나의 sample 값에서 3가지 머신 결과를 voting 방식으로 최종 분류값 추출.
        sample_vote = np.zeros(len(class_name))
        
        if pred[0][j] == 0: # versicolor 이면
            sample_vote[1] += 1
        elif pred[0][j] == 1: # virginica 면
            sample_vote[2] += 1
            
        if pred[1][j] == 0: # setosa 이면
            sample_vote[0] += 1
        elif pred[1][j] == 1: # virginica 이면
            sample_vote[2] += 1
            
        if pred[2][j] == 0: # setosa 이면
            sample_vote[0] += 1
        elif pred[2][j] == 1: # versicolor 이면
            sample_vote[1] += 1
            
        result.append(np.argmax(sample_vote)) # argmax 방식으로 최종 vote 결과를 result에 넣어줌.
        
        
    class_result = pd.DataFrame(result).replace({0 : class_name[0], 1 : class_name[1], 2 : class_name[2]}) # 반환한 index값에 따라서 class_name으로 대체해줌.
    
    return class_result

y_pred = OVO_predict_multiclass_svm(X_test, class_name)

  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


In [218]:
y_pred

Unnamed: 0,0
0,versicolor
1,versicolor
2,versicolor
3,virginica
4,virginica
5,virginica
6,setosa
7,virginica
8,setosa
9,versicolor


최종 예측값인 y_pred은 위와같이 나오게 된다.

In [219]:
print("one vs one SVM Accuracy : {}".format(accuracy_score(y_test, y_pred)))

one vs one SVM Accuracy : 0.8666666666666667


그리고 이 결과 one vs one를 통한 SVM 정확도 값은 약 0.87로 나옴을 확인할 수 있다. 또한 이 정확도 값 역시 기존의 one vs rest와 사이킷런의 결과값과 동일함을 확인할 수 있다.