# Multiclass SVM 구현

In [16]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import OneHotEncoder

#IRIS 데이터 로드
iris =  sns.load_dataset('iris') 
X= iris.iloc[:,:4] #학습할데이터
y = iris.iloc[:,-1] #타겟
print(y)

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object


##Scailing
SVM과 같이 거리 기반 분류 시스템은 스케일링 필수!

In [25]:
def standardization(train, test):
    scaler = StandardScaler()
    train = scaler.fit_transform(train)
    test = scaler.transform(test)
    return train, test

X_train, X_test = standardization(X_train, X_test)

In [28]:
# One VS Rest 구현을 위해 1) class가 0 or not 2)class가 1 or not을 구분하기 위한 머신 등을 미리 만들어주자
#Kernel:비선형 커널에는 rbf,poly,linearr,sigomoid,precomputed 중 기본값 rbf사용(kernel일때는 커널함수를 몇차 함수로 지정할지 degree지정)
#C:어느정도의 오차를 허용할지 정규화 정도 지정(클수록 L2 panelty 증가).기본값=1
#gamma:scale과 auto중 지정 가능(rbf,poly,sigmoid인 경우)
#svm_1=SVC(kernel='poly',C=3,degree=3)과 같은 형식으로도 가능

svm_1 = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_2 = SVC(kernel ='rbf', C = 5, gamma = 5)
svm_3 = SVC(kernel ='rbf', C = 5, gamma = 5)

In [29]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=48)

In [30]:
X_train

array([[ 7.95669016e-01,  3.28414053e-01,  7.62758269e-01,
         1.05393502e+00],
       [-2.94841818e-01, -1.28296331e+00,  8.07091462e-02,
        -1.30754636e-01],
       [ 4.32165405e-01,  7.88807586e-01,  9.33270550e-01,
         1.44883158e+00],
       [-9.00681170e-01,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-4.16009689e-01, -1.74335684e+00,  1.37546573e-01,
         1.32509732e-01],
       [ 5.53333275e-01, -3.62176246e-01,  1.04694540e+00,
         7.90670654e-01],
       [ 3.10997534e-01, -1.31979479e-01,  6.49083415e-01,
         7.90670654e-01],
       [ 1.89829664e-01, -3.62176246e-01,  4.21733708e-01,
         3.95774101e-01],
       [-1.74885626e+00, -1.31979479e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.73673948e-01, -5.92373012e-01,  1.94384000e-01,
         1.32509732e-01],
       [-1.73673948e-01, -1.05276654e+00, -1.46640561e-01,
        -2.62386821e-01],
       [ 3.10997534e-01, -5.92373012e-01,  1.37546573e-01,
      

In [31]:
X_test

array([[-1.73673948e-01, -3.62176246e-01,  2.51221427e-01,
         1.32509732e-01],
       [ 3.10997534e-01, -5.92373012e-01,  5.35408562e-01,
         8.77547895e-04],
       [ 3.10997534e-01, -1.05276654e+00,  1.04694540e+00,
         2.64141916e-01],
       [-1.62768839e+00, -1.74335684e+00, -1.39706395e+00,
        -1.18381211e+00],
       [ 6.86617933e-02,  3.28414053e-01,  5.92245988e-01,
         7.90670654e-01],
       [ 7.95669016e-01, -1.31979479e-01,  9.90107977e-01,
         7.90670654e-01],
       [-9.00681170e-01,  1.70959465e+00, -1.28338910e+00,
        -1.18381211e+00],
       [ 1.89829664e-01, -1.31979479e-01,  5.92245988e-01,
         7.90670654e-01],
       [-4.16009689e-01,  2.63038172e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-4.16009689e-01, -1.28296331e+00,  1.37546573e-01,
         1.32509732e-01],
       [ 6.74501145e-01,  9.82172869e-02,  9.90107977e-01,
         7.90670654e-01],
       [-4.16009689e-01,  1.01900435e+00, -1.39706395e+00,
      

In [32]:
#one hot encoding
y_train = pd.get_dummies(y_train) 

참고:https://jimmy-ai.tistory.com/32

##Binary SVM을 통해 Multiclass SVM구현

참고_https://box-world.tistory.com/46

One vs One(classifier의 개수 N(N-1)/2
->2개의 클래스 당 1개의 분류기를 피팅시키고,보팅시켜서 결정


In [34]:
svm_1.fit(X_train,y_train.iloc[:,0]) # 데이터 클레스가 0 or not 구분해주는 머신
svm_2.fit(X_train,y_train.iloc[:,1]) # 데이터 클레스가 1 or not 구분해주는 머신
svm_3.fit(X_train,y_train.iloc[:,2]) # 데이터 클레스가 2 or not 구분해주는 머신
print(svm_1.predict(X_test)) #데이터 클래스가 0 or not을 구분해주는 애를 통해서 테스트 데이터의 클래스가 0인지, 0이 아닌인지 예측

print(svm_1.decision_function(X_test)) #decision_function hyperplane

[0 0 0 0 0 0 1 0 1 0 0 1 1 0 0 0 1 0 0 0 1 0 0 0 0 1 1 0 0 0]
[-1.12470845 -0.86326953 -0.65281099 -0.50248821 -0.76284323 -0.87465573
  1.07709345 -0.99281647  0.47441336 -0.99842743 -0.83989348  0.15633457
  0.32871788 -0.97965464 -0.72385083 -0.92638376  1.28322481 -0.56240455
 -0.72719892 -0.99509775  0.43166724 -0.96451557 -0.82991366 -1.03020581
 -0.75166835  1.13461335  0.39943974 -1.04194106 -0.93376548 -1.06133798]


In [42]:
pred = svm_1.predict(X_test)
accuracy_score(y_test, pred)

0.0

In [43]:
pred = svm_2.predict(X_test)
accuracy_score(y_test, pred)

0.0

In [44]:
pred = svm_3.predict(X_test)
accuracy_score(y_test, pred)

0.0

In [36]:
# 부호가 모든 같은 경우가 있는가? > 모두 동점인 경우가 생길 것
for i in range(len(X_test)):
    # ~. decision_function을 이용하면 해당 데이터가 하이퍼플레인으로부터 얼마나 떨어져있는지 '거리'가 나온다!
    
    if (np.sign(svm_1.decision_function(X_test)[i]) == np.sign(svm_2.decision_function(X_test)[i])) and (np.sign(svm_2.decision_function(X_test)[i]) == np.sign(svm_3.decision_function(X_test)[i])):#ifsvm_1,2,3의 부호가 모두 같다면 동점인 경우가 생김.
        print(f"The Score is same at index[{i}].")
        print(f"Decision_function of svm_1: {svm_1.decision_function(X_test)[i]} predict : {svm_1.predict(X_test)[i]}")
        print(f"Decision_function of svm_2: {svm_2.decision_function(X_test)[i]} predict : {svm_2.predict(X_test)[i]}")
        print(f"Decision_function of svm_3: {svm_3.decision_function(X_test)[i]} predict : {svm_2.predict(X_test)[i]}")

The Score is same at index[3].
Decision_function of svm_1: -0.5024882107322184 predict : 0
Decision_function of svm_2: -0.36987092513822756 predict : 0
Decision_function of svm_3: -0.13070947139128608 predict : 0
The Score is same at index[17].
Decision_function of svm_1: -0.562404550285589 predict : 0
Decision_function of svm_2: -0.18705039695337908 predict : 0
Decision_function of svm_3: -0.25333937582665594 predict : 0
The Score is same at index[18].
Decision_function of svm_1: -0.7271989224328648 predict : 0
Decision_function of svm_2: -0.24458235766281572 predict : 0
Decision_function of svm_3: -0.02519790375627462 predict : 0


->3,17,18일 때 동점이다.

이를 해결하기 위해

1)decision function활용
_각 모델의 decision function을 따로 구해 그 중 최대값 구하기
2)가장 개수가 많은 클래스 사용

3)랜덤으로 하나 뽑기

+OvO의 장점:training set의 크기에 민감하여 작은training set을 선호하는 SVM에서 효과적
OvR

In [45]:
#Sample참고

##Decision function을 통한 해결
# Decision_function 의 값을 가중치로 해서 더하는 방식을 사용
# Decision_function 데이터가 얼마나 떨어져 있는지 거리이기 때문에, 절대값이 클 수록 점수에 미치는 영향력이 클 것으로 생각된다.
# 각 모델에게서 예측된 값을 배열에 담아서 비교하면 값이 양수인 곳이 해당 클래스일 가능성이 매우 높다고 판단했다.
# 따라서 모든 데이터의 argmax 값을 비교해서 가장 큰 argmax 값을 가지는 것을 최종 데이터로 삼고자 한다.

def one_rest_svm(models, data, labels): # 함수로 분리해서 계산
    distance = None # 빈 배열 초기화
    
    for model in models: # 각 모델에 대해 예측 실시
        if distance is None:
            distance = model.decision_function(data) # 모델이 비어있으면 배열 생성
        else:
            distance = np.vstack((distance, model.decision_function(data))) # 모델이 비어있지 않으면 배열 stack
            
    # 반복문 수행 후 distacne 의 row에는 모델의 수 , columns 에는 len(data) 가 저장된다.
    # 계산의 편의를 위해 Transpose
    distance = distance.T
    
    result = [] # 결과값에 대한 distance를 저장하는 배열 생성
    
    for pred in distance:
        result.append(labels[pred.argmax()]) # 각 예측들에 대해서 가장 큰 값을 가지는 결과값(argmax) 에 해당하는 꽃을 저장

    
    print(f"prediction : \n {result}")
    return result

models = [svm_1, svm_2, svm_3]
labels = ["setosa", "versicolor", "virginica"]

prediction = one_rest_svm(models, X_test, labels)

accuracy_score(y_test,prediction)

prediction : 
 ['versicolor', 'versicolor', 'versicolor', 'virginica', 'virginica', 'virginica', 'setosa', 'virginica', 'setosa', 'versicolor', 'virginica', 'setosa', 'setosa', 'virginica', 'versicolor', 'versicolor', 'setosa', 'versicolor', 'virginica', 'virginica', 'setosa', 'virginica', 'versicolor', 'versicolor', 'virginica', 'setosa', 'setosa', 'virginica', 'virginica', 'versicolor']


0.8666666666666667

In [48]:
def one_one_svm(models, data, labels):
    result = []
    
    for model in models: # 각 모델별로 예측하여 배열에 추가함
        pred = model.predict(data)
        result.append(pred)
    
    result = np.array(result).T # 배열을 넘파이 배열로 변경후 Transpose 수행
    '''
    result 배열의 구성은 다음과 같다.
    row : x_test 데이터 한 개에 대한 예측값
    col : 순서대로
    [1번 0번 예측기 (1번일때 1반환), 2번 0번 예측기(2번일때 1반환), 2번 1번 예측기(2번일 때 1 반환)]
    ''' 
    
    pred = []
    
    # 각 예측기의 판단에 따라 전체 배열의 score를 올려 주겠다. (투표와 같은 방식으로 수행)   
    for row in range(len(result)):
        score = np.array([0, 0, 0])
        
        # 0번부터 순회함
        if result[row][0] == 1: # 1번 꽃이다.
            score[1] += 1
        elif result[row][0] == 0: # 0번 꽃이다.
            score[0] += 1
            
        if result[row][1] == 1: # 2번 꽃이다.
            score[2] += 1
        elif result[row][1] == 0: # 0번 꽃이다.
            score[0] += 1
            
        if result[row][2] == 1: # 2번 꽃이다.
            score[2] += 1
        elif result[row][2] == 0: # 1번 꽃이다.
            score[1] += 1
    
        pred.append(labels[score.argmax()]) # voting 된 점수를 꽃 이름으로 바꿔서 append
    
    
    print(f"prediction : \n {result}")
    
    return pred

In [50]:
models = [svm_1, svm_2, svm_3]
labels = ["setosa", "versicolor", "virginica"]

prediction = one_one_svm_predict(models, X_test, labels)
accuracy_score(y_test,prediction)

prediction : 
 [[0 1 0]
 [0 1 0]
 [0 1 0]
 [0 0 0]
 [0 0 1]
 [0 0 1]
 [1 0 0]
 [0 0 1]
 [1 0 0]
 [0 1 0]
 [0 0 1]
 [1 0 0]
 [1 0 0]
 [0 0 1]
 [0 1 0]
 [0 1 0]
 [1 0 0]
 [0 0 0]
 [0 0 0]
 [0 0 1]
 [1 0 0]
 [0 0 1]
 [0 1 0]
 [0 1 0]
 [0 0 1]
 [1 0 0]
 [1 0 0]
 [0 0 1]
 [0 0 1]
 [0 1 0]]


0.03333333333333333