In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

In [2]:
# iris 데이터 불러오기
iris =  sns.load_dataset('iris')
X= iris.iloc[:,:4]
y = iris.iloc[:,-1]

In [3]:
# target(species 3종류) one hot encoding
y = pd.get_dummies(y)
y

Unnamed: 0,setosa,versicolor,virginica
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
...,...,...,...
145,0,0,1
146,0,0,1
147,0,0,1
148,0,0,1


In [4]:
# trian 과 test 데이터로 구분 (비율은 8 : 2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=48)

In [5]:
# 스케일링 진행
# train 데이터로 스케일 모델 학습 후 test 데이터에 적용
scale = StandardScaler()
X_train_std = scale.fit_transform(X_train)
X_test_std =  scale.transform(X_test)

In [6]:
X

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [7]:
# One Versus Rest
# rbf kernel 은 가우시안 커널 (선형적으로 분류할 수 없는 문제이기에 사용하는 것으로 이해)
svm_1 = SVC(kernel ='rbf', gamma = 5, C = 100)
svm_2 = SVC(kernel ='rbf', gamma = 5, C = 100)
svm_3 = SVC(kernel ='rbf', gamma = 5, C = 100)

In [8]:
svm_1.fit(X_train_std,y_train.iloc[:,0]) 
svm_2.fit(X_train_std,y_train.iloc[:,1])
svm_3.fit(X_train_std,y_train.iloc[:,2])

SVC(C=100, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=5, kernel='rbf', max_iter=-1,
    probability=False, random_state=None, shrinking=True, tol=0.001,
    verbose=False)

In [9]:
dist1 = svm_1.decision_function(X_test_std) # decision_function hyperplane과의 거리!
dist2 = svm_2.decision_function(X_test_std)
dist3 = svm_3.decision_function(X_test_std)

In [10]:
# 부호가 모든 같은 경우가 있는가? < 모두 동점인 경우!!
# np.sign 은 해당 인자의 부호값 을 확인하는 함수
# 4, 18, 19 번째가 부호가 모두 같음
# 부호가 같음 은 모두 같은 면에 속해 있다고 이해됨
for i in range(len(X_test)):
    if (np.sign(svm_1.decision_function(X_test_std)[i]) == np.sign(svm_2.decision_function(X_test_std)[i]))\
    and (np.sign(svm_2.decision_function(X_test_std)[i]) == np.sign(svm_3.decision_function(X_test_std)[i])):
        print(i)

3
17
18


In [11]:
# 한 로우의 각 species 와 hyperplane(초평면) 과의 거리 한 배열로
dist = np.stack((dist1, dist2, dist3), axis=1)

In [12]:
# 데이터프레임으로
df  = pd.DataFrame(dist, columns = ['y1', 'y2', 'y3'])

In [73]:
df

Unnamed: 0,y1,y2,y3
0,-1.1236,1.379466,-1.274571
1,-0.867825,0.641587,-0.78527
2,-0.655992,0.083346,-0.428302
3,-0.501943,-0.371038,-0.130155
4,-0.765411,-0.248726,0.02101
5,-0.881919,-0.814699,0.606668
6,1.077359,-1.032374,-1.04454
7,-0.991568,-0.865664,0.87393
8,0.50202,-0.791461,-0.711792
9,-0.998432,0.986275,-0.983999


In [14]:
# 동점자로 확인할 수 있었던 4, 18, 19 번째 로우 확인
print(df.loc[3])
print(df.loc[17])
print(df.loc[18])

y1   -0.501943
y2   -0.371038
y3   -0.130155
Name: 3, dtype: float64
y1   -0.568279
y2   -0.165651
y3   -0.268853
Name: 17, dtype: float64
y1   -0.730927
y2   -0.227390
y3   -0.039268
Name: 18, dtype: float64


In [46]:
# 초평면과 가장 멀리 떨어져 있는 값으로 뽑는 경우
# 각각 y1, y1, y1 이 가장 초평면과 멀리 떨어져 있음
print(min(df.loc[3]))
print(min(df.loc[17]))
print(min(df.loc[18]))

-0.501942941666542
-0.5682787223502039
-0.7309273218870285


In [100]:
def getClass(i,x,y,z):
    if i == x:
        result = 'y1'
    elif i == y:
        result = 'y2'
    else:
        result = 'y3'
    return result

In [129]:
import random

In [101]:
# 초평면과 가장 멀리 떨어져 있는 값으로 뽑는 경우
data = []
for i in range(len(df)):
    fst = np.sign(df.iloc[i,0]) # 각 부호값 저장
    snd = np.sign(df.iloc[i,1])
    trd = np.sign(df.iloc[i,2])
    std = fst + snd + trd
    if std == 1: # 부호가 '-' 1개, '+' 2개 일 경우
        value = min(fst, snd, trd)
        result = getClass(value, fst, snd, trd)
        data.append(result)  
        
    elif std == -1: # 부호가 '-' 2개, '+' 1개 일 경우
        value = max(fst, snd, trd)
        result = getClass(value, fst, snd, trd)
        data.append(result)
        
    else: # 부호가 모두 같을 경우
#         result = random.sample(['y1', 'y2', 'y3'],1) # 랜덤으로 클래스 부여하는 방법
        if np.sign(fst) == -1:
            value = min(fst, snd, trd)
            result = getClass(value, fst, snd, trd)
        else:
            value = max(fst, snd, trd)
            result = getClass(value, fst, snd, trd)    
        data.append(result)

In [102]:
data

['y2',
 'y2',
 'y2',
 'y1',
 'y3',
 'y3',
 'y1',
 'y3',
 'y1',
 'y2',
 'y3',
 'y1',
 'y1',
 'y3',
 'y2',
 'y2',
 'y1',
 'y1',
 'y1',
 'y3',
 'y1',
 'y3',
 'y2',
 'y2',
 'y3',
 'y1',
 'y1',
 'y3',
 'y3',
 'y2']

In [103]:
# 모두 y1 으로 분류됨
print(data[3])
print(data[17])
print(data[18])

y1
y1
y1
