<a href="https://colab.research.google.com/github/baleineindigo/Data_Analysis/blob/master/SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## SVM 연습
붓꽃 문제를 서포트 벡터 머신으로 풀어보자. 다음과 같은 데이터만 사용한 이진 분류 문제로 바꾸어 풀어본다.


    특징 변수를 꽃받침의 길이와 폭만 사용한다.
    붓꽃 종을 Setosa와 Versicolour만 대상으로 한다.


In [None]:
# 데이터 셋
from sklearn.datasets import load_iris

X1=load_iris().data[:100,:2]
Y1=load_iris().target[:100]
# X1,Y1

In [None]:
# 모델
from sklearn.svm import SVC
model1=SVC(kernel="linear",C=1e10).fit(X1,Y1)

In [None]:
# 평가
from sklearn.metrics import classification_report
print(classification_report(Y1,model1.predict(X1)))

### 슬랙 변수
선형 분리가 불가능한 경우 slack variable을 사용하여 개별적인 오차를 허용할 수 있다.

    특징 변수를 꽃잎의 길이와 폭만 사용한다.
    붓꽃 종을 Virginica와 Versicolour만 대상으로 한다.

In [None]:
# 데이터 셋 마련
X2=load_iris().data[50:,2:]
Y2=load_iris().target[50:]-1
# X2,Y2

In [None]:
# 모델
model2=SVC(kernel="linear",C=1e10).fit(X2,Y2)
# 평가
print(classification_report(Y2,model2.predict(X2)))

In [None]:
plotnum = 1
for name, penalty in (('C=1e10', 1e10), ('C=0.1', 0.1)):
    clf = SVC(kernel='linear', C=penalty).fit(X2, Y2)
    xx = np.linspace(2, 8)

    x_jin = 2
    x_jax = 8
    y_jin = 0
    y_jax = 3
    XX, YY = np.mgrid[x_jin:x_jax:200j, y_jin:y_jax:200j]

    levels = [-1, 0, 1]
    linestyles = ['dashed', 'solid', 'dashed']
    Z = clf.decision_function(np.c_[XX.ravel(), YY.ravel()])
    Z = Z.reshape(XX.shape)
    
    plt.subplot(1, 2, plotnum)
    plt.contour(XX, YY, Z, levels, colors='k', linestyles=linestyles)
    plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=120, linewidth=4)
    plt.scatter(X2[:, 0], X2[:, 1], c=Y2, s=60, linewidth=1, cmap=plt.cm.Paired)
    plt.xlim(x_jin, x_jax)
    plt.ylim(y_jin, y_jax)
    plt.title(name)

    plotnum += 1

plt.suptitle("Influ of Slack Variable : C")
plt.tight_layout()
plt.show()

In [None]:
# 얼굴 이미지 인식
from sklearn.datasets import fetch_olivetti_faces
faces=fetch_olivetti_faces()

In [None]:
# 원래 데이터 분포
N=2
M=5
np.random.seed(100)
fig=plt.figure(figsize=(9,5))
plt.subplots_adjust(top=1,bottom=0,hspace=0,wspace=0.05)
klist=np.random.choice(range(len(faces.data)),N*M)

for i in range(N):
    for j in range(M):
        k=klist[i*M+j]
        ax=fig.add_subplot(N,M,i*M+j+1)
        ax.imshow(faces.images[k],cmap=plt.cm.bone)
        ax.grid(False)

plt.tight_layout()
plt.show()

In [None]:
# 모델 예측
# train & test set
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(faces.data,faces.target,test_size=0.4,random_state=0)
# print(len(X_train),len(X_test),len(Y_train),len(Y_test))

# 모델 학습
svc=SVC(kernel="linear").fit(X_train,Y_train)

# 그래프 틀
N=5
M=5
np.random.seed(100)
fig=plt.figure(figsize=(15,11))
plt.subplots_adjust(top=0.01,bottom=0,hspace=0,wspace=0.01)
klist=np.random.choice(range(len(Y_test)),N*M) # 보여줄 사진 번호 임의로 뽑기

for i in range(N):
    for j in range(M):
        k=klist[i*M+j]
        ax=fig.add_subplot(N,M,i*M+j+1)
        ax.imshow(X_test[k:(k + 1), :].reshape(64, 64),cmap=plt.cm.bone)
        ax.grid(False)
        if Y_test[k] == svc.predict(X_test[k:(k+1),:])[0]:
            plt.title("%d == %d" % (Y_test[k],svc.predict(X_test[k:(k+1),:])[0]))
        else:
            plt.title("%d != %d" % (Y_test[k],svc.predict(X_test[k:(k+1),:])[0]))


plt.tight_layout()
plt.show()

In [None]:
from sklearn.metrics import classification_report, accuracy_score

Y_pred_train = svc.predict(X_train)
Y_pred_test = svc.predict(X_test)

In [None]:
print(classification_report(y_train, y_pred_train))

In [None]:
classification_report(y_test, y_pred_test)
print(classification_report(y_test, y_pred_test))