In [None]:
# colab 한글깨짐 해결위한 폰트 설치

!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

# 런타임 재시작 !

# 2. KernelSVM (커널 서포트 벡터 머신)

In [None]:
# matplotlib과 관련된 모듈을 미리 선언
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
plt.rcParams['axes.unicode_minus'] = False

import warnings
warnings.filterwarnings('ignore')
import numpy as np

In [None]:
from sklearn.datasets import make_moons

X, y = make_moons(n_samples = 400, noise = 0.25, random_state = 42)
plt.figure(figsize = (10, 5))
plt.scatter(X[:, 0], X[:, 1], c = y)
plt.show()

make_moons는 초승달 모양을 가진 2개의 클러스터를 가진 데이터를 생성해준다.
  - noise : 잡음의 크기를 설정한다. 0으로 설정하면 정확한 반원이 생성된다.
  - 직선을 사용하여 분리하는게 어렵다.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
# 여기서는 매개변수로 커널을 변경할 수 있는 SVC를 사용하겠다.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, shuffle = True)

linear_svc = SVC(kernel = 'linear', C = 1).fit(X_train, y_train)

print('train score : {:.3f}'.format(linear_svc.score(X_train, y_train)))
print('test score : {:.3f}'.format(linear_svc.score(X_test, y_test)))

In [None]:
def draw_contour(model, X, y):
    x_min, x_max, y_min, y_max = -2, 3, -1.5, 2
    X_grid, Y_grid = np.meshgrid(np.arange(x_min, x_max, 0.01),
                                np.arange(y_min, y_max, 0.01))
    pred_grid = model.predict(np.array([X_grid.ravel(), Y_grid.ravel()]).T)
    Z = np.reshape(pred_grid, X_grid.shape)

    plt.figure(figsize = (10, 5))
    plt.contourf(X_grid, Y_grid, Z, alpha=0.3)
    plt.scatter(X[y == 1, 0],
                X[y == 1, 1], c = 'b')
    plt.scatter(X[y == 0, 0],
                X[y == 0, 1], c = 'r')
    plt.show()

-------- 부가 설명 ----------

In [None]:
x_min, x_max, y_min, y_max = -3, 3, -3, 3
X_grid, Y_grid = np.meshgrid(np.arange(x_min, x_max, 0.01),
                            np.arange(y_min, y_max, 0.01))
print('grid의 shape : {}\n\n'.format(X_grid.shape))
print('grid의 값 : \n\n{}'.format(X_grid))

In [None]:
# flatten : ravel()
x = np.array([[[1,2,3]],[[4,5,6]]])
x

In [None]:
print('행렬 x를 ravel() 한 결과 : {}'.format(x.ravel())) # matrix를 vector화 한다.

In [None]:
print('X_grid를 ravel() 한 결과의 shape : {}\n\n'.format(X_grid.ravel().shape))
print('X_grid를 ravel() 한 결과 값 : {}'.format(X_grid.ravel()))

In [None]:
x, y = [1,2,3], [10,20,30]
print(x, y)

In [None]:
print(np.array([x, y]))

In [None]:
print(np.array([x, y]).T)
# np.array().T는 전치행렬을 실행한다. 열과 행을 바꿔준다.

-----설명 끝 -----

3차원을 시각화하는 방법에는 등고선으로 표현하는 방법이 있다.
  - contour : 등고선만 그려준다.
  - contourf : 등고선에다 색까지 칠해준다.
  입력변수들을 그대로 사용할 수는 없고 meshgrid 명령으로 그리드 포인트 행렬을 만들어 줘야 한다.
  meshgrid를 많이 그려줄수록 시간은 오래 걸리게 된다.

In [None]:
draw_contour(linear_svc, X_train, y_train)

선형모델로 분류를 해본 결과.

그 어떤 cost 함수를 사용해도 선형 SVM으로는 분류가 불가능할 때, 커널 SVM은 커널 트릭이라 불리는 데이터 처리 방법을 사용해서 데이터를 분류할 수 있다.

### 매개변수 kernel을 변경해보면서 결과를 확인해보자.

#### 다차항 커널

In [None]:
poly_svc = SVC(kernel = 'poly', C = 1, degree = 3,
               coef0 = 1, gamma = 1).fit(X_train, y_train)

print('train score : {:.3f}'.format(poly_svc.score(X_train, y_train)))
print('test score : {:.3f}'.format(poly_svc.score(X_test, y_test)))

poly는 다항식 커널을 말한다.  
poly로 설정할 때에는 degree차수를 지정할 수 있다, 기본값은 3이다.  
coef0은 높은 차수와 낮은 차수에 얼마나 영향을 받을지 조절할 수 있다. (다항식 커널의 상수항 r을 나타낸다.)  


Q. degree가 하는 역할은 무엇일까?  
  - Linear SVC의 boundary와 polynomial의 boundary가 degree(차수)에 따라 어떻게 다른지 확인해보자.
  

In [None]:
# degree = 3, coef0 = 1, C = 1
draw_contour(poly_svc, X_train, y_train)

In [None]:
poly_svc_d20 = SVC(kernel = 'poly', C = 1, degree = 20,
               coef0 = 1, gamma = 1).fit(X_train, y_train)

print('train score : {:.3f}'.format(poly_svc_d20.score(X_train, y_train)))
print('test score : {:.3f}'.format(poly_svc_d20.score(X_test, y_test)))

In [None]:
# degree = 20, coef0 = 1, C = 1
draw_contour(poly_svc_d20, X_train, y_train)

모델이 과적합상태라면 차수를 줄여보자.

In [None]:
poly_svc_r100 = SVC(kernel = 'poly', C = 1, degree = 20,
               coef0 = 50, gamma = 1).fit(X_train, y_train)

print('train score : {:.3f}'.format(poly_svc_r100.score(X_train, y_train)))
print('test score : {:.3f}'.format(poly_svc_r100.score(X_test, y_test)))

In [None]:
# degree = 20, coef0 = 50, C = 1
draw_contour(poly_svc_r100, X_train, y_train)

coef0을 100으로 주었더니 고차항의 영향을 많이 받게된다 적절한 coef0의 값을 찾는것도 중요하다.

#### 가우시안 RBF 커널

In [None]:
rbf_svc = SVC(kernel = 'rbf', C = 1, gamma = 1).fit(X_train, y_train)

print('train score : {:.3f}'.format(rbf_svc.score(X_train, y_train)))
print('test score : {:.3f}'.format(rbf_svc.score(X_test, y_test)))

In [None]:
draw_contour(rbf_svc, X_train, y_train)

gamma 매개변수는 가우시안 커널 폭의 역수로 하나의 훈련 샘플이 미치는 영향의 범위를 결정한다. 

작은 값은 넓은 영역, 큰 값은 영향이 미치는 영역이 좁아진다. C와 gamma를 함께 조정해주는 것이 좋다.

In [None]:
rbf_svc_g100 = SVC(kernel = 'rbf', C = 1, gamma = 100).fit(X_train, y_train)

print('train score : {:.3f}'.format(rbf_svc_g100.score(X_train, y_train)))
print('test score : {:.3f}'.format(rbf_svc_g100.score(X_test, y_test)))

In [None]:
draw_contour(rbf_svc_g100, X_train, y_train)

In [None]:
rbf_svc_g001 = SVC(kernel = 'rbf', C = 1, gamma = 0.01).fit(X_train, y_train)

print('train score : {:.3f}'.format(rbf_svc_g001.score(X_train, y_train)))
print('test score : {:.3f}'.format(rbf_svc_g001.score(X_test, y_test)))

In [None]:
draw_contour(rbf_svc_g001, X_train, y_train)

In [None]:
rbf_svc_c001 = SVC(kernel = 'rbf', C = 0.1, gamma = 50).fit(X_train, y_train)

print('train score : {:.3f}'.format(rbf_svc_c001.score(X_train, y_train)))
print('test score : {:.3f}'.format(rbf_svc_c001.score(X_test, y_test)))

In [None]:
draw_contour(rbf_svc_c001, X_train, y_train)

커널 서포트 벡터 머신은 다양한 데이터셋에서 잘 작동한다. 특성이 적어도, 많아도 잘 작동하지만 데이터수가 많을 때와는 맞지 않다. 그리고 데이터의 전처리와 매개변수 설정에 신경을 많이 써야 한다. 특히 SVM모델은 분석하기도 어려워 예측이 어떻게 결정되었는지 이해하기 어려우며 모델을 설명하기가 힘들다.

모든 특성이 비슷한 단위이며 스케일도 비슷하다면 SVM을 써볼만 하다.

사이킷런에서 제공하는 olivetti_faces를 이용하여 실습해보자.

olivetti_faces는 40명의 얼굴사진이 총 400장이 있다.
이미지에는 다른 조건에서 찍은 사진들이다. (빛이나 얼굴표정 각도등이 다르다.)

In [None]:
from sklearn.datasets import fetch_olivetti_faces
faces = fetch_olivetti_faces()
print(faces.DESCR)

In [None]:
faces.images.shape
# 464 x 64의 픽셀을 가진 사진이 400장이 있다.

In [None]:
faces.data.shape
# data는 400장의 사진에대한 픽셀 배열들이 들어있다.

In [None]:
faces.data

In [None]:
faces.target.shape
# 0 ~ 39 까지

In [None]:
faces.target

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(faces.data, faces.target,
                                                   test_size = 0.3, shuffle = True)

# svc = SVC(kernel = 'rbf', C = 1, gamma = 1).fit(X_train, y_train)
svc = SVC(kernel='linear').fit(X_train, y_train)

In [None]:
svc.score(X_test, y_test)

In [None]:
svc.predict(X_test)

In [None]:
N = 10
M = 6
np.random.seed(4)
fig = plt.figure(figsize=(15, 15))
plt.subplots_adjust(top=1, bottom=0, hspace=0, wspace=0.05)
klist = np.random.choice(range(len(y_test)), N * M)
for i in range(N):
    for j in range(M):
        k = klist[i * M + j]
        ax = fig.add_subplot(N, M, i * M + j + 1)
        ax.imshow(X_test[k:(k + 1), :].reshape(64, 64), cmap=plt.cm.bone)
        ax.grid(False)
        ax.xaxis.set_ticks([])
        ax.yaxis.set_ticks([])
        plt.title("결과 : {}".format(y_test[k] == svc.predict(X_test[k:(k + 1), :])[0]))
plt.tight_layout()
plt.show()