<center><img src='https://raw.githubusercontent.com/Jangrae/img/master/ml_python.png' width=600/></center>

# 다룰 내용

- SVM 알고리즘을 이해합니다.

# 1.환경 준비

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_classification, make_moons, make_regression
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import warnings

warnings.filterwarnings(action='ignore')
%config InlineBackend.figure_format='retina'

* SVM 분류 모델을 시각화 하는 함수를 만듭니다.

In [None]:
# 시각화 함수 만들기
def svc_visualize(x, y, model, title=''):
    xx, yy = np.meshgrid(np.linspace(x[:, 0].min(), x[:, 0].max(), 50),
                         np.linspace(x[:, 1].min(), x[:, 1].max(), 50))
    Z = model.decision_function(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    plt.figure(figsize=(5, 5))
    sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y)
    plt.contour(xx, yy, Z, levels=[-1, 0, 1],
                colors=['gray', 'red', 'gray'],
                linestyles=['--', '-', '--'])
    plt.title(title)
    plt.axis('tight')
    plt.show()

# 2.SVM 기본 개념

- SVM 모델의 기본 개념을 이해합니다.

**1) 데이터 만들고 시각화**

In [None]:
# 데이터 만들기
seed = 903
x, y = make_classification(n_samples=100,
                           n_features=2,
                           n_redundant=0,
                           weights=[0.5, 0.5],
                           n_clusters_per_class=1,
                           random_state=seed)

# 시각화
plt.figure(figsize=(5, 5))
sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y)
plt.show()

**2) 모델링 후 시각화**

In [None]:
# 모델링
model = SVC(kernel='linear', C=1)
model.fit(x, y)

# 시각화
svc_visualize(x, y, model)

# 3.결정 경계와 마진 이해

**1) 데이터 만들고 시각화**

In [None]:
# 데이터 만들기
seed = 874
x, y = make_classification(n_samples=100,
                           n_features=2,
                           n_redundant=0,
                           weights=[0.5, 0.5],
                           n_clusters_per_class=1,
                           random_state=seed)

# 시각화
plt.figure(figsize=(5, 5))
sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y)
plt.show()

**2) cost 값 변경**

* cost 값을 0.1, ~ 40 사이의 숫자로 변경하면서 cost에 따른 모델을 살펴 봅니다.

In [None]:
# cost 값
cost = 1.0

# 모델링
model = SVC(kernel='linear', C=cost)
model.fit(x, y)

# 시각화
svc_visualize(x, y, model, f'C={cost}')

# 4.선형경계로 분류할 수 없는 경우

**1) 데이터 만들고 시각화**

In [None]:
# 데이터 반들기
x, y = make_moons(n_samples=800, noise=.1, random_state=10)

# 시각화
plt.figure(figsize=(5, 5))
sns.scatterplot(x=x[:, 0], y=x[:, 1], hue=y)
plt.show()

**2) 선형경계로 분류**

In [None]:
# 모델링
model = SVC(kernel='linear')
model.fit(x, y)

# 시각화
svc_visualize(x, y, model)

**3) 커널 트릭 사용: poly**

In [None]:
# 모델링
model = SVC(kernel='poly', C=1)
model.fit(x, y)

# 시각화
svc_visualize(x, y, model)

**4) 커널 트릭 사용 : rbf**

In [None]:
# 모델링
model = SVC(kernel='rbf', C=1)
model.fit(x, y)

# 시각화
svc_visualize(x, y, model)

# 5. 하이퍼파라미터

* cost
    - 오류를 허용하지 않으려는 비용(노력!)입니다.
    - 값이 클수록 오류를 허용하지 않기 위한 경계를 만들려고 합니다.
* gamma
    - 결정 경계의 곡률입니다.
    - 값이 클수록 곡률 반경이 작아집니다.

**1) cost에 따른 결정 경계**

- cost에 따라 결정 경계가 어떻게 달라지는지 살펴 봅니다.

In [None]:
# cost에 따른 결정 경계
for cost in [0.1, .5, 2, 20]:
    model = SVC(kernel='rbf', C=cost)
    model.fit(x, y)
    svc_visualize(x, y, model, f'C={cost}')

**2) gamma에 따른 결정 경계**

- gamma에 따라 결정 경계가 어떻게 달라지는지 살펴 봅니다.

In [None]:
# gamma에 따흔 결정 경계
for g in [.5, 1, 5, 20]:
    model = SVC(kernel='rbf', C=2, gamma=g)
    model.fit(x, y)
    svc_visualize(x, y, model, f'C=2, gamma={g}')

# 6. 회귀 모델

- SVM 회귀 모델을 시각화 하는 함수를 만듭니다.

In [None]:
# 시각화 함수 만들기
def svr_visualize(x, y, model, title=''):
    xx = np.linspace(x.min(), x.max(), 50)
    xx = xx.reshape((len(xx), 1))
    yy = model.predict(xx)

    plt.figure(figsize=(5, 5))
    plt.scatter(x, y, edgecolors='w', linewidths=0.5)

    plt.plot(xx, yy, color = 'r')
    plt.plot(xx, yy + model.epsilon, color = 'gray', linestyle='--')
    plt.plot(xx, yy - model.epsilon, color = 'gray', linestyle='--')
    plt.xlabel('x')
    plt.ylabel('y')
    plt.title(title)
    plt.axis('tight')
    plt.show()

- Sample 데이터를 만들고 시각화합니다.

In [None]:
# 데이터 만들기
numSamples = 500
x = np.sort(6 * np.random.rand(numSamples, 1), axis=0)
y = np.sin(x).ravel()
y = y + 0.5 * (np.random.randn(numSamples))

# 시각화
plt.figure(figsize=(5, 5))
plt.scatter(x, y, edgecolors='w', linewidths=0.5)
plt.show()

- 모델을 만들고 시각화합니다.

In [None]:
# 불러오기
from sklearn.svm import SVR

# 모델링
cost = 10
model = SVR(kernel='rbf', C=cost, epsilon=0.5, gamma=1)
model.fit(x, y)

# 시각화
svr_visualize(x, y, model, f'C={cost}')

- cost 변화에 따른 곡선의 변화를 확인합니다.

In [None]:
# cost에 따른 결정 경계
for cost in [0.001, 0.01, 1, 10]:
    model = SVR(kernel='rbf', C=cost, epsilon=0.5, gamma=1)
    model.fit(x, y)
    svr_visualize(x, y, model, f'C={cost}')