https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

In [2]:
#수학연산과 배열처리
import numpy as np
#데이터 시각화
import matplotlib.pyplot as plt
#데이터셋 생성 모듈
from sklearn.datasets import make_moons, make_classification, make_blobs
#SVM classifier
from sklearn.svm import SVC
#분류 모델이 생성한 결정 경계를 시각화하는 기능 
from sklearn.inspection import DecisionBoundaryDisplay
#학습집합과 테스트 집합으로 분리
from sklearn.model_selection import train_test_split

In [None]:
# Linear Separable Data
# categorical type_ex) 개, 고양이

# 선형 분리 데이터 생성
X, y = make_blobs(
    n_samples=200,# 데이터 포인트 총 수
    n_features=2, # 특성의 수
    centers=2, # 두 개의 클래스
    cluster_std=1, # 클러스터 표준편차
    random_state=195397 # 본인학번
)
# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    test_size=0.5, # 전체 데이터의 50%를 테스트 집합으로 사용.
    random_state=0 # 난수 생성 시드 값 0으로 고정
) 
# 데이터 시각화
print("X shape:", X.shape) #(총 수, 특성 수)
print("y:", y) # 0과 1로 classification
plt.scatter(X_train[:,0], X_train[:,1], c=y_train, cmap=plt.cm.bwr, s=80, edgecolor='k') # train_검정 테두리
plt.scatter(X_test[:,0], X_test[:,1], c=y_test, cmap=plt.cm.bwr, s=80, edgecolor='cyan') # test_파란 테두리
'''
빨간색: y_train 또는 y_test에서 값이 1인 데이터 포인트들
파란색: y_train 또는 y_test에서 값이 0인 데이터 포인트들
cmap=plt.cm.bwr를 사용하면, 0의 레이블을 가진 데이터는 파란색 계열로
1의 레이블을 가진 데이터는 빨간색 계열로 표현된다.
'''
plt.show()

In [None]:
model = SVC( #SVM classifier -> SVC
    C = 1e0,  # cost_slack variable
    kernel = 'linear', 
    tol=1e-3,  # 학습 종료 기준
    max_iter=-1, # 최대 반복 횟수, -1 제한 X
    decision_function_shape='ovr', # 결정 함수 ovr
    random_state=0, # 시드는 0으로 고정
)

#gradient로 학습
model.fit(X_train,y_train) #학습
pred_train = model.predict(X_train)

print("n iter:", model.n_iter_) # 반복 횟수
print("n support:", model.n_support_) # 속성

# 결정 경계 및 서포트 벡터 시각화
DecisionBoundaryDisplay.from_estimator(
            model, X_train, grid_resolution=100, response_method="predict", cmap=plt.cm.coolwarm, alpha=0.8, eps=0.5
)

#초록색 테두리가 서포트 벡터(train_set에 있는 것만 쓴다.)
plt.scatter(X_train[model.support_,0], X_train[model.support_,1], s=180, edgecolor='g')
# 학습 데이터를 실제 레이블(y_train)에 따라 표현
plt.scatter(X_train[:,0], X_train[:,1], c=y_train, cmap=plt.cm.bwr, s=80, edgecolor='k')
# 학습 데이터를 모델 예측에 따라 표현 (pred_train)
plt.scatter(X_train[:,0], X_train[:,1], c=pred_train, cmap=plt.cm.bwr, s=10)
plt.show()

# 정확도 계산
print("train acc:", np.sum(pred_train==y_train) / len(y_train) )


In [None]:
# test 검증, 예측 수행
pred_test = model.predict(X_test)
# 테스트 정확도 계산
print("test acc:", np.sum(pred_test==y_test) / len(y_test) )
# 결정 경계 시각화
DecisionBoundaryDisplay.from_estimator(
            model, X_train, grid_resolution=100, response_method="predict", cmap=plt.cm.coolwarm, alpha=0.8, eps=0.5
)
# 실제 레이블_청록색 테두리
plt.scatter(X_test[:,0], X_test[:,1], c=y_test, cmap=plt.cm.bwr, s=80, edgecolor='cyan')
# 예측 데이터 but 더 작은 점
plt.scatter(X_test[:,0], X_test[:,1], c=pred_test, cmap=plt.cm.bwr, s=10)
plt.show()



In [None]:
## Moon Data(실습용)
X, y = make_moons(n_samples=200,
                noise=0.2, 
                shuffle=True, 
                random_state=195397 #본인학번이용
                )
X_train, X_test, y_train, y_test = train_test_split(
    X, 
    y, 
    test_size=0.5, 
    random_state=0 # 0으로 고정
) 


print("X shape:", X.shape) # (총 수, 특성 수)
print("y:", y)
# 학습 데이터(train_set) 검은색 테두리
plt.scatter(X_train[:,0], X_train[:,1], c=y_train, cmap=plt.cm.bwr, s=80, edgecolor='k')
# 테스트 데이터(test_set) 청록색 테두리
plt.scatter(X_test[:,0], X_test[:,1], c=y_test, cmap=plt.cm.bwr, s=80, edgecolor='cyan')
plt.show()

In [None]:
'''
Poly 커널과, RBF 커널로 / 파라미터를 변경해 가며 결과 분석
안과 밖을 나누는데 poly커널로는 차수가 커진다.
그래서 rbf커널로 해보자! -> 3d로 그려짐
c랑 감마값, c랑 디그리 조정해서 분석~
train은 테두리가 검정색이고 test는 파란색
'''
1e1

In [None]:
model = SVC( #SVM classifier -> SVC
    C = 1e1,
    kernel = 'poly',
    degree=3,
    tol=1e-3,
    max_iter=-1,
    decision_function_shape='ovr',
    random_state=0, # 시드는 0으로 고정
)

model.fit(X_train,y_train) #학습
pred_train = model.predict(X_train)

print("n iter:", model.n_iter_)
print("n support:", model.n_support_)

DecisionBoundaryDisplay.from_estimator(
            model, X_train, grid_resolution=100, response_method="predict", cmap=plt.cm.coolwarm, alpha=0.8, eps=0.5
)
plt.scatter(X_train[model.support_,0], X_train[model.support_,1], s=180, edgecolor='g')
plt.scatter(X_train[:,0], X_train[:,1], c=y_train, cmap=plt.cm.bwr, s=80, edgecolor='k')
plt.scatter(X_train[:,0], X_train[:,1], c=pred_train, cmap=plt.cm.bwr, s=10)
plt.show()

print("train acc:", np.sum(pred_train==y_train) / len(y_train) )
#gradient로 학습
#초록색 테두리가 서포트 (train_set에 있는 것만 쓴다.)

In [None]:
pred_test = model.predict(X_test) #test 검증
print("test acc:", np.sum(pred_test==y_test) / len(y_test) )

DecisionBoundaryDisplay.from_estimator(
            model, X_train, grid_resolution=100, response_method="predict", cmap=plt.cm.coolwarm, alpha=0.8, eps=0.5
)

plt.scatter(X_test[:,0], X_test[:,1], c=y_test, cmap=plt.cm.bwr, s=80, edgecolor='cyan')
plt.scatter(X_test[:,0], X_test[:,1], c=pred_test, cmap=plt.cm.bwr, s=10)
plt.show()



In [None]:
model = SVC( #SVM classifier -> SVC
    C = 10,
    kernel = 'rbf', # rbf는 degree가 아니라 감마라는 파라미터가 중요하다. 그래프가 얼마나 표족하냐 완만하냐를 결정
    gamma=10,
    tol=1e-3,
    max_iter=-1,
    decision_function_shape='ovr',
    random_state=0, # 시드는 0으로 고정
)

model.fit(X_train,y_train) #학습
pred_train = model.predict(X_train)

print("n iter:", model.n_iter_)
print("n support:", model.n_support_)

DecisionBoundaryDisplay.from_estimator(
            model, X_train, grid_resolution=100, response_method="predict", cmap=plt.cm.coolwarm, alpha=0.8, eps=0.5
)
plt.scatter(X_train[model.support_,0], X_train[model.support_,1], s=180, edgecolor='g')
plt.scatter(X_train[:,0], X_train[:,1], c=y_train, cmap=plt.cm.bwr, s=80, edgecolor='k')
plt.scatter(X_train[:,0], X_train[:,1], c=pred_train, cmap=plt.cm.bwr, s=10)
plt.show()

print("train acc:", np.sum(pred_train==y_train) / len(y_train) )
#gradient로 학습
#초록색 테두리가 서포트 (train_set에 있는 것만 쓴다.)

In [None]:
pred_test = model.predict(X_test) #test 검증
print("test acc:", np.sum(pred_test==y_test) / len(y_test) )

DecisionBoundaryDisplay.from_estimator(
            model, X_train, grid_resolution=100, response_method="predict", cmap=plt.cm.coolwarm, alpha=0.8, eps=0.5
)

plt.scatter(X_test[:,0], X_test[:,1], c=y_test, cmap=plt.cm.bwr, s=80, edgecolor='cyan')
plt.scatter(X_test[:,0], X_test[:,1], c=pred_test, cmap=plt.cm.bwr, s=10)
plt.show()

