In [None]:
# 다변량 데이터의 경우, 모든 특성들의 데이터 스케일을 맞춰 주어야 한다.
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer() # 데이터 셋 로드
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, random_state = 1
)
# shape
print(X_train.shape, X_test.shape)

In [None]:
# Scaler의 적용
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler() # 최솟값 0, 최댓값 1 사이의 데이터로 변환
scaler.fit(X_train) # 비지도 학습 -> target 없음
X_train_scaled = scaler.transform(X_train) # 스케일 변환
X_train_scaled

In [None]:
# 데이터의 시각화
import matplotlib.pyplot as plt
# 0번 feature -> x, 1번 feature -> y
plt.subplot(1, 2, 1) # 1 * 2 서브플롯 중, 첫번째 영역
plt.scatter(X_train[:, 0],
           X_train[: , 1],
           c= y_train)
plt.title("Before.Scale")
plt.subplot(1, 2, 2) # 1 * 2 서브플롯 중, 두번째 영역 (조정된 데이터)
plt.scatter(X_train_scaled[:, 0],
           X_train_scaled[:, 1],
           c= y_train)
plt.title("After Scale")
plt.show()

In [None]:
# 모든 feature의 스케일을 시각화
# 원본 데이터
plt.subplot(2, 1, 1) # 2 * 1의 첫번째 영역(원복)
plt.boxplot(X_train)
plt.title("Before Scale")
plt.subplot(2, 1, 2) # 2 * 1의 두번째 영역(스케일 된 데이터)
plt.boxplot(X_train_scaled)
plt.title("After Scale")
plt.show()

In [None]:
# 원본 데이터를 활용한 SVC 분류
from sklearn.svm import SVC

svm = SVC(C=100) # 모델 생성
svm.fit(X_train, y_train)
print("테스트 세트 정확도:", svm.score(X_test, y_test))

In [None]:
# 스케일 조정된 데이터를 활용한 SVC 분류
X_test_scaled = scaler.transform(X_test)
svm.fit(X_train_scaled, y_train)
print("조정된 테스트 세트의 정확도:", svm.score(X_test_scaled, y_test))
# 중요 : 학습 데이터와 테스트 데이터에 같은 스케일을 적용해 주어야 한다.