In [None]:
# 다변량 데이터의 경우
# 모든 특성들의 데이터 스케일을 맞춰줘야 한다.

# cancer 데이터 -> MinMaxScaler

# 데이터 불러오기
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()  # 데이터셋 로드
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, random_state=1
)

# shape
print(X_train.shape, X_test.shape)  # train data : 426개, test data : 143개, 변수 : 30개

In [None]:
# Scaler의 적용
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()  # 전체 데이터 -> 0(최솟값)~1(최댓값) 사이의 데이터로 변환
scaler.fit(X_train)  # 비지도 학습 -> target 제공 X. (정답 알려주지 않음.)
X_train_scaled = scaler.transform(X_train)  # scale 변환
X_train_scaled

In [None]:
# X_train, X_train_scaled 데이터가 어떻게 다른지 비교해보자.

# 데이터 시각화
import matplotlib.pyplot as plt

# 변수가 30개나 있으니까 0,1번 컬럼을 이용해서 시각화해보자.
# (원본 데이터)
plt.subplot(121)  # 1*2 subplot 중, 1번째 영역 
# x축 : 0번 feature
# y축 : 1번 feature
# 색상 구분 기준: y_train
plt.scatter(X_train[:, 0],
           X_train[:, 1],
           c=y_train)
plt.title("Before Scale")

# (조정된 데이터)
plt.subplot(122)  # 1*2 subplot 중, 2번째 영역 
# x축 : 0번 feature
# y축 : 1번 feature
# 색상 구분 기준: y_train
plt.scatter(X_train_scaled[:, 0],
           X_train_scaled[:, 1],
           c=y_train)
plt.title("After Scale")
plt.show()

# scale되기 전, 후 그림 똑같이 생김
# scale된 후, 최댓값 : 1, 최솟값 : 0으로 조정된 것 확인

In [None]:
# 모든 feature의 스케일을 시각화
# (원본 데이터)
plt.subplot(211)  # 2*1의 첫번재 영역(원본)
plt.boxplot(X_train)
plt.title("Before Scale")

# (조정된 데이터)
plt.subplot(212)  # 2*1의 두번째 영역
plt.boxplot(X_train_scaled)
plt.title("After Scale")
plt.show()

# (원본 데이터)
# 4, 24번의 feature의 boxplt이 극단적인 값들을 가지고, scale이 다른 feature에 비해 많이 크다.
# (조정된 데이터)
# scale 작업을 거쳤더니 모든 feature에 대해 0~1 사이의 값을 가지게 조정된 것을 확인

In [None]:
# 원본 데이터를 활용한 SVC 분류
from sklearn.svm import SVC

svm = SVC(C=100)  # 모델 생성
svm.fit(X_train, y_train)
print("테스트 세트 정확도:", svm.score(X_test, y_test))

In [None]:
# 스케일 조정된 데이터를 활용한 SVC 분류
X_test_scaled = scaler.transform(X_test)
svm.fit(X_train_scaled, y_train)
print("조정된 테스트 세트의 정확도:", svm.score(X_test_scaled, y_test))
# 중요! : 학습 데이터와 테스트 데이터에 같은 scale을 적용해 주어야 한다.