# 데이터 전처리
- StandardScaler, RobustScaler, MinMaxScaler, Normalizer
- StandardScaler: 각 특성의 평균을 0 분산을 1로 변경 (X-m/o)하여 모든 특성이 같은 크기를 갖도록
- RobustScaler: x-q2/q3-q1 q1: 1사분위값, q2: 2사분위값, q3: 3사분위값
- MinMaxScaler: 모든 특성이 정확하게 0과 1 사이에 위치하도록
- Normalizer: 특성 벡터의 유클리디안 길이가 1이 되도록 포인트 조정. 각 데이터 포인트가 다른 비율로 조정됨.


In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
cancer = load_breast_cancer()

In [2]:
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=1)
print(X_train.shape)
print(y_train.shape)

(426, 30)
(426,)


In [3]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

In [4]:
scaler.fit(X_train)

MinMaxScaler(copy=True, feature_range=(0, 1))

In [7]:
X_train_scaled = scaler.transform(X_train)

In [8]:
print(X_train_scaled.shape)
print(X_train_scaled.min(axis=0))
print(X_train_scaled.max(axis=0))

(426, 30)
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.
 1. 1. 1. 1. 1. 1.]


In [10]:
# test data 변환
# test data에 대해 새로운 scaler를 만드는 것이 아니라 X_train을 fit한 scaler로 transform해야함
X_test_scaled = scaler.transform(X_test)