## 스케일링(scaling)
- 대상 데이터 범위 조정해 모델 성능 개선

In [2]:
import numpy as np

data = np.array([[1,2,3]
                 ,[4,5,6]
                 ,[7,8,9]])

data_transform = np.array([[10,20,30]
                 ,[40,50,60]
                 ,[70,80,90]])

data_differents = np.array([
    [1, 100, 0.001],   # 작은 값과 매우 큰 값의 혼합
    [50, 500, 0.005],  
    [100, 1000, 0.010], 
    [200, 2000, 0.020], 
    [400, 4000, 0.050]  # 값이 점진적으로 증가
])

In [10]:
data_differents.shape

(5, 3)

### StandardScaler
- 평균 0, 표준편차 1 조정하는 표준 정규분포
- 데이터가 정규분포 따를 때 적합

In [11]:
from sklearn.preprocessing import StandardScaler

standardScaler = StandardScaler()
# standardScaler.fit(data)    # 스케일 학습
# standardScaler.fit(data_transform)    # 스케일 학습
standardScaler.fit(data_differents)    # 스케일 학습
# standardScaler      # 배포 공식 유지

In [12]:
# standardScaler.transform(data_transform)  # 학습된 스케일 분포로 대상 분포 변환
standardScaler.transform(data_differents)  # 학습된 스케일 분포로 대상 분포 변환

array([[-1.05658515, -1.01908043, -0.92104942],
       [-0.70958333, -0.73201552, -0.69362981],
       [-0.35549983, -0.37318438, -0.4093553 ],
       [ 0.35266716,  0.34447789,  0.15919373],
       [ 1.76900115,  1.77980245,  1.86484081]])

In [14]:
# 배포 및 서비스
# input : 50, 500, 0.005
standardScaler.transform([[50, 500, 0.005]])
# model 있는 경우 predict 시행

array([[-0.70958333, -0.73201552, -0.69362981]])

In [15]:
standardScaler.inverse_transform([[-0.70958333, -0.73201552, -0.69362981]])

array([[4.99999995e+01, 5.00000003e+02, 5.00000005e-03]])

## MinMaxScaler
- 데이터를 특정 범위 (0~1) 변환
- 데이터가 고르게 분포하는 경우(이미지 처리)

In [19]:
from sklearn.preprocessing import MinMaxScaler
minMaxScaler = MinMaxScaler()
minMaxScaler.fit(data_differents)

In [20]:
minMaxScaler.transform(data_differents)

array([[0.        , 0.        , 0.        ],
       [0.12280702, 0.1025641 , 0.08163265],
       [0.2481203 , 0.23076923, 0.18367347],
       [0.49874687, 0.48717949, 0.3877551 ],
       [1.        , 1.        , 1.        ]])

## MaxAbsScaler
- 각 특성 절대값 최대치를 1로 스케일, 음수 값을 유지
- 희소 행렬 처리 적합

In [21]:
from sklearn.preprocessing import MaxAbsScaler
maxAbsScaler = MaxAbsScaler()
maxAbsScaler.fit(data_differents)

In [22]:
maxAbsScaler.transform(data_differents)

array([[0.0025, 0.025 , 0.02  ],
       [0.125 , 0.125 , 0.1   ],
       [0.25  , 0.25  , 0.2   ],
       [0.5   , 0.5   , 0.4   ],
       [1.    , 1.    , 1.    ]])

## RobustScaler
- 중앙값과 IQR 사용한 변환, 
- 이상치 데이터 많은 경우

In [23]:
from sklearn.preprocessing import RobustScaler
robustScaler = RobustScaler()
robustScaler.fit(data_differents)

In [24]:
robustScaler.transform(data_differents)

array([[-0.66      , -0.6       , -0.6       ],
       [-0.33333333, -0.33333333, -0.33333333],
       [ 0.        ,  0.        ,  0.        ],
       [ 0.66666667,  0.66666667,  0.66666667],
       [ 2.        ,  2.        ,  2.66666667]])

## Normalizer
- 벡터 1로 하는 정규화(크기 기준) 변환
- 벡터 간의 거리 기반 계산 적합(딥러닝)

In [3]:
from sklearn.preprocessing import Normalizer

normalizer = Normalizer()
normalizer.fit(data_differents)

In [4]:
normalizer.transform(data_differents)

array([[9.99950004e-03, 9.99950004e-01, 9.99950004e-06],
       [9.95037190e-02, 9.95037190e-01, 9.95037190e-06],
       [9.95037190e-02, 9.95037190e-01, 9.95037190e-06],
       [9.95037190e-02, 9.95037190e-01, 9.95037190e-06],
       [9.95037190e-02, 9.95037190e-01, 1.24379649e-05]])