# 1. standardization (z-score)

In [1]:
from sklearn import preprocessing
import numpy as np

In [2]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
scaler = preprocessing.StandardScaler().fit(X_train)
scaler

StandardScaler()

In [3]:
scaler.mean_

array([1.        , 0.        , 0.33333333])

In [4]:
scaler.scale_

array([0.81649658, 0.81649658, 1.24721913])

1, 2, 0의 분산은 $\frac23$이다. 표준편차는 0.8164이다.

In [5]:
X_scaled = scaler.transform(X_train)
X_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

# 2. normalization (minmax)

In [6]:
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
X_train_minmax

array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

위의 코드에서 minmax를 열별로 수행했다.
첫번째 열에서 1, 2, 0의 최솟값이 0이고 최댓값이 2이므로, 세 개의 값은 각각 0.5, 1, 0으로 사상된다.
\begin{align*}
f_1(x)&=\frac{x-0}{2-0}=\frac x2\\
f_1(1)&=\frac12\\
f_1(2)&=1\\
f_1(0)&=0
\end{align*}
두번째 열에서 -1, 0, 1의 최솟값이 -1이고 최댓값이 1이므로, 세 개의 값은 각각 0, 0.5, 1로 사상된다.
\begin{align*}
f_2(x) &=\frac{x-(-1)}{1-(-1)}=\frac{x+1}2\\
f_2(-1)&=0\\
f_2(0) &=\frac12\\
f_2(1) &=1
\end{align*}


In [7]:
X_test = np.array([[-3., -1.,  4.]])
X_test_minmax = min_max_scaler.transform(X_test)
X_test_minmax

array([[-1.5       ,  0.        ,  1.66666667]])

test set에 minmax를 적용시킬 때에는 이번에도 열을 기준으로 하고, trainset에서 했던 기준 그대로를 적용한다.
따라서 첫번째 열의 -3은 -1.5로 사상되고, 두번째 열의 -1은 0으로 사상된다.
\begin{align*}
f_1(-3)&=-\frac32\\
f_2(-1)&=0
\end{align*}