### 특징 표준화

In [2]:
from sklearn import preprocessing
import numpy as np

X = np.array([[1., -2., 2.],
              [3., 0., 0.],
              [0., 1., -1.]])

In [4]:
# 표준화
X_scaled = preprocessing.scale(X)
X_scaled

array([[-0.26726124, -1.33630621,  1.33630621],
       [ 1.33630621,  0.26726124, -0.26726124],
       [-1.06904497,  1.06904497, -1.06904497]])

#### 평균과 분산을 검사하여 실제로 표준화됐는지 확인.
- 표준화된 특징 행렬은 모든 행에서 0에 가까운 평균값을 가진다.
- 표준화된 형상 행렬의 모든 행에는 분산 1 이 있어야 한다. (std를 이용해 표준편차 확인)

In [7]:
X_scaled.mean(axis=0)

array([7.40148683e-17, 0.00000000e+00, 0.00000000e+00])

In [9]:
X_scaled.std(axis=0)

array([1., 1., 1.])

### 특징 정규화

#### L1 Norm

In [12]:
X_normalized_l1 = preprocessing.normalize(X, norm='l1')
X_normalized_l1

array([[ 0.2, -0.4,  0.4],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  0.5, -0.5]])

#### L2 Norm

In [15]:
X_normalized_l2 = preprocessing.normalize(X, norm='l2')
X_normalized_l2

array([[ 0.33333333, -0.66666667,  0.66666667],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

### 특징 범위 확장

In [17]:
min_max_scaler = preprocessing.MinMaxScaler() # 기본적으로 0 ~ 1 로 조정
X_min_max = min_max_scaler.fit_transform(X)

In [18]:
X_min_max

array([[0.33333333, 0.        , 1.        ],
       [1.        , 0.66666667, 0.33333333],
       [0.        , 1.        , 0.        ]])

In [19]:
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(-10, 10)) # feature range -10 ~ 10 조정
X_min_max2 = min_max_scaler.fit_transform(X)

In [21]:
X_min_max2

array([[ -3.33333333, -10.        ,  10.        ],
       [ 10.        ,   3.33333333,  -3.33333333],
       [-10.        ,  10.        , -10.        ]])

### 특징 이진화

In [23]:
X

array([[ 1., -2.,  2.],
       [ 3.,  0.,  0.],
       [ 0.,  1., -1.]])

#### threshold 0.5 기준으로 이진화

In [26]:
binarizer = preprocessing.Binarizer(threshold=0.5)
X_binarized = binarizer.transform(X)
X_binarized

array([[1., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.]])

### 누락된 데이터 처리

In [30]:
from numpy import nan
X = np.array([[nan, 0, 3],
             [2, 9, -8],
             [1, nan, 1],
             [5, 2, 4],
             [7, 6, -3]])

- mean : 모든 nan 값을 행렬의 지정된 축을 따라 평균값으로 바꾼다. (default, axis=0)
- median : .. 중앙값으로 바꾼다.
- most_frequent :.. 가장 빈번한 값으로 바꾼다.

In [31]:
from sklearn.preprocessing import Imputer
imp = Imputer(strategy='mean')

In [32]:
imp.fit_transform(X)

array([[ 3.75,  0.  ,  3.  ],
       [ 2.  ,  9.  , -8.  ],
       [ 1.  ,  4.25,  1.  ],
       [ 5.  ,  2.  ,  4.  ],
       [ 7.  ,  6.  , -3.  ]])

In [34]:
imp = Imputer(strategy='median')
imp.fit_transform(X)

array([[ 3.5,  0. ,  3. ],
       [ 2. ,  9. , -8. ],
       [ 1. ,  4. ,  1. ],
       [ 5. ,  2. ,  4. ],
       [ 7. ,  6. , -3. ]])