## 特徴量の標準化
### 標準化とは
- 平均が0かつ単位分散になるようにデータを縮尺変換すること
特徴量:$x$, 平均:$\mu$, 分散:$\sigma$
$$
\frac{x - \mu}{\sigma}
$$

In [1]:
from sklearn import preprocessing
import numpy as np
X = np.array([[1., -2., 2.],
              [3., 0., 0.],
              [0., 1., -1.]])

# sklearn.preprocessing.scale()で標準化を行う
X_scaled = preprocessing.scale(X)
print(X_scaled)

[[-0.26726124 -1.33630621  1.33630621]
 [ 1.33630621  0.26726124 -0.26726124]
 [-1.06904497  1.06904497 -1.06904497]]


本当に標準化されたかどうか、実際に平均と分散を出力して確認する。標準化された特徴行列の平均値は、すべての行でほとんど0でなければならない。

In [2]:
# 平均を出力
X_scaled.mean(axis=0)

array([7.40148683e-17, 0.00000000e+00, 0.00000000e+00])

さらに、標準化された特徴行列ならば、すべての行は、分散値が1となっているはずである。

In [3]:
# 標準偏差を出力
X_scaled.std(axis=0)

array([1., 1., 1.])

## 特徴量の正規化
### 正規化とは
- 各標本を単位長に縮尺変換すること。

変換の手法としては、L1ノルム(マンハッタン距離)、L2ノルム(ユークリッド距離)がある。

In [4]:
# マンハッタン距離での正規化
X_normalized_l1 = preprocessing.normalize(X, norm='l1')
X_normalized_l1

array([[ 0.2, -0.4,  0.4],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  0.5, -0.5]])

In [5]:
# ユークリッド距離での正規化
X_normalized_l2 = preprocessing.normalize(X, norm='l2')
X_normalized_l2

array([[ 0.33333333, -0.66666667,  0.66666667],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

## 特徴量を範囲内に縮尺変換する
平均値をゼロかつ単位分散になるように特徴量を縮尺変換するのではなく、特徴量を与えられた最小値と最大値の間におさめることもできる。

In [6]:
# デフォルトでは0から1の範囲で縮尺変換される
min_max_scaler = preprocessing.MinMaxScaler()
X_min_max = min_max_scaler.fit_transform(X)
print(X_min_max)

# -10, 10の範囲を指定する場合
min_max_scaler = preprocessing.MinMaxScaler(feature_range=(-10, 10))
X_min_max2 = min_max_scaler.fit_transform(X)
print(X_min_max2)

[[0.33333333 0.         1.        ]
 [1.         0.66666667 0.33333333]
 [0.         1.         0.        ]]
[[ -3.33333333 -10.          10.        ]
 [ 10.           3.33333333  -3.33333333]
 [-10.          10.         -10.        ]]
