# 特徴のスケーリング

## スケーリングとは<a name="description"></a>

- 特徴量の尺度を揃えること
- 多くの機械学習アルゴリズムは、特徴量の尺度が揃っていないとうまく動かない
- 代表的なものに正規化と標準化がある
- 訓練データを変換するのに使用したのと同じパラメータで、未知のデータも変換しないといけない

## 正規化(normalization)<a name="normalization"></a>

対象となる特徴の最小値・最大値を0・1になるようにスケーリングすること。その特徴のとる値の範囲が一定範囲内に限定される場合に有効。

$\begin{eqnarray}
    x^{(i)}=\frac{x^{(i)}\ -\ x_{min}}{x_{max}\ -\ x_{min}} \nonumber
\end{eqnarray}$

In [None]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

np.random.seed(0)

X_train = np.random.uniform(low=-10, high=10, size=(700, 1))
X_test = np.random.uniform(low=-9, high=9, size=(300, 1))

scaler = MinMaxScaler()
X_train_norm = scaler.fit_transform(X_train)
X_test_norm = scaler.transform(X_test)
print('X_train Min: {before:>6.3f} -> {after:>6.3f}'.format(before=X_train.min(), after=X_train_norm.min()))
print('X_train Max: {before:>6.3f} -> {after:>6.3f}'.format(before=X_train.max(), after=X_train_norm.max()))
print('X_test Min: {before:>6.3f} -> {after:>6.3f}'.format(before=X_test.min(), after=X_test_norm.min()))
print('X_test Max: {before:>6.3f} -> {after:>6.3f}'.format(before=X_test.max(), after=X_test_norm.max()))

## 標準化(standardization)<a name="standardization"></a>

対象となる特徴の分布が平均0・標準偏差1の正規分布となるようにスケーリングすること。多くの機械学習アルゴリズムの前処理として有効。正規化と比べて外れ値から受ける影響が少なくなる。

$\begin{eqnarray}
    x^{(i)}=\frac{x^{(i)}\ -\ \mu_x}{\sigma_x} \nonumber
\end{eqnarray}$

In [None]:
from sklearn.preprocessing import StandardScaler

X = np.random.normal(loc=5, scale=2, size=(1000, 1))
X_train = X[:700, :]
X_test = X[700:, :]

scaler = StandardScaler()
X_train_std = scaler.fit_transform(X_train)
X_test_std = scaler.transform(X_test)
print('X_train Min: {before:>6.3f} -> {after:>6.3f}'.format(before=X_train.min(), after=X_train_std.min()))
print('X_train Max: {before:>6.3f} -> {after:>6.3f}'.format(before=X_train.max(), after=X_train_std.max()))
print('X_train Mean: {before:>6.3f} -> {after:>6.3f}'.format(before=X_train.mean(), after=X_train_std.mean()))
print('X_train Std: {before:>6.3f} -> {after:>6.3f}'.format(before=X_train.std(), after=X_train_std.std()))
print('X_test Min: {before:>6.3f} -> {after:>6.3f}'.format(before=X_test.min(), after=X_test_std.min()))
print('X_test Max: {before:>6.3f} -> {after:>6.3f}'.format(before=X_test.max(), after=X_test_std.max()))
print('X_train Mean: {before:>6.3f} -> {after:>6.3f}'.format(before=X_test.mean(), after=X_test_std.mean()))
print('X_train Std: {before:>6.3f} -> {after:>6.3f}'.format(before=X_test.std(), after=X_test_std.std()))