# 特徴のスケーリング (feature scaling)

## min-max スケーリング

特徴の値を「0〜1」の範囲にスケーリングします。

$$
x_{norm}^{(i)} = \frac{ x^(i) - x_{min} }{ x_{max} - x_{min} }
$$

※$ x_{max} $ はxの最大値、 $ x_{min} $ は xの最小値


In [1]:
# Wineデータを取得
import lib
X_train, X_test, _, _ = lib.load_wine_data()

In [15]:
# MinMaxScalerを使ってスケーリングする
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()
X_train_norm = mms.fit_transform(X_train)
X_test_norm = mms.transform(X_test) # 学習したパラメータを使ってテストデータ・セットや新しいデータを変換する
print('Before:', X_train[0])
print('After:', X_train_norm[0])

Before: [  1.37100000e+01   1.86000000e+00   2.36000000e+00   1.66000000e+01
   1.01000000e+02   2.61000000e+00   2.88000000e+00   2.70000000e-01
   1.69000000e+00   3.80000000e+00   1.11000000e+00   4.00000000e+00
   1.03500000e+03]
After: [ 0.72043011  0.20378151  0.53763441  0.30927835  0.33695652  0.54316547
  0.73700306  0.25        0.40189873  0.24068768  0.48717949  1.          0.5854251 ]


## 標準化のスケーリング
特徴の値を平均値 0、標準偏差 1 となるように変換する

$$
x_{std}^{(i)} = \frac{ x^(i) - μ_x } { σ_x }
$$

※$ μ_{x} $ は特徴xの平均値、 $ σ_{x} $ は xの標準偏差

In [14]:
# StandardScalerを使ってスケーリングする
from sklearn.preprocessing import StandardScaler

stdsc = StandardScaler()
X_train_std = stdsc.fit_transform(X_train)
X_test_std = stdsc.transform(X_test) # 学習したパラメータを使ってテストデータ・セットや新しいデータを変換する
print('Before:', X_train[0])
print('After:', X_train_std[0])

Before: [  1.37100000e+01   1.86000000e+00   2.36000000e+00   1.66000000e+01
   1.01000000e+02   2.61000000e+00   2.88000000e+00   2.70000000e-01
   1.69000000e+00   3.80000000e+00   1.11000000e+00   4.00000000e+00
   1.03500000e+03]
After: [ 0.91083058 -0.46259897 -0.01142613 -0.82067872  0.06241693  0.58820446
  0.93565436 -0.7619138   0.13007174 -0.51238741  0.65706596  1.94354495
  0.93700997]


## min-max と 標準化違い

In [13]:
import numpy as np
import pandas as pd

input = np.array([0.0, 1.0, 2.0, 3.0, 4.0, 5.0])
input = input.reshape(-1, 1)
input_norm = mms.fit_transform(input)
input_std = stdsc.fit_transform(input)

X = np.hstack((input, input_norm, input_std))
df = pd.DataFrame(X)
df.columns = ['Input', 'Norm', 'Standard']
df

Unnamed: 0,Input,Norm,Standard
0,0.0,0.0,-1.46385
1,1.0,0.2,-0.87831
2,2.0,0.4,-0.29277
3,3.0,0.6,0.29277
4,4.0,0.8,0.87831
5,5.0,1.0,1.46385
