## 特徴量のスケーリング

### データの準備

In [4]:
import numpy 
import pandas
from IPython.core.display import display

data = {'name': ['Ryo', 'Kaori', 'Hideyuki', 'Hayato', 'Miki', 'Saeko'],  # 名前
        'gender': ['M', 'F', 'M', 'M', 'F', 'F'],  # 性別
        'height': [186, 168, 175, 210, 160, 163],  # 身長
        'weight': [72, 47, 62, 90, None, numpy.NaN],  # 体重
        'age': [30, 20, None , numpy.NaN, 23, 25],  # 年齢
        'size': ['L', 'M', 'L', 'XL', None, 'S']  # 服のサイズ
        }

columns = ['name', 'gender', 'age', 'height', 'weight', 'size']
df = pandas.DataFrame(data, columns=columns)

display(df)

Unnamed: 0,name,gender,age,height,weight,size
0,Ryo,M,30.0,186,72.0,L
1,Kaori,F,20.0,168,47.0,M
2,Hideyuki,M,,175,62.0,L
3,Hayato,M,,210,90.0,XL
4,Miki,F,23.0,160,,
5,Saeko,F,25.0,163,,S


### データの抽出

In [10]:
X = df['height'].values
display(X)
# reshape(-1, 1)はStandardScalerに入力するために、numpy.arrayのshapeを変更
X = X.reshape(-1, 1)
display(X)
# astype(float) は numpy.array のデータタイプを float に変更
X = X.astype(float)
display(X)

array([186, 168, 175, 210, 160, 163])

array([[186],
       [168],
       [175],
       [210],
       [160],
       [163]])

array([[186.],
       [168.],
       [175.],
       [210.],
       [160.],
       [163.]])

### 標準化
- 平均値が（ほぼ）0、標準偏差が 1.0 となる

In [15]:
# StandardScaler を import して、X を標準化
from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
# fit_transform() は fit と transform を一気に行う
X_std = sc.fit_transform(X)

display(X_std)
print()
print('平均値', X_std.mean())
print('標準偏差', X_std.std())
# 平均値が（ほぼ）0、標準偏差が 1.0 となる

array([[ 0.5284982 ],
       [-0.5284982 ],
       [-0.11744404],
       [ 1.93782672],
       [-0.99827437],
       [-0.82210831]])


平均値 1.850371707708594e-17
標準偏差 1.0


### 正規化
- 特徴量を  [0,1]  の範囲にスケールし直す

In [20]:
# scikit-learn の MinMaxScalerを使用して正規化
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X_norm = scaler.fit_transform(X)

print(X_norm)
print()
print('最大値', X_norm.max())
print('最小値', X_norm.min())

[[0.52]
 [0.16]
 [0.3 ]
 [1.  ]
 [0.  ]
 [0.06]]

最大値 1.0
最小値 0.0
