# 変量の標準化



## 標準化変量

変量の平均値と標準偏差が求まった後，変数変換によってデータの分布を平均値が $0$ で標準偏差が $1$ になるようにした変量を標準化変量と言います．
標準化変量を求める式では標準偏差で割っているので，元の変数は固定値でないことが標準化の前提条件となります．

- 元のデータ：$x_1,x_2,\cdots,x_n$  
- 元の平均値：$\mu$  
- 元の標準偏差：$\sigma$  

としたときに，標準化変量 $y_1,y_2,\cdots,y_n$ を次のように定義します．

> $$ y_i = \frac{x_i-\mu}{\sigma} $$

標準化変量に変換するメリットは，異なるスケールの変量の分布を同じグラフで比較できることです．

## 偏差値

偏差値は平均値が $50$ で標準偏差が $10$ になるように変数変換したものです．
偏差値は標準化変量から次式でもとめることができます．

> $$ z_i = 10y_i+50 $$

偏差値は学校教育の現場で頻繁に利用されています．

## 正規化

正規化とは機械学習でよく用いられる手法で，データの最小値を $0$ とし，最大値を $1$ にする変数変換です．

> $$ w_i = \frac{x_i-\min(x)}{\max(x)-\min(x)} $$

*****
## Pythonによる標準化の例

サンプルとしてnumpyの配列でデータを用意します．
numpyの配列には，平均値，標準偏差，最大値，最小値を求めるメソッド，<font color=green>mean(), std(), max(), min()</font> がありますので，
これらを利用して変数変換を行います．

まず，NumPyライブラリーを搬入します．

```Python
import numpy as np
```

In [1]:
import numpy as np

元データを与えて，それぞれの定義に従って標準化変量，偏差値，正規化を実施します．

```Python
x = np.array([2,6,8,16,18])
y = (x-x.mean())/x.std()
z = 10*y+50
w = (x-x.min())/(x.max()-x.min())
```

In [2]:
x = np.array([2,6,8,16,18])
y = (x-x.mean())/x.std()
z = 10*y+50
w = (x-x.min())/(x.max()-x.min())

生成した標準化変量，偏差値，正規化データを印字して確認します．

In [3]:
print('データ：',x)
print('標準化：',y.round(2))
print('偏差値：',z.round())
print('正規化：',w)

データ： [ 2  6  8 16 18]
標準化： [-1.32 -0.66 -0.33  0.99  1.32]
偏差値： [ 37.  43.  47.  60.  63.]
正規化： [ 0.     0.25   0.375  0.875  1.   ]


*****