# 変量のスケール変換

データ分析において，各変量はそれぞれ独自のスケールでデータが分布しています．
データを分析する上で見通しを良くするために変量のスケールを変換して統一することがあります．
ここでは，代表的なスケール変化として次のものを紹介します．

- 標準化変量
- 偏差値
- 正規化

## 標準化変量

変量の平均値と標準偏差が求まった後，変数変換によってデータの分布を平均値が $0$ で標準偏差が $1$ になるようにした変量を標準化変量と言います．
標準化変量を求める式では標準偏差で割っているので，元の変数は固定値でないことが標準化の前提条件となります．

- データ：$x_1,x_2,\cdots,x_n$  
- 平均値：$\mu$  
- 標準偏差：$\sigma$  

としたときに，標準化変量 $y_1,y_2,\cdots,y_n$ を次のように定義します．

> $$ y_i = \frac{x_i-\mu}{\sigma} $$

標準化変量に変換するメリットは，異なるスケールの変量の分布を同じグラフで比較できることです．

## 偏差値

偏差値は平均値が $50$ で標準偏差が $10$ になるように変数変換したものです．
偏差値は標準化変量から次式でもとめることができます．

> $$ z_i = 10y_i+50 $$

偏差値は学校教育の現場で頻繁に利用されています．

## 正規化

正規化とは機械学習でよく用いられる手法で，データの最小値を $0$ とし，最大値を $1$ にする変数変換です．

> $$ w_i = \frac{x_i-\min(x)}{\max(x)-\min(x)} $$

*****
## Pythonによるスケール変換の例

標準化および正規化は簡単な計算式で実施することができますので，NumPyおよびPandasライブラリーだけで変換する方法を確認します．  
まず，NumPyおよびPandasライブラリーを搬入します．

```Python
import numpy as np
import pandas as pd
```

In [1]:
import numpy as np
import pandas as pd

試行用の配列データを定義します．

```Python
data =[2,6,8,16,18]
data
```

In [2]:
data =[2,6,8,16,18]
data

[2, 6, 8, 16, 18]

*****
## NumPyにおける変換

NumPyのArrayには，平均値，標準偏差，最大値，最小値を求める関数として，
<font face='courier new' color='green'>mean(), std(), max(), min()</font> が提供されています．
これらを利用するためにデータをNumPyのArrayに変換します．

```Python
array = np.array(data)
array
```

In [3]:
array = np.array(data)
array

array([ 2,  6,  8, 16, 18])

元データを与えて，それぞれの定義に従って標準化変量，偏差値，正規化を実施します．

```Python
std_variate = (array-array.mean())/array.std(ddof=0)
std_score = 10*std_variate+50
normalize = (array-array.min())/(array.max()-array.min())
```

In [4]:
std_variate = (array-array.mean())/array.std(ddof=0)
std_score = 10*std_variate+50
normalize = (array-array.min())/(array.max()-array.min())

生成した標準化変量，偏差値，正規化データを印字して確認します．

```Python
print('データ：',array)
print('標準化：',std_variate)
print('偏差値：',std_score)
print('正規化：',normalize)
```

In [5]:
print('データ：',array)
print('標準化：',std_variate)
print('偏差値：',std_score)
print('正規化：',normalize)

データ： [ 2  6  8 16 18]
標準化： [-1.31876095 -0.65938047 -0.32969024  0.98907071  1.31876095]
偏差値： [36.81239053 43.40619527 46.70309763 59.8907071  63.18760947]
正規化： [0.    0.25  0.375 0.875 1.   ]


*****
## Pandasにおける変換

まず試行用の配列データからデータフレームを生成します．

```Python
df = pd.DataFrame(data,columns=['data'])
df
```

In [6]:
df = pd.DataFrame(data,columns=['data'])
df

Unnamed: 0,data
0,2
1,6
2,8
3,16
4,18


データフレームに付随する平均値，標準偏差，最大値，最小値のメソッドを利用して，定義に従って標準化変量，偏差値，正規化を実施します．

```Python
df['std_variate'] = (df.data-df.data.mean())/df.data.std(ddof=0)
df['std_score'] = 10*df.std_variate+50
df['normalize'] = (df.data-df.data.min())/(df.data.max()-df.data.min())
df
```

In [7]:
df['std_variate'] = (df.data-df.data.mean())/df.data.std(ddof=0)
df['std_score'] = 10*df.std_variate+50
df['normalize'] = (df.data-df.data.min())/(df.data.max()-df.data.min())
df

Unnamed: 0,data,std_variate,std_score,normalize
0,2,-1.318761,36.812391,0.0
1,6,-0.65938,43.406195,0.25
2,8,-0.32969,46.703098,0.375
3,16,0.989071,59.890707,0.875
4,18,1.318761,63.187609,1.0


*****
## SciPy, Scikit-learnによる変換

SciPyやScit-learnには変量を標準化する関数が用意されています．
それらを利用した方法について確認します．  
そのために，これらのライブラリーを搬入します．

```Python
import scipy.stats
from sklearn import preprocessing
```

In [8]:
import scipy.stats
from sklearn import preprocessing

SciPyライブラリーでは，<font face='courier new' color='green'>scipy.stats.zscore()</font>関数によって，標準化することができます．

```Python
scipy.stats.zscore(data,ddof=0)
```

In [9]:
scipy.stats.zscore(data,ddof=0)

array([-1.31876095, -0.65938047, -0.32969024,  0.98907071,  1.31876095])

Scikit-learnライブラリーでは<font face='courier new' color='green'>preprocessing.scale()</font> によって標準化することができます．

```Python
preprocessing.scale(data)
```

In [10]:
preprocessing.scale(data)

array([-1.31876095, -0.65938047, -0.32969024,  0.98907071,  1.31876095])

一般的には，複数の変量を標準化するので，
<font face='courier new' color='green'>preprocessing.StandardScaler()</font> 関数が使用されます．  
ただし1変量の場合は，NumPyの配列を<font face='courier new' color='green'>reshape(-1,1)</font> メソッドによって2次元配列に変換する必要があります．

```Python
preprocessing.StandardScaler().fit_transform(array.reshape(-1,1))
```

In [11]:
preprocessing.StandardScaler().fit_transform(array.reshape(-1,1))

array([[-1.31876095],
       [-0.65938047],
       [-0.32969024],
       [ 0.98907071],
       [ 1.31876095]])

Scikit-learnには正規化のために <font face='courier new' color='green'>preprocession.minmax_scale()</font> 関数が用意されています．

```Python
preprocessing.minmax_scale(data)
```

In [12]:
preprocessing.minmax_scale(data)

array([0.   , 0.25 , 0.375, 0.875, 1.   ])

変量の標準化や正規化は，複数の変量間の比較を容易にすることと，データ処理のプログラムを統一するためにもよく使われる方法です．

また，ここで紹介したスケール変換の他にも様々な手法が利用されています．

*****