# 1-4　データの正規化

### データの正規化とは
様々なデータを扱うためにはデータを統一的に評価する方法が必要になる. データの正規化はデータ解析の典型的な手法である.

### 標準化
あるデータから平均を引き、標準偏差で割る操作を標準化(z-score normalization)という. また、標準化されたデータは基準化変量やZスコアと呼ばれることもある. 各数値を$x_{i}$、平均値を$\bar{x}$、標準偏差を$\sigma$、そして$x_{i}$を標準化したものを$z_{i}$とすると
\begin{equation}
\ z_{i} = \frac{x_{i} - \bar{x}}{\sigma}
\end{equation}
と表せる.

### 偏差値
偏差値は平均が50、標準偏差が10になるように正規化した値のことをいう. 偏差値はTスコアとも呼ばれる. 各数値を$x_{i}$、平均値を$\bar{x}$、標準偏差を$\sigma$、そして$x_{i}$を標準化したものを$t_{i}$とすると
\begin{equation}
\ t_{i} = 50 + 10 × \frac{x_{i} - \bar{x}}{\sigma}
\end{equation}
と表せる.

***

### このページの流れ
このページでは正規化についての説明をする. 例として1-3で使用したデータと同じ学生のテストの点数を使って話を行う. 

***

### ➀標準化を行う
では、実際のデータを標準化してみる. まず、10人のテストの点数で標準化を行う. 1-3と同様の流れでcsvファイルの読み込みを行い、その後標準化したデータの値を確認する. 

In [1]:
import numpy as np
import pandas as pd
import random
from decimal import Decimal, ROUND_HALF_UP

In [2]:
#csvファイルの読み込みを行う。
df = pd.read_csv('data/suugaku.csv',
                 index_col='生徒番号')
#１0人分の数学のデータを使う
scores = np.array(df['数学'])[:10]

In [3]:
#それぞれのデータに名前を付ける
scores_df = pd.DataFrame({'点数':scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E',
                                         'F', 'G', 'H', 'I', 'J'],
                                        name='生徒'))
scores_df

Unnamed: 0_level_0,点数
生徒,Unnamed: 1_level_1
A,53
B,54
C,48
D,50
E,28
F,58
G,48
H,73
I,46
J,45


In [4]:
z1 = (scores - np.mean(scores)) / np.std(scores)
z2 = np.round(z1, decimals=2)
z2

array([ 0.25,  0.35, -0.21, -0.03, -2.08,  0.72, -0.21,  2.12, -0.4 ,
       -0.49])

In [5]:
scores_df['標準値'] = z2
scores_df

Unnamed: 0_level_0,点数,標準値
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1
A,53,0.25
B,54,0.35
C,48,-0.21
D,50,-0.03
E,28,-2.08
F,58,0.72
G,48,-0.21
H,73,2.12
I,46,-0.4
J,45,-0.49


***

### ➁偏差値
次に偏差値を求める. 定義に従って10人のテストの点数の偏差値を求めてみる. 

In [6]:
z3 = 50 + 10 * (scores - np.mean(scores)) / np.std(scores)
z4 = np.round(z3, decimals=2)
z4

array([52.52, 53.45, 47.86, 49.72, 29.21, 57.18, 47.86, 71.17, 45.99,
       45.06])

In [7]:
scores_df['偏差値'] = z4
scores_df

Unnamed: 0_level_0,点数,標準値,偏差値
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,53,0.25,52.52
B,54,0.35,53.45
C,48,-0.21,47.86
D,50,-0.03,49.72
E,28,-2.08,29.21
F,58,0.72,57.18
G,48,-0.21,47.86
H,73,2.12,71.17
I,46,-0.4,45.99
J,45,-0.49,45.06


***

### まとめ
このページではデータの正規化を扱った. データの正規化の代表的な手段である標準化、偏差値の定義を説明し、実際にデータセットを使ってそれらを求めた. データを標準化することで各データが全体に対してどこ位置するかが分かりやすくなる. データの正規化はデータのスケールを合わせる、スケーリングとして使われている.

***

### おまけ
ところで、このページでは正規化に関する説明を行ってないが正確に言えば正規化（Normalization）と標準化(z-score normalization)は違うものである. 正規化はMin-Max法とも呼ばれ、データの最小値からの偏差をデータ範囲で割る操作を行う. 実測値を$x_{i}$、最小値を$min{(x)}$、最大値を$max{(x)}$、$x_{i}$を正規化したものを$x'_{i}$とすると
\begin{equation}
\ x'_{i} = \frac{x_{i} - \min{(x)}}{\max{(x)}-\min{(x)}}
\end{equation}
で表せる. データを正規化すると、データ全体の期待値は0、分散は1になる. なぜこのページで正規化を使わなかったかというと、正規化はデータの最小値と最大値が明らかでないと使えないからである. また、正規化は最大値と最小値を使って計算する手法であるため、外れ値に弱い. つまり、実測値の最大値や最小値がすぐに分からない、そして外れ値の存在が想定できる場合には標準化を使うほうがよい. 正規化と標準化が違うものであることは注意してほしい.