 # 標準正規分布（平均 0, 標準偏差 1）の乱数とは
標準正規分布とは、平均値0、分散1の正規分布のことです。標準偏差は分散の平方根をとったものですから、
たとえば、ある試験でクラスの平均点が３０点としたら、それぞれの得点から平均点引いて２乗した値の平均値（分散）の平方根が標準偏差になります。
標準正規分布においては標準偏差は1となります。

数式で表すと次のようになります。  
$
\begin{align}
δ = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(xi-μ)^2} \\
\end{align}
$

np.random.rand(100, 1)とnp.random.randn(100, 1)を比較するとつぎのようになります。

In [1]:
import numpy as np
x = np.random.rand(100, 1)  # 0 〜 1 までの乱数を 100 個つくる

In [2]:
print("最大:", x.max())
print("最小:", x.min())
print("平均:", x.mean())
print("標準偏差:", x.std())

最大: 0.9963489636918176
最小: 0.004391227425335487
平均: 0.4892383884557894
標準偏差: 0.2939659092300828


In [3]:
import numpy as np
y = np.random.randn(100, 1)  # 標準正規分布（平均 0, 標準偏差 1）の乱数を加える

In [4]:
print("最大:", y.max())
print("最小:", y.min())
print("平均:", y.mean())
print("標準偏差:", y.std())

最大: 1.918382535021099
最小: -2.686427567648694
平均: -0.1296205152798984
標準偏差: 0.9262428749271687


## 標準化
単位や平均値などが異なるデータを平均値0、分散1の標準正規分布に変換することを標準化といいます。Zスコアという標準化の手法の例を以下に示します。 Zスコアとは、データセットの各要素から平均を引いて標準偏差で割ったものです。つまり、標準化されたデータセットは 平均が0で、標準偏差が1になります。

平均値: 30  標準偏差: 14.14 データセットを作成します

In [5]:
a = np.array([10,20,30,40,50])

In [6]:
print("最大値:", a.max())
print("最小値:", a.min())
print("平均値:", a.mean())
print("標準偏差:", a.std())

最大値: 50
最小値: 10
平均値: 30.0
標準偏差: 14.142135623730951


Zスコアの標準化では、まずデータセットの各要素から、データセットの平均値を引きます。これでデータセットの平均値は0になります。各要素の値は次のようになります。

In [7]:
a = a - a.mean()
print(a)

[-20. -10.   0.  10.  20.]


次に、データセットの標準偏差を出します。このデータセットの標準偏差は14.14です。

In [8]:
print("最大値:", a.max())
print("最小値:", a.min())
print("平均値:", a.mean())
print("標準偏差:", a.std())

最大値: 20.0
最小値: -20.0
平均値: 0.0
標準偏差: 14.142135623730951


Zスコアの標準化は、データセットの各要素から平均を引いて標準偏差で割ったものですから次のようになります。



In [9]:
z = a/a.std()
print(z)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


標準化したデータセット z は平均値は 0 標準偏差は 1 になります。

In [10]:
print("最大値:", z.max())
print("最小値:", z.min())
print("平均値:", z.mean())
print("標準偏差:", z.std())

最大値: 1.414213562373095
最小値: -1.414213562373095
平均値: 0.0
標準偏差: 0.9999999999999999


# 乱数の標準化
np.random.rand(100, 1) で生成される 0 〜 1 までの乱数を 100 個をZスコアで標準化してみましょう。

In [11]:
x = np.random.rand(100, 1)  # 0 〜 1 までの乱数を 100 個つくる
x = x - x.mean()
z = x/x.std()

In [12]:
print("最大値:", z.max())
print("最小値:", z.min())
print("平均値:", z.mean())
print("標準偏差:", z.std())

最大値: 1.9696361125677744
最小値: -1.5164962974269138
平均値: 3.219646771412954e-16
標準偏差: 1.0


# 偏差値 
試験や模試の結果で登場する「偏差値」も、この標準化した値を用いて次の式から求められます。偏差値は「平均が50点、標準偏差が10点」となるように、標準化した値に10をかけて50を足したものです。
###    50 + 10 * z
例えば、平均点:60、標準偏差14.4のテストで80点を取った人の偏差値はzで求めることができます。

In [13]:
A = np.array([40,40,50,50,60,60,70,70,80,80])
print("平均点:", A.mean())
print("標準偏差:", A.std())
z = (80 - A.mean())/A.std()
print("z:", z)
print("偏差値:", 50 + 10*z)

平均点: 60.0
標準偏差: 14.142135623730951
z: 1.414213562373095
偏差値: 64.14213562373095
