# 正規分布
正規分布（normal distribution）はガウス分布（Gaussian distribution）とも呼ばれ、自然界や人間の行動・性質など様々な現象に対してよく当てはまるデータの分布です。  
例えば、製品のサイズやヒトの身長、テストの成績などは正規分布におおよそ従います。  
ニューラルネトワークは多くの変動するパラメータを持っていますが、これらのパラメータの初期値は、しばしば正規分布に従ってランダムに決定されます。
今回は、平均値、分散、標準偏差を学んだ上で、正規分布を解説します。

## ●平均値
**平均値**は、複数の値を足し合わせて値の数で割って求めます。  
以下は、$n$個の値の平均を求める式です。  

$$ \begin{aligned} \\
\mu &= \frac{x_1 + x_2 + \cdots + x_n}{n} \\
&= \frac{1}{n}\sum_{k=1}^n x_k
\end{aligned} $$

例えば、Aさんの体重が55kg、Bさんは45kg、Cさんは60kg、Dさんが40kgであれば、4人の平均体重は以下の通りになります。

$$\frac{55 + 45 + 60 + 40}{4} = 50(kg)$$

平均値は、複数の値からなるデータを代表する値の1つです。

NumPyのaverage関数で、平均値を求めることができます。  

In [None]:
import numpy as np

x = np.array([55, 45, 60, 40])  # 平均をとるデータ

print(np.average(x))

## ●分散

分散は、以下の式の$V$で表されます。

$$V=\frac{1}{n}\sum_{k=1}^n (x_k-\mu)^2$$

この式において、$n$は値の数、$x_k$は値、$\mu$は平均値です。  
平均値との差を2乗し、平均をとっています。  

例えば、Aさんの体重が55kg、Bさんは45kg、Cさんは60kg、Dさんが40kgであれば分散は以下ように求めます。

$$\mu = \frac{55+45+60+40}{4}=50(kg)$$

$$V=\frac{(55-50)^2+(45-50)^2+(60-50)^2+(40-50)^2}{4}=62.5(kg^2)$$

次に、Aさんの体重が51kg、Bさんは49kg、Cさんは52kg、Dさんが48kgのケースで分散を求めます。  
このケースでは、全体的に値のばらつきが小さくなっています。  

$$\mu = \frac{51+49+52+48}{4}=50(kg)$$

$$V=\frac{(51-50)^2+(49-50)^2+(52-50)^2+(48-50)^2}{4}=2.5 (kg^2)$$

こちらのケースの方が分散が小さくなりました。
以上のように、分散は値のばらつき具合を表す指標です。

NumPyのvar関数で、分散を求めることができます。  

In [None]:
import numpy as np

x = np.array([55, 45, 60, 40])  # 分散をとるデータ

print(np.var(x))

## ●標準偏差

標準偏差は、以下のように分散の平方根により求めます。

$$\sigma = \sqrt V=\sqrt{\frac{1}{n}\sum_{k=1}^n (x_k-\mu)^2}$$

例えば、Aさんの体重が55kg、Bさんは45kg、Cさんは60kg、Dさんが40kgであれば標準偏差は以下ように求めます。

$$\mu = \frac{55+45+60+40}{4}=50 (kg)$$

$$\sigma=\sqrt{\frac{(55-50)^2+(45-50)^2+(60-50)^2+(40-50)^2}{4}}\fallingdotseq7.91 (kg
)$$

標準偏差も、分散と同様に値のばらつき具合の指標です。  
標準偏差は単位の次元が元の値と同じなので、値の散らばり具合を直感的に表現する際には標準偏差が適している場合が多いです。

標準偏差は、Numpyのstd関数を用いて求めることができます。

In [None]:
import numpy as np

x = np.array([55, 45, 60, 40])  # 標準偏差をとるデータ

print(np.std(x))

## ●正規分布
正規分布は、以下のような釣鐘型のグラフで表されます。

<img src="images/normal.png">

このグラフにおいて、横軸はある値を、縦軸はその値の頻度や確率を表します。  
$\mu$は平均値で分布の中央になり、$\sigma$は標準偏差で分布の広がり具合を表します。  

正規分布は、以下の確率密度関数と呼ばれる関数で表されます。  

$$ y=\frac{1}{ \sigma\sqrt{2\pi}}\exp(-\frac{(x-\mu)^2}{2\sigma ^2}) $$ 

少々複雑な式ですが、平均が0、標準偏差が1とすると次の比較的シンプルな形になります。

$$ y=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2}) $$ 

確率密度関数を使って、正規分布を描画しましょう。  

In [1]:
import numpy as np
import matplotlib.pyplot as plt
 
sigma = 1  # 標準偏差
mu = 0  # 平均値

x =np.linspace(-5, 5)
y = 1/(sigma*np.sqrt(2*np.pi))*np.exp(-(x-mu)**2 / (2*sigma**2))  # 確率密度関数

plt.plot(x, y)
plt.show()

<Figure size 640x480 with 1 Axes>