<a href="https://colab.research.google.com/github/yukinaga/minnano_ds/blob/main/section_4/02_basic_statistics.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 基本的な統計量
基本的な統計量として、平均値、期待値、分散、標準偏差を解説します。

## ●平均値とは？

「平均値」は、複数の値の合計値を、値の数で割って求めます。  
以下は、$n$個の値の平均値を求める式です。  

$$ \begin{aligned} \\
\mu &= \frac{x_1 + x_2 + \cdots + x_n}{n} \\
&= \frac{1}{n}\sum_{k=1}^n x_k
\end{aligned} $$

例えば、Aさんの体重が60kg、Bさんは40kg、Cさんは55kg、Dさんが45kgであれば、4人の平均体重は以下の通りに計算できます。

$$\frac{60 + 40 + 55 + 44}{4} = 50(kg)$$

このような平均値は、複数の値からなるデータをの特徴を表す値の1つです。  

平均値は、NumPyの`average( )`関数（もしくは`mean( )`関数）により計算することができます。  

In [None]:
import numpy as np

x = np.array([55, 45, 60, 40])  # 平均をとるデータ

print(np.average(x))

In [None]:
# 練習用


## ●期待値とは？

試行の結果、以下の値のうちいずれかが得られるものとします。

$$x_1,x_2,\cdots ,x_n$$

それぞれの値は、以下の確率で得られるものとします。

$$P_1,P_2,\cdots ,P_n$$

このとき、値と確率の積の総和として表される値$E$は、「期待値」と呼ばれます。

$$E=\sum_{k=1}^n P_kx_k$$

期待値とは、「得られる値の見込み」と表現することができます。  
例えば、宝くじにより80%の確率で10円が、15%の確率で100円が、5%の確率で1000円が当たる場合、この宝くじの期待値は以下の通りです。

$$ \begin{aligned} \\
E &= 0.8\times 10 + 0.15\times 100 + 0.05\times 1000\\
&= 73
\end{aligned} $$

この宝くじの期待値は73円であり、くじを引くことで73円程度の収益が見込まれることになります。宝くじを購入を判断する際の目安になりますね。  

期待値は、以下のように確率と値の積の総和で計算することができます。

In [None]:
import numpy as np

p = np.array([0.8, 0.15, 0.05])  # 確率
x = np.array([10, 100, 1000])  # 値

print(np.sum(p*x))  # 期待値

In [None]:
# 練習用


## ●平均値と期待値の関係

値が重複する場合、平均値は以下のような式で表されます。  

（式 1）
$$ \frac{1}{n}\sum_{k=1}^m n_kx_k $$

この式で、$n$は値の総数、$n_k$は$x_k$の個数で、$m$は値の種類の数です。  
以下のように、$n_k$の総和は$n$となります。  

$$\sum_{k=1}^m n_k= n$$

ここで、（式 1）を以下のように変形します。

$$ \sum_{k=1}^m \frac{n_k}{n}x_k $$

$\frac{n_k}{n}$はその値が選択される確率なので、$P_k$とおきます。これにより、上記の式は以下の形になります。

$$ \sum_{k=1}^m P_k x_k $$

期待値の式と全く同じになりました。  
実は、平均値と期待値は同じ概念を表しています。  

## ●分散とは？

「分散」は値のばらつき具合を表す指標で、以下の$V$で表されます。

$$V=\frac{1}{n}\sum_{k=1}^n (x_k-\mu)^2$$

この式において、$n$は値の総数、$x_k$は値、$\mu$は平均値です。  
平均値との差を2乗し、平均をとっています。  

例えば、Aさんの体重が60kg、Bさんは40kg、Cさんは55kg、Dさんが45kgであれば、分散は以下ように計算されます。

$$\mu = \frac{60+40+55+45}{4}=50(kg)$$

$$V=\frac{(60-50)^2+(40-50)^2+(55-50)^2+(45-50)^2}{4}=62.5(kg^2)$$

次に、Aさんの体重が48kg、Bさんは49kg、Cさんは52kg、Dさんが51kgの場合の分散を計算します。  
先程と比べて、値のばらつきが小さくなっています。  

$$\mu = \frac{48+49+52+51}{4}=50(kg)$$

$$V=\frac{(48-50)^2+(49-50)^2+(52-50)^2+(51-50)^2}{4}=2.5 (kg^2)$$

こちらの場合の方が、分散が小さくなっていることが確認できます。  

分散は、NumPyの`var( )`関数で計算することができます。  

In [None]:
import numpy as np

# 分散をとるデータ
x_1 = np.array([60, 40, 55, 45]) 
x_2 = np.array([48, 49, 52, 51]) 

# 分散の計算
print(np.var(x_1))
print(np.var(x_2))

In [None]:
# 練習用


## ●標準偏差とは？

「標準偏差」は、分散と同じく値のばらつき具合の指標です。標準偏差$\sigma$は、以下のように分散の平方根をとることにより求めます。  

$$\sigma = \sqrt V=\sqrt{\frac{1}{n}\sum_{k=1}^n (x_k-\mu)^2}$$

例えば、Aさんの体重が60kg、Bさんは40kg、Cさんは55kg、Dさんが45kgであれば、標準偏差は以下ように計算されます。

$$\mu = \frac{60+40+55+45}{4}=50 (kg)$$

$$\sigma=\sqrt{\frac{(60-50)^2+(40-50)^2+(55-50)^2+(45-50)^2}{4}}\fallingdotseq7.91 (kg
)$$

次は、値のばらつきがより小さいケースです。Aさんの体重が48kg、Bさんは49kg、Cさんは52kg、Dさんが51kgとします。    

$$\mu = \frac{48+49+52+51}{4}=50(kg)$$

$$\sigma=\sqrt{\frac{(48-50)^2+(49-50)^2+(52-50)^2+(51-50)^2}{4}}\fallingdotseq1.58 (kg
)$$

こちらのケースの方が、標準偏差が小さくなることが確認できました。  
標準偏差は単位の次元がデータと同じなので、値の散らばり具合を直感的に把握する際には標準偏差が適しています。  

標準偏差は、NumPyの`std( )`関数を使って計算することができます。

In [None]:
import numpy as np

# 標準偏差をとるデータ
x_1 = np.array([60, 40, 55, 45]) 
x_2 = np.array([48, 49, 52, 51]) 

# 分散の計算
print(np.std(x_1))
print(np.std(x_2))

In [None]:
# 練習用
