# Pythonによる分散と標準偏差

Pythonでは分散と標準偏差を求める方法が幾つか提供されています．
しかし，使用するライブラリーによって，異なる定義を採用しているので，使用の際は注意が必要です．

### データ件数で割る場合
- 母分散，標本分散
- 母標準偏差，標本標準偏差

### データ件数マイナス1 で割る場合
- 不偏分散
- 不偏標準偏差

これらを区別して，計算方法を確認します．

## Pythonでの分散の計算方法

Pythonで分散を計算する方法をまとめた表です．

| | 母分散，標本分散 | 不偏分散 |
|:---:|:---:|:---:|
| 計算式 | $${\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2$$ | $$ s^2= \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$$ |
| NumPy  | <font face='courier new'>np.var(data)</font> | <font face='courier new'>np.var(data,ddof=1)</font> | 
| Pandas | <font face='courier new'>df.data.var(ddof=0)</font> | <font face='courier new'>df.data.var()</font> |
| Statistics | <font face='courier new'>stat.pvariance(data)</font> | <font face='courier new'>stat.variance(data)</font> |

この表において，data は配列で与えられたデータです．
df はデータフレームで，その中のカラム data が対象となるデータです．
また，ddof は計算式の分母のデータ件数から引く数値を与えます．

## Pythonでの標準偏差の計算方法

Pythonで標準偏差を計算する方法をまとめた表です．

| | 母標準偏差，標本標準偏差 | 不偏標準偏差 |
|:---:|:---:|:---:|
| 計算式 | $${\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2}$$ | $$s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2}$$ |
| NumPy  | <font face='courier new'>np.std(data)</font> | <font face='courier new'>np.std(data,ddof=1)</font> | 
| Pandas | <font face='courier new'>df.data.std(ddof=0)</font> | <font face='courier new'>df.data.std()</font> |
| Statistics | <font face='courier new'>stat.pstdev(data)</font> | <font face='courier new'>stat.stdev(data)</font> |

この表において，data は配列で与えられたデータです．
df はデータフレームで，その中のカラム data が対象となるデータです．
また，ddof は計算式の分母のデータ件数から引く数値を与えます．

### ddof のデフォルト値

分散の計算式において，分母から引く数をオプションパラメータ **<font face='courier new' color='blue'>ddof</font>** によって与えますが，
このデフォルト値がNumPyとPandasでは異なっています．

|ライブラリー| ddof デフォルト値 |
|:---:|:---:|
| NumPy | 0 |
| Pandas| 1 |

したがって，NumPyとPandasの分散や標準偏差を混在して利用すると混乱が生じる危険があります．
そこで，標本値か不偏値かを明確にするために，ddofをデフォルトで使用せず，明示的に値を与える事を推奨します．

*****
まず，これから使用するライブラリーを搬入します．

```Python
import numpy as np
import pandas as pd
import statistics as stat
```

In [1]:
import numpy as np
import pandas as pd
import statistics as stat

分散と標準偏差の計算を具体的に実施するためのデータを配列で用意します．

```Python
data = [1,2,3,4,5,6,7,8,9]
data
```

In [2]:
data = [1,2,3,4,5,6,7,8,9]
data

[1, 2, 3, 4, 5, 6, 7, 8, 9]

一つの計算方法として，pandasのデータフレームを使用するので，作成したは列データをデータフレームに変換します．

```Python
df = pd.DataFrame(data,columns=['data'])
df
```

In [3]:
df = pd.DataFrame(data,columns=['data'])
df

Unnamed: 0,data
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9


*****
## 母分散，標本分散

母分散，標本分散を定義式に沿って計算します．

```Python
average = sum(data)/len(data)
sample_variance = sum((a-average)**2 for a in data)/len(data)
sample_variance
```

In [4]:
average = sum(data)/len(data)
sample_variance = sum((a-average)**2 for a in data)/len(data)
sample_variance

6.666666666666667

NumPyのvar()関数を用いた母分散，標本分散の計算方法です．
この命令において，ddof=0はデフォルトなので記載しなくても大丈夫ですが，分散の定義を明示的に表しています．

```Python
np.var(data,ddof=0)
```

In [5]:
np.var(data,ddof=0)

6.666666666666667

pandasのデータフレームにおけるvar()メソッドを用いた母分散，標本分散の計算方法です．

```Python
df.data.var(ddof=0)
```

In [6]:
df.data.var(ddof=0)

6.666666666666667

statisticsライブラリーのpvariance()関数を用いた母分散，標本分散の計算方法です．

```Python
stat.pvariance(data)
```

In [7]:
stat.pvariance(data)

6.666666666666667

*****
## 母標準偏差，標本標準偏差

母標準偏差，標本標準偏差は標本分散の平方根として定義されています．

```Python
sample_std = sample_variance**(1/2)
sample_std
```

In [8]:
sample_std = sample_variance**(1/2)
sample_std

2.581988897471611

NumPyのstd()関数を用いた母標準偏差，標本標準偏差の計算方法です．
この命令において，ddof=0はデフォルトなので記載しなくても大丈夫ですが，標準偏差の定義を明示的に表しています．

```Python
np.std(data,ddof=0)
```

In [9]:
np.std(data,ddof=0)

2.581988897471611

pandasのデータフレームにおけるstd()メソッドを用いた母標準偏差，標本標準偏差の計算方法です．

```Python
df.data.std(ddof=0)
```

In [10]:
df.data.std(ddof=0)

2.581988897471611

statisticsライブラリーのpstdev()関数を用いた母標準偏差，標本標準偏差の計算方法です．

```Python
stat.pstdev(data)
```

In [11]:
stat.pstdev(data)

2.581988897471611

*****
## 不偏分散

まずは，不偏分散を定義式に沿って計算します．

```Python
average = sum(data)/len(data)
unviased_variance = sum((a-average)**2 for a in data)/(len(data)-1)
unviased_variance
```

In [12]:
average = sum(data)/len(data)
unviased_variance = sum((a-average)**2 for a in data)/(len(data)-1)
unviased_variance

7.5

NumPyのvar()関数を用いた不偏分散の計算方法です．

```Python
np.var(data,ddof=1)
```

In [13]:
np.var(data,ddof=1)

7.5

pandasのデータフレームにおけるvar()メソッドを用いた不偏分散の計算方法です．
この命令において，ddof=1はデフォルトなので記載しなくても大丈夫ですが，分散の定義を明示的に表しています．

```Python
df.data.var(ddof=1)
```

In [14]:
df.data.var(ddof=1)

7.5

statisticsライブラリーのpvariance()関数を用いた不偏分散の計算方法です．

```Python
stat.variance(data)
```

In [15]:
stat.variance(data)

7.5

*****
## 不偏標準偏差

不偏標準偏差は不偏分散の平方根として定義されています．

```Python
unviased_std = unviased_variance**(1/2)
unviased_std
```

In [16]:
unviased_std = unviased_variance**(1/2)
unviased_std

2.7386127875258306

NumPyのstd()関数を用いた不偏標準偏差の計算方法です．

```Python
np.std(data,ddof=1)
```

In [17]:
np.std(data,ddof=1)

2.7386127875258306

pandasのデータフレームにおけるstd()メソッドを用いた不偏標準偏差の計算方法です．
この命令において，ddof=1はデフォルトなので記載しなくても大丈夫ですが，標準偏差の定義を明示的に表しています．

```Python
df.data.std(ddof=1)
```

In [18]:
df.data.std(ddof=1)

2.7386127875258306

statisticsライブラリーのstdev()関数を用いた不偏標準偏差の計算方法です．

```Python
stat.stdev(data)
```

In [19]:
stat.stdev(data)

2.7386127875258306

*****
## 平均偏差と中央値絶対偏差

平均偏差と中央値絶対偏差について，データフレームにおける計算方法を示します．

平均偏差の計算方法は次のようになります．

```Python
(df.data-df.data.mean()).abs().mean()
```

In [20]:
(df.data-df.data.mean()).abs().mean()

2.2222222222222223

中央値絶対偏差のデータフレームにおける計算方法は次のようになります．

```Python
(df.data-df.data.median()).abs().median()
```

In [21]:
(df.data-df.data.median()).abs().median()

2.0

*****
