# 散布度

統計データにおいて，代表値の次に調べるものが散布度です．
散布度とは，データの散らばり具合を示す統計量です．
代表的な散布度として，次のものがあります．

- 標準偏差と分散
- 平均偏差
- 中央値絶対偏差
- 四分位範囲と四分位偏差

散布度を学習する前提として，対象とする変量を $x_1, x_2, \cdots, x_n$ とします．
その平均値を $\bar{x}$，中央値を $\tilde{x}$ とします．

*****
## 標準偏差と分散

一般的に標準偏差（Standard deviation）は $\sigma$ で表し，分散は ${\sigma}^2$ で表します．
記号が示すように，分散は標準偏差の2乗になっています．
考え方としては，分散が先に計算され，その平方根として標準偏差が計算されます．

> $$ {\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 $$

> $$ {\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2} $$


標準偏差と分散は，統計の理論において平均値と合わせて取り扱われます．

一般にベクトル空間の2点 $a$ と $b$ との距離を $\sqrt{(a-b)^2}$ によって求めますが，
この距離によってデータのバラツキを調べます．

与えられた$x_1,x_2,\cdots,x_n$について
$ \sum_{i=1}^{n}(x_i-y)^2 $ を最小にする $y$ を求めると，平均値になります．
すなわち，平均値は通常の距離によって測定した差分（分散）を最小にする中心になります．

### 標本の不偏標準偏差（$n$で割るか，$n-1$で割るか）

さて，分散および標準偏差の計算式として次式を用いることもあります．
これは，母集団からサンプリングした一部のデータについての散布度です．
これを不偏分散および不偏標準偏差と言います．

> $$ s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 $$

> $$ s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2} $$

標準偏差$\sigma$は使用するデータが母集団の全てのデータの場合，あるいは，その標本だけに注目する場合に使用します．  
不偏標準偏差はサンプリングしたデータから想定される母集団の標準偏差です．

*****
## 平均偏差

平均偏差（Mean absolute devision）とは，変量の各値 $x_i$ と平均値 $\bar{x}$ との差の絶対値の平均です．
平均偏差は，

> $$ \text{平均偏差} = \frac{1}{n}\sum_{i=1}^{n}\left| x_i-\bar{x} \right| $$

で定義されます．

平均偏差は単純で分かりやすい定義ですが，標準偏差のように平均値との論理的に適正な関係が無いので，あまり利用されません．

標準偏差の場合と同じように，$\sum_{i=1}^{n} \left| x_i-y \right|$ を最小にする $y$ を求めると，中央値になります．
そこで，平均偏差を中央値からの差の絶対値の平均 
$\frac{1}{n}\sum_{i=1}^{n} \left| x_i-\tilde{x} \right|$ 
で定義する案も考えられますが，中央値については，中央値絶対偏差という値が用いられるので，このような値も使われません．

*****
## 中央値絶対偏差

各データと中央値との差の絶対値を求め，これを昇順に並べます．
そして，その値の中央値を中央値絶対偏差（Median absolute deviation）と言います．

> $$ y_j = \left| x_{i(j)}-\tilde{x} \right| $$

> $$ y_1 \le y_2 \le \cdots \le y_n $$

> 
$$ \text{中央値絶対偏差} = 
\begin{eqnarray}
  \begin{cases}
    y_{m} & ,m=\frac{n+1}{2} & \text{if} & n \ \text{is even} \\
    \frac{y_{m}+y_{m+1}}{2} & ,m=\frac{n}{2} & \text{if} & n \ \text{is odd} \\
  \end{cases}
\end{eqnarray}
$$

このように中央値絶対偏差は，偏差の定義に関しても中央値の理論と整合性をとっています．


*****
## 四分位範囲と四分位偏差

まず，昇順に並べたデータについて四分位数を求めます．

|   % | 名称 ||
|:---:|:---:|:---:|
|   0 |最小値 |
|  25 |第1四分位数 |
|  50 |中央値|
|  75 |第3四分位数 |
| 100 |最大値 |

ここで第1四分位数を $Q_{1/4}$，第3四分位数を $Q_{3/4}$ と書くと，
四分位範囲（interquartile range）と四分位偏差は，

> $$ \text{四分位範囲} = Q_{3/4}-Q_{1/4} $$

> $$ \text{四分位偏差} = \frac{1}{2}(Q_{3/4}-Q_{1/4}) $$

で定義されます．
これらの数値は，箱ひげ図を作成するときに利用します．

*****
## 外れ値

データの分布において，中心から大きく外れている値を外れ値（Outliers）と言います．
外れ値の定義は，統計手法の取り方によって異なります．

### 推測統計における外れ値

推測統計は，正規分布，平均，分散によって理論が構築されています．
したがって，外れ値の定義も平均値から標準偏差でどれくらい離れているかという尺度となります．

> $$ \text{外れ値} = \{ x_i ; \ \left| x_i-\bar{x} \right| > k\sigma  \} $$

ここで $k$ は適当な正の数で，その値はデータ分析者がそれらのデータを扱う場合の慣例で決めます．

### 四分位数における外れ値

四分位数から箱ひげ図を作成しますが，そのときの外れ値は次のように定義します．

> $$ \text{外れ値} = \{ x_i ; \ x_i < Q_{1/4}-1.5{\times}\text{IQR} \ \lor \ x_i > Q_{3/4}+1.5{\times}\text{IQR} \} $$

ここでIQRは四分位範囲です．
IQRの係数として $1.5$ 以外の値を使用することも可能で，この係数もデータ分析者の裁量です．

*****