# 重要な代表値

分布する一塊の数値データの特徴を1つのデータで表すものを代表値と言います．
よく知られている代表値としては次のものがあります．

- 平均値
- 中央値
- 最頻値

この説明で扱うデータの件数を $n$ として，変量の値を $x_1, x_2, \cdots, x_n$ と表します．

*****
## 平均値

変量の値の総和をデータ件数で割った値を<font color=blue>平均値</font>と言います．
平均値 $\bar{x}$ はつぎの式で求まります．
なお，平均値を表す記号として，$\mu$ を使うこともあります．

>  
$$ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i = \frac{x_1+x_2+{\cdots}+x_n}{n} $$

### 平均値の例

次のデータの平均値を計算します．

|index|value|
|:---:|:---:|
| a | 1 |
| b | 2 |
| c | 2 |
| d | 3 |
| e | 4 |

ここでデータの個数は 5個です．
平均値$\bar{x}$は，

$$ \bar{x} = \frac{1+2+2+3+4}{5} = 2.4 $$

となります．

******
## 中央値

データ全体を昇順に並べたときに真ん中にあるデータの値を<font color=blue>中央値</font>と言います．
ただし，データ全体の個数が奇数の場合と偶数の場合では求め方が異なります．

データを $x_1 \le x_2 \le \cdots \le x_n$ としたとき，

$$ \tilde{x} = 
\begin{eqnarray}
  \begin{cases}
    x_{m} & ,m=\frac{n+1}{2} & \text{if} & n \ \text{is odd} \\
    \frac{x_{m}+x_{m+1}}{2} & ,m=\frac{n}{2} & \text{if} & n \ \text{is even} \\
  \end{cases}
\end{eqnarray}
$$

### 奇数の場合

データ件数が奇数の場合，$m \in \mathbb{N}$があって $n= 2m-1$ となります．
このとき，中央値 $\tilde{x}$は，

>  
$$ \tilde{x} = x_{m} $$


### 偶数の場合

データ件数が偶数の場合，$m \in \mathbb{N}$があって $n= 2m$ となります．
このとき，中央値 $\tilde{x}$は，

>  
$$ \tilde{x} = \frac{x_{m}+x_{m+1}}{2} $$


### 中央値の例（奇数の場合）

次のデータの平均値を計算します．

|index|value|
|:---:|:---:|
| a | 1 |
| b | 2 |
| c | 2 |
| d | 3 |
| e | 4 |

このデータは昇順に並んでいます．
データの個数は5個で奇数になっています．
したがって，真ん中の値は3番目のcの値となります．

$$ \tilde{x} = 2 $$

### 中央値の例（偶数の場合）

次のデータの平均値を計算します．
前のデータに1個だけ大きなデータを追加しました．

|index|value|
|:---:|:---:|
| a | 1 |
| b | 2 |
| c | 2 |
| d | 3 |
| e | 4 |
| f | 99 |

このデータは昇順に並んでいます．
データの個数は6個で奇数になっています．
したがって，真ん中の値は3番目のcの値と4番目のdの値の平均となります．

$$ \tilde{x} = \frac{2+3}{2} = 2.5 $$

ここで注目すべきことは，最大値がどんなに大きくても中央値が大きく振れることがありません．
最小値についても同様です．
すなわち，中央値は外れ値の影響を受けない代表値と言えます．

*****
## 最頻値

最頻値は，平均値や中央値とことなり<font color=blue>度数分布表を前提</font>としています．
度数分布表において，度数が最も大きい階級値を<font color=blue>最頻値</font>と言います．

$\hat{x}_1, \hat{x}_2,\cdots, \hat{x}_m$ を階級値として，対応する度数を
$r_1, r_2, \cdots, r_m$ としたとき，最頻値$\hat{x}$は，

>  
$$ \hat{x}=\hat{x}_k \ ; \ r_k \ge r_j \ (\ j=1,\cdots,m) $$

定義により，最頻値が複数になる場合もあります．

### 最頻値の例

次のデータの最頻値を求めます．

|index|value|
|:---:|:---:|
| a | 1 |
| b | 2 |
| c | 2 |
| d | 3 |
| e | 4 |
| f | 4 |

最頻値を求めるために，度数分布表を作成します．
階級の幅については，離散的な値なので 1 とし，階級値を 1,2,3,4 とします．

|階級値|度数|
|:---:|:---:|
| 1 | 1 |
| 2 | 2 |
| 3 | 1 |
| 4 | 2 |

この度数分布表を見ると最大度数は 2 で，この場合の階級値が 2 と 4 の2つの値となっています．

$$ \hat{x} = 2,4 $$


*****