# その他の代表値

重要な代表値として平均値，中央値，最頻値を説明しましたが，その他にもよく使われる代表値があります．

- 最大値，最小値
- トリム平均
- 分位数：四分位数，パーセンタイル

*****
## 最大値，最小値

最大値は，そのデータ集合の中で最大の値です．
最小値は，そのデータ集合の中で最小の値です．

ここでデータを $x_1,x_2,\cdots,x_n$ とします．
最大値を $x_{max}$，最小値を $x_{min}$ とすると，

> $$ x_{max} \ge x_i \ (i=1,\cdots,n) $$

> $$ x_{min} \le x_i \ (i=1,\cdots,n) $$

が成り立ちます．

データを昇順にソートして，$x_1 \le x_2 \le \cdots \le x_n$ とすると，

> $$ x_{max} = x_n $$

> $$ x_{min} = x_1 $$

となります．

*****
## トリム平均

全データから最小値付近のデータと最大値付近のデータを取り除いたデータで平均をとった値をトリム平均と言います．
取り除くデータの個数に規定はありませんが，データ全体の件数と比較して少ない件数です．
最も単純な方法は，最小値と最大値を1つずつ取り除く方法です．

何かのノイズの影響を排除するために最小値側か最大値側のどちらかのデータを多く取り除くことも考えられます．
しかし，その場合は恣意的データ選択となるので，明確な説明を付随することが前提となります．

データを $x_1 \le x_2 \le \cdots \le x_n$ として，ここから上下の $k$個ずつ削除したトリム平均は次の計算式になります．

> $$ \text{トリム平均} = \frac{1}{n-2k} \sum_{i=k+1}^{n-k} x_i $$

取り除くデータ件数を増やしていき，残りのデータが1個か2個になったときのトリム平均は中央値に一致します．

*****
## Pythonによるトリム平均

Pythonにてトリム平均を求めるには，SciPyライブラリーの<font color=green>trim_mean()</font>関数を使用します．
まずは，SciPyライブラリーのstatsを搬入します．

```Python
from scipy import stats
```

In [1]:
from scipy import stats

テスト用のデータとして10個の値を持つリスト配列を用意します．

```Python
pretrim = [10,120,130,140,150,260,370,480,5900,7000]
```

In [2]:
pretrim = [10,120,130,140,150,260,370,480,5900,7000]

トリム平均は次の関数によって求めることができます．

> 
<font face='courier new'>
stats.trim_mean(data,proportionToCut)
</font>

引数の<font face='courier new'>proportionToCut</font>は，排除するデータの割合で0以上0.5未満の値です．
proportionToCut=0.1とすると最小値側の10%および最大値側の10%の合わせて20%のデータを排除します．

```Python
print(stats.trim_mean(pretrim,0))
print(stats.trim_mean(pretrim,0.1))
print(stats.trim_mean(pretrim,0.2))
print(stats.trim_mean(pretrim,0.3))
print(stats.trim_mean(pretrim,0.4))
```

In [3]:
print(stats.trim_mean(pretrim,0))
print(stats.trim_mean(pretrim,0.1))
print(stats.trim_mean(pretrim,0.2))
print(stats.trim_mean(pretrim,0.3))
print(stats.trim_mean(pretrim,0.4))

1456.0
943.75
255.0
230.0
205.0


*****
## 分位数

n個のデータについて K分位数とは，このデータを昇順にして同じ個数のK個のグループに分割します．
nとKとの関係としては，K $\ll$ n を想定します．
この最初の分割点のデータの値を第$1$K分位数と言います．
そして，m番目の分割点のデータの値を第$m$K分位数と言います．
このようにK個に分けると，K-1個の分位数が定まります．

分位数の代表的なものが四分位数とパーセンタイルです．
パーセンタイルは百分位数とも言います．
なお二分位数は中央値です．

分位数を定めるときの問題は，K個のグループに分けようとしても丁度切りの良い整数にならないことです．

## 分位数の定義

$m$K分位数によって，データ件数が$\frac{m}{K}:\frac{K-m}{K}$の比率になるように分けるのですが，
データ件数が少ない場合に定義の仕方によって差が生じる可能性があります．

まず，n個のデータが昇順に定義されているとします．

> $$ x_1 \le x_2 \le \cdots \le x_n $$

このデータに対して，**第$m$K分位数**の定義を記載します．
第$m$K分位数を $Q_{m/K}$ あるいは $K$を省略して $Q_m$ と表記します．
慣例として，四分位数の場合は$K$を省略して第1四分位数を$Q_1$のように表すことが多いです．

### 両端の値

分位数の定義の方針として，両端を次のように考えます．

> $$ Q_{0/K} = x_0 $$

> $$ Q_{K/K} = x_n $$

すなわち，$Q_{0/K}$ は最小値，$Q_{K/K}$ は最大値です．

### $Q_{m/K}$の定義

$0 \le m \le K$とします．


> $$ Q_{m/K} = x\left(\frac{m}{K}(n-1)+1\right) $$

ここで $t = t(m) = \frac{m}{K}(n-1)+1$ と置くと，
$t(0)=1$ かつ $t(K)=n$ となるので，
$1{\le}t{\le}n$ が成り立ちます．

ここで，関数 $x(t)$ を

> $$ x(t) = 
\begin{eqnarray}
  \begin{cases}
    x_t & \text{if} & t \in \mathbb{N} \\
    ({\lceil}t{\rceil}-t)x_{\lfloor t \rfloor} + (t-{\lfloor}t{\rfloor})x_{\lceil t \rceil} & \text{if} & t \notin \mathbb{N} \\
  \end{cases}
\end{eqnarray}
$$

とします．

### 床関数と天井関数

関数 $x(t)$ の定義において目新しい記号 ${\lfloor}t{\rfloor}$ および ${\lceil}t{\rceil}$ がありますが，
これは床関数と天井関数と言います．

$t \in \mathbb{R}$ に対して，

> $$ {\lfloor}t{\rfloor} = max\{ n \in \mathbb{N} \mid n \le t \} $$

> $$ {\lceil}t{\rceil}   = min\{ n \in \mathbb{N} \mid t \le n \} $$

すなわち，${\lfloor}t{\rfloor}$ は $t$ 以下の最大の整数です．
また， ${\lceil}t{\rceil}$ は $t$ 以上の最小の整数です．

*****
## 四分位数の例

データ件数が少ない場合を例にとって具体的な四分位数を求めます．

|$x_1$|$x_2$|$x_3$|$x_4$|$x_5$|$x_6$|
|:---:|:---:|:---:|:---:|:---:|:---:|
| 10  | 20  | 30  | 40  | 60  | 80  |

パラメータを確認します．

>  
- データ件数：$n=6$
- グループ数：$K=4$

### 第1四分位数

$$ \begin{eqnarray}
Q_{1/4} &=& x\left( \frac{1}{4}(6-1)+1 \right) \\ 
&=& x\left( 2.25 \right) \\
&=& ({\lceil}2.25{\rceil}-2.25)x_{\lfloor 2.25 \rfloor} + (2.25-{\lfloor}2.25{\rfloor})x_{\lceil 2.25 \rceil} \\
&=& (3-2.25)x_2 + (2.25-2)x_3 \\
&=& 0.75{\times}20 + 0.25{\times}30 \\
&=& 15+7.5 \\
&=& 22.5
\end{eqnarray} $$

### 第2四分位数（中央値）

$$ \begin{eqnarray}
Q_{2/4} &=& x\left( \frac{2}{4}(6-1)+1 \right) \\ 
&=& x\left( 3.5 \right) \\
&=& ({\lceil}3.5{\rceil}-3.5)x_{\lfloor 3.5 \rfloor} + (3.5-{\lfloor}3.5{\rfloor})x_{\lceil 3.5 \rceil} \\
&=& (4-3.5)x_3 + (3.5-3)x_4 \\
&=& 0.5{\times}30 + 0.5{\times}40 \\
&=& 15+20 \\
&=& 35
\end{eqnarray} $$

### 第3四分位数

$$ \begin{eqnarray}
Q_{3/4} &=& x\left( \frac{3}{4}(6-1)+1 \right) \\ 
&=& x\left( 4.75 \right) \\
&=& ({\lceil}4.75{\rceil}-4.75)x_{\lfloor 4.75 \rfloor} + (4.75-{\lfloor}4.75{\rfloor})x_{\lceil 4.75 \rceil} \\
&=& (5-4.75)x_4 + (4.75-4)x_5 \\
&=& 0.25{\times}40 + 0.75{\times}60 \\
&=& 10+45 \\
&=& 55
\end{eqnarray} $$

*****
## Pythonによる分位数

上記の四分位数の例をPythonで求めます．
PythonではNumPyのpercentile()関数を利用する方法とpandasのquantile()関数を利用する方法があります．
ここでは両者の方法で四分位数を求めます．

まず，NumPyライブラリーとpandasライブラリーを搬入します．

```Python
import numpy as np
import pandas as pd
```

In [4]:
import numpy as np
import pandas as pd

データをリスト配列で定義します．

```Python
data = [10,20,30,40,60,80]
```

In [5]:
data = [10,20,30,40,60,80]

まず<font color=green>numpy.percentile()</font>関数によって求めます．

```Python
np.percentile(data,[0,25,50,75,100])
```

In [6]:
np.percentile(data,[0,25,50,75,100])

array([ 10. ,  22.5,  35. ,  55. ,  80. ])

次に<font color=green>pandas.DataFrame.quantile()</font>関数によって求めます．

```Python
df = pd.DataFrame(data,columns=['data'])
df.quantile([0,0.25,0.5,0.75,1])
```

In [7]:
df = pd.DataFrame(data,columns=['data'])
df.quantile([0,0.25,0.5,0.75,1])

Unnamed: 0,data
0.0,10.0
0.25,22.5
0.5,35.0
0.75,55.0
1.0,80.0


両方とも定義通りの結果になっています．

*****