# 分位数

n個のデータについて K分位数とは，このデータを昇順にして同じ個数のK個のグループに分割します．
nとKとの関係としては，K $\ll$ n を想定します．
この最初の分割点のデータの値を第$1$K分位数と言います．
そして，m番目の分割点のデータの値を第$m$K分位数と言います．
このようにK個に分けると，K-1個の分位数が定まります．

分位数の代表的なものが<font color='green'>四分位数</font>と<font color='green'>パーセンタイル</font>です．
パーセンタイルは百分位数とも言います．
なお二分位数は中央値です．

分位数を定めるときの問題は，K個のグループに分けようとしても丁度切りの良い整数にならないことです．

## 分位数の定義

第$m$K分位数によって，データ件数が$\frac{m}{K}:\frac{K-m}{K}$の比率になるように分けるのですが，
データ件数が少ない場合に定義の仕方によって差が生じる可能性があります．

まず，$n$個のデータが昇順に定義されているとします．

> $$ x_1 \le x_2 \le \cdots \le x_n $$

このデータに対して，**第$m$K分位数**の定義を記載します．
第$m$K分位数を $Q_{m/K}$ あるいは $K$を省略して $Q_m$ と表記します．
慣例として，四分位数の場合は$K$を省略して第1四分位数を$Q_1$のように表すことが多いです．

### 両端の値

分位数の定義の方針として，両端を次のように考えます．

> $$ Q_{0/K} = x_1 $$

> $$ Q_{K/K} = x_n $$

すなわち，$Q_{0/K}$ は最小値，$Q_{K/K}$ は最大値です．

### $Q_{m/K}$の定義

$0 \le m \le K$とします．


> $$ Q_{m/K} = x\left(\frac{m}{K}(n-1)+1\right) $$

ここで $t = t(m) = \frac{m}{K}(n-1)+1$ と置くと，
$t(0)=1$ かつ $t(K)=n$ となるので，
$1{\le}t{\le}n$ が成り立ちます．

ここで，関数 $x(t)$ を

> $$ x(t) = 
\begin{eqnarray}
  \begin{cases}
    x_t & \text{if} & t \in \mathbb{N} \\
    ({\lceil}t{\rceil}-t)x_{\lfloor t \rfloor} + (t-{\lfloor}t{\rfloor})x_{\lceil t \rceil} & \text{if} & t \notin \mathbb{N} \\
  \end{cases}
\end{eqnarray}
$$

とします．

### 床関数と天井関数

関数 $x(t)$ の定義において目新しい記号 ${\lfloor}t{\rfloor}$ および ${\lceil}t{\rceil}$ がありますが，
これは床関数と天井関数と言います．

$t \in \mathbb{R}$ に対して，

> $$ {\lfloor}t{\rfloor} = max\{ n \in \mathbb{N} \mid n \le t \} $$

> $$ {\lceil}t{\rceil}   = min\{ n \in \mathbb{N} \mid t \le n \} $$

すなわち，${\lfloor}t{\rfloor}$ は $t$ 以下の最大の整数です．
また， ${\lceil}t{\rceil}$ は $t$ 以上の最小の整数です．

*****
## 四分位数の例

データ件数が少ない場合を例にとって具体的な四分位数を求めます．

|$x_1$|$x_2$|$x_3$|$x_4$|$x_5$|$x_6$|
|:---:|:---:|:---:|:---:|:---:|:---:|
| 10  | 20  | 30  | 40  | 60  | 80  |

パラメータを確認します．

>  
- データ件数：$n=6$
- グループ数：$K=4$

### 第1四分位数

$$ \begin{eqnarray}
Q_{1/4} &=& x\left( \frac{1}{4}(6-1)+1 \right) \\ 
&=& x\left( 2.25 \right) \\
&=& ({\lceil}2.25{\rceil}-2.25)x_{\lfloor 2.25 \rfloor} + (2.25-{\lfloor}2.25{\rfloor})x_{\lceil 2.25 \rceil} \\
&=& (3-2.25)x_2 + (2.25-2)x_3 \\
&=& 0.75{\times}20 + 0.25{\times}30 \\
&=& 15+7.5 \\
&=& 22.5
\end{eqnarray} $$

### 第2四分位数（中央値）

$$ \begin{eqnarray}
Q_{2/4} &=& x\left( \frac{2}{4}(6-1)+1 \right) \\ 
&=& x\left( 3.5 \right) \\
&=& ({\lceil}3.5{\rceil}-3.5)x_{\lfloor 3.5 \rfloor} + (3.5-{\lfloor}3.5{\rfloor})x_{\lceil 3.5 \rceil} \\
&=& (4-3.5)x_3 + (3.5-3)x_4 \\
&=& 0.5{\times}30 + 0.5{\times}40 \\
&=& 15+20 \\
&=& 35
\end{eqnarray} $$

### 第3四分位数

$$ \begin{eqnarray}
Q_{3/4} &=& x\left( \frac{3}{4}(6-1)+1 \right) \\ 
&=& x\left( 4.75 \right) \\
&=& ({\lceil}4.75{\rceil}-4.75)x_{\lfloor 4.75 \rfloor} + (4.75-{\lfloor}4.75{\rfloor})x_{\lceil 4.75 \rceil} \\
&=& (5-4.75)x_4 + (4.75-4)x_5 \\
&=& 0.25{\times}40 + 0.75{\times}60 \\
&=& 10+45 \\
&=& 55
\end{eqnarray} $$

*****
## Pythonによる分位数

上記の四分位数の例をPythonで求めます．
PythonではNumPyの<font color='green'>percentile()</font>関数を利用する方法とpandasの<font color='green'>quantile()</font>メソッドを利用する方法があります．
ここでは両者の方法で四分位数を求めます．

まず，NumPyライブラリーとpandasライブラリーを搬入します．

```Python
import numpy as np
import pandas as pd
```

In [1]:
import numpy as np
import pandas as pd

テスト用のデータをリスト配列で定義します．

```Python
data = [10,20,30,40,60,80]
```

In [2]:
data = [10,20,30,40,60,80]

このデータの75%点の値を求めます．
percentile()関数の第1引数に対象データを与えて，第2引数にパーセント点を与えます．
75%の場合，第2引数の値は 75 とします．

```Python
np.percentile(data,75)
```

In [3]:
np.percentile(data,75)

55.0

percentile()関数の第2引数に複数のパーセント点をリスト配列で指定することも可能です．
ここでは，0%, 25%, 50%, 75%, 100% の5個のパーセンタイルを求めるために，引数に [0,25,50,75,100] を指定します．

```Python
np.percentile(data,[0,25,50,75,100])
```

In [4]:
np.percentile(data,[0,25,50,75,100])

array([ 10. ,  22.5,  35. ,  55. ,  80. ])

次に同じ課題を<font color=green>pandas.DataFrame.quantile()</font>メソッドによって求めます．
そのために対象データ data をデータフレームに変換しておく必要があります．
作成したデータフレームについて，quantile()を実行します．
quantile()でも，引数として，パーセント点の値を1つ与える事も複数のパーセント点をリスト配列で与える事もできます．
ここでは，numpy.percentile()関数と比較するために，0%, 25%, 50%, 75%, 100% の5個のパーセント点を与えます．
ただし，pandasのquantile()では引数を，[0, 0.25, 0.5, 0.75, 1] として与えます．

```Python
df = pd.DataFrame(data,columns=['data'])
df.quantile([0,0.25,0.5,0.75,1])
```

In [5]:
df = pd.DataFrame(data,columns=['data'])
df.quantile([0,0.25,0.5,0.75,1])

Unnamed: 0,data
0.0,10.0
0.25,22.5
0.5,35.0
0.75,55.0
1.0,80.0


numpy.quantile()関数の結果もpandas.DataFrame.quantile()メソッドの結果の両方とも定義通りの結果になっています．

*****