# numpy.percentile
[출처](https://numpy.org/doc/stable/reference/generated/numpy.percentile.html)

위 출처의 글을 읽어보아도, 정확한 식을 잘 모르겠다.
그래서 실험을 해봤다.

In [2]:
import numpy as np

# 1. 길이가 10이고 등간격인 수열

In [17]:
A = np.arange(10)
print(A)
print("length :",len(A))

[0 1 2 3 4 5 6 7 8 9]
length : 10


In [4]:
np.percentile(A,[0,25,50,75,100])

array([0.  , 2.25, 4.5 , 6.75, 9.  ])

![image.png](attachment:image.png)

`A`는 길이가 10인 `np.array`이다.
등간격의 수열이므로 이해하기가 쉽다.
그러니 이 예제로 이해해보자.

위의 그림에서 보듯 25-percentile은 2.25가 되어야 한다.
실제 `np.percentile`을 돌려도 같은 결과가 나온다.
전체 길이가(집합 $\{0,1,2,3,4,5,6,7,8,9\}$의 diameter) 9이고, 맨 처음 수가 0이며 25\%는 곧 $\frac14$를 나타내므로 2.25는
$$0+(9-0)\times\frac{25}{100}=0+9\times\frac14=2.25$$
이다.
마찬가지로 75-percentile인 6.75는 다음과 같이 계산된다.
$$0+(9-0)\times\frac{75}{100}=0+9\times\frac34=6.75$$

이 예제에서는 일부러 0부터 시작하는 등간격의 수열을 고려했다.
하지만, 여기 쓰인 2.25나 6.75라는 것은 **값**이라기보다는 **순서**라고 해석해야 정확하다.
아래 예제에 그것을 설명해보았다.

# 2. 길이가 10이고 등간격이 아닌 수열

In [16]:
B = np.array([1, 3, 4, 5, 5, 7, 8, 8, 9, 10])
print(B)
print("length :",len(B))

[ 1  3  4  5  5  7  8  8  9 10]
length : 10


In [14]:
np.percentile(B,[0,25,50,75,100])

array([ 1.  ,  4.25,  6.  ,  8.  , 10.  ])

`B`는 길이가 10인 `np.array`이고 등간격이 아니다.
길이가 10인 수열이므로 0번째, 1번째, $\cdots$, 9번째의 숫자들이 나열되어 있다.

25-percentile은 위에서 말했듯이 2.25번째 **순서**의 숫자가 입력되어야 한다.
하지만 2.25번째 순서라는 것은 없다.
2번째 숫자는 4이고 3번째 숫자는 5이지만, 2.25번째는 없으니, 2.25번째 숫자는 2번째 숫자인 4와 3번째 숫자인 5를 선형보간(linear interpolation)해서 얻을 수 있다.
아마도, `interpolation=linear`라는 디폴트 세팅은 여기에서 온 말이 아닐까 싶다.

\begin{align*}
\text{2.25번째 숫자}
&=\text{2번째 숫자} + \frac14(\text{3번째 숫자}-\text{2번째 숫자})\\
&=4+\frac14\times1\\
&=4.25
\end{align*}

마찬가지로 75-percentile은 6.75번째 **순서**의 숫자가 입력되어야 한다.
이것은 6번째 숫자인 8과 7번째인 숫자 8을 선형보간해서 얻을 수 있는데, 당연히 8이다.
구체적인 식은 다음과 같다.

\begin{align*}
\text{6.75번째 숫자}
&=\text{6번째 숫자} + \frac34(\text{7번째 숫자}-\text{6번째 숫자})\\
&=8+\frac34\times0\\
&=8
\end{align*}


In [28]:
C = np.array([2, 4, 5, 7, 8, 11, 11, 16, 17, 19])
print(C)
print("length :",len(C))

[ 2  4  5  7  8 11 11 16 17 19]
length : 10


In [29]:
np.percentile(C,[0,25,50,75,100])

array([ 2.  ,  5.5 ,  9.5 , 14.75, 19.  ])

확실히 이게 맞는지 모르겠어서, 다시 한 번 실험을 해봤다.
`C`도 `B`와 마찬가지로, 길이가 10이고 등간격이 아닌 `np.array`이다.

25-percentile은  5.5로 출력된다.
아래에 계산해보니 계산결과와 일치한다.

\begin{align*}
\text{2.25번째 숫자}
&=\text{2번째 숫자} + \frac14(\text{3번째 숫자}-\text{2번째 숫자})\\
&=5+\frac14\times2\\
&=5.5
\end{align*}

25-percentile은  15로 출력된다.
이번에도 계산결과와 일치한다.

\begin{align*}
\text{6.75번째 숫자}
&=\text{6번째 숫자} + \frac34(\text{7번째 숫자}-\text{6번째 숫자})\\
&=11+\frac34\times5\\
&=14.75
\end{align*}


# 3. 공식문서 다시 해석해보기

![image.png](attachment:image.png)

![image-3.png](attachment:image-3.png)

이해가 되는 것도 같다.
`interpolation=linear`라는 디폴드 세팅 상에서는 위의 식이 다음과같이 된다.

$$i+g=\frac{q}{n-1}$$

이때
 - $q$는 quantile value이다. (e.g. 25/100, 75/100)
 - $n$는 `np.array`의 length이다. (e.g. 10)
 - $i$는 정수부분
 - $g$는 소수부분이다.

아까 `B` 예제의 25 quantile을 다시 보면

`B = np.array([1, 3, 4, 5, 5, 7, 8, 8, 9, 10])`

음.. 이해가 안간다.
그냥 내가 위에 적은 설명 정도로 이해하고 넘어가려고 한다.
정말 정확하게 이해하려면 [이 논문](https://www.amherst.edu/media/view/129116/original/Sample+Quantiles.pdf)을 참고하면 된다고 한다.