# 기술 통계

NumPy는 다음과 같은 데이터 집합에 대해 간단한 통계를 계산하는 함수를 제공한다. 이러한 값들을 통틀어 **기술 통계(descriptive statistics)**라고 한다.

* 데이터의 개수(count)
* 평균(mean, average)
* 분산(variance)
* 표준 편차(standard deviation)
* 최댓값(maximum)
* 최솟값(minimum)
* 중앙값(median)
* 사분위수(quartile)

예를 들어 다음과 같은 데이터 $x$가 있다고 하자.

$$
x = \{
18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13
\}
$$
             

$x$를 이루는 숫자 하나하나를 수학 기호로는 $x_1, x_2, \cdots, x_N$처럼 표시한다. 위 예에서 $x_1 = 18$, $x_2 = 5$이다.

NumPy에서는 이러한 데이터를 1차원 배열로 구현한다.

In [None]:
import numpy as np
x = np.array([18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
              2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])
x

### 데이터의 개수

데이터의 개수는 `len` 명령으로 구할 수 있다.

### 샘플 평균

평균을 통계용어로는 샘플 평균(sample average, sample mean)이라고 한다. $x$ 데이터에 대한 샘플 평균은 $\bar{x}$라고 표시하며 다음과 같이 계산한다. 이 식에서 $N$은 데이터의 개수이다.

$$ \bar{x} = \dfrac{1}{N}\sum_{i=1}^N x_i $$

### 샘플 분산

샘플 분산(sample variance)은 데이터와 샘플 평균간의 거리의 제곱의 평균이다. 샘플 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것이다. 수학 기호로는 $s^2$이라고 표시하며 다음과 같이 계산한다.

$$ s^2 = \dfrac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2 $$

In [None]:
# 분산

In [None]:
### 분산 계산

In [None]:
# 비편향 분산

In [None]:
### 비편향 분산 계산 (N - 1)

### 샘플 표준편차

샘플 표준편차(sample standard variance)는 샘플 분산의 양의 제곱근 값이다. $s$이라고 표시한다.

$$ s = \sqrt{s^2} $$

In [None]:
# 표준 편차

In [None]:
# 분산의 제곱근

### 최대값과 최소값

최대값(maximum)은 데이터 중에서 가장 큰 값을, 최소값(minimum)은 가장 작은 값을 의미한다.

In [None]:
# 최댓값

In [1]:
# 최소값

### 중앙값

중앙값(median)은 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수를 말한다. 만약 데이터의 수가 짝수이면 가장 가운데에 있는 두 수의 평균을 사용한다.

In [None]:
# 중앙값

### 사분위수

사분위수(quartile)는 데이터를 가장 작은 수부터 가장 큰 수까지 크기가 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수를 말한다. 각각 1사분위수, 2사분위수, 3사분위수라고 한다. 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%를 말한다. 따라서 2사분위수는 중앙값과 같다. 

때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 한다. 1사분위수는 25% 백분위수와 같다.

![image.png](attachment:image.png)


![image.png](attachment:image.png)

![image.png](attachment:image.png)

이상치(극단값, Outlier) 뽑아내기 (https://wikidocs.net/33920)

In [None]:
# 최소값

In [None]:
# 1사분위 수

In [None]:
# 2사분위 수  - 중앙값

In [None]:
# 3사분위 수

In [None]:
# 최댓값

SciPy 패키지에는 여러가지 기술 통계 값을 한 번에 구해주는 `describe` 명령이 있다.