# 기술 통계

In [2]:
import numpy as np

In [3]:
x = np.array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
                2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13])

### 데이터의 개수

* 데이터의 개수는 len 명령으로 구할 수 있다.

In [4]:
len(x)

26

### 샘플 평균

* 평균을 통계용어로는 샘플 평균(sample average, sample mean)이라고 한다.  x  데이터에 대한 샘플 평균은  x¯ 라고 표시하며 다음과 같이 계산한다. 이 식에서  N 은 데이터의 개수이다.

In [5]:
np.mean(x)

4.8076923076923075

### 샘플 분산

* 샘플 분산(sample variance)은 데이터와 샘플 평균간의 거리의 제곱의 평균이다. 샘플 분산이 작으면 데이터가 모여있는 것이고 크면 흩어져 있는 것이다. 수학 기호로는  s2 이라고 표시하며 다음과 같이 계산한다.

In [6]:
np.var(x)

115.23224852071006

In [7]:
np.var(x, ddof=1)

119.84153846153846

### 샘플 표준편차

* 샘플 표준편차(sample standard variance)는 샘플 분산의 제곱근 값이다.  

In [8]:
np.std(x)

10.734628476137871

### 최대값과 최솟값

* 최대값(maximum)은 데이터 중에서 가장 큰 값을, 최소값(minimum)은 가장 작은 값을 의미한다.

In [12]:
np.max(x)

23

In [13]:
np.min(x)

-24

### 중앙값

*  중앙값(median)은 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수를 말한다. 만약 데이터의 수가 짝수이면 보통 중앙의 두 수의 평균을 사용한다.

In [14]:
np.median(x)

5.0

### 사분위수

* 사분위수(quartile)는 데이터를 크기대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수를 말한다. 각각 1사분위수, 2사분위수, 3사분위수라고 한다. 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%를 말한다. 따라서 2사분위수는 중앙값과 같다. 때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 한다. 1사분위수는 25% 백분위수와 같다.

In [15]:
np.percentile(x, 0)  # 최소값

-24.0

In [16]:
np.percentile(x, 25)  # 1사분위 수

0.0

In [17]:
np.percentile(x, 50)  # 2사분위 수

5.0

In [18]:
np.percentile(x, 75)  # 3사분위 수

10.0

In [19]:
np.percentile(x, 100)  # 최댓값

23.0

* SciPy 패키지에는 여러가지 기술 통계 값을 한 번에 구해주는 describe 명령이 있다.



In [20]:
from scipy.stats import describe

In [21]:
describe(x)

DescribeResult(nobs=26, minmax=(-24, 23), mean=4.8076923076923075, variance=119.84153846153846, skewness=-0.4762339485461929, kurtosis=0.37443381660038977)