# 분포와 기술통계

데이터의 수가 적으면 데이터의 값을 하나 하나 살펴볼 수 있지만 데이터의 수가 많다면 숫자가 어떤 값 근처에 어떤 모양으로 모여 있는지 전반적인 형태를 살펴보는 수밖에 없다. 데이터 값의 전반적인 형태를 데이터의 분포(distribution)라고 한다.

일차원 데이터의 분포를 살펴보는 데는 다음과 같은 방법을 사용할 수 있다.

기술 통계 (descriptive statistics)
히스토그램 (histogram)
커널 밀도 (kernel density)
여기에서는 기술 통계에 대해 알아본다.

## 기술 통계

기술통계는 데이터 분포의 특징을 대표할 수 있는 몇가지 숫자를 계산하여 이 숫자들로부터 데이터의 분포를 추측하는 방법이다. 데이터의 분포의 특징을 대표하는 값들로는
- 데이터의 숫자 (count)
- 평균 (mean, average)
- 분산 (variance)
- 표준 편차 (standard deviation)
- 최댓값 (maximum)
- 최솟값 (minimum)
- 중앙값 (median)
- 사분위수 (quartile) <br/>
등이 많이 사용된다. 이러한 기술 통계 수치들을 분포의 특성이라고도 한다.

평균 : $\bar{x} = \dfrac{1}{N}\sum_{i=1}^N x_i$

분산 : $s^2 = \dfrac{1}{N}\sum_{i=1}^N (x_i - \bar{x})^2$

표준편차 : $s = \sqrt{s^2}$


최댓값은 데이터 중에서 가장 큰 값을, 최솟값은 가장 작은 값을 의미한다.

중앙값은 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 수를 말한다. 만약 데이터의 수가 짝수이면 보통 중앙의 두 수의 평균을 사용한다.

사분위수(quartile)는 데이터를 크기대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 수를 말한다. 각각 1사분위수, 2사분위수, 3사분위수라고 한다. 1/4의 위치란 전체 데이터의 수가 만약 100개이면 25번째 순서, 즉 하위 25%를 말한다. 따라서 2사분위수는 중앙값과 같다.

때로는 위치를 1/100 단위로 나눈 백분위수(percentile)을 사용하기도 한다. 1사분위수는 25% 백분위수와 같다.

In [14]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all" 

In [1]:
import numpy as np

In [2]:
x = np.array([ 18,   5,  10,  23,  19,  -8,  10,   0,   0,   5,   2,  15,   8,
                2,   5,   4,  15,  -1,   4,  -7, -24,   7,   9,  -6,  23, -13,
                1,   0,  16,  15,   2,   4,  -7, -18,  -2,   2,  13,  13,  -2,
               -2,  -9, -13, -16,  20,  -4,  -3, -11,   8, -15,  -1,  -7,   4,
               -4, -10,   0,   5,   1,   4,  -5,  -2,  -5,  -2,  -7, -16,   2,
               -3, -15,   5,  -8,   1,   8,   2,  12, -11,   5,  -5,  -7,  -4])

In [3]:
len(x) #갯수

78

In [4]:
np.mean(x) # 평균

0.69230769230769229

In [6]:
np.var(x) # 분산

96.059171597633139

In [7]:
np.std(x) # 표준 편차

9.8009780939268065

In [8]:
np.max(x) # 최댓값

23

In [9]:
np.min(x) # 최솟값

-24

In [10]:
np.median(x) # 중앙값

0.5

In [11]:
np.percentile(x,25) # 1사분위 수

-5.75

In [12]:
np.percentile(x,50) # 2사분위 수

0.5

In [13]:
np.percentile(x,75) # 3사분위 수

5.0

In [15]:
import pandas as pd

In [17]:
s=pd.Series(x)

In [18]:
s.describe()

count    78.000000
mean      0.692308
std       9.864416
min     -24.000000
25%      -5.750000
50%       0.500000
75%       5.000000
max      23.000000
dtype: float64