# 중심경향치(central tendency measures)

- 자료의 중심을 나타내는 숫자
- 자료 전체를 대표
- 평균, 중간값, 최빈값 등이 있다.

## 산술평균

- 평균(mean): 자료의 합을 자료의 갯수로 나눈 값

## 중간값

- 중간값(median): 자료를 크기 순으로 정렬했을 때 정 가운데 있는 값
- 자료의 상위 50%와 하위 50%를 가르는 지점
- '중앙값' 또는 '중위수'라고도 한다.

## 최빈값

- 최빈값(mode): 가장 빈번하게 관찰/측정되는 값

In [2]:
from scipy.stats import mode

x = [100, 100, 200, 400, 500]
mode(x)

ModeResult(mode=array([100]), count=array([2]))

In [17]:
import numpy as np

a = [0, 1, 2, 3, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1, 2, 1, 1, 1]

re = np.unique(a, return_counts=True)
max_index = list(re[1]).index(np.max(re[1]))
re[0][max_index]

1

# 변산성 측정치(분산, 표준편차, 범위, 사분위간 범위)

- 변산성(variability): 자료가 흩어져 있는 정도, 혹은 개체에 따라 변할 수 있는 정도
- 중심경향치가 자료가 무엇을 중심으로 모여있는가(혹은 흩어져 있는가)를 나타내는 것이라면,
- 변산성 측정치는, 그 모여있는 정도(혹은 흩어져 있는 정도)를 의미함

## 범위(range)

- 자료가 갖는 최댓값과 최소값 사이의 거리, 즉 자료가 얼마나 퍼져있는가를 나타냄
- 범위 = 최댓값 - 최솟값 

## 분산

- 평균에서 데이터가 벗어난 정도를 수치화한 값
- 각각의 데이터에서 평균값을 빼고, 그것을 제곱하여 평균을 구함
- 분산이 크면: 데이터가 평균에서 많이 벗어나 있다.
- 분산이 작으면: 데이터가 평균 주변에 모여 있다.

### 분산성 측정

- 데이터의 퍼짐정도
- 편차(평균과 값의 차이)
- 분산(평균과 값의 차이를 제곱한 자료의 합의 평균)
- 표준편차(분산 ** 0.5 또는 루트(분산)

In [23]:
a = [20, 10, 20, 20]
# 평균, 분산, 편차
np.mean(a), np.var(a), np.std(a), np.var(a)**.5

(17.5, 18.75, 4.330127018922194, 4.330127018922194)

In [24]:
a = [1, 27, 2, 40]
# 평균, 분산, 편차
np.mean(a), np.var(a), np.std(a), np.var(a)**.5

(17.5, 277.25, 16.650825805346713, 16.650825805346713)

In [40]:
# 모집단(n개) 표본집단(n-1개)
# var, std할 때, 넘파이는 기본 모집단 판다스는 기본 표본집단
# ddof 옵션에서 모집단, 표본집단 선택가능함

# var에서 ddof=0은 모집단, ddof=1은 표본집단
# np.var은 ddof=0이 기본 / df[필드명].var은 ddof=1이 기본
# 참고 n개에서 n-1, n-2, n-3 하는 작업을 자유도 라고도 함

a = [2, 2, 4, 8]
# 모집단의 분산
print(np.sum((a - np.mean(a))**2) / len(a), np.var(a))
# 표본집단의 분산
print(np.sum((a - np.mean(a))**2) / (len(a) - 1), np.var(a, ddof=1))

6.0 6.0
8.0 8.0


In [39]:
import pandas as pd

df = pd.DataFrame({'data': a})
df['data'].var(), df['data'].var(ddof=0)

(8.0, 6.0)

## 표준편차

- 평균에서 데이터가 벗어난 정도를 수치화한 값

## 사분위간 범위

- 사분위간 범위(IQR, InterQuartile Range)는 제3사분위수에서 제1사분위수 간의 범위
- 사분위수란 전체 데이터를 작은 값부터 큰 값까지 순서대로 나열한 후 4등분 하였을 때, 각 지점에 해당하는 값
    - 제1사분위수(Q1): 25% 지점
    - 제2사분위수(Q2): 50% 지점 = 중간값
    - 제3사분위수(Q3): 75%
- 제1사분위수와 제3사분위수 사이의 구간에는 항상 전체 데이터의 50%가 포함 됨
- 사분위는 임의로 정하는 기준이므로 필요에 따라 십분위 등으로 변경가능

## 변산성 측정치를 이용한 이상점 진단

- 대부분의 자료는 중심경향치 주변에 몰려있음
- 변산성 측정치를 기준으로 벗어난 정도를 파악할 수 있음
    - 평균에서 벗어난 정도를 판달할 때는 표준편차를 사용
        - 평균에서 표준편차의 n배 떨어져 있으면 "n 표준편차"와 같이 표현
    - 중간값에서 벗어난 정도를 판단할 때는 IQR을 사용
- 중심경향치에서 크게 벗어났다면 이상점으로 의심할 수 있음