# 10강. 통계학, 기본개념

## 이론

- 통계학(Statistics)
> 데이터의 수집(collection), 구성(organization), 분석(analysis), 해석(interpretation), 표현(presentation)에 관한 학문
    - 기술통계학(descriptive statistics) : 수집한 데이터에 대한 설명
    - 추측통계학(inferential statistics) : 수집한 데이터에 기반하여 추측

- 기본 개념 정의
    - 모집단(population): 어떤 질문이나 실험을 위해 관심의 대상이 되는 개체나 사건의 집합
    - 모수(parameter): 모집단의 수치적 특성
    - 표본(sample): 모집단에서 선택된 개체나 사건의 집합

- 도수(Frequency)
> 어떤 사건이 실험이나 관찰로부터 발생한 횟수

    - 도수분포표(Frequency Distribution Table)
    - 막대그래프(Bar graph)
        - 질적 자료
    - 히스토그램(Histogram)
        - 양적 자료
        - 히스토그램은 막대그래프와 다르게 붙어있고, 바의 순서가 변해서는 안된다.
    - 줄기 잎 그림(Stem and Leaf Diagram)
        - 양적 자료를 줄기와 잎으로 구분.

- 상대도수
> 도수를 전체 원소의 수로 나눈 것

- Scipy 모듈

- 평균(Mean)
> $$\frac {x_{1} + x_{2} + \dots + x_{n}} {n} = \frac {1} {n} \sum _{i=1} ^{n} x_{i}$$
    1. 모평균 $\mu$: 모집단 전체 자료의 평균
    2. 표본 평균 $\bar{x}$: 모집단에서 추출한 표본의 평균

In [1]:
a = [2, 5, 2, 4, 6]
import statistics
statistics.mean(a)

3.8

- 중앙값(Median)
> 주어진 자료를 높은 쪽 절반과 낮은 쪽 절반으로 나누는 값
> 자료를 순서대로 나열했을 때 가운데 있는 값
> 자료의 수가 n일 때, n이 홀수인 경우 $\frac {n+1} {2}$번째 자료값, n이 짝수인 경우 $\frac {n} {2}$번째 자료값과 $\frac {n} {2} + 1$번째 자료값의 평균
    - 평균의 경우 극단 값의 영향을 많이 받음.


In [7]:
a.sort()
print(a)
statistics.median(a)

[2, 2, 4, 5, 6, 10, 10, 10]


5.5

- 분산(Variance)
    - 편차: 값과 평균의 차이
> 편차의 제곱의 합을 자료의 수로 나눈 값

    - 모분산: 자료가 모집단인 경우
    $$\sigma^{2} = \frac{1}{N}\sum _{i=1} ^{N} (x_{i} - \mu)^{2}$$
    - 표본분산: 자료가 표본인 경우
    $$s^{2} = \frac{1}{n-1}\sum _{i=1} ^{n} (x_{i} - \bar{x})^{2}$$
        - ***n이 아닌 n-1로 나누는 이유***
            1. 이렇게 정의해야 표본분산의 기댓값이 모분산과 같기 때문.
            2. 표본이 작은 경우, n을 그대로 사용하면 모집단의 분산이나 표준편차를 작게 추정하기 때문.
                - 불편추정치(unbiased estimate)를 만들기 위해 n-1을 사용.

In [8]:
statistics.variance(a)

12.125

In [10]:
import scipy.stats
scipy.stats.tvar(a)

12.125

- 표준편차(Standard Deviation)
> 분산의 양의 제곱근
    - 모표준편차(population standard deviation)
    $$\sigma = \sqrt {\frac{1}{N}\sum _{i=1} ^{N} (x_{i} - \mu)^{2}}$$
    - 표본표준편차(sample standard deviation)
    $$s = \sqrt {\frac{1}{n-1}\sum _{i=1} ^{n} (x_{i} - \bar{x})^{2}}$$

In [11]:
# Standard Deviation
statistics.stdev(a)

3.48209706929603

In [18]:
# 모분산
statistics.pvariance(a)

# 모표준편차
statistics.pstdev(a)

print(statistics.pvariance(a))
print(statistics.pstdev(a))

10.609375
3.2572035551988456


In [19]:
# numpy에서의 표준편차
# ddof: Delta Degrees of Freedom
import numpy


print(numpy.var(a))
print(numpy.std(a))
print(numpy.var(a, ddof=1))
print(numpy.std(a, ddof=1))

10.609375
3.2572035551988456
12.125
3.48209706929603


- 범위(Range)
> 자료를 정렬하였을 때, 가장 큰 값과 가장 작은 값의 차이

In [23]:
max(a) - min(a)

8

In [21]:
numpy.max(a) - numpy.min(a)

8

- 사분위수 (Quartile)
> 전체 자료를 정렬했을 때, 1/4, 2/4, 3/4 위치에 있는 숫자
    - Q1: 제 1사분위수
    - Q2: 제 2사분위수
    - Q3: 제 3사분위수
    
  - 범위(range)보다 이상치에 둔감하게 적절한 파악이 가능

In [25]:
print(numpy.quantile(a, .25))
print(numpy.quantile(a, .5))
print(numpy.quantile(a, .75))

3.5
5.5
10.0


In [27]:
# numpy에서는 꼭 정확한 사분위수가 아니어도 같은 의미로 사용할 수 있음
print(numpy.quantile(a, .60))

6.800000000000001


- z-score
> 어떤 값이 평균으로부터 몇 표준편차 떨어져 있는지를 의미하는 값
    - 모집단의 경우: $z=\frac {x - \mu} {\sigma}$
    - 표본의 경우: $z=\frac {x - \bar{x}} {s}$

In [28]:
scipy.stats.zscore(a)

array([-1.26642377, -1.26642377, -0.65240012, -0.3453883 , -0.03837648,
        1.18967081,  1.18967081,  1.18967081])

In [33]:
print('a =', a)
scipy.stats.zscore(a, ddof=1)

a = [2, 2, 4, 5, 6, 10, 10, 10]


array([-1.18463096, -1.18463096, -0.61026443, -0.32308117, -0.03589791,
        1.11283515,  1.11283515,  1.11283515])