일부 데이터로부터 전체의 통계적 성질을 추측하는 방식이 **추측통계**다.
추측통계와 비교하여 2,3장에서 다룬 통계를 **기술통계**라고 한다.

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%precision 3
%matplotlib inline

df = pd.read_csv("../data/ch4_scores400.csv")
scores = np.array(df["score"])
df[:10]

Unnamed: 0,score
0,76
1,55
2,80
3,80
4,74
5,61
6,81
7,76
8,23
9,80


# 4.1 모집단과 표본
추측통계에서는 관측 대상 전체의 통계적 성질을 그 관측 대상의 일부분만 사용하여 추츨한다. 이때, 추측하고 싶은 관측 대상 전체를 **모집단**(population)이라 하고, 추측에 사용하는 관측 대상의 일부부분을 **표본**(sample)이라 한다. 또 모집단에서 표본을 골라내는 일을 **표본추출**(sampling)이라 하고, 골라낸 표본의 수를 **표본 크기** 또는 **샘플 사이즈**라고 한다.

표본을 바탕으로 계산한 평균이나 분산, 상관계수 등을 **표본통계량**이라 하고, 모집단의 평균이나 분산, 상관계수 등을 **모수**라고 한다. 표본의 평균을 포본평균, 모집단의 평균을 모평균 등으로 부르는 경우도 있다.

표본평균으로 모평균을 추측할 때, 표본평균은 모평균의 **추정량**(estimator)이라고 한다. 그리고 실제로 표본의 데이터를 이용하여 계산한 결과를 **추정값**(estimate)라고 한다.

## 4.1.1 표본추출 방법

학교 전체의 평균 점수를 잘 추측하려면 어떻게 해서든 다양한 학년의 학생들, 여러 동아리에서 활동하는 학생들, 다양한 취미 생활을 하는 학생들에게 점수를 물어서 편향되지 않는 것이 중요하다. 이를 위해 표본을 '우연히 만나는' 학생들에게 모음으로써 표본 추출이 편항되지 않도록 미리 작전을 세울 수 있다. 이처럼 임의로 표본을 추출하는 방법을 **무작위추출**(random sampling)이라고 한다.

무작위추출이 표본을 추출할 때 편향을 없애는 방법이긴 하지만, 그 결과로 편향이 있는 데이터를 얻을 수 있다는 점도 주의해야 한다. 즉, '우연히 만난 사람'이 공교롭게도 전부 3학년일 수 있다. 그런 데이터를 얻게되면 다시 한 번 무작위추출을 하고 싶겠지만, 그렇게 하면 작위적이 추측이 되고 만다.

한편 '우연히 만나는' 방법을 썻을 때 같은 사람에게 여러 번 시험 결과를 들을 가능성도 있다. 이처럼 여러 차례 동일한 표본을 선택하는 추출 방법을 **복원추출**(sampling with replacement)라고 하고, 동일한 표본을 한 번만 선택하는 방법을 **비복원추출**(sampling without replacement)라고 한다.

In [4]:
# 파이썬에서 무작위추출에서는 np.random.choice 함수가 사용된다.
# np.random.choice 함수는 기본 설정으로 복원추출을 수행한다.
np.random.choice([1, 2, 3], 3)

array([1, 3, 3])

In [5]:
# 비복원추출
np.random.choice([1, 2, 3], 3, replace=False)

array([3, 1, 2])

In [6]:
# 무작위추출 뒤 표본평균 계산
np.random.seed(0)
sample = np.random.choice(scores, 20)
sample.mean()

70.400

In [7]:
# 모평균 계산
scores.mean()

69.530

In [8]:
for i in range(5):
    sample = np.random.choice(scores, 20)
    print(f"{i+1}번째 무작위 추출로 얻은 표본평균", sample.mean())

1번째 무작위 추출로 얻은 표본평균 72.45
2번째 무작위 추출로 얻은 표본평균 63.7
3번째 무작위 추출로 얻은 표본평균 66.05
4번째 무작위 추출로 얻은 표본평균 71.7
5번째 무작위 추출로 얻은 표본평균 74.15
