### [불편추론/불편분산/자유도]
- 편향(bias) : 표본을 통한 모집단 추정량의 값의 차이
- 불편(unbiased) : 표본을 통한 모집단 추정량의 값의 차이가 없음

In [1]:
## 모듈 로딩
import numpy as np

In [2]:
## 테스트용 데이터 
np.random.seed(0)

# 모평균=50, 모표준편차=10인 정규분포에서 100000개 생성
population = np.random.normal(loc=50, scale=10, size=100_000)

In [3]:
# -----------------------------
# 1. 큰 모집단 모평균, 모분산
# -----------------------------

# "진짜" 모평균과 모분산 (분모는 N으로 나눔)
true_mean = population.mean()
true_var = population.var()  # numpy의 기본 var는 분모를 N으로 나눔 (ddof=0)

print(f"모평균 (true mean)   : {true_mean:.3f}")
print(f"모분산 (true var, N): {true_var:.3f}")
print("-" * 40)


# -----------------------------
# 2. 표본 추출 후 분산 추정 실험
# -----------------------------
def experiment(sample_size=5, n_trials=10_000):
    """
    sample_size: 표본 크기 (n)
    n_trials   : 실험 반복 횟수
    """
    var_div_n_list = []      # 분모가 n인 분산
    var_div_n1_list = []     # 분모가 n-1인 분산 (자유도 보정)

    for _ in range(n_trials):
        # 모집단에서 복원추출로 표본 뽑기
        sample = np.random.choice(population, size=sample_size, replace=True)

        # 표본 평균
        m = sample.mean()

        # 제곱합
        sq_sum = np.sum((sample - m) ** 2)

        # (1) 분모가 n인 "표본 분산"
        var_n = sq_sum / sample_size

        # (2) 분모가 n-1인 "자유도 보정 분산"
        var_n1 = sq_sum / (sample_size - 1)

        var_div_n_list.append(var_n)
        var_div_n1_list.append(var_n1)

    # 각 방법으로 추정한 분산의 평균값
    avg_var_n = np.mean(var_div_n_list)
    avg_var_n1 = np.mean(var_div_n1_list)

    print(f"[표본 크기 n = {sample_size}]")
    print(f"  ▸ 분모 = n     일 때 평균 추정분산: {avg_var_n:.3f}")
    print(f"  ▸ 분모 = n-1   일 때 평균 추정분산: {avg_var_n1:.3f}")
    print(f"  ▶ 모분산(true_var)                     : {true_var:.3f}")
    print()


# 다양한 표본 크기에 대해 실험
for n in [3, 5, 10, 30]:
    experiment(sample_size=n, n_trials=10_000)


모평균 (true mean)   : 50.016
모분산 (true var, N): 99.469
----------------------------------------
[표본 크기 n = 3]
  ▸ 분모 = n     일 때 평균 추정분산: 67.209
  ▸ 분모 = n-1   일 때 평균 추정분산: 100.814
  ▶ 모분산(true_var)                     : 99.469

[표본 크기 n = 5]
  ▸ 분모 = n     일 때 평균 추정분산: 79.168
  ▸ 분모 = n-1   일 때 평균 추정분산: 98.959
  ▶ 모분산(true_var)                     : 99.469

[표본 크기 n = 10]
  ▸ 분모 = n     일 때 평균 추정분산: 89.619
  ▸ 분모 = n-1   일 때 평균 추정분산: 99.577
  ▶ 모분산(true_var)                     : 99.469

[표본 크기 n = 30]
  ▸ 분모 = n     일 때 평균 추정분산: 96.494
  ▸ 분모 = n-1   일 때 평균 추정분산: 99.821
  ▶ 모분산(true_var)                     : 99.469

