### 모집단 평균 추정
- 사실상 모집단의 평균을 추정하는 것은 거의 불가능한 일이다.(전수 조사가 필요하기 때문이다)
- 그래서 통계학에서는 표본의 평균을 모집단의 평균이라고 추정한다.

In [1]:
# 기본 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# 그래프 기본설정\n",
# plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12,6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False

In [3]:
# 랜덤 시드
np.random.seed(42)

# 평균 70, 표준편차가 10인 만명의 학생 점수를 생성한다.
population = np.random.normal(loc=70, scale=10, size=10000)
mean_population = np.mean(population)
print(mean_population)

69.97864016631574


In [4]:
# 샘플 추출
sample_size = 100
sample = np.random.choice(population, sample_size)
# 모 평균을 구하는 것은 실제 평균값을 추정하는 것이 아닌 신뢰구간을 구하는 것이 된다.
# 내 추정치가 95% 확률로 진짜 평균을 포함할 수 있는 범위는 어디인가...

In [5]:
# 표본의 평균을 계산한다.
mean_sample = np.mean(sample)

print(f'모집단 평균 : {mean_population}')
print(f'샘플 평균 : {mean_sample}')

모집단 평균 : 69.97864016631574
샘플 평균 : 69.90706695486644


In [6]:
# 모 평균을 구하는 것은 실제 평균값을 추정하는 것이 아닌 신뢰구간을 구하는 것이 된다.
# 내 추정치가 95% 확률로 진짜 평균을 포함할 수 있는 범위는 어디인가...

# 표준 오차 계산 : 표본 표준 편차 / sqrt(n)
std_error = stats.sem(sample)
print(std_error)

0.994698202440062


In [7]:
# 95% 신뢰 구간
# loc : 표본 평균, scale : 표준오차
conf_interval = stats.t.interval(confidence=0.95, df=sample_size-1, loc=mean_sample, scale=std_error)

print(f'95% 신뢰 구간 : {conf_interval[0]} ~ {conf_interval[1]}')

95% 신뢰 구간 : 67.93336991994966 ~ 71.88076398978322


In [8]:
print(f'모집단 평균 : {mean_population}')
print(f'95% 신뢰 구간 : {conf_interval[0]} ~ {conf_interval[1]}')

모집단 평균 : 69.97864016631574
95% 신뢰 구간 : 67.93336991994966 ~ 71.88076398978322
