<a href="https://colab.research.google.com/github/johyunkang/python_stat/blob/main/chapter10.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Chapter 10 통계적 추정

In [14]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from scipy import stats

df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/누구나파이썬통계분석/data/ch4_scores400.csv')
display(df.head(3))

scores = np.array(df['score'])
print('scores:', scores[:3])

p_mean = np.mean(scores) # 모평균
p_var = np.var(scores) # 모분산
print('모평균:', p_mean, ', 모분산:', p_var)

np.random.seed(0)
n=20
sample = np.random.choice(scores, n) # 20개의 랜덤샘플
print('20개 랜덤샘플:', sample)
s_mean = np.mean(sample)
print('20개 랜덤 표본평균:', s_mean)

n_samples = 10_000
samples = np.random.choice(scores, (n_samples, n)) # 20개의 랜덤샘플 1만개 생성
print('20개의 1만개 랜덤샘플 길이:', len(samples))

Unnamed: 0,score
0,76
1,55
2,80


scores: [76 55 80]
모평균: 69.53 , 모분산: 206.6691
20개 랜덤샘플: [49 60 72 86 52 61 77 91 80 56 69 67 90 56 75 79 60 79 68 81]
20개 랜덤 표본평균: 70.4
20개의 1만개 랜덤샘플 길이: 10000


## 10.1 점추정

### 10.1.2 모분산의 점추정

모분산의 불편추정량이 되는 표본통계량은 `불편분산 (unbiased variance)` 임

- 불편분산 : 표본분산에서 나누는 수 n을 n-1로 하는 다음식으로 계산

$s2 = \dfrac {1} {n-1} \displaystyle \sum_{i=1}^n(X_i - \bar{X})^2$

In [12]:
sample_u_vars = np.var(samples, axis=1, ddof=1) # 불편분산이라 ddof=1
print('1만개 표본분산의 평균:', np.mean(sample_u_vars))

print('샘플 100만개 표본분산:', np.var(np.random.choice(scores, 1_000_000), ddof=1))

1만개 표본분산의 평균: 207.20479631578948
샘플 100만개 표본분산: 206.8688966644077


## 10.2 구간추정

### 10.2.1 정규분포의 모평균 구간추정 : 모분산을 알고 있는 경우  
(정규분포 가정하고 계산)

모집단의 정규분포를 가정했으므로 표본평균 X_bar 는 아래 식을 따름

$\bar{X} = N(\mu, \dfrac{\sigma^2} {n})$

- 표준오차 (standard error) : 추정량의 표준편차

$표준오차 = \sqrt{\dfrac {\sigma^2}{n}}$

$Z= (\bar{X} - \mu) / \sqrt{\dfrac{\sigma^2}{n}} $

In [21]:
rv = stats.norm() # 정규분포
lcl = s_mean - rv.isf(0.025) * np.sqrt(p_var / n) # 95% 신뢰하한 (lower confidence limit)
ucl = s_mean - rv.isf(0.975) * np.sqrt(p_var / n) # 신뢰상한 (upper confidence limit)
print('95% 신뢰하한:', lcl, ', 95% 신뢰상한:', ucl) # 95% 신뢰구간
print('95% 신뢰구간:', lcl ,' ~ ', ucl)
# 해석은 100번 중 95번의 비율로 모평균이 신뢰구간에 포함된다.
# (모평균 실제 값은 하나 이기 때문)

95% 신뢰하한: 64.09956018535247 , 95% 신뢰상한: 76.70043981464754
95% 신뢰구간: 64.09956018535247  ~  76.70043981464754


### 10.2.2 정규분포의 모분산 구간추정

p.277