In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy as sp
from scipy import stats, integrate
import warnings
warnings.filterwarnings('ignore')

#### 통계적 추정
- 점추정
    - 모평균이나 모분산 등의 모수를 하나의 수치로 추정
    - 추정량의 기댓값이 추측하려는 모수가 되는 성질을 '불편성'이라 하며,<br>불편성을 가진 추정량을 불편추정량이라고 한다.
    - 표본평균이 모평균을 잘 추정할 수 있는 근거 중 하나가 바로 이 불편성이다.
    - 표본 크기 $n$을 증가시키면 추측하길 원하는 모수에 수렴해 가는 성질을 '일치성'이라 하며,<br>일치성을 지닌 추정량을 일치추정량이라고 한다.
    - 표본평균은 불편성과 일치성을 모두 가지고 있기 때문에 모평균을 잘 추정한다고 할 수 있다.
    - 모분산의 불편추정량이 되는 표본통계량은 불편분산이다.
    - 불편분산은 표본분산에서 나누는 수 $n$을 $n-1$로 변경하여 계산되며,<br>표본분산은 $S^2$로 나타내지만 불편분산은 $s^2$로 나타낸다.
<br>

- 구간추정
    - 구간(폭)으로 모수를 추정하는 방법
    - 모분산을 알고 있는 경우의 모평균 구간추정
    - 모분산을 알고 있는 경우의 모분산 구간추정
    - 모분산을 알지 못하는 경우의 모평균 구간추정
    - 베르누이 분포의 모평균 구간추정
    - 포아송 분포의 모평균 신뢰구간

모분산을 모르는 경우
- $\sqrt{\sigma^2/n}$ 대신 불편표준편차의 $\sqrt{s^2/n}$를 표준오차로 사용한다.
- 표준화 과정에서 다음의 식이 사용되는데, 이것은 t분포를 따른다. (카이제곱분포 Y 이용하여 구함)  
$t = $ $Z \over \sqrt{Y/(n-1)}$
- 이 때, $\alpha$ 신뢰구간은 다음과 같다.  
$[\bar{X}-t_{\alpha/2}(n-1)\sqrt{s^2/n}, \bar{X}-t_{1-\alpha/2}(n-1)\sqrt{s^2/n}]$


In [21]:
# [과제] 모평균과 모분산의 점추정 사례를 파이썬 코드로 수행하세요.

np.random.seed(0)
rv = stats.t(4) # 자유도 4인 t분포
print(f'모평균: {rv.mean()}')
print(f'모분산: {rv.var()}')

# 불편성 검증
# 추정량의 평균이 모수에 근접한다.
sample = rv.rvs((10000,5))
spmean = np.mean(sample, axis=0)
spvar = np.var(sample,axis=0, ddof=1)
print(np.mean(spmean).round(3))
print(np.mean(spvar).round(3))

# 일치성 검증
# 표본의 값이 커지면 모수에 수렴한다.
sample = rv.rvs(10000000)
print(sample.mean().round(3))
print(sample.var(ddof=1).round(3))

모평균: 0.0
모분산: 2.0
0.01
2.037
-0.001
1.997


In [34]:
# [과제] 모분산을 알지 못할 때 정규분포의 모평균의 구간 추정을 파이썬 코드로 수행하세요.
# 95% 추정으로 고고 -> 알파는 0.05

normal = stats.norm(3,8) # 평균 3, 표준편차 8(분산 64)의 정규분포
n = 1000 # 표본 개수
sample = normal.rvs(n) # 1천 개의 표본 추출
rv = stats.t(n-1)

lcl = sample.mean()-rv.isf(0.05/2)*np.sqrt(sample.var(ddof=1)/n)
ucl = sample.mean()-rv.isf(1-0.05/2)*np.sqrt(sample.var(ddof=1)/n)
print(lcl.round(3), ucl.round(3))

# 100번 돌려서 5번은 모평균이 이 범위에 안 들어간다.

2.419 3.406


In [40]:
# [과제] 모집단의 정규분포를 가정할 수 없는 예를 포아송 분포로 설정하여 모평균 신뢰구간을 구하세요.
# 90% 신뢰 구간으로 진행 => 알파는 0.1

poisson = stats.poisson(8) # 기댓값 8, 분산 8
n = 1000
sample = poisson.rvs(n) # 중심극한정리에 의해 이것의 평균은 정규분포를 따른다
                        # 추후 수식을 통해 표준화해서 표준정규분포를 따르게끔 바꾸자
rv = stats.norm() # 표준정규분포
lcl = sample.mean()-rv.isf(0.1/2)*np.sqrt(sample.mean()/n)
ucl = sample.mean()-rv.isf(1-0.1/2)*np.sqrt(sample.mean()/n)
print(lcl.round(3), ucl.round(3))

# 10번 돌려서 1번은 모평균이 이 범위에 안 들어간다. 그 뜻임.

7.823 8.117
