In [1]:
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
%precision 3

'%.3f'

통계적 추정이란 즉, 모집단의 파라미터를 추정하는 것을 말합니다. 이번에는 모집단분포가 정규분포임을 가정했을 때 모집단의 파라미터를 활용해 모집단 분포를 추정하는 과정을 알아보겠습니다.

- 단순한 점추정
- 추정오차를 가미한 구간추정 방법

In [2]:
# 추정에 활용할 데이터 불러오기
fish = pd.read_csv("./sample/3-7-1-fish_length.csv")["length"]
fish

0    4.352982
1    3.735304
2    5.944617
3    3.798326
4    4.087688
5    5.265985
6    3.272614
7    3.526691
8    4.150083
9    3.736104
Name: length, dtype: float64

### 점추정
- 점추정이란 모집단분포의 파라미터를 어느 1개의 값으로 추정하는 추정 방법을 말합니다.
- 예를 들어 모집단의 평균을 추정하는 경우, 표본평균을 추정값으로 활용합니다.
- 표본에서 평균값을 계산하는 행위가 사실은 추정하는 것으로 볼 수 있습니다.

물론 표본평균을 사용해도 되는 이유를 짚고 넘어가야 합니다. 표본평균은 불편성과 일치성을 가지고 있는 통계량이기 때문입니다. 모집단 분포를 추정하는 데 활용하는 추정 통계량에는 그에 따른 가정과 근거가 중요합니다.

In [3]:
# 표본평균을 계산
mu = np.mean(fish)
mu

4.187039324504523

In [4]:
# 모분산의 점추정값으로 불편분산을 활용
sigma_2 = np.var(fish, ddof=1)
sigma_2

0.6803017080832623

### 구간추정
- 구간추정은 추정값이 일정 값의 범위에 분포할 확률을 구하여 추정하는 방법을 말합니다.
- 구간추정은 폭을 가지므로 그에 따른 추정오차 또한 명시합니다.
- 추정오차가 작으면 구간추정의 폭 역식 좁아지게 됩니다.
- 또한 샘플사이즈가 커질수록 큰수의 법칙에 의해 구간추정의 폭이 좁아집니다.

### 신뢰계수와 신뢰구간
- 신뢰계수란 구간추정의 폭에 대한 신뢰 정도를 확률로 표현한 것을 말합니다.
- 일반적으로 활용하는 신뢰계수는 95%와 99%라는 수치가 있습니다.
- 신뢰구간이란 특정 신뢰계수를 만족하는 구간을 의미합니다.
- 똑같은 데이터를 대상으로 했을 경우, 신뢰계수가 클수록 신뢰구간의 폭이 넓어집니다.

### 신뢰한계
- 신뢰한계는 신뢰구간의 하한값과 상한값을 의미합니다. 각각을 하측신뢰한계와 상측신뢰한계라고 부릅니다.

### 신뢰구간 계산 방법
- (표본평균 - 모평균) / 표준오차 = t값 -> t분포를 따른다.
- 구간추정은 t분포의 퍼센트 포인트를 사용합니다. 
- 95% 신뢰계수 라고 할 때 t분포는 2.5% 지점과 97.5% 지점을 계산합니다.
- 이러한 신뢰구간을 해석할 때, 't분포를 따르는 변수가 이 구간에 들어갈 확률은 95%이다.'라고 할 수 있습니다.

### 구간추정 (실습)
- 구간추정에 필요한 정보는 자유도 (샘플사이즈 - 1), 표본평균, 표준오차 등 3가지입니다.

In [5]:
df = len(fish) - 1
df

9

In [6]:
sigma = np.std(fish, ddof=1)
se = sigma / np.sqrt(len(fish))
se

0.26082593967687767

In [8]:
# 95% 신뢰구간은 3.597에서 4.777까지 입니다.
interval = stats.t.interval(alpha=0.95, df=df, loc=mu, scale=se)
interval

(3.5970100568358245, 4.777068592173221)

In [9]:
# 신뢰구간을 직접 구해보기
t_975 = stats.t.ppf(q=0.975, df=df)
t_975

2.2621571627409915

In [11]:
lower = mu - t_975 * se
lower

3.5970100568358245

In [13]:
upper = mu + t_975 * se
upper

4.777068592173221

In [None]:
# 신뢰구간의 폭을 결정하는 요소
