# Chapter 3. 파이썬을 이용한 데이터 분석

## 3.7 추정

### 3.7.1. 분석 준비

In [1]:
# 수치 계산에 사용하는 라이브러리
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats

# 그래프를 그리기 위한 라이브러리
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()

# 표시자릿수 지정
%precision 3
# 그래프를 주피터 노트북에 그리기 위한 설정
%matplotlib inline

In [2]:
# 데이터로드
fish = pd.read_csv("3-7-1-fish_length.csv")["length"]
fish

0    4.352982
1    3.735304
2    5.944617
3    3.798326
4    4.087688
5    5.265985
6    3.272614
7    3.526691
8    4.150083
9    3.736104
Name: length, dtype: float64

### 3.7.2. 점추정

점추정: 모수(모집단분포의 파라미터)를 어느 1개의 값으로 추정하는 추정방법

In [3]:
# 모평균의 점추정
mu = np.mean(fish)
mu

# 표본평균이 4.187이므로 모평균도 4.187이라고 추정

4.187

In [4]:
# 모집단 분산의 점추정
sigma = np.var(fish, ddof = 1)
sigma
sigma
# 표본의 불편분산이 0.680이므로, 모분산값이 0.680이라고 추정

0.680

### 3.7.7. 구간추정

* 구간추정: 추정값이 폭을 가지게 하는 추정 방법
* 신뢰계수: 구간추정의 폭에 대한 신뢰 정도를 확률로 표현(95%나 99%를 많이 사용)
* 신뢰구간: 특정 신뢰계수를 만족하는 구간
* 신뢰한계: 신뢰구간의 하한값과 상한값


In [5]:
# 자유도 = 샘플사이즈 - 1
df = len(fish) - 1
df

9

In [6]:
# 표준오차(standard error)
se = sigma / np.sqrt(len(fish))
se

0.215130289364609

In [7]:
# 구간추정
# stats.t.interval 함수 
# alpha: 신뢰계수, df: 자유도, loc: 표본평균, sclae: 표준오차
interval = stats.t.interval(
    alpha = 0.95, df = df, loc = mu, scale = se)
interval

(3.700380799495831, 4.673697849513216)

95%의 신뢰구간은 3.597에서부터 4.77까지임

### 3.7.8. 신뢰구간을 구하는 방법 상세 설명

In [8]:
# 97.5% 지점
t_975 = stats.t.ppf(q = 0.975, df = df)
t_975

2.2621571627409915

In [9]:
# 하측 신뢰한계
lower = mu - t_975 * se
lower

3.700380799495831

In [10]:
# 상측 신뢰한계
upper = mu + t_975 * se
upper

4.673697849513216

### 3.7.9. 신뢰구간의 폭을 결정하는 요소

In [11]:
# 표본 표준 편차가 크면 신뢰 구간은 넓어진다
se2 = (sigma*10) / np.sqrt(len(fish))
stats.t.interval(
    alpha = 0.95, df = df, loc = mu, scale = se2)

(-0.6795459255824019, 9.05362457459145)

In [12]:
# 샘플 크기가 크면 신뢰 구간은 좁아진다
df2 = (len(fish)*10) - 1
se3 = sigma / np.sqrt(len(fish)*10)
stats.t.interval(
    alpha = 0.95, df = df2, loc = mu, scale = se3)

(4.052052706372611, 4.322025942636436)

In [13]:
# 99% 신뢰구간
stats.t.interval(
    alpha = 0.99, df = df, loc = mu, scale = se)

(3.487901263533105, 4.886177385475941)

### 3.7.10. 구간추정 결과의 해석

In [15]:
# 데이터를 10 개 선택, 95 % 신뢰 구간을 구하는 시도를 20000번 반복
# 신뢰 구간이 모평균 (4)를 포함하는 경우 True
np.random.seed(1)
norm_dist = stats.norm(loc = 4, scale = 0.8)
for i in range(0, 20000):
    sample = norm_dist.rvs(size = 10)
    df = len(sample) - 1
    mu = np.mean(sample)
    std = np.std(sample, ddof = 1)
    se = std / np.sqrt(len(sample))
    interval = stats.t.interval(0.95, df, mu, se)
    if(interval[0] <= 4 and interval[1] >= 4):
        be_included_array[i] = True

In [16]:
sum(be_included_array) / len(be_included_array)

0.948

In [None]:
S