## 파이썬을 활용한 모평균의 추정 : 점추정, 구간추정 

### 생성된 자료를 활용하여 추정 이해 

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [2]:
sample = np.arange(0,10)
sample

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
# 표본에서 평균과 표준오차 계산 
sample_mean = np.mean(sample)
sample_se = stats.sem(sample)
print('표본평균= ', sample_mean, ', 표준오차= ', sample_se)

표본평균=  4.5 , 표준오차=  0.9574271077563381


- 모평균에 대한 $(1-\alpha) 100\%$ 신뢰구간 : 
$\left(\bar{X} - t_{\alpha/2, n-1} \frac{S}{\sqrt{n} }, \bar{X} + t_{\alpha/2, n-1} \frac{S}{\sqrt{n} } \right)$

- 모평균에 대한 $99\%$ 신뢰구간

In [4]:
confidence_level = 0.99
df = sample.size - 1
confidence_interval = stats.t.interval(confidence_level, df, sample_mean, sample_se)
print(confidence_interval)

(1.388519354409619, 7.611480645590381)


$\Rightarrow$ 모평균에 대한 $99\%$ 신뢰구간은 (1.39, 7.61)

- 모평균에 대한 $95\%$ 신뢰구간

In [5]:
confidence_level = 0.95
df = sample.size - 1
confidence_interval = stats.t.interval(confidence_level, df, sample_mean, sample_se)
print(confidence_interval)

(2.3341494103866087, 6.665850589613392)


$\Rightarrow$ 모평균에 대한 $95\%$ 신뢰구간은 (2.33, 6.67)로 **신뢰수준이 낮아지면** **구간의 크기가 작아짐**을 확인할 수 있음 

- 표본의 크기가 커지면? 

In [6]:
sample = np.repeat(np.arange(0,10), 5)
sample

array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4,
       4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 8, 8, 8, 8,
       8, 9, 9, 9, 9, 9])

In [7]:
# 표본에서 평균과 표준오차 계산 
sample_mean = np.mean(sample)
sample_se = stats.sem(sample)
print('표본평균= ', sample_mean, ', 표준오차= ', sample_se)

    ##표본증가 -> 표준오차 감소 확인가능.

표본평균=  4.5 , 표준오차=  0.41032590332414487


In [8]:
confidence_level = 0.95
df = sample.size - 1
confidence_interval = stats.t.interval(confidence_level, df, sample_mean, sample_se)
print(confidence_interval)

(3.6754192266103853, 5.324580773389615)


$\Rightarrow$ 모평균에 대한 $95\%$ 신뢰구간은 (3.68, 5.32)로 이전 예시에서 구한 (2.33, 6.67)에 비해 구간이 좁아짐을 확인 

$\Rightarrow$ **표본의 크기가 커지면** 동일한 평균을 가지더라도 **구간이 좁아짐**을 확인할 수 있음 

### 아파트 실거래가 데이터 활용한 평균의 추정 

In [9]:
import pandas as pd
apt = pd.read_excel('data/아파트_실거래가_서울.xlsx')
apt.rename(columns = {'전용면적(㎡)' : '면적', '거래금액(만원)' : '가격'}, inplace = True)
apt['단가'] = apt.가격 / apt.면적

In [10]:
# 데이터에서 단가의 평균과 표준오차 계산 
sample_mean = apt.단가.mean() # np.mean(apt.단가)도 동일
sample_se = apt.단가.sem() # stats.sem(apt.단가)도 동일
print('표본평균= ', sample_mean, ', 표준오차= ', sample_se)

표본평균=  1307.5788398296 , 표준오차=  9.9591825211853


In [11]:
confidence_level = 0.95
df = len(apt) - 1
confidence_interval = stats.t.interval(confidence_level, df, sample_mean, sample_se)
print(confidence_interval)

(1288.0530237650487, 1327.1046558941512)
