# Chap 10  통계적 추론 (표본의 크기가 클 때)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# example 12
path = '../data/pstat/예제, 연습문제/'
data = pd.read_excel(path + 'ch10.xlsx',sheet_name='예제1',header=None)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       30 non-null     int64
dtypes: int64(1)
memory usage: 368.0 bytes


In [4]:
data.describe()

Unnamed: 0,0
count,30.0
mean,160.2
std,5.990798
min,150.0
25%,156.0
50%,161.0
75%,165.0
max,170.0


## 10.2 모평균의 추정 (표본의 크기가 클 때)

### 점추정
- 추정하고자 하는 하나의 모수에 대하여 이 n개의 확률변수로 하나의 통계량을 만들고 주어진 표본으로부터 그 값을 계산하여 하나의 수치를 제시
- 추정량 : 모수를 추정하기 위해 만들어진 통계량
- 추정치 : 주어진 관측값으로부터 계산된 추정량

$$E(\bar{X})=\mu,\quad SE(\bar{X})=\frac{\sigma}{\sqrt{n}}\\ \sigma\approx s=\sqrt{\frac{1}{n-1}\sum^n_{i=1}(X_i-\bar{X})^2}=\sqrt{\frac{1}{n=1}(\sum^n_{i=1}X_i^2-n\bar{X}^2)}$$



### 구간추정
- 추정량의 분포를 이용하여 표본으로부터 모수 값을 포함하리라고 하는 예상구간(신뢰구간) 제시
- 신뢰구간이 모수를 포함확률은 1보다는 작은 일정 수준에서 유지시키면서 구간의 길이를 줄이는 것이 좋음, 모수를 포함할 확률은 대개 90%, 95%, 99% => 신뢰수준

예) 모집단이 정규분포이고 표준편차 주어짐 : $N(\mu,\ \sigma/\sqrt{n})$
    - 표준화 된 표본평균 $\frac{\bar(X)-\mu}{\sigma/\sqrt{n}} ~ N(0,1)$
    $$ P(|\frac{\bar{X}-\mu}{\sigma/ \sqrt{n}}|)=1-\alpha \\ if\ \alpha=0.05,\quad P(\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}}<\mu<\bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}})=1-\alpha$$
=> $\mu에\ 대한\ 100(1-\alpha)\%\ 신뢰구간=(\bar{X}-z_{\alpha/2}\frac{\sigma}{\sqrt{n}},\ \bar{X}+z_{\alpha/2}\frac{\sigma}{\sqrt{n}})\\ 오차범위 : z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$
    - 신뢰구간 중심 : $\bar{X}$, 길이 : $2\times z_{\alpha/2}\frac{\sigma}{\sqrt{n}}$
    => $\sigma$가 작을수록 신뢰구간의 길이가 짧아지고, 신뢰수준($\alpha$)을 높일 수록, $z_{\alpha/2}$가 커져시 신뢰구간의 길이가 길어진다. 주어진 $\alpha, \sigma$에 대해서 표본의 크기가 클 수록 신뢰구간의 길이가 짧아지므로 좀 더 정확한 정보를 얻을 수 있다
- 신뢰구간이 계산되고 나면 그 개별 구간에 대해서는 모수를 포함할 확률을 이야기할 수 없다 : 신뢰구간은 $\mu$를 포함하거나 그렇지 않거나 둘 중 하나이지, 95%의 확률로 $\mu$를 포함한다는 의미는 아니다. 같은 크기의 표본을 여러번 추출하여 같은 공식에 의한 신뢰구간을 구할 경우 그 중 약 95%의 구간이 모수를 포함하리라 예상
- 일반적인 경우 모집단의 분포나 표준편차가 알려지 있지 않다. 중심극한정리(n이 클 때, 30이상, $\bar{X}$는 근사적으로 $N(\mu,\frac{\sigma^2}{\sqrt{n}}$를 따른다)를 이용하여
$$ P(\bar{X}-z_{\alpha/2}\frac{s}{\sqrt{n}}<\mu<\bar{X}+z_{\alpha/2}\frac{s}{\sqrt{n}}) = 1-\alpha\\ 신뢰구간\ :\ (\bar{X}-z_{\alpha/2}\frac{s}{\sqrt{n}}, \bar{X}-z_{\alpha/2}\frac{s}{\sqrt{n}})$$


### 신뢰구간의 의미
- 표본을 계속 추출하여, 신뢰구간을 지속적으로 추출할 경우, 모평균을 포함하는 구간의 비율이 신뢰수준에 가까워 지는 것

### 표본크기의 결정
- 우리가 원하는 정확도를 얻을 수 있는 범위 내에서 표본크기를 줄여야
- 모평균의 경우 오차가 d 이하로 될 확률이 최소한 $100(1-\alpha)\%$가 되도록 하기 위해 필요한 최소의 표본 구하는 법

$$ P(|\bar{X}-\mu|\leq d) \geq 1-\alpha \\ P(\frac{|\bar{X}-\mu|}{\sigma/\sqrt{n}}\leq z_{\alpha/2}) \geq 1-\alpha \\ \therefore z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\leq d,\quad n\geq(z_{\alpha/2}\frac{\sigma}{d})^2 $$

## 10.3 모평균에 대한 검정
- "높은 콜레스테롤 수치를 보이는 성인의 경우 성인병에 걸릴 위험이 높다"
- 캠페인 시작 시 평균 200, 표준편차 24 -> 표본 40명의 데이터의 표본평균의 200보다 조금 작거나 조금 크면 우연일 수 있으나, 우연으로 나오기 힘든 정도로 차이가 나면 의미있는 차이라고 생각할 수 있다.
- 0.05가 거의 나오지 않을 확률이라고 치면 $P(\bar{X}\leq c)=0.05$를 고하고 c이하의 값이 나올 경우, 유의미한 차이가 있다고 주장할 수 있다
- 정규분포를 가정할 시, 원 모집단의 분포는 $N(200, 24^2)$이므로, 표본 평균 X의 분포는 $N(200, 24^2/40), Z=\frac{\bar{X}-200}{24/\sqrt{40}} : N(0,1)$
$$ 0.05 = P(\frac{\bar{X}-200}{24/\sqrt{40}}\leq-1.645)=P(\bar{X}\leq 200-1.645\times 24/\sqrt{40}),\quad c=200-1.645\times 24/\sqrt{40}=193.76$$
- 검정통계량 : 검정의 결론을 내리는데 이용되는 표본의 함수
- 기각역 : $\bar{X}$가 취하는 구간 중에서 $H_0$가 기각되는 구간
$$H_0이 맞을 때,\quad \alpha=P(\bar{X}\leq c)\\ H_1가 맞을 때,\quad \beta=P(\bar{X} > c) $$
- 유의수준 : 선택된 기각역의 $H_0$하에서 확률($\alpha$)
- 기각역이 구해지면 표본으로부터 검정통계량의 값을 구하여 그 값이 기각역에 포함되면 $H_0$을 기각하고, 그 값이 기각역에 포함되지 않으면 $H_0$를 기각하지 않는다
- Z-test : 검정통계량으로 $Z=\frac{\bar{X}-\mu_0}{s/\sqrt{n}}$을 사용하고, 기각역을 $R:Z\leq -z_a$로 표현
- 유의 확률(p-value) : 얻어진 Z의 값을 가지고 기각할 수 있게 하는 최소의 유의수준

In [12]:
# prob 3.5, 6
# 1 
# 
x = 30.54
z = (x-30)/(2/np.sqrt(55)) 
z

2.0023735915158256

In [11]:
# y-y_0 / x-x_0 = y_1 - y_0 / x_1 - x_0
y = (1.65 - 1.64) / (0.9505 - 0.9495) * (0.95 - 0.9495) + 1.64
y

1.6449999999999994

In [30]:
# prob 3.8

from scipy.stats import norm

n = 40
x_bar = 50000
s = 9000

z = (46000 - x_bar) / (s/np.sqrt(n))
print(z, 'rejected')

-2.8109134757052265 rejected


In [42]:
# prob 3.10
# z_0.01 = 2.326
norm.cdf(2.326)
n = 80
s = 210
x_bar = 1060
z = (1100 - x_bar) / (s/np.sqrt(n))
print(z, 'not rejected')
p_val = norm.cdf(z,)
print(2*(1-norm.cdf(z)))

1.70367083999984 not rejected
0.08844259879546534


In [47]:
# prob 3.12
n = 80
s = 1.1
x_bar = 4.5
z = (4.2 - x_bar) / (s/np.sqrt(n))
print(z, '기각')
print(norm.cdf(z))

-2.4393468845452233 기각
0.007356918302264288


In [48]:
# prob 3.14
# 1) 예
# 2) 판단불가능
# 3) 아니오

In [50]:
# prob 3.16
n = 30
s = 3.1
x_bar = 23.5
z = (25 - x_bar) / (s/np.sqrt(n))
print(z, '0.01 수준에서 기각 가능')
print(norm.cdf(z))

2.650270439541126 0.01 수준에서 기각 가능
0.9959786318447904


## 10.4 모비율에 대한 추론(표본 크기가 클 때)
- 점추정 : 모비율에 대한 추정량으로 표본비율 사용. $\hat{p}=\frac{\bar{X}}{n}$
    - 표본 추출과정 : X의 분포는 반복 횟수 n, 성공의 확률 p의 이항분포
    - X의 기댓값과 표준편차 : np, $\sqrt{np(1-p)}$
    $$ E(\hat{p})=p,\quad S.E.(\hat{p})=\sqrt{\frac{p(1-p)}{n}} $$
    
- 구간추정
    - 표본의 크기가 큰 경우에 X는 근사적으로 평균이 np이고, 분산이 np(1-p)인 정규분포를 따른다. $$ Z=\frac{X-np}{\sqrt{np(1-p)}}, ~ N(0,1) \\ Z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}$$
    : $\hat{p}$은 평균이 p이고 표준편차가 $\sqrt{p(1-p)/n}$인 정규분포를 따른다.
    $$P(|\frac{\hat{p}-p}{\sqrt{p(1-p)/n}}|<z_{\alpha/2})=P(|\hat{p}-p|<z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}})=1-\alpha$$
    
> 구간 $(\hat{p}-z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}},\ \hat{p}+z_{\alpha/2}\sqrt{\frac{p(1-p)}{n}})$이 p를 포함할 확률이 $1-\alpha$

- 표본크기의 결정
  - 오차가 d 이하가 될 확률이 최소한 100(1-$\alpha$)%가 되기 위한 조건
  $P(|\hat{p}-p|\leq d)\geq 1-\alpha$
  - 표본의 크기가 커서 정규분포 이용 시,
  $P(\frac{|\hat{p}-p}{\sqrt{p(1-p)/n}}\leq z_{\alpha/2})=1-\alpha$
  - $\therefore n\geq (\frac{z_{\alpha/2}}{d})^2p(1-p)\\ d:오차$
  - 표본 추출 전에는 p를 알 수 없으므로, 적절한 수치로 대체 필요. :p(1-p)의 최댓값 -> f(p)=p(1-p), p=0,1일 때, 최댓값 0.25
  
- 모비율에 대한 검정
  - $H_0:p=p_0$,표본의 크기가 클 때, 표본 비율 $\hat{p}=X/n$는 정규분포를 따름($N(p_0,p_0(1-p_0)/n)$) 
  $$ 검정통계량\ Z=\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\~N(0,1) $$

$$H_1:\mu < \mu_0, 단측검정p-val=P(Z\leq z_0):cdf(z) // 
H_1:\mu > \mu_0, 단측검정p-val=1-P(Z\leq z_0):1-cdf(z) \\
H_1:\mu \neq \mu_0, 양측검정p-val=P(|Z|\geq |z_0|) = 2\times P(Z\geq|z_0|):2*(1-cdf(z_0)),\ (z_0>0),\quad or \quad2*cdf(z_0)\ (z_0<0)$$

In [54]:
from scipy.stats import norm

In [98]:
# example 12
p_0 = 0.3
n = 60
p_hat = 27/60

z = (p_hat - p_0) / np.sqrt(p_0*(1-p_0)/n)
print(1-norm.cdf(z))

0.005614943326458288


In [59]:
# prob 4.1
# 1
n = 50; X = 31
p = X / n
se = np.sqrt(p * (1-p)/n)
ci = 1.96 * np.sqrt(p * (1-p)/n)
print(se, ci)

0.06864400920692205 0.13454225804556721


In [60]:
# prob 4.3
# 1
n = 78; X = 49
p = X / n
se = np.sqrt(p * (1-p)/n)
ci = 1.96 * np.sqrt(p * (1-p)/n)
print(se, ci)

0.05472113981207022 0.10725343403165763


In [74]:
# prob 4.6 
p = 28/45
se = np.sqrt(p*(1-p)/45)
ci = 1.645 * se

print(p, p-ci , p+ci)

0.6222222222222222 0.5033307765360888 0.7411136679083556


In [62]:
# prob 4.7
n = 2927
a = 1499
b = 849
c = 498
d = 81

p = b / n
se = np.sqrt(p * (1-p)/n)
ci = 1.96 * se
print(p, ci)

0.2900580799453365 0.016439878534231428


In [64]:
# prob 4.8
# 1
p = 0.598
n = 750
se = np.sqrt(p*(1-p)/n)
ci = 1.96 * se

print(p -ci, p+ci)

0.562909540259495 0.6330904597405049


In [65]:
# prob 4.8
# 2
p = 0.042
n = 750
se = np.sqrt(p*(1-p)/n)
ci = 1.645 * se

print(p -ci, p+ci)

0.029951231216427135 0.05404876878357287


In [80]:
# prob 4.10
alpha = 10/2
z_alpha = 1.645
d = 0.04
p = 0.5
n = (z_alpha/d)**2 * p * (1-p)
print(n)

422.81640625


In [79]:
# prob 4.12
alpha = 5/2
z_alpha = 1.96
d = 0.08
p = 28/45
n = (z_alpha / d) ** 2 * p * (1-p)
print(n)

141.0958024691358


In [81]:
# prob 4.14
# 1
# H0 : p=0.32, H1 : p<0.32
# z = (p_hat - p)/sqrt(p * (1-p)/n)

In [92]:
# prob 4.16
# 1 Z >= 1.28
# 2 |Z| >= 1.645

In [93]:
# prob 4.17
p_0 = 0.3
# z = (p_hat - p) / np.sqrt(p*(1-p)/n) # z > 1.645
n = 49
p_hat = 19/49

z = (p_hat - p_0) / np.sqrt(p_0*(1-p_0)/n)
print(1-norm.cdf(z))


0.09004445576265485


In [100]:
# prob 4.18
# 1
# H0 : p = 0.5, H1 : p < 0.5

# 2
n = 500
p_0 = 0.5
p_hat = 228 / n
z_alpha = 1.96
z = (p_hat - p_0) / np.sqrt(p_0 * (1-p_0)/n)
print(norm.cdf(z))

0.024548990804632832


In [103]:
# prob 4.20
p_0 = 0.598
n = 750
p_hat = 0.57
z= (p_hat - p_0) / np.sqrt(p_0*(1-p_0)/n)
print(norm.cdf(z))


0.05891373358655136


In [104]:
# prob 4.22
p_0 = 0.78
n = 980
p_hat = 0.75
z = (p_hat - p_0) / np.sqrt(p_0*(1-p_0)/n)
print(norm.cdf(z))

0.011691265926981281


In [108]:
# example 13
path = '../data/pstat/예제, 연습문제/'
data = pd.read_excel(path + 'ch10.xlsx',sheet_name='예제1',header=None)
data.rename(columns={0:'data'},inplace=True)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   data    30 non-null     int64
dtypes: int64(1)
memory usage: 368.0 bytes


In [119]:
from scipy import stats
se = stats.sem(data);print(se)
alpha = 0.05
z_alpha = stats.norm.ppf(1-alpha/2); print(z_alpha)
interval = z_alpha * se;print(interval)
x_bar = np.mean(data)
print(float(x_bar-interval), float(x_bar+interval))

[1.09376498]
1.959963984540054
[2.14373998]
158.05626002483402 162.34373997516596


In [136]:
# example 14 //////
mu = 159
alpha = 0.05
x_bar = 160.2
s = 5.99
se = stats.norm.ppf(1-alpha/2); 
z = (x_bar-mu)/ se; print(z)
print(2*(1-stats.norm.cdf(z)))

0.612256148309579
0.5403682979092668


In [145]:
# example 15

path = '../data/pstat/예제, 연습문제/'
data = pd.read_excel(path + 'ch3.xlsx',sheet_name='예제11',header=None)
data = pd.DataFrame(data.stack().values)
data.rename(columns={0:'data'},inplace=True)
data
# data.info()

Unnamed: 0,data
0,55.9
1,63.8
2,57.2
3,59.8
4,65.7
5,62.7
6,60.8
7,51.3
8,61.8
9,56.0


In [146]:
#1

alpha = 0.02
x_bar = np.mean(data)
n = len(data)
se = stats.sem(data)
z_alpha = stats.norm.ppf(1-alpha/2)
interval = z_alpha * se
print(float(x_bar-interval), float(x_bar+interval))

59.801357233295455 62.946642766704535


In [151]:
#2

mu = 60
z_val = (x_bar-mu) / se
p_val = (1-stats.norm.cdf(z_val))
print(p_val)

[0.02105135]


In [153]:
# prob 5.2 
#1
n = 80
mu = 752 / n
s = np.sqrt((345/(n-1)))
se = s/np.sqrt(n)
print(mu, se)

9.4 0.23364205014281295


In [154]:
# 2
n = 169
mu = 1290 / n
s = np.sqrt((842/(n-1)))
se = s/np.sqrt(n)
print(mu, se)

7.633136094674557 0.17220987542734803


In [162]:
# prob 5.6

d = 2.5
alpha = 0.05
s = 18
z_alpha = stats.norm.ppf(1-alpha/2);print(z_alpha)
print((z_alpha*s/d)**2)

1.959963984540054
199.14122526478346


In [163]:
# prob 5.8
alpha = 0.05
d = 10
s = 80
z_alpha = norm.ppf(1-alpha/2)
print((z_alpha*s/d)**2)

245.85336452442397


In [170]:
# prob 5.10
# 1
n = 60
mu = 752 / n
alpha = 0.05
s = np.sqrt(426/n); print(s)
z_alpha = norm.ppf(1-alpha/2);print(z_alpha)
se = s/np.sqrt(n)
print(mu-z_alpha*se, mu + z_alpha*se)

2.6645825188948455
1.959963984540054
11.859113319453982 13.207553347212684


In [171]:
# 2
n = 150
mu = 2652 / n
alpha = 0.1
s = np.sqrt(3722/n)
z_alpha = norm.ppf(1-alpha/2)
se = s/np.sqrt(n)
print(mu-z_alpha*se, mu+z_alpha*se)

17.01100298169928 18.348997018300718


In [178]:
# prob 5.12
x_bar = 35
s = 4
alpha = 0.1
n = 80
se = s/np.sqrt(n)
z_alpha = norm.ppf(1-alpha/2)
print(x_bar - z_alpha*se, x_bar + z_alpha*se)

34.26439909541988 35.73560090458012


In [185]:
# prob 5.16
# 1
n = 100
s = 10.6
x_bar = 52

# z_alpha * (s/np.sqrt(n)) = 2.47
z_alpha = 2.47 / (s/np.sqrt(n))
# norm.ppf(1-alpha/2) = z_alpha

alpha = -2*(norm.cdf(z_alpha)-1)
alpha

0.019796181051403572

In [186]:
# 2
n = 100
s = 10.6
x_bar = 52
alpha = 0.05
z_alpha = norm.ppf(1-alpha/2)
c = z_alpha * (s/np.sqrt(n))

c

2.0775618236124576

In [188]:
# prob 5.20
# 1
mu = 8.5
n = 42
x_bar = 8.79
s = 1.27
alpha = 0.1

z = (x_bar - mu)/(s/np.sqrt(n))
z_alpha = norm.ppf(1-alpha/2)
print(z, z_alpha)

1.4798541752269874 1.6448536269514722


In [191]:
# 2
(1-norm.cdf(z)) * 2

0.13891216721212452

In [197]:
# prob 5.22
# 1
from sympy import symbols, solve

n = 49
alpha = 0.05
# ci = (22.028, 24.772)
# 신뢰구간 = (X-z_alpha * s / sqrt(n), X+z_alpha * s / sqrt(n))
z_alpha = norm.ppf(1-alpha/2)

x_bar, s = symbols("x_bar, s")

print(solve([
    x_bar - z_alpha * s / np.sqrt(n) - 22.028,
    x_bar + z_alpha * s / np.sqrt(n) - 24.772
]))


{s: 4.90009004030438, x_bar: 23.4000000000000}


In [198]:
# 2
s = 4.9
x_bar = 23.4
se = s / np.sqrt(n)
print(se)

0.7000000000000001


In [200]:
# 3
alpha = 0.1
z_alpha = norm.ppf(1-alpha/2)
print(x_bar-z_alpha*se, x_bar+z_alpha*se)

22.248602461133967 24.55139753886603


In [204]:
# 4
alpha = 0.05
z_alpha = norm.ppf(1-alpha/2)
x_hat = 23.8
z = (x_hat- x_bar) / se
p_val = norm.cdf(z)
print(p_val)

0.7161454169013247


In [205]:
# prob 5.24
# 1
n = 2000
p = 165 / n
print(p)

# 2
alpha = 0.05
se = np.sqrt(p*(1-p)/n)
z_alpha = norm.ppf(1-alpha/2)
print(p-z_alpha*se, p+z_alpha*se)

0.0825
0.07044233804568821 0.0945576619543118


In [211]:
# prob 5.26
p = 0.6
alpha = 0.05
z_alpha = norm.ppf(alpha/2)
d = 0.03

print((z_alpha/d)**2*p*(1-p))

1024.3890188517676


In [215]:
# prob 5.28
alpha = 0.1
p_0 = 0.25
n = 200
p_hat = 65/200

z_alpha = norm.ppf(1-alpha/2)
se = np.sqrt(p_hat * (1-p_hat)/n)
print(p_hat, z_alpha*se)

0.325 0.05447607710005287


In [221]:
# prob 5.30
# 1
n = 170
p_0 = 0.4
p_hat = 0.453

se = np.sqrt(p_0 * (1-p_0)/n)
z = (p_hat - p_0) / se
alpha = (1-norm.cdf(z))
print(alpha)

0.07918568950333471


In [226]:
# 2
alpha = 0.025
p_hat = norm.ppf(1-alpha) * se + p_0
p_hat

0.47364262340626123

In [235]:
# prob 5.32
n = 130
p_0 = 38/n
p_hat = 0.25

se = np.sqrt(p_0 * (1-p_0)/n)
z = (p_hat - p_0) / se

p_val = norm.cdf(z)
p_val

0.14443750960568835

In [237]:
# prob 5.34
# 1
p_0 = 0.8
n = 200
p_hat = 136/n

se = np.sqrt(p_0 * (1-p_0)/n)
z = (p_hat - p_0) / se

print(norm.cdf(z))

1.1045248499292722e-05


In [244]:
# 2
alpha = 0.05
z_alpha = norm.ppf(1-alpha/2)

print(p_hat, z_alpha*se)

0.68 0.055436152973987116


In [247]:
# prob 5.36
# 1
alpha = 0.05
d = 0.008
p = 0.5

z_alpha = norm.ppf(1-alpha/2)
n = (z_alpha/d)**2 * p * (1-p)
n

15005.698518336427

In [249]:
# 2
n = 400
p_hat = 56/n

se = np.sqrt(p_hat * (1-p_hat)/n)
z_alpha = norm.ppf(1-alpha/2)

print(p_hat, z_alpha*se)

0.14 0.03400410423800238
