<a href="https://colab.research.google.com/github/doeungim/ADP_DE2/blob/main/2_%EC%B6%94%EC%A0%95%EA%B3%BC%EA%B0%80%EC%84%A4%EA%B2%80%EC%A0%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 🔍 단일 표본 평균 검정
1.  Z검정 vs T검정 비교

\begin{array}{|c|c|c|}
\hline
\textbf{구분} & \textbf{Z 검정} & \textbf{T 검정} \\
\hline
\text{사용 조건} & \sigma (\text{모표준편차}) \text{를 알고 있을 때} & \sigma \text{를 모를 때 (표본표준편차 사용)} \\
\hline
\text{분포} & \text{표준정규분포 (Z)} & \text{t-분포 (df = n-1)} \\
\hline
\text{표본 크기} & n \geq 30 \text{이면 자주 사용} & n < 30 \text{일 때 적합} \\
\hline
\text{공식} & Z = \frac{\bar{x} - \mu_0}{\sigma / \sqrt{n}} & t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \\
\hline
\end{array}


2. 신뢰구간(Confidence Interval)


\begin{array}{|c|c|}
\hline
\textbf{검정 종류} & \textbf{신뢰구간 공식} \\
\hline
Z\text{ 검정} & \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} \\
\hline
T\text{ 검정} & \bar{x} \pm t_{\alpha/2, df} \cdot \frac{s}{\sqrt{n}} \\
\hline
\end{array}



표본 크기 계산 공식 (신뢰구간 기반)


\begin{array}{|c|c|}
\hline
\textbf{항목} & \textbf{공식 및 설명} \\
\hline
\text{기본 공식} & n = \left( \frac{Z_{\alpha/2} \cdot \sigma}{E} \right)^2 \\
\hline
\text{의미} &
\begin{aligned}
&n : \text{필요한 표본 크기} \\
&Z_{\alpha/2} : \text{신뢰수준에 해당하는 Z값 (예: 1.96 for 95\%)} \\
&\sigma : \text{모표준편차 (또는 예측값)} \\
&E : \text{허용 오차 (margin of error)} \\
\end{aligned}
\\
\hline
\text{조건} & \text{모표준편차 \(\sigma\)는 알고 있다고 가정} \\
\hline
\end{array}

#### 🔹 Question
어느 도시의 평균 키가 165cm라고 알려져 있다. 표본 36명을 조사해 평균 키가 167cm, 표준편차가 6cm였다. 이 도시의 평균 키가 165cm보다 크다고 할 수 있는지 유의수준 0.05에서 단측 t-검정을 수행하고, 95% 신뢰구간

In [None]:
from scipy import stats
import numpy as np

mu = 165
n = 36

x = 167
s = 6

# P(X > 165)
confa = 0.05

# 신뢰구간
se = s / np.sqrt(n)
t = (x - mu) / se
# 자유도
df = n- 1
# p_value
p_value = 1 - stats.t.cdf(t, df)

# 신뢰구간
conf_t = stats.t.ppf(1 - confa / 2, df)
ME = conf_t * se

low = x - ME
upper = x + ME

print(t,p_value, low, upper)


2.0 0.026653825931598374 164.96989207174965 169.03010792825035


#### 🔹 Question [표본의 크기]
모평균 추정을 위해 95% 신뢰수준, 허용 오차 2, 표준편차 10 일떄 표본 사이즈

In [None]:
from scipy.stats import norm
ME = 2
s = 10
confa = 0.05

confz = stats.norm.ppf(1 - confa / 2)

print((confz * s / ME) ** 2)


96.03647051735311


#### 🔹 기출 ADP
    1) 모분산을 모르는 경우 주어진 데이터의 95% 신뢰구간을 구하라
    2) simga = 0.04 인걸 알때 95% 신뢰구간

In [None]:
# 1) 모분산을 모르면 t검정 & 표본 표준 편차 사용
data = [3.1, 3.3, 3.5, 3.7, 3.9, 4.1, 4.3, 4.4, 4.7]
x = np.mean(data)
std = np.std(data, ddof = 1)  # 표본 표준 편차
n = len(data)
df = len(data) - 1


conft = stats.t.ppf(1 - 0.05/ 2, df)

# 표준오차
se = std / np.sqrt(n)

# 허용오차
ME = t * se
print(x - ME, x + ME)

# 2) 모분산을 알때 Z검정
sigma = 0.04
confz = norm.ppf(1 - 0.05/2)
SE2 = sigma / np.sqrt(n)
ME2 = confz * SE2
print(x - ME2, x + ME2)

3.5322931880915287 4.245484589686249
3.862756035761688 3.9150217420160898


### 🔍 이표본 평균 차이의 추정과 가설 검정 : Z, t 분포
$$
\begin{array}{|c|c|c|c|c|c|}
\hline
\textbf{조건} & \textbf{분산 정보} & \textbf{검정 방법} & \textbf{검정 통계량} & \textbf{신뢰구간 공식} & \textbf{분포} \\
\hline
n_1, n_2 \geq 30 & \sigma_1^2, \sigma_2^2 \text{ 알고 있음} & Z\text{-검정} &
\displaystyle Z = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} &
\displaystyle (\bar{X}_1 - \bar{X}_2) \pm Z_{\alpha/2} \cdot \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} &
Z\text{-분포} \\
\hline
n_1, n_2 \geq 30 & \sigma_1^2, \sigma_2^2 \text{ 모름} & Z\text{-근사 또는 } t\text{-검정} &
\displaystyle Z \approx \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} &
\displaystyle (\bar{X}_1 - \bar{X}_2) \pm Z_{\alpha/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} &
\text{정규근사} \\
\hline
n_1, n_2 < 30 & \text{등분산 가정} & \text{Pooled } t\text{-검정} &
\displaystyle t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}, \quad
s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} &
\displaystyle (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, df} \cdot s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} &
t\text{-분포},\ df = n_1 + n_2 - 2 \\
\hline
n_1, n_2 < 30 & \text{이분산 가정} & \text{Welch's } t\text{-검정} &
\displaystyle t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} &
\displaystyle (\bar{X}_1 - \bar{X}_2) \pm t_{\alpha/2, df} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} &
t\text{-분포 (df: Satterthwaite 근사)} \\
\hline
\end{array}
$$


#### 🔹 기출 ADP
A생산라인의 12개 제품 평균은 5.7mm이고 표준편차는 0.03, B생산라인의 12개 제품 평균은 5.6mm이고 표준편차는 0.04이다. 5%유의수준으로 두 제품의 평균이 차이가 있는지 여부를 검정하라 Z(0.05) = 1.96

In [None]:
# ADP 24
n1 = 12
x1 = 5.7
s1 = 0.03

n2 = 12
x2 = 5.6
s2 = 0.04

confa = 0.05
confz = norm.ppf(1 - confa / 2
                 )
# 표준오차
se = np.sqrt((s1**2/n1) + (s2 **2 /n2))
# 차이
diff = x1 - x2

# Z 통계량
z_stat = diff / se

# p_value
p_value = 2 * (1 - norm.cdf(abs(z_stat)))



### 🔍 일표본 모비율
##### 2.1 모비율 검정
$$
H_0: p = p_0 \quad \text{(모비율은 } p_0 \text{이다)} \\
H_1: p \ne p_0 \quad \text{(양측)} \quad \text{또는} \quad p > p_0, \quad p < p_0 \quad \text{(단측)}
$$

$$
Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0 (1 - p_0)}{n}}}
$$


##### 2.2 모비율 신뢰구간
$$
\hat{p} \pm Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
$$

##### 2.3 모비율 표본의 크기
$$
n = \left( \frac{Z_{\alpha/2} \cdot \sqrt{p(1 - p)}}{E} \right)^2
$$


#### 🔹 Question [모비율 검정]
* 어느 병원에서 신약을 투여한 환자 중 80%가 회복된다는 주장을 하고 있다. 이 주장의 타당성을 검증하기 위해 무작위로 100명의 환자에게 신약을 투여한 결과, 74명이 회복되었다. 이 신약의 회복률이 80%보다 낮다는 증거가 있는지 유의수준 0.05에서 단측 검정

In [None]:
p = 0.8

n = 100
p_hat = 74 / 100

confa = 0.05

# SE - 알려진 비율로 계산
se = np.sqrt(p * (1- p) /n)

z_stat = (p_hat - p) / se
print(z_stat)

-1.5000000000000013


#### 🔹 Question  [모비율 신뢰구간]
* 200명 중 152명이 백신 접종 후 항체 형성. 항체 형성률에 대한 95% 신뢰구간

In [None]:
x = 152
n = 200

confa = 0.05
confz = stats.norm.ppf(1 - confa / 2)

p = x/n

se = np.sqrt(p * (1-p)/ n)

upper = p + confz * se
lower = p - confz * se
print(lower, upper)

0.7008103856705161 0.8191896143294839


#### 🔹 Question  [모비율 표본 크기]
* 효과가 약 70%일 것으로 예상되는 신약을 ±5% 오차 범위 내에서 95% 신뢰수준으로 추정하고자 한다. 필요한 최소 표본 크기

In [None]:
p = 0.7
E = 0.05
confa = 0.05

confz = stats.norm.ppf(1 - confa/ 2)
se = np.sqrt(p * (1- p))

print((se * confz / E) ** 2)

322.6825409383065


### 🔍 이표본 모비율

$$
\begin{array}{|p{4cm}|p{5.5cm}|p{6.5cm}|p{4cm}|}
\hline
\textbf{항목} & \textbf{내용} & \textbf{공식} & \textbf{조건} \\
\hline
\text{모비율 차이 추정 (신뢰구간)} &
두 집단 비율의 차이 (p_1 - p_2) 에 대한 신뢰구간 계산 &
(\hat{p}_1 - \hat{p}_2) \pm Z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}}  &
표본 크기 충분히 큰 경우 (정규 근사 가능 시) \\
\hline
\text{합동비율 (pooled proportion)} &
귀무가설  H_0: p_1 = p_2  하에서 두 집단 비율을 하나로 합쳐 계산 &
 \hat{p} = \frac{x_1 + x_2}{n_1 + n_2}  &
모비율 가설검정에서 사용됨 \\
\hline
\text{모비율 차이 검정 (Z-검정)} &
H_0: p_1 = p_2 ,  H_1: p_1 \ne p_2  또는 단측 검정 수행 &
Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1 - \hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}  &
 \\
\hline
\end{array}
$$

A,B의 두 개의 비율을 비교 검정
- 두 집단의 모비율이 같다고 가정하여 공통된 모비율을 사용하여 검정
- 두 비율의 차이를 비교할때, 귀무가설이 같다고 주장함으로 분산을 하나로 합침

$$
\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}
$$

#### 🔹 Question
A사이트 200명 중 130명이 구매했고, B사이트 150명 중 90명이 구매했다.
두 사이트의 구매율에 차이가 있는지를 유의수준 0.05에서 검정

In [None]:
# 알려진 비율이 없음으로 합동 비율을 사용
n1 = 200
x1 = 130
p1 = 130 / 200

n2 = 150
x2 = 90
p2 = 90/150

# 합동 분산
pe = (n1 * p1 + n2 * p2) / (n1 + n2)
# SE
se = np.sqrt((pe * (1 - pe) )/n1 + (pe * (1 -pe)) / n2)
# 통계량
z_stat = (p1 - p2) / se
print(z_stat)
# p_value : 차이의 유무 (양측 검정)
p_value = (1 - norm.cdf(np.abs(z_stat))) * 2
print(p_value)

0.958035577539879
0.33804481871539704


#### 🔹 Question [두 표본의 모비율 검정]
한 제약회사에서는 신약 A와 신약 B 중 어느 쪽이 더 효과적인지 비교하고자 한다.
*	신약 A를 투여한 150명 중 120명이 회복되었고,
*	신약 B를 투여한 130명 중 96명이 회복되었다.
이 두 신약의 효과 차이가 있는지 유의수준 0.05에서 양측 검정

In [None]:
n1 = 150
p1 = 120 / 150

n2 = 130
p2 = 96 / 130

confa = 0.05
confz = norm.ppf(1 - confa / 2)

# 합동비율
pe = (n1 * p1 + n2 * p2) / (n1 + n2)
# SE
se = np.sqrt((pe * (1 - pe) )/n1 + (pe * (1 -pe)) / n2)
# 검정 통계량
z = (p1 - p2) / se
print(z)

1.2229989761755715


#### 🔹 기출 ADP
* C사 생산 제품 1000개 중 양품이 600개, D사 생산 제품 500개 중 양품이 200개 이다. 두 회사의 양품률에 차이가 있는지 검정

In [None]:
# 접근) 알려진 비율이 없음 >> 합동 분산 이용
n1 , x1 , p1 = 1000, 600 , 600/ 1000
n2 , x2 , p2 = 500, 200, 200/500

# pool
pool = (x1 + x2) / (n1 + n2)
# SE
se = np.sqrt(pool * (1 - pool) * (1/n1 + 1/n2))

# 통계량
z_stat = (p1 - p2) / se
print(z_stat)

#p_vlue
p_val = 2 *( 1 - norm.cdf(np.abs(z_stat)))
print(p_val)

7.319250547113997
2.4935609133081016e-13


#### 3. 모분산

$$
\begin{array}{|c|c|c|}
\hline
\textbf{구분} & \textbf{내용} & \textbf{공식} \\
\hline
\text{1. 분산 검정} &
\begin{aligned}
&H_0: \sigma^2 = \sigma_0^2 \\
&\text{모분산이 특정값과 같은지 검정}
\end{aligned}
&
\chi^2 = \frac{(n-1)s^2}{\sigma_0^2}
\\
\hline
\text{2. 신뢰구간} &
\begin{aligned}
&\text{모분산에 대한 (1 - \alpha) 신뢰구간} \\
&\text{Chi-squared 분포의 양쪽 quantile 사용}
\end{aligned}
&
\left( \frac{(n - 1)s^2}{\chi^2_{1 - \alpha/2}}, \frac{(n - 1)s^2}{\chi^2_{\alpha/2}} \right)
\\
\hline
\text{3. 표본 크기 계산} &
\begin{aligned}
&\text{분산 추정을 위한 최소 n 계산} \\
&\text{허용오차 E를 고려한 방식}
\end{aligned}
&
n = \left( \frac{Z_{\alpha/2} \cdot \sigma}{E} \right)^2
\\
\hline
\end{array}
$$

#### 🔹 Question. 모분산 [검정 및 신뢰구간 문제]
* 한 기계 부품의 무게는 공정 기준에 따라 표준편차가 2.0g이라고 알려져 있다.
공정이 잘 이루어지고 있는지를 확인하기 위해 무작위로 15개의 부품을 추출하여 분석한 결과,   
**표본분산이 6.25 (표준편차 2.5)**였다.

이 때 다음을 수행하시오:
1.	공정의 모분산이 기준값과 같은지 유의수준 0.05에서 양측 검정하시오.
2.	공정 모분산에 대한 95% 신뢰구간

In [None]:
sample_var = 6.25

# 표준편차가 2.0이라고 알려져 있다.> 즉 분산 : 4
known_var= 4
n = 15
confa = 0.05
df= n - 1

# 검정 통계량
chi2_stat = df * sample_var / known_var
print(chi2_stat)

21.875


In [None]:
# 신뢰구간
from scipy.stats import chi2
se = df * sample_var

lower = stats.chi2.ppf(1 - confa / 2, df)
upper = stats.chi2.ppf(confa / 2, df)

cr1 = se / lower
cr2 = se / upper

print(cr1, cr2)

3.3500583503256784 15.545258091834775


### 🔍 모분산
$$
\begin{array}{|c|c|c|c|}
\hline
\textbf{항목} & \textbf{모평균 을 아는 경우} & \textbf{모평균 을 모르는 경우} & \textbf{비고} \\
\hline
\text{모분산 추정치} &
\displaystyle \hat{\sigma}^2 = \frac{1}{n} \sum (x_i - \mu)^2 &
\displaystyle s^2 = \frac{1}{n - 1} \sum (x_i - \bar{x})^2 &
\text{표본분산의 자유도 차이} \\
\hline
\text{가설검정 통계량} &
\displaystyle \chi^2 = \frac{\sum (x_i - \mu)^2}{\sigma_0^2} \sim \chi^2(n) &
\displaystyle \chi^2 = \frac{(n - 1)s^2}{\sigma_0^2} \sim \chi^2(n - 1) &
\text{자유도: n vs n-1} \\
\hline
\text{신뢰구간} &
\displaystyle \left( \frac{\sum (x_i - \mu)^2}{\chi^2_{1 - \alpha/2}}, \frac{\sum (x_i - \mu)^2}{\chi^2_{\alpha/2}} \right) &
\displaystyle \left( \frac{(n - 1)s^2}{\chi^2_{1 - \alpha/2}}, \frac{(n - 1)s^2}{\chi^2_{\alpha/2}} \right) &
\text{모평균 모를 때 더 넓은 구간} \\
\hline
\end{array}
$$


#### 🔹 [모평균을 아는 경우]
한 제약 공정에서는 약물의 함량이 평균
𝜇 = 500 𝑚𝑔 μ=500mg으로 유지된다고 알려져 있다.
이 공정의 모분산이 100mg² 이하인지 검정하고자 한다.
이를 위해 20개의 시료를 무작위로 추출하여, 각각의 함량이 다음과 같았다. </br>

498, 502, 503, 495, 497, 504, 496, 501, 499, 498, </br>
500, 497, 505, 496, 499, 503, 500, 497, 498, 502 </br>

유의수준 0.05에서 모분산이 100보다 작거나 같은지에 대해 단측검정을 수행

In [None]:
# 모평균을 아는 경우
data = np.array([498, 502, 503, 495, 497, 504, 496, 501, 499, 498,500, 497, 505, 496, 499, 503, 500, 497, 498, 502])

n = len(data)
mu = 500
known_var = 100

confa = 0.05
confz = chi2.ppf(1 - confa/2, df = n)


sum = np.sum(data - mu) ** 2
chi_stat = sum / known_var

# X > 100 우측검정
p_value = 1 - chi2.cdf(chi_stat, df = n)
print(p_value)


0.999999999829033


#### 🔹 [모평균을 모르는 경우]
한 제품의 품질 일관성을 평가하기 위해 무작위로 10개 제품을 뽑아 다음과 같은 결과를 얻었다:

4.95, 5.02, 4.97, 5.05, 4.99, 5.00, 4.98, 5.04, 4.96, 4.97

모분산이 0.01이라는 주장에 대해 유의수준 0.05에서 검정을 수행

In [None]:

data = np.array([4.95, 5.02, 4.97, 5.05, 4.99, 5.00, 4.98, 5.04, 4.96, 4.97])
n = len(data)
data_var = np.var(data, ddof = 1)
df = n - 1

known_var = 0.01

confa = 0.05
confz = chi2.ppf(1 - confa / 2 , df)

# 자유도 * 데이터의 분산 / 알려진 분산
stat = df * data_var / known_var

pvalue = (1 - chi2.cdf(stat, df)) * 2
print(pvalue)

1.9986741237706198


#### 🔹  [모분산 검정 & 신뢰구간 통합 문제]

한 제약 공장에서는 약물의 순도가 공정 기준에 따라 표준편차가 0.5% 이하로 유지되어야 한다고 규정하고 있다.
한 생산 라인의 품질을 검사하기 위해 무작위로 20개 시료를 추출했으며, 이들의 순도 표본분산은 **0.36 (%^2)*

* (1) 유의수준 0.01에서 이 생산 라인의 모분산이 0.25보다 크다고 할 수 있는지 단측 검정을 수행하시오.
* (2) 모분산에 대한 99% 신뢰구간을 구하시오.

In [None]:
from scipy.stats import chi2

sample_var = 0.36
var = 0.25
confa = 0.01
n = 20

confz = chi2.ppf(1 - confa /2, df)
df = n - 1

# 검정통계량
stat = df * sample_var / var
print(stat)

# 우측검정 P(X > 0.25)
p_value = 1 - chi2.cdf(stat, df)
print(p_value)

27.36
0.09654312116845054


In [None]:
# 신뢰구간
lower = chi2.ppf(1 - confa , df)
upper = chi2.ppf(confa/2, df)

cr1 = df * sample_var / lower
cr2 = df * sample_var / upper
print(cr1,cr2)

0.18899794795113176 0.9994197162401114


### 🔍 두 집단의 모분산
$$
\begin{array}{|p{3.8cm}|p{5.5cm}|p{6.2cm}|p{3.8cm}|}
\hline
\textbf{항목} & \textbf{내용} & \textbf{공식} & \textbf{조건} \\
\hline
\text{모분산비 추정 (신뢰구간)} &
두 집단 분산비 \sigma_1^2 / \sigma_2^2  에 대한 신뢰구간 추정 &
\left( \frac{s_1^2}{s_2^2} \cdot \frac{1}{F_{1-\alpha/2, \nu_1, \nu_2}},\ \frac{s_1^2}{s_2^2} \cdot \frac{1}{F_{\alpha/2, \nu_1, \nu_2}} \right)  &
정규분포를 따르는 두 집단, 독립 표본 \\
\hline
\text{모분산비 가설검정 (F-검정)} &
H_0: \sigma_1^2 = \sigma_2^2 , H_1: \sigma_1^2 \ne \sigma_2^2  또는 단측검정 &
 F = \frac{s_1^2}{s_2^2} \quad\text{(자유도 } \nu_1 = n_1 - 1, \nu_2 = n_2 - 1) &
두 표본이 정규분포를 따르고 독립일 때 \\
\hline
\end{array}
$$


#### 🔹 [두 표본 모분산 검정 & 신뢰구간 통합 문제]
두 기계 A, B가 생산한 제품의 품질 분산이 같은지를 알고 싶다.
* A기계: 10개 샘플, 표본분산 = 2.5
* B기계: 12개 샘플, 표본분산 = 1.5
유의수준 0.05에서 두 집단의 분산이 같은지를 검정

In [None]:
from scipy.stats import f

n1, var1 = 10, 2.5
n2, var2 = 12, 1.5

F = var1 / var2

df1 = n1 - 1
df2 = n2 - 1

lower = f.ppf(0.05/2, df1,df2)
upper = f.ppf(1 - 0.05/2, df1,df2)

pvalue =  2 * min(f.cdf(F, df1, df2), 1 - f.cdf(F, df1, df2))
print(pvalue)

0.419274481836885
