In [1]:
import numpy as np
from scipy import stats

## 🔹 [단측검정 실전 문제 – 두 비율 Z검정]

### 📝 문제:

한 마케팅팀은 **A 광고**가 **B 광고보다 클릭률이 높다**고 주장한다.  
이를 검정하기 위해 A광고와 B광고를 1,000명씩 노출한 결과,  
다음과 같은 클릭 수를 얻었다.

| 광고 | 노출 수 | 클릭 수 |
|------|----------|----------|
| A광고 | 1,000 | 65 |
| B광고 | 1,000 | 50 |

→ 마케팅팀의 주장을 검정하시오.  
(유의수준 0.05, **단측검정**: A광고가 더 높다는 방향)

In [2]:
total_a = 1000
success_a = 65

total_b = 1000
success_b = 50

H0 = 'A광고가 B광고의 클릭률보다 높지 않다.'
H1 = 'A광고가 B광고의 클릭률보다 높다.'

In [3]:
prob_a = success_a / total_a
prob_b = success_b / total_b

prob = (success_a + success_b) / (total_a + total_b)

In [4]:
# 통계량 검정
alpha = 0.05
z_statistic = (prob_a - prob_b) / np.sqrt(prob * (1 - prob) * (1 / total_a + 1 / total_b))
z_statistic

z_critical = stats.norm.ppf(1 - alpha)

print(f'z_statistic : {z_statistic}')
print(f'z_critical  : {z_critical}')
if z_statistic < z_critical:
    print(H0)
else:
    print(H1)

z_statistic : 1.440793230951582
z_critical  : 1.644853626951472
A광고가 B광고의 클릭률보다 높지 않다.


In [5]:
# p_value 검정
alpha = 0.05
z_statistic = (prob_a - prob_b) / np.sqrt(prob * (1 - prob) * (1 / total_a + 1 / total_b))
p_value = (1 - stats.norm.cdf(z_statistic))

print(f'p_value : {p_value}')
if 0.05 < p_value:
    print(H0)
else:
    print(H1)

p_value : 0.07482155318518635
A광고가 B광고의 클릭률보다 높지 않다.


In [6]:
# 신뢰구간 검정

diff = prob_a - prob_b
# 표준 오차 (SE)
se = np.sqrt((prob_a * (1 - prob_a)) / total_a + (prob_b * (1 - prob_b)) / total_b)

# 임계값 (Z값, 양측 95% CI)
z_critical = stats.norm.ppf(1 - 0.05)

# 신뢰구간 계산
ci_lower = diff - z_critical * se
ci_upper = float('inf')

print(f"두 비율 차이 신뢰구간: ({ci_lower:.4f}, {ci_upper:.4f})")

# 해석
if ci_lower < 0 < ci_upper:
    print(H0)
else:
    print(H1)

두 비율 차이 신뢰구간: (-0.0021, inf)
A광고가 B광고의 클릭률보다 높지 않다.


## 🔹 [양측검정 - 두 비율 Z검정 실전 문제]

### 📝 문제:

한 회사는 **남성과 여성 지원자의 합격률에 차이가 있는지** 알고 싶다.

최근 채용에서 다음과 같은 결과가 나왔다:

| 성별 | 지원자 수 | 합격자 수 |
|------|------------|------------|
| 남성 | 120명      | 48명       |
| 여성 | 100명      | 30명       |

In [7]:
total_a = 120
success_a = 48

total_b = 100
success_b = 30

H0 = '남성과 여성의 합격 비율이 같다.'
H1 = '남성과 여성의 합격 비율이 같지 않다.'

In [8]:
prob_a = success_a / total_a
prob_b = success_b / total_b
prob = (success_a + success_b) / (total_a + total_b)

In [9]:
# 통계량 검정
alpha = 0.05
z_statistic = abs((prob_a - prob_b) / np.sqrt(prob * (1 - prob) * (1 / total_a + 1 / total_b)))

z_critical = stats.norm.ppf(1 - alpha / 2)

print(f'z_statistic : {z_statistic}')
print(f'z_critical  : {z_critical}')
if z_statistic < z_critical:
    print(H0)
else:
    print(H1)

z_statistic : 1.543869152809509
z_critical  : 1.959963984540054
남성과 여성의 합격 비율이 같다.


In [10]:
# p_value 검정
alpha = 0.05
z_statistic = abs((prob_a - prob_b) / np.sqrt(prob * (1 - prob) * (1 / total_a + 1 / total_b)))
p_value = 2 * (1 - stats.norm.cdf(abs(z_statistic)))

print(f'p_value : {p_value}')
if 0.05 < p_value:
    print(H0)
else:
    print(H1)

p_value : 0.12262003436902535
남성과 여성의 합격 비율이 같다.


In [11]:
# 신뢰구간 검정

diff = prob_a - prob_b
# 표준 오차 (SE)
se = np.sqrt((prob_a * (1 - prob_a)) / total_a + (prob_b * (1 - prob_b)) / total_b)

# 임계값 (Z값, 양측 95% CI)
z_critical = stats.norm.ppf(1 - 0.05 / 2)

# 신뢰구간 계산
ci_lower = diff - z_critical * se
ci_upper = diff + z_critical * se

print(f"두 비율 차이 신뢰구간: ({ci_lower:.4f}, {ci_upper:.4f})")

# 해석
if ci_lower < 0 < ci_upper:
    print(H0)
else:
    print(H1)

두 비율 차이 신뢰구간: (-0.0255, 0.2255)
남성과 여성의 합격 비율이 같다.
