In [None]:
'''
모수 검정

1. 평균 검정
        1.1.1 일표본 평균 검정 : 모분산을 아는 경우 (Z-test)
        1.1.2 일표본 평균 검정 : 모분산을 모르는 경우 (One-sample t-test)

    1.2 이표본 평균 검정
        1.2.1 이표본 독립표본 평균 검정 (Independent t-test)
            - 정규성 만족 등분산 만족: 일반 t-test
            - 정규성 만족 등분산 위배: Welch's t-test
            - 정규성 위배 등분산 위배: → 비모수 윌콕슨 순위합 검정(Mann-Whitney U)
        1.2.2 이표본 대응표본 평균 검정 (Paired t-test)
            - 차이값 정규성 위배: → 비모수 윌콕슨 부호순위 검정

2. 비율 검정
    2.1 일표본 비율 검정 (One-sample proportion Z-test)
        - 정규근사 필요 (np ≥ 5, n(1-p) ≥ 5)
    
    2.2 이표본 비율 검정 (Two-sample proportion Z-test)
        - 정규근사 만족 시 Z-test
        - 정규근사 불만족 시 → 피셔의 정확검정 (Fisher's Exact Test)

3. 분산 검정

    3.1 일표본 분산 검정
        3.1.1 모분산에 대한 검정 (Chi-Square Test)
            - 정규성 가정 만족 → 카이제곱 검정 (Chi-Square Test)
            - 정규성 가정 위배 → 비모수 방법 없음 (주의: 비모수 대체 검정 거의 없음)

    3.2 이표본 분산 검정
        3.2.1 두 집단 분산 동질성 검정 (F-test)
            - 정규성 가정 만족 → F-test
            - 정규성 가정 위배 → Levene 검정
'''

In [None]:
'''
1.1.1 일표본 평균 검정 : 모분산을 아는 경우 (Z-test)

한 제과점은 자사 머핀의 평균 중량이 `150g`이라고 주장합니다.  
이를 검증하기 위해, 무작위로 `40개의 머핀을 뽑아` 무게를 측정해보니  
`평균은 148.5g`, `모표준편차는 5g`이었다고 합니다.

이 제과점의 주장이 맞는지, `유의수준 5%에서`  
`머핀의 평균 무게가 150g과 다른지를 검정`하세요.
'''

In [None]:
import numpy as np
from scipy import stats

pop_mean = 150
pop_std = 5

sample_n = 40
sample_mean = 148.5

alpha = 0.05

In [None]:
H0 = '평균 중량이 150g이다.'
H1 = '평균 중량이 150g이 아니다.'

In [None]:
# 검정
pop_var = pop_std ** 2

z_statistic = abs((sample_mean - pop_mean) / np.sqrt(pop_var / sample_n))
p_value = 2 * (1 - stats.norm.cdf(z_statistic))
print(f'p_value : {p_value:.2f}')

if p_value < alpha:
    print(H1)

else:
    print(H0)

In [None]:
# 신뢰구간
pop_var = pop_std**2

standard_error = np.sqrt(pop_var / sample_n)

confidence_coefficient = stats.norm.ppf(1 - 0.05 / 2)

margin_of_error = confidence_coefficient * standard_error

lower_limit = sample_mean - margin_of_error
upper_limit = sample_mean + margin_of_error

print(f'신뢰구간 : {lower_limit:.2f} ~ {upper_limit:.2f}')

In [None]:
'''
1.1.2 일표본 평균 검정 : 모분산을 모르는 경우 (One-sample t-test)

한 카페에서 판매되는 커피의 평균 카페인 함량이  
`100mg` 이상이어야 한다고 주장하고 있습니다.

이를 검증하기 위해 무작위로 `25잔의 커피를 조사`한 결과,  
`평균 카페인 함량은 96.8mg`, 표본 표준편차는 `8.5mg`이었습니다.

이 카페의 주장이 타당한지,  
`유의수준 5%에서`  
`평균 카페인 함량이 100mg보다 작은지를 검정`하세요.
'''

In [None]:
import numpy as np
from scipy import stats

pop_mean = 100

sample_n = 25
sample_mean = 96.8
sample_std = 8.5

alpha = 0.05

In [None]:
data, mu = [], 0
stats.ttest_1samp(data, popmean=mu)

In [None]:
H0 = '카페인 함량이 100보다 작지 않다.'
H1 = '카페인 함량이 100보다 작다.'

In [None]:
# 검정
sample_var = sample_std ** 2
dof = sample_n - 1

t_statistic = (sample_mean - pop_mean) / np.sqrt(sample_var / sample_n)
p_value = stats.t.cdf(t_statistic, df=dof)

print(f'p_value : {p_value:.2f}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)

In [None]:
# 신뢰구간
sample_var = sample_std**2
dof = sample_n - 1

standard_error = np.sqrt(sample_var / sample_n)

confidence_coefficient = stats.t.ppf(1 - 0.05, df=dof)

margin_of_error = confidence_coefficient * standard_error

lower_limit = float('-inf')
upper_limit = sample_mean + margin_of_error

print(f'신뢰구간 : {lower_limit:.2f} ~ {upper_limit:.2f}')

In [None]:
'''
1.2.1 이표본 독립표본 평균 검정 (Independent t-test)

학원 A와 학원 B의 수강생 수학 점수 평균에 차이가 있는지 확인하고자 합니다.

- 학원 A:  
  - 표본 수 20
  - 평균 78.4
  - 표준편차 5.6

- 학원 B:  
  - 표본 수 22
  - 평균 75.1
  - 표준편차 6.3

두 모집단은 정규분포를 따른다고 가정하고,  
`모분산이 같다고 간주`할 때,  
`유의수준 5%에서 두 평균이 같은지 검정`하세요.
'''

In [None]:
import numpy as np
from scipy import stats

n_a = 20
mean_a = 78.4
std_a = 5.6

n_b = 22
mean_b = 75.1
std_b = 6.3

alpha = 0.05

In [None]:
data_a, data_b = [], []
stats.ttest_ind(a=data_a, b=data_b, equal_var=True)

In [None]:
H0 = '두 평균이 같다.'
H1 = '두 평균이 같지 않다.'

In [None]:
# 검정
statistic, p_value = stats.ttest_ind_from_stats(mean1=mean_a, std1=std_a, nobs1=n_a,
                                                mean2=mean_b, std2=std_b, nobs2=n_b,
                                                equal_var=True,
                                                alternative='two-sided',
                                                )

# or 
# statistic, p_value = stats.ttest_ind(a, b, equal_var=False)

print(f'p_value : {p_value:.2f}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)

In [None]:
# 신뢰구간

pooled_var = (((n_a - 1) * std_a**2) + ((n_b - 1) * std_b**2)) / (n_a + n_b - 2)

standard_error = np.sqrt(pooled_var * (1 / n_a + 1 / n_b))

dof = n_a + n_b - 2
t_critical = stats.t.ppf(1 - alpha / 2, df=dof)

margin_of_error = t_critical * standard_error

mean_diff = mean_a - mean_b

ci_lower = mean_diff - margin_of_error
ci_upper = mean_diff + margin_of_error

print(f'신뢰구간 : {ci_lower:.2f} ~ {ci_upper:.2f}')

In [None]:
'''
1.2.2 이표본 대응표본 평균 검정 (Paired t-test)
    대응 표본은 무조건 데이터가 있어야함 / 통계량을 검정불가.

한 영어 학원에서는 `신규 회화 훈련 프로그램`을 도입한 뒤,  
수강생들의 효과를 검증하고자 `훈련 전·후 영어 말하기 점수`를 비교했습니다.

- 수강생 10명의 말하기 점수는 아래와 같습니다:

| 수강생 | 훈련 전 | 훈련 후 |
|--------|--------|--------|
| 1 | 65 | 70  
| 2 | 60 | 66  
| 3 | 72 | 75  
| 4 | 68 | 74  
| 5 | 75 | 77  
| 6 | 66 | 70  
| 7 | 70 | 71  
| 8 | 63 | 67  
| 9 | 69 | 72  
|10 | 64 | 66  

훈련 후 점수가 훈련 전보다 `의미 있게 증가했는지`,  
`유의수준 5%에서 검정`하세요.
'''

In [None]:
import pandas as pd
from scipy import stats

df = pd.DataFrame([[65, 70], [60, 66], [72, 75], [68, 74], [75, 77],
                   [66, 70], [70, 71], [63, 67], [69, 72], [64, 66]],
                  columns=['before', 'after'])
df

In [None]:
# 검정
before = df['before']
after = df['after']

t_statistic, p_value = stats.ttest_rel(before, after, alternative='less')
# less      -> after가 더 크다.
# greater   -> before가 더 크다.
print(f'p_value : {p_value:.2f}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)

In [None]:
# 신뢰구간 (한쪽 CI - 상한만)
diff = after - before
n = len(diff)
mean_diff = diff.mean()
std_diff = diff.std(ddof=1)
standard_error = std_diff / np.sqrt(n)

t_critical = stats.t.ppf(1 - 0.05, df=n-1)  # 한쪽이므로 1 - alpha
upper_limit = mean_diff + t_critical * standard_error

print(f'신뢰구간 : (-∞, {upper_limit:.2f})')

In [None]:
'''
2.1 일표본 비율 검정 (One-sample proportion Z-test)

한 도시의 시민 중에서 `자전거를 이용해 출퇴근하는 비율은 20%`라고 알려져 있습니다.  
이 주장을 검증하기 위해 무작위로 `150명을 조사`했더니,  
그 중 `24명이 자전거로 출퇴근`한다고 응답했습니다.

이 결과를 바탕으로,  
`실제 자전거 이용률이 20%보다 낮다고 말할 수 있는지`,  
`유의수준 5%에서 검정`하세요.
'''

In [None]:
import numpy as np
from scipy import stats

sample_n = 150
sample_x = 24
sample_p = sample_x / sample_n

pop_p = 0.2
alpha = 0.05

In [None]:
H0 = '이용률이 20%보다 낮지 않다.'
H1 = '이용률이 20%보다 낮다.'

In [None]:
# 검정
pop_var = pop_p * (1 - pop_p)

z_statistic = (sample_p - pop_p) / np.sqrt(pop_var / sample_n)
p_value = stats.norm.cdf(z_statistic)

print(f'p_value : {p_value:.2f}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)

In [None]:
# 신뢰구간
sample_p = sample_x / sample_n
sample_var = sample_p * (1 - sample_p)

standard_error = np.sqrt(sample_var / sample_n)

confidence_coefficient = stats.norm.ppf(1 - alpha)

margin_of_error = confidence_coefficient * standard_error

lower_limit = float('-inf')
upper_limit = sample_p + margin_of_error

print(f'신뢰구간 : {lower_limit:.2f} ~ {upper_limit:.2f}')

In [None]:
'''
2.2 이표본 비율 검정 (Two-sample proportion Z-test)

한 전자상거래 플랫폼에서는  
신규 디자인 A와 기존 디자인 B 중 어떤 것이 더 선호되는지 확인하고자 했습니다.

- 디자인 A: 240명 중 132명이 선호  
- 디자인 B: 260명 중 121명이 선호

이 데이터를 바탕으로,  
`두 디자인의 선호 비율에 차이가 있는지를 유의수준 5%에서 검정`하세요.  
(양측 검정)
'''

In [None]:
import numpy as np
from scipy import stats

n_a = 240
x_a = 132
p_a = x_a / n_a

n_b = 260
x_b = 121
p_b = x_b / n_b

alpha = 0.05

In [None]:
H0 = '두 디자인의 선호 비율에 차이가 없다.'
H1 = '두 디자인의 선호 비율에 차이가 있다.'

In [None]:
# 검정
p = (x_a + x_b) / (n_a + n_b)

z_statistic = (p_a - p_b) / np.sqrt(p * (1 - p) * (1 / n_a + 1 / n_b))

p_value = 2 * (1 - stats.norm.cdf(abs(z_statistic)))

print(f'statistic : {z_statistic:.2f}')
print(f'p_value : {p_value:.2f}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)

In [None]:
# 신뢰구간
diff = p_a - p_b
se_diff = np.sqrt(
    (p_a * (1 - p_a) / n_a) + (p_b * (1 - p_b) / n_b)
    )
z_critical = stats.norm.ppf(1 - alpha/2)
margin_of_error = z_critical * se_diff

ci_lower = diff - margin_of_error
ci_upper = diff + margin_of_error
print(f'신뢰구간: {ci_lower:.3f} ~ {ci_upper:.3f}')

In [None]:
'''
3.1 일표본 분산 검정 모분산에 대한 검정 (Chi-Square Test)

- 추정  

한 제약회사는 생산된 약의 함량 일관성을 평가하기 위해,  
무작위로 `12개의 샘플`을 채취해 함량을 측정했습니다.  
그 결과, `표본분산은 4.2`였습니다.

약의 함량 분산(모분산)에 대해 `95% 신뢰구간`을 구하세요.  
모집단은 정규분포를 따른다고 가정합니다.
'''

In [None]:
from scipy import stats

sample_n = 12
sample_var = 4.2

alpha = 0.05

In [None]:
dof = sample_n - 1

lower_limit = (dof * sample_var) / stats.chi2.ppf(1 - alpha / 2, df=dof)
upper_limit = (dof * sample_var) / stats.chi2.ppf(alpha / 2, df=dof)

print(f'신뢰구간 : {lower_limit:.2f} ~ {upper_limit:.2f}')

In [None]:
'''
3.1 일표본 분산 검정 모분산에 대한 검정 (Chi-Square Test)

한 반의 시험 점수는 `분산이 36(=표준편차 6)`이라고 알려져 있습니다.  
이를 검증하기 위해 무작위로 `15명의 학생`을 조사한 결과,  
점수의 `표본분산은 50.5`로 나타났습니다.

이 데이터를 바탕으로,  
`실제 시험 점수의 분산이 36과 다른지를 유의수준 5%에서 검정`하세요.  
(정규분포를 따른다고 가정)
'''

In [None]:
sample_n = 15
sample_var = 50.5

pop_var = 36
alpha = 0.05

In [None]:
H0 = '분산이 36이다.'
H1 = '분산이 36이 아니다.'

In [None]:
from scipy import stats
dof = sample_n - 1

chi2_statistic = (dof * sample_var) / pop_var

p_value = 2 * min(
    stats.chi2.cdf(chi2_statistic, df=dof),              # 좌측 꼬리
    1 - stats.chi2.cdf(chi2_statistic, df=dof)           # 우측 꼬리
)
'''
p_left = stats.chi2.cdf(chi2_statistic, df=dof)
p_right = 1 - p_left
p_value = 2 * min(p_left, p_right)
'''
print(f'p_value : {p_value:.2f}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)

In [None]:
'''
3.2 이표본 분산 검정 : 두 집단 분산 동질성 검정 (F-test)

한 학교에서 두 반의 시험 점수의 `일관성(분산)`을 비교하고자 합니다.

- A반: 1반, 표본 수 16명, 표준편차 5.2점  
- B반: 2반, 표본 수 14명, 표준편차 3.9점

`두 반의 시험 점수 분산이 같은지를 유의수준 5%에서 검정`하세요.  
(양측검정, 정규분포 가정)
'''

In [None]:
from scipy import stats

n_a = 16
std_a = 5.2

n_b = 14
std_b = 3.9

alpha = 0.05

In [None]:
H0 = 'A와 B의 분산이 동일하다.'
H1 = 'A와 B의 분산이 동일하지 않다.'

In [None]:
dof_a = n_a - 1
dof_b = n_b - 1

if std_b < std_a:
    f_statistic = (std_a**2) / (std_b**2)
    p_value = 2 * min(
        stats.f.cdf(f_statistic, dof_a, dof_b),
        1 - stats.f.cdf(f_statistic, dof_a, dof_b),
    )
else:
    f_statistic = (std_b**2) / (std_a**2)
    p_value = 2 * min(
        stats.f.cdf(f_statistic, dof_b, dof_a),
        1 - stats.f.cdf(f_statistic, dof_b, dof_a),
    )

print(f'p_value : {p_value:.2f}')
if p_value < 0.05:
    print(H1)
else:
    print(H0)