In [4]:
# 빅데이터분석기사 실기 유형3 - F검정 문제

"""
문제 1: 등분산 검정 (F검정)

세 개의 서로 다른 공장에서 생산된 제품의 품질을 비교하기 위해
각 공장에서 생산된 제품의 무게를 측정했다.
유의수준 0.05에서 세 공장의 제품 무게 분산이 같은지 검정하시오.

H0: σ₁² = σ₂² = σ₃² (세 공장의 분산이 같다)
H1: 적어도 하나의 분산이 다르다
"""

import numpy as np
import pandas as pd
from scipy.stats import f, levene, bartlett

# 각 공장별 제품 무게 데이터 (g)
factory_A = [498, 502, 501, 499, 503, 500, 497, 504, 502, 498]
factory_B = [495, 505, 492, 508, 490, 510, 493, 507, 491, 509]  
factory_C = [500, 501, 499, 502, 498, 503, 497, 504, 500, 501]

print("공장별 제품 무게 데이터:")
factory_df = pd.DataFrame({
    '공장A': factory_A,
    '공장B': factory_B,
    '공장C': factory_C
})
print(factory_df)

# 기본 통계량
n_A, n_B, n_C = len(factory_A), len(factory_B), len(factory_C)
mean_A, mean_B, mean_C = np.mean(factory_A), np.mean(factory_B), np.mean(factory_C)
var_A, var_B, var_C = np.var(factory_A, ddof=1), np.var(factory_B, ddof=1), np.var(factory_C, ddof=1)
std_A, std_B, std_C = np.std(factory_A, ddof=1), np.std(factory_B, ddof=1), np.std(factory_C, ddof=1)

print(f"\n공장A - 평균: {mean_A:.2f}, 분산: {var_A:.2f}, 표준편차: {std_A:.2f}")
print(f"공장B - 평균: {mean_B:.2f}, 분산: {var_B:.2f}, 표준편차: {std_B:.2f}")
print(f"공장C - 평균: {mean_C:.2f}, 분산: {var_C:.2f}, 표준편차: {std_C:.2f}")

공장별 제품 무게 데이터:
   공장A  공장B  공장C
0  498  495  500
1  502  505  501
2  501  492  499
3  499  508  502
4  503  490  498
5  500  510  503
6  497  493  497
7  504  507  504
8  502  491  500
9  498  509  501

공장A - 평균: 500.40, 분산: 5.60, 표준편차: 2.37
공장B - 평균: 500.00, 분산: 70.89, 표준편차: 8.42
공장C - 평균: 500.50, 분산: 4.72, 표준편차: 2.17


In [5]:
# Levene 검정 (등분산 검정)
levene_stat, levene_p = levene(factory_A, factory_B, factory_C)

print(f"\n=== Levene 검정 결과 ===")
print(f"Levene 통계량: {levene_stat:.4f}")
print(f"p-value: {levene_p:.6f}")

# Bartlett 검정 (정규분포 가정 하에서 등분산 검정)
bartlett_stat, bartlett_p = bartlett(factory_A, factory_B, factory_C)

print(f"\n=== Bartlett 검정 결과 ===")
print(f"Bartlett 통계량: {bartlett_stat:.4f}")
print(f"p-value: {bartlett_p:.6f}")

# 수동 F검정 (두 그룹 간 분산 비교 - A vs B)
f_stat_AB = var_A / var_B if var_A > var_B else var_B / var_A
df1, df2 = (n_A - 1, n_B - 1) if var_A > var_B else (n_B - 1, n_A - 1)
f_critical = f.ppf(0.975, df1, df2)  # 양측검정
p_value_AB = 2 * (1 - f.cdf(f_stat_AB, df1, df2))

print(f"\n=== 수동 F검정 (공장A vs 공장B) ===")
print(f"F 통계량: {f_stat_AB:.4f}")
print(f"자유도: ({df1}, {df2})")
print(f"임계값: {f_critical:.4f}")
print(f"p-value: {p_value_AB:.6f}")

alpha = 0.05

# 결론
print(f"\n=== 검정 결과 (α = {alpha}) ===")
print("Levene 검정:")
if levene_p < alpha:
    print(f"p-value({levene_p:.6f}) < α({alpha}) → 귀무가설 기각")
    print("세 공장의 분산이 다르다고 할 수 있다.")
else:
    print(f"p-value({levene_p:.6f}) >= α({alpha}) → 귀무가설 채택")
    print("세 공장의 분산이 같다고 할 수 있다.")

print("\nBartlett 검정:")
if bartlett_p < alpha:
    print(f"p-value({bartlett_p:.6f}) < α({alpha}) → 귀무가설 기각")
    print("세 공장의 분산이 다르다고 할 수 있다.")
else:
    print(f"p-value({bartlett_p:.6f}) >= α({alpha}) → 귀무가설 채택")
    print("세 공장의 분산이 같다고 할 수 있다.")



=== Levene 검정 결과 ===
Levene 통계량: 59.4469
p-value: 0.000000

=== Bartlett 검정 결과 ===
Bartlett 통계량: 21.9411
p-value: 0.000017

=== 수동 F검정 (공장A vs 공장B) ===
F 통계량: 12.6587
자유도: (9, 9)
임계값: 4.0260
p-value: 0.000830

=== 검정 결과 (α = 0.05) ===
Levene 검정:
p-value(0.000000) < α(0.05) → 귀무가설 기각
세 공장의 분산이 다르다고 할 수 있다.

Bartlett 검정:
p-value(0.000017) < α(0.05) → 귀무가설 기각
세 공장의 분산이 다르다고 할 수 있다.


In [6]:
"""
문제 2: 일원분산분석 (One-way ANOVA)

네 개의 서로 다른 광고 방법이 매출에 미치는 효과를 비교하기 위해
각 방법을 사용한 매장들의 일일 매출액을 조사했다.
유의수준 0.05에서 광고 방법에 따른 평균 매출액에 차이가 있는지 검정하시오.

H0: μ₁ = μ₂ = μ₃ = μ₄ (네 광고 방법의 평균 매출액이 같다)
H1: 적어도 하나의 평균이 다르다
"""

from scipy.stats import f_oneway

# 광고 방법별 일일 매출액 데이터 (만원)
ad_method1 = [120, 115, 125, 118, 122, 119, 121, 117]  # TV 광고
ad_method2 = [110, 108, 112, 105, 109, 111, 107, 106]  # 신문 광고  
ad_method3 = [135, 132, 138, 130, 136, 134, 133, 137]  # 온라인 광고
ad_method4 = [125, 128, 123, 126, 124, 127, 129, 122]  # 라디오 광고

print("광고 방법별 일일 매출액 데이터:")
ad_df = pd.DataFrame({
    'TV광고': ad_method1,
    '신문광고': ad_method2,
    '온라인광고': ad_method3,
    '라디오광고': ad_method4
})
print(ad_df)

# 기본 통계량
methods = [ad_method1, ad_method2, ad_method3, ad_method4]
method_names = ['TV광고', '신문광고', '온라인광고', '라디오광고']

print("\n=== 각 광고 방법별 통계량 ===")
for i, (method, name) in enumerate(zip(methods, method_names)):
    n = len(method)
    mean = np.mean(method)
    std = np.std(method, ddof=1)
    print(f"{name}: n={n}, 평균={mean:.2f}, 표준편차={std:.2f}")

# 일원분산분석 수행
f_stat, p_value = f_oneway(ad_method1, ad_method2, ad_method3, ad_method4)

print(f"\n=== 일원분산분석 결과 ===")
print(f"F 통계량: {f_stat:.4f}")
print(f"p-value: {p_value:.6f}")

# 자유도 계산
k = 4  # 그룹 수
n_total = sum(len(method) for method in methods)
df_between = k - 1
df_within = n_total - k
df_total = n_total - 1

print(f"그룹 간 자유도: {df_between}")
print(f"그룹 내 자유도: {df_within}")
print(f"전체 자유도: {df_total}")

# 임계값
f_critical = f.ppf(0.95, df_between, df_within)
print(f"임계값 (α=0.05): {f_critical:.4f}")

# 결론
alpha = 0.05
print(f"\n=== 검정 결과 (α = {alpha}) ===")
if p_value < alpha:
    print(f"p-value({p_value:.6f}) < α({alpha}) → 귀무가설 기각")
    print("광고 방법에 따른 평균 매출액에 차이가 있다고 할 수 있다.")
    print("→ 사후검정(Post-hoc test)이 필요하다.")
else:
    print(f"p-value({p_value:.6f}) >= α({alpha}) → 귀무가설 채택")
    print("광고 방법에 따른 평균 매출액에 차이가 있다고 할 수 없다.")


광고 방법별 일일 매출액 데이터:
   TV광고  신문광고  온라인광고  라디오광고
0   120   110    135    125
1   115   108    132    128
2   125   112    138    123
3   118   105    130    126
4   122   109    136    124
5   119   111    134    127
6   121   107    133    129
7   117   106    137    122

=== 각 광고 방법별 통계량 ===
TV광고: n=8, 평균=119.62, 표준편차=3.11
신문광고: n=8, 평균=108.50, 표준편차=2.45
온라인광고: n=8, 평균=134.38, 표준편차=2.67
라디오광고: n=8, 평균=125.50, 표준편차=2.45

=== 일원분산분석 결과 ===
F 통계량: 130.7476
p-value: 0.000000
그룹 간 자유도: 3
그룹 내 자유도: 28
전체 자유도: 31
임계값 (α=0.05): 2.9467

=== 검정 결과 (α = 0.05) ===
p-value(0.000000) < α(0.05) → 귀무가설 기각
광고 방법에 따른 평균 매출액에 차이가 있다고 할 수 있다.
→ 사후검정(Post-hoc test)이 필요하다.
