In [2]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
!python --version

Python 3.7.16


In [13]:
from scipy import stats
import numpy as np

# 표본 데이터 생성
np.random.seed(0)
sample_data = np.random.normal(loc=155, scale=10, size=25)

# 기준값 (모집단 평균)
pop_mean = 150

# 정규성 검정 (Shapiro-Wilk)
shapiro_stat, shapiro_p = stats.shapiro(sample_data)
print(f"Shapiro-Wilk p-value: {shapiro_p:.4f}") # 0.4065, 정규성 만족

# 단일표본 t-검정 수행
t_statistic, p_value = stats.ttest_1samp(sample_data, popmean=pop_mean)
print(f"\n--- One-sample t-test ---")
print(f"T-statistic: {t_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 표본 평균은 150g과 유의미하게 다릅니다.")
else:
    print("귀무가설 기각 실패: 표본 평균은 150g과 다르다고 할 수 없습니다.")

Shapiro-Wilk p-value: 0.4065

--- One-sample t-test ---
T-statistic: 4.4596
P-value: 0.0002
귀무가설 기각: 표본 평균은 150g과 유의미하게 다릅니다.


In [14]:
# 표본 데이터 생성
class_a_scores = [85, 90, 78, 92, 88, 76, 89, 95, 81, 79]
class_b_scores = [72, 80, 68, 75, 71, 82, 70, 65, 77, 74]

# 1. 정규성 검정 (두 그룹 모두 수행)
print(f"Class A Shapiro p-value: {stats.shapiro(class_a_scores).pvalue:.4f}") # 0.6263
print(f"Class B Shapiro p-value: {stats.shapiro(class_b_scores).pvalue:.4f}") # 0.9882, 모두 정규성 만족

# 2. 등분산성 검정 (Levene)
levene_stat, levene_p = stats.levene(class_a_scores, class_b_scores)
print(f"\nLevene's test p-value: {levene_p:.4f}") # 0.3562, 등분산성 만족 (p > 0.05)

# 3. 독립표본 t-검정 수행
# 등분산성 가정이 만족되었으므로 equal_var=True (Student's t-test)
t_statistic, p_value = stats.ttest_ind(class_a_scores, class_b_scores, equal_var=True)
print(f"\n--- Independent two-sample t-test ---")
print(f"T-statistic: {t_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 두 반의 평균 점수는 유의미하게 다릅니다.")
else:
    print("귀무가설 기각 실패: 두 반의 평균 점수는 차이가 없습니다.")

Class A Shapiro p-value: 0.6263
Class B Shapiro p-value: 0.9882

Levene's test p-value: 0.3562

--- Independent two-sample t-test ---
T-statistic: 4.4889
P-value: 0.0003
귀무가설 기각: 두 반의 평균 점수는 유의미하게 다릅니다.


In [15]:
# 표본 데이터 (동일한 사람에 대한 전/후 측정값)
weight_before = [78, 82, 75, 68, 90, 85, 79, 72, 88, 81]
weight_after = [75, 79, 74, 67, 85, 82, 77, 70, 84, 78]

# 차이값 계산
differences = np.array(weight_before) - np.array(weight_after)

# 1. 차이값의 정규성 검정
shapiro_stat, shapiro_p = stats.shapiro(differences)
print(f"Shapiro-Wilk p-value on differences: {shapiro_p:.4f}") # 0.4365, 정규성 만족

# 2. 대응표본 t-검정 수행
t_statistic, p_value = stats.ttest_rel(weight_before, weight_after)
print(f"\n--- Paired-samples t-test ---")
print(f"T-statistic: {t_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 다이어트 약 복용 전후 체중 변화는 유의미합니다.")
else:
    print("귀무가설 기각 실패: 체중 변화가 유의미하지 않습니다.")

Shapiro-Wilk p-value on differences: 0.4365

--- Paired-samples t-test ---
T-statistic: 6.8214
P-value: 0.0001
귀무가설 기각: 다이어트 약 복용 전후 체중 변화는 유의미합니다.


In [16]:
from statsmodels.stats.weightstats import ztest
import numpy as np

# 표본 데이터 생성 (실제로는 측정된 데이터 사용)
np.random.seed(0)
sample_iq = np.random.normal(loc=105, scale=15, size=30)

# 모집단 평균 (기준값)
pop_mean = 100

# 단일표본 Z-검정 수행
# value: 귀무가설에서의 평균 (μ₀)
# ddof=0: 모집단 표준편차를 사용한다는 의미 (기본값)
z_statistic, p_value = ztest(sample_iq, value=pop_mean)

print("--- One-sample Z-test ---")
print(f"Z-statistic: {z_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 프로그램은 IQ에 유의미한 영향을 미쳤습니다.")
else:
    print("귀무가설 기각 실패: 프로그램의 영향이 유의미하지 않습니다.")

--- One-sample Z-test ---
Z-statistic: 3.8637
P-value: 0.0001
귀무가설 기각: 프로그램은 IQ에 유의미한 영향을 미쳤습니다.


In [17]:
# 표본 데이터 생성
np.random.seed(1)
sample_a_height = np.random.normal(loc=175, scale=5, size=50)
sample_b_height = np.random.normal(loc=173, scale=6, size=60)

# 독립표본 Z-검정 수행
# value=0: 두 평균의 차이가 0이라는 귀무가설
z_statistic, p_value = ztest(sample_a_height, sample_b_height, value=0)

print("--- Two-sample Z-test ---")
print(f"Z-statistic: {z_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 두 도시의 평균 키는 유의미하게 다릅니다.")
else:
    print("귀무가설 기각 실패: 두 도시의 평균 키는 차이가 없습니다.")

--- Two-sample Z-test ---
Z-statistic: 1.2027
P-value: 0.2291
귀무가설 기각 실패: 두 도시의 평균 키는 차이가 없습니다.


In [18]:
from statsmodels.stats.proportion import proportions_ztest

# 데이터 설정
count = np.array([150, 240]) # 각 그룹에서 성공(인지)한 횟수
nobs = np.array([1000, 1200]) # 각 그룹의 전체 관측(표본) 수

# 두 집단 비율 Z-검정 수행
z_statistic, p_value = proportions_ztest(count, nobs, value=0)

print("--- Z-test for two proportions ---")
print(f"Z-statistic: {z_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 광고 캠페인 전후의 인지도는 유의미하게 다릅니다.")
else:
    print("귀무가설 기각 실패: 인지도 차이가 유의미하지 않습니다.")

--- Z-test for two proportions ---
Z-statistic: -3.0577
P-value: 0.0022
귀무가설 기각: 광고 캠페인 전후의 인지도는 유의미하게 다릅니다.


In [19]:
import numpy as np
from scipy.stats import f

# 표본 데이터 생성
np.random.seed(0)
line_a_weights = np.random.normal(loc=100, scale=5, size=20)
line_b_weights = np.random.normal(loc=100, scale=8, size=20)

# 1. 각 그룹의 분산 계산
var_a = np.var(line_a_weights, ddof=1)
var_b = np.var(line_b_weights, ddof=1)

# 2. F-통계량 계산 (큰 분산 / 작은 분산)
if var_a > var_b:
    f_statistic = var_a / var_b
    dfn = len(line_a_weights) - 1 # 분자의 자유도
    dfd = len(line_b_weights) - 1 # 분모의 자유도
else:
    f_statistic = var_b / var_a
    dfn = len(line_b_weights) - 1
    dfd = len(line_a_weights) - 1

# 3. p-value 계산 (양측 검정이므로 꼬리 확률에 2를 곱함)
# F.cdf는 왼쪽 꼬리 확률, F.sf는 오른쪽 꼬리 확률 (1 - cdf)
p_value = f.sf(f_statistic, dfn, dfd) * 2

print("--- F-test for Equality of Variances ---")
print(f"Variance of Line A: {var_a:.4f}")
print(f"Variance of Line B: {var_b:.4f}")
print(f"F-statistic: {f_statistic:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 두 집단의 분산은 유의미하게 다릅니다.")
else:
    print("귀무가설 기각 실패: 두 집단의 분산은 차이가 없습니다.")

--- F-test for Equality of Variances ---
Variance of Line A: 19.0213
Variance of Line B: 95.0513
F-statistic: 4.9971
p-value: 0.0010
귀무가설 기각: 두 집단의 분산은 유의미하게 다릅니다.


In [20]:
from scipy.stats import f_oneway

# 표본 데이터 생성
fertilizer_a = [20, 22, 19, 21, 23]
fertilizer_b = [25, 27, 26, 24, 28]
fertilizer_c = [18, 20, 19, 17, 16]

# 일원배치 분산분석(One-way ANOVA) 수행
f_statistic, p_value = f_oneway(fertilizer_a, fertilizer_b, fertilizer_c)

print("--- F-test in One-way ANOVA ---")
print(f"F-statistic: {f_statistic:.4f}")
print(f"p-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 적어도 한 비료의 효과는 다른 비료와 다릅니다.")
else:
    print("귀무가설 기각 실패: 비료 종류에 따른 평균 키 차이가 없습니다.")

--- F-test in One-way ANOVA ---
F-statistic: 32.6667
p-value: 0.0000
귀무가설 기각: 적어도 한 비료의 효과는 다른 비료와 다릅니다.


In [21]:
import pandas as pd
from scipy.stats import f_oneway
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# 데이터 생성
method_a = [85, 88, 79, 92, 84]
method_b = [75, 78, 81, 72, 79]
method_c = [90, 94, 88, 91, 95]

# 1. ANOVA 검정 (scipy)
f_statistic, p_value = f_oneway(method_a, method_b, method_c)
print("--- One-way ANOVA (scipy) ---")
print(f"F-statistic: {f_statistic:.4f}")
print(f"P-value: {p_value:.4f}")

if p_value < 0.05:
    print("귀무가설 기각: 교육 방법에 따른 평균 점수 차이가 유의미합니다.")
else:
    print("귀무가설 기각 실패: 평균 점수 차이가 유의미하지 않습니다.")

--- One-way ANOVA (scipy) ---
F-statistic: 18.3175
P-value: 0.0002
귀무가설 기각: 교육 방법에 따른 평균 점수 차이가 유의미합니다.


In [22]:
# 2. 사후 분석 (Tukey's HSD)
# 데이터를 long format으로 변환
df = pd.DataFrame({'score': method_a + method_b + method_c,
                    'group': ['A'] * 5 + ['B'] * 5 + ['C'] * 5})

tukey_result = pairwise_tukeyhsd(endog=df['score'], groups=df['group'], alpha=0.05)
print("\n--- Tukey's HSD Post-hoc Test ---")
print(tukey_result)


--- Tukey's HSD Post-hoc Test ---
 Multiple Comparison of Means - Tukey HSD, FWER=0.05 
group1 group2 meandiff p-adj   lower    upper  reject
-----------------------------------------------------
     A      B     -8.6 0.0104 -15.0692 -2.1308   True
     A      C      6.0 0.0701  -0.4692 12.4692  False
     B      C     14.6 0.0002   8.1308 21.0692   True
-----------------------------------------------------


In [1]:
import statsmodels.api as sm
from statsmodels.formula.api import ols
import pingouin as pg

# 데이터 불러오기
df_two_way = pg.read_dataset('anova2')

# 1. 이원배치 분산분석 (statsmodels)
# C(Blend), C(Crop), 그리고 상호작용항 C(Blend):C(Crop)
model = ols('Yield ~ C(Blend) + C(Crop) + C(Blend):C(Crop)', data=df_two_way).fit()
anova_table_sm = sm.stats.anova_lm(model, typ=2)
print("--- Two-way ANOVA (statsmodels) ---")
print(anova_table_sm)

# 2. 이원배치 분산분석 (pingouin)
print("\n--- Two-way ANOVA (pingouin) ---")
anova_table_pg = pg.anova(data=df_two_way, dv='Yield', between=['Blend', 'Crop'], detailed=True)
print(anova_table_pg)

--- Two-way ANOVA (statsmodels) ---
                       sum_sq    df         F    PR(>F)
C(Blend)             2.041667   1.0  0.003768  0.951730
C(Crop)           2736.583333   2.0  2.525235  0.107978
C(Blend):C(Crop)  2360.083333   2.0  2.177813  0.142223
Residual          9753.250000  18.0       NaN       NaN

--- Two-way ANOVA (pingouin) ---
         Source           SS  DF           MS         F     p-unc       np2
0         Blend     2.041667   1     2.041667  0.003768  0.951730  0.000209
1          Crop  2736.583333   2  1368.291667  2.525235  0.107978  0.219105
2  Blend * Crop  2360.083333   2  1180.041667  2.177813  0.142223  0.194834
3      Residual  9753.250000  18   541.847222       NaN       NaN       NaN


  **kwargs
