# 가설검정 실습

## 1) One Sample t-test (일표본 t-검정)
- 전국 학생의 평균 키가 175cm라고 가정해보자.
- 특정 학교에 재학 중인 학생 20명을 샘플해서 아래와 같은 결과를 얻었을 때, 해당 20명의 샘플 평균이 모집단(전국 학생)의 평균과 유의하게 다른지 확인하려고 한다.


In [2]:
import pandas as pd
import numpy as np
from scipy.stats import ttest_1samp

heights = [165, 170, 175, 180, 165, 170, 165, 175, 170, 175, 180, 180, 165, 170,
170, 170, 175, 170, 175, 180]

In [3]:
# 평균을 계산
np.mean(heights)

172.25

In [16]:
import matplotlib.pyplot as plt

population_mean = 175

t_statistic, p_value = ttest_1samp(heights, population_mean)
print(f"t-통계량: {t_statistic:.3f}, p-값: {p_value:.3f}")


t-통계량: -2.342, p-값: 0.030


In [None]:
# 결과 해석
# t-통계량: -2.342

# t-통계량이 음수라는 것은 표본 평균이 모집단 평균(175cm)보다 작음을 나타냅니다.
# p-값: 0.030

# p-값이 0.05보다 작으므로, 유의수준 5%에서 귀무가설을 기각할 수 있습니다.
# 즉, 표본 평균(샘플링한 20명의 키)이 모집단 평균(175cm)과 통계적으로 유의미하게 다르다고 결론지을 수 있습니다.

1-sample t-test는 **기준값(목표, 기존 평균, 정책 기준 등)**과 실제 데이터를 비교할 때 유용

## 2) Two Sample t-test (일표본 t-검정)
- 두 학생 그룹인 A그룹과 B그룹의 평균 키를 비교한다고 가정하자.
- A그룹: 평균이 160이고, 표준편차가 10인 30개의 키 데이터를 생성
- B그룹: 평균이 170이고, 표준편차가 8인 25개의 키 데이터를 생성
- 두 그룹의 평균 키가 유의미한 차이가 있는가?


In [10]:
np.random.seed(14)

group_a_heights = np.random.normal(160, 10, 30)
group_b_heights = np.random.normal(170, 8, 25)

In [17]:
from scipy.stats import ttest_ind

t_statistic_ind, p_value_ind = ttest_ind(group_a_heights, group_b_heights)
print(f"투 샘플 t-통계량: {t_statistic_ind:.3f}, p-값: {p_value_ind:.3f}")


투 샘플 t-통계량: -3.070, p-값: 0.003


In [None]:
# t-통계량: -3.070

# t-통계량이 음수라는 것은 A그룹의 평균이 B그룹의 평균보다 작음을 나타냅니다.
# p-값: 0.0034

# p-값이 일반적으로 사용하는 유의수준 0.05보다 작으므로, 귀무가설(H₀)을 기각할 수 있습니다
# 즉, A그룹과 B그룹의 평균 키는 통계적으로 유의미하게 다르다고 결론지을 수 있습니다.

two sample t-test는 두 개의 변수에 대한 측정값을 비교할 때 유용

## 3) Paired Sample t-test (대응표본 t-검정)
- 새로운 교육 프로그램이 특정 업무에서 직원의 성과를 향상시키는지를 검증하고자 한다.
- 교육 프로그램 전후에 직원 10명의 성과를 측정하고 점수에 유의미한 차이가 있는지 확인

In [13]:
from scipy.stats import ttest_rel

before_scores = np.array([62, 75, 85, 79, 67, 74, 80, 60, 65, 72])
after_scores = np.array([72, 78, 91, 85, 70, 80, 88, 65, 70, 82])

In [14]:
stat, p_value = ttest_rel(before_scores, after_scores)

# 결과 출력
print(f"t-통계량: {stat:.3f}")
print(f"p-값: {p_value:.3f}")

t-통계량: -7.888
p-값: 0.000


In [None]:
# t-통계량: -7.888
# 이는 두 그룹(교육 프로그램 전후 점수)의 평균 차이가 통계적으로 얼마나 강력한지를 나타냅니다. 음수인 이유는 after_scores의 평균이 before_scores의 평균보다 높음을 의미합니다.
# p-값: 0.000
# p-값이 0.05(일반적으로 사용하는 유의수준)보다 작으므로, 두 그룹 간 평균 차이에 통계적으로 유의미한 차이가 있다고 결론지을 수 있습니다.

두 그룹(또는 두 조건) 간의 비교를 수행하되, 같은 개체에서 측정된 값을 비교 (독립적이지 않고 서로 연관이 있어야 함)

## 4) ANOVA (분산분석 검정)
- a,b,c 세 그룹의 식물이 있고, 각 그룹의 식물 평균 높이가 차이 있는지 알고 싶다.

In [20]:
import scipy.stats as stats

group_a = [10, 12, 13, 14, 15]
group_b = [12, 13, 14, 15, 16]
group_c = [14, 15, 16, 17, 18]

In [22]:

f_stat, p_value = stats.f_oneway(group_a, group_b, group_c)

# 결과 출력
print(f"F-통계량: {f_stat:.3f}")
print(f"p-값: {p_value:.3f}")

F-통계량: 4.506
p-값: 0.035


In [None]:
# F-통계량: 4.506

# 그룹 간 분산(그룹 평균의 차이)이 그룹 내 분산(개별 데이터의 변동성)보다 약 4.5배 크다는 것을 의미합니다.
# F-통계량이 높을수록 그룹 간 차이가 클 가능성이 증가합니다.
#p-값: 0.035

# p-값 < 0.05(유의수준): 귀무가설을 기각할 수 있습니다.
# 세 그룹 간 평균 높이에 통계적으로 유의미한 차이가 있다는 것을 나타냅니다.

3개 이상의 그룹 간에 유의미한 차이를 확인할 때 유용

이후에 배울 회귀분석도 가설검정의 범주에 해당