In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
%matplotlib inline
plt.rc('figure', figsize=(10, 6))
from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

# 가설검정 단계

대한민국 남성의 평균 몸무게는 70킬로그램이다.

In [10]:
# 1. 가설 수립
# H0: 대한민국 남성의 평균 몸무게는 70킬로그램이다 (차이 x)
# H1: 대한민국 남성의 평균 몸무게는 70킬로그램이 아니다 (차이 o)

# 2. 통계량 산출 - 데이터 수집
np.random.seed(123)
weight = np.random.uniform(40, 100, 100)

test_result = stats.ttest_1samp(weight, 70)  # t 검정
print(f'평균 : {np.mean(weight)}')
print(f'p-value : {test_result.pvalue}')


# 3. 기각/채택 여부 판단
print(f'검정결과 : {'귀무가설 기각' if test_result.pvalue < 0.05 else '귀무가설 채택'}')

# 4. 결정
if test_result.pvalue < 0.05:
    print('대한민국 남성의 평균 몸무게는 70킬로그램이 아니다')
else:
    print('대한민국 남성의 평균 몸무게는 70킬로그램이다')

평균 : 70.08573280308887
p-value : 0.953913826658112
검정결과 : 귀무가설 채택
대한민국 남성의 평균 몸무게는 70킬로그램이다


# T 검정 

### 예제 1: 평균 비교 - 일표본(단표본) t검정

**문제:** 하루 커피 섭취량이 평균 2.5잔이라고 알려져 있다.   
실제 설문조사에서 2.8잔이 나왔다.   
과연 차이가 통계적으로 유의한가?

In [14]:
# 표본 데이터 (30명)
coffee_data = [2.9, 2.4, 2.7, 3.0, 2.6, 2.8, 2.9, 3.1, 2.7, 2.6,
               2.8, 2.5, 3.2, 3.0, 2.4, 2.6, 2.7, 3.1, 2.8, 2.7,
               2.5, 2.9, 2.6, 2.8, 2.9, 2.5, 2.7, 2.8, 3.0, 2.9]

# 단일표본 t-검정
test_result = stats.ttest_1samp(coffee_data, 2.5)

print(f'검정결과 : {'귀무가설 기각' if test_result.pvalue < 0.05 else '귀무가설 채택'}')

if test_result.pvalue < 0.05:
    print('평균값 2.5잔과 유의한 차이가 있다.')
else:
    print('평균값 2.5잔과 유의한 차이가 없다.')

검정결과 : 귀무가설 기각
평균값 2.5잔과 유의한 차이가 있다.


In [18]:
t_stat, p_value = stats.ttest_1samp(coffee_data, popmean=2.5)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.10f}")

t값 = 7.031, p값 = 0.0000000986


t값 = 7.031은 표본과 모집단 평균간 차이가 표준오차의 7배라는 통계량   
-> 표본의 평균이 모집단 평균 2.5에서 7* 표준오차만큼 떨어져있다.   
-> 매우 큰 차이

이 통계량은 p-value < 0.05 이므로 통계적으로 유의한 차이가 있다고 할 수 있음

### 예제 2: 두 그룹 비교 - 이표본(독립표본) t검정

**문제:** A와 B 수업의 시험 평균 점수가 차이가 있는가?

In [20]:
group_A = [78, 85, 82, 88, 76, 81, 79, 84, 82, 80]
group_B = [72, 75, 78, 74, 71, 77, 70, 76, 75, 73]

t_stat, p_value = stats.ttest_ind(group_A, group_B, equal_var=False)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.10f}")

t값 = 5.331, p값 = 0.0000604698


귀무가설 기각   
이 통계량은 p-value < 0.05 이므로 통계적으로 유의한 차이가 있다고 할 수 있음