In [12]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy.stats import ttest_1samp, ttest_ind
%matplotlib inline
plt.rc('figure', figsize=(10, 6))
from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

# 가설
대한민국 남성의 평균 몸무게는 70 킬로그램이다.

### 1. 가설 수립
H0: 대한민국 남성의 평균 몸무게는 70킬로그램이다(차이가 없다.)
H1: 대한민국 남성의 평균 몸무게는 70킬로그램이 아니다.

### 2. 통계량 산출- 데이터 수집 

In [7]:
np.random.seed(123) # 데이터 수집 대신 임의의 값

weight = np.random.uniform(40, 100, 100)

test_result = ttest_1samp(weight, 70)
print(f"평균 : {np.mean(weight)}")
print(f"p-value : {test_result.pvalue}")

평균 : 70.08573280308887
p-value : 0.953913826658112


### 3. 검정결과

In [8]:
print(f"검정 결과 : {'귀무가설 기각' if test_result.pvalue < 0.05 else '귀무가설 채택'}")

검정 결과 : 귀무가설 채택


### 4. 결과 채택

In [10]:
if test_result.pvalue < 0.05:
    print("대한민국 남성의 평균 몸무게는 70kg 이 아니다.")
else:
    print("대한민국 남성의 평균 몸무게는 70kg 이다.")

대한민국 남성의 평균 몸무게는 70kg 이다.


# 여기 까지가 가설 검정의 한 흐름
------------


# 예제 1
문제: 하루 커피 섭취량이 평균 2.5잔이라고 알려져 있다. 실제 설문조사에서 2.8잔이 나왔다. 과연 차이가 통계적으로 유의한가?

In [11]:
# 표본 데이터 (30명)
coffee_data = [2.9, 2.4, 2.7, 3.0, 2.6, 2.8, 2.9, 3.1, 2.7, 2.6,
               2.8, 2.5, 3.2, 3.0, 2.4, 2.6, 2.7, 3.1, 2.8, 2.7,
               2.5, 2.9, 2.6, 2.8, 2.9, 2.5, 2.7, 2.8, 3.0, 2.9]

# 단일표본 t-검정
t_stat, p_value = ttest_1samp(coffee_data, popmean=2.5)

print(f"t값 = {t_stat:.3f}, p값 = {p_value:.3f}")

t값 = 7.031, p값 = 0.000


### 예제 2: 두 그룹 비교 - 이표본(독립표본) t검정

**문제:** A와 B 수업의 시험 평균 점수가 차이가 있는가?

In [13]:
group_A = [78, 85, 82, 88, 76, 81, 79, 84, 82, 80]
group_B = [72, 75, 78, 74, 71, 77, 70, 76, 75, 73]

t_stat, p_value = ttest_ind(group_A, group_B, equal_var=False)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.3f}")

t값 = 5.331, p값 = 0.000
