# 가설검정


In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats

%matplotlib inline
plt.rc('figure', figsize=(10, 6))
from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

대한민국 남성의 평균 몸무게는 70킬로그램이다.

In [11]:
#1. 가설수립
#H0[귀무가설] : 대한민국 남성의 평균 몸무게는 70킬로그램이다.(차이가 없다)
#H1[대립가설] : 대한민국 남성의 평균 몸무게는 70킬로그램이 아니다. 
#2. 통계량 산출 - 데이터 수립

np.random.seed(123)
weight = np.random.uniform(40,100,100)
# weight

test_result = stats.ttest_1samp(weight, 70) # t 검정 
print(f'평균 : {np.mean(weight)}')
print(f'p-value : {test_result.pvalue}')



#3. 기각/채택 여부 판단
print(f'검정결과 : {'귀무가설 기각' if test_result.pvalue < 0.05 else '대립가설 채택'}')
#4. 결정
if test_result.pvalue < 0.05 :
    print('대한민국 남성의 평균 몸무게는 70kg이 아니다.')
else:
    print('대한민국 남성의 평균 몸무게는 70kg이다.')


평균 : 70.08573280308887
p-value : 0.953913826658112
검정결과 : 대립가설 채택
대한민국 남성의 평균 몸무게는 70kg이다.


### 예제 1: 평균 비교 - 일표본(단표본) t검정
문제: 하루 커피 섭취량이 평균 2.5잔이라고 알려져 있다. 실제 설문조사에서 2.8잔이 나왔다. 과연 차이가 통계적으로 유의한가?

In [19]:
# 표본 데이터 (30명)
coffee_data = [2.9, 2.4, 2.7, 3.0, 2.6, 2.8, 2.9, 3.1, 2.7, 2.6,
               2.8, 2.5, 3.2, 3.0, 2.4, 2.6, 2.7, 3.1, 2.8, 2.7,
               2.5, 2.9, 2.6, 2.8, 2.9, 2.5, 2.7, 2.8, 3.0, 2.9]

# 단일표본 t-검정
t_stat, p_value = stats.ttest_1samp(coffee_data, popmean=2.5)

print(f"t값 = {t_stat:.3f}, p값 = {p_value:.10f}")

print(f'검정결과 : {'귀무가설 기각' if p_value < 0.05 else '대립가설 채택'}')

t값 = 7.031, p값 = 0.0000000986
검정결과 : 귀무가설 기각


귀무가설 : 유의미한 차이가 없다.   
대립가설 : 유의미한 차이가 있다.   
   
해석: p값이 0.05보다 작으면 귀무가설 기각 → 2.5잔과 유의한 차이가 있다.

### 예제 2: 두 그룹 비교 - 이표본(독립표본) t검정   
이표본 T 검정 : 두 개의 모집단의 평균 비교   
문제: A와 B 수업의 시험 평균 점수가 차이가 있는가?

In [20]:
group_A = [78, 85, 82, 88, 76, 81, 79, 84, 82, 80]
group_B = [72, 75, 78, 74, 71, 77, 70, 76, 75, 73]

t_stat, p_value = stats.ttest_ind(group_A, group_B, equal_var=False)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.10f}")

t값 = 5.331, p값 = 0.0000604698


귀무가설 : A와 B 수업의 시험 평균 점수 차이가 없다.   
대립가설 : A와 B 수업의 시험 평균 점수 차이가 있다.   
   
p 값이 0.05보다 작으므로 귀무가설 기각. 유의미한 차이가 있다.

### 예제 3: 전후의 비교 -  대응 표본 T 검정    
문제 : 약물 투여하면 혈압의 차이가 있는가?

In [None]:
# 대응 표본 t-검정 예제: 약물 투여 전후 혈압 비교
before = [120, 122, 143, 130, 135, 118, 127, 140, 132, 125]
after = [115, 117, 138, 125, 129, 112, 120, 135, 126, 119]

t_stat, p_value = stats.ttest_rel(before, after)
print(f"t값 = {t_stat:.3f}, p값 = {p_value:.3f}")

귀무가설 : 약물 투여 후 혈압의 차이가 없다.   
대립가설 : 약물 투여 후 혈압의 차이가 있다.     
         
해석: p값이 0.05보다 작으면 약물 투여 전후 혈압에 유의한 차이가 있다고 판단한다.   

### 예제 4: 범주형 변수 - 카이제곱 검정

**문제:** 성별에 따라 커피를 더 선호하는지?

In [22]:
import numpy as np
obs = np.array([[40, 10],  # 남자 (좋아함, 안좋아함) 교차표
                [30, 20]]) # 여자

chi2, p, dof, expected = stats.chi2_contingency(obs)
print(f"chi2 = {chi2:.3f}, p값 = {p:.8f}")

chi2 = 3.857, p값 = 0.04953461


귀무가설 : 성별에 따라 커피를 선호도 차이가 없다.      
대립가설 : 성별에 따라 커피 선호도 차이가 있다.    
   
해석, 결과 : 성별과 커피 선호는 독립적이다. 관계가 없다. 연관이 없다