## 가설 검정 

> 증명된 바 없는 주장이나 가설을 표본 통계량에 입각하여 진위 여부를 판단하는 통계적 추론 방식

> 귀무 가설(null hypothesis)과 대립 가설(alternative hypothesis)을 설정하여 현재 세운 가설이 맞는지 아닌지를 가늠 

> 귀무가설은 어떠한 차이가 없거나 의미 있는 차이가 없는 경우의 가설, 관습적이고 보수적인 주장이며 기각(reject)이 목표인 가설

> 대립가설은 우리가 적극적으로 입증하려는 주장, 차이가 있음을 통계적 근거를 통해 입증하고자 하는 주장 
 

## 가설 검정 절차 

예 : 'A반에서 새로운 교육법을 도입했더니 학생 성적이 올랐다' 라는 가정을 검증하고자 함 

> 가설 설정 

- 귀무 가설 H0 : Mean(기존) - Mean(새로운) = 0 

  - 두 교육법의 차이는 없다 

- H1 : Mean(기존) - Mean(새로운) != 0

  - 두 교육법은 차이가 있다 

-  서로 다른 것만 비교하면 되는 것이므로 검정방법 중 양측검정을 수행 / 그 외 단측검정(대소비교) 
 
 
> 유의수준 설정

- 신뢰수준(1-α): 모집단에서 반복해서 표본을 추출할 경우 모집단의 모수를 포함할 구간의 비율. 
 
- 유의수준(α): 이 가설이 어느 정해진 수치를 벗어나면 귀무가설이 오류라고 인정할 것인가를 판단하는 기준

  - '95%의 신뢰수준으로 새로운 교육법이 효과가 있다'는 것을 검증한다는 의미는 5%의 유의수준으로 검증함 

> 검정통계량 산출

- 검정통계량 : 어떤 확률분포(정규분포, t분포, 이항분포 등)에서 가설 검정 목적으로 그 확률분포의 통계량을 산출하는 것
 

- 유의확률(p-value) : 검정통계량에서 유도할 수 있으며 유의 확률 p-value가 **유의 수준(α)**보다 클 시에는 귀무가설을 채택, 작을 시에는 귀무 가설을 기각

  
 

> 기각/채택 여부 판단

- 검정통계량이 **신뢰구간(1-α)**에 위치해 있을 때는 귀무가설 채택, 벗어날 시에는 귀무가설 기각 

- 유의 확률이 작다는 것은 귀무가설이 옳다고 가정할 시, 현재 표본통계량이 나올 확률이 작다는 것을 뜻하며 이것은 귀무가설을 기각할 통계적인 근거가 되기 때문에 귀무가설을 기각할 수 있는 것입니다.
 

### 파이썬 코드 

> 독립표본 통계적 가설 검정 예시 (2Sample t-test) : stats.ttest_ind
    
    # 두 집단의 평균을 이용해서 두 집단이 서로 차이가 있는지를 판단하는 검정 방법
    # 그룹1과 그룹2의 평균키를 조사해서 그 차이가 있는지 혹은 차이를 무시할 정도인지를 판별
      
    # 귀무가설 : 두 그룹간의 평균키의 차이가 없다.
    # 대립가설 : 두 그룹간의 평균키의 차이는 의미가 있다.
    

In [13]:
import pandas as pd
import numpy as np
from scipy import stats

np.random.seed(1)
group1 = [170 + np.random.normal(2,1) for _ in range(10)] 
group2 = [174 + np.random.normal(0,3) for _ in range(10)]

print("Group1의 평균 : {}".format(np.mean(group1)))
print("Group2의 평균 : {}".format(np.mean(group2)))
print(stats.ttest_ind(group1,group2))



_, pvalue = stats.ttest_ind(group1,group2)
if pvalue < 0.05: print("pvalue: ",str(pvalue)," 귀무가설 기각 : 평균키의 차이는 의미가 있다." )
else: print("pvalue: ",str(pvalue)," 귀무가설 채택 : 평균키의 차이는 의미가 없다.")
    
# pvalue가 0.05보다 크니 귀무가설을 채택한다. -> 두 그룹간의 평균 키 차이는 없다.  

Group1의 평균 : 171.9028591091939
Group2의 평균 : 173.4912348536539
Ttest_indResult(statistic=-1.4774069798043346, pvalue=0.15685018595907008)
pvalue:  0.15685018595907008 , 귀무가설 선택 : 평균키의 차이는 의미가 없다.


> 대응표본 통계적 가설 검정 예시 (pared t-test) : stats.ttest_rel
    
    # 다이어트약의 복용전과 복용후의 값을 통계적으로 검증하여 약의 효과를 알아보기 위해서 사용.
    # 귀무가설 : 복용전후의 체중의 차이가 없다.
    # 대립가설 : 복용전후의 체중의 차이가 있다.

In [15]:
before = [60 + np.random.normal(0,5) for _ in range(20)]
after = [w - np.random.normal(2,1) for w in before]


_, pvalue = stats.ttest_rel(before,after)

if pvalue < 0.05: print("pvalue: ",str(pvalue),"귀무가설 기각: 다이어트 약이 효과가 있다.")
else: print("pvalue: ",str(pvalue),"귀무가설 채택 : 다이어트 약이 효과가 없다.")
  

pvalue:  2.1810898292540683e-13 귀무가설 기각: 다이어트 약이 효과가 있다.


> 분산분석(ANOVA) :stats.f_oneway

: 2개의 데이터를 비교할 때는 대응표본 t검증을 사용 -> 3개 이상 : anova 진행 

    # 비교대상이 3개 이상일 경우 t-test 대신 사용
    # 귀무가설 : 교육효과 없다 
    # 대립가설: 교육효과 있다 : 그룹의 평균값이 통계적으로 유의미하게 차이가 난다 

In [16]:
#교육 훈련 데이터
a = [67,45,98,67,34,22]
b = [56,48,80,37,32,62]
c = [47,47,58,37,84,12]
d = [77,65,38,87,24,32]

_, pvalue = stats.f_oneway(a,b,c,d)

if pvalue < 0.05: print("pvalue: ",str(pvalue),"귀무가설 기각 : 교육 효과가 있다.")
else: print("pvalue: ",str(pvalue),"귀무가설이 채택 : 교육 효과가 없다.")


pvalue:  0.9447776342385614 귀무가설이 채택 : 교육 효과가 없다.



> cf. 통계적 가설 검정 예시

    # 우리나라 남자의 평균 수명 75, 표준편차는 10
    # 의학기술의 발달로 수명이 더 높아졌을 것이라는 의견
    # 최근 사망한 남성 30명의 수명을 조사 => 평균 79
    # 유의수준 0.1에서(90%의 신뢰수준)에서 가설을 검정

In [5]:


H0 = "평균 수명은 변화가 없다."   # 귀무가설 : 내가 주장하고 싶은 것의 역
H1 = "평균 수명이 더 증가했다."   # 대립가설 : 내가 주장하고 싶은 것

last_mean = 75   #지난 평균
last_std = 10   #표준편차
num_of_sample = 30   # 샘플 수
mean_of_sample = 79   # 샘플의 평균 수명
z = 1.28   #alpha = 0.1    # 유의수준 10%(alpha = 0.1 이면 z값 = 1.28)

CV = z * (last_std / np.sqrt(num_of_sample)) + last_mean
print(CV)


if mean_of_sample > CV: print(H1)
else: print(H0)



77.3369495786887
평균 수명이 더 증가했다.
