<h1> 가설검증 </h1><p>
가설을 세우고 변수의 성질에 따라 가설을 검증하는 방법을 알아본다.

In [16]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

<h2> 가설검증 프로세스 </h2>
가설 검증 프로세스는 아래의 프로세스를 거친다.

1. 가설을 세운다
   H0 (귀무가설) : 연장근로와 성별은 서로 독립적이다.
   H1 (대립가설) : 연장근로와 성별은 서로 종속적이다.
2. 테스트 방법을 선택한다.
   연장근로 : 이산 // 성별 : 이산 변수  => 카이제곱 검정을 사용
3. 유의수준을 설정한다.
   통상 유의수준은 5% 로 설정 (0.05) (5% 이상일 경우 가설을 기각한다)
4. 테스트를 실행하고 결과값을 확인한다.
5. 테스트 결과와 유의수준을 비교한다.
6. 가설을 기각할지 선택할지 결정을 한다.


In [11]:
# 아래의 데이터 셋은 어떤 특정 모집단에서 추출한 표본이다

df= pd.read_excel('resources/HYPOTHESIS TESTING.xlsx')
df1= pd.read_excel('resources/HYPOTHESIS TESTING 1.xlsx')
df1.head()

Unnamed: 0,candidate_no,hiring_score
0,1,4.8
1,2,4.6
2,3,4.4
3,4,4.4
4,5,4.2


<h3> One Sample T-Test

In [9]:
# step 1 : Formulating hypothesis
# H0: hiring score for college b is less than equal to 3.9
# HA: hiring score for college b is greater than 3.9
# 위에서 로드한 엑셀 파일은 표본이므로 해당 표본에서 나온 결과가 모집단을 설명할 수 있는 지를 보는 것임
# 즉, 위 엑셀 파일은 College B 학생임

# step 2 : Choosing the test
# one sample t-test

# step 3 : Choosing significance level
# 0.05

# step 4 : Apply the test and find p-value
import scipy.stats as stats
r = stats.ttest_1samp(df1["hiring_score"],3.9)
print(r)
# step 5 : compare p-value and the significance level
print(r[0])
print(r[1]/2) # P-Value 가 0.05 보다 낮은지 보아야 하는데 stats 함수에서 나온 P-Value 는 Two-Tailed Test 이므로 2로 나눠준다

# conclusion : As p-value is less than 0.05 we reject the null and accept the alternate  hypothesis

Ttest_1sampResult(statistic=10.16024561522808, pvalue=4.5958040406311913e-11)
10.16024561522808
2.2979020203155957e-11


<H3> Paired Sample T-Test

In [12]:
# step 1 : Formulating hypothesis
# H0: productivity after training is less than equal to productivity before training
# HA: productivity after training is greater than productivity before training

# step 2 : Choosing the test
# paired t-test

# step 3 : Choosing significance level
# 0.05

# step 4 : Apply the test and find p-value
r = stats.ttest_rel(df['productivity_after_training'],df['productivity_before_training'])
print (r)

# step 5 : compare p-value and the significance level
print(r[0])
print(r[1]/2)

# conclusion : As p-value is less than 0.05 we reject the null and accept the alternate hypothesis

Ttest_relResult(statistic=27.37448237935423, pvalue=1.4389670632123492e-107)
27.37448237935423
7.194835316061746e-108


<h3> 카이 (Chi) 제곱 검정 (Categorical - Categorical 데이터간)

In [13]:
# step 1 : Formulating hypothesis
# H0: employee gender and hiring manager gender are independent
# HA: employee gender and hiring manager gender are dependent

# step 2 : Choosing the test
# Chi-Square

# step 3 : Choosing significance level
# 0.05

# step 4 : Apply the test and find p-value

table = pd.crosstab(df["employee_gender"],df["hiring_manager_gender"])
print(table)
result = stats.chi2_contingency(table)
result 

hiring_manager_gender    F    M
employee_gender                
F                       59  100
M                      191  249


(1.6572558301428084,
 0.19797424382119203,
 1,
 array([[ 66.360601,  92.639399],
        [183.639399, 256.360601]]))

<H3> ANOVA (세 개 이상의 변수 간의 관계성을 구하는 방법)

In [14]:
# step 1 : Formulating hypothesis
# H0: years since last promotion and department are independent
# HA: years since last promotion and department are dependent

# step 2 : Choosing the test
# ANOVA

# step 3 : Choosing significance level
# 0.05

# step 4 : Apply the test and find p-value

# 데이터 프레임에서 Department 에 따른 인덱스 추출
groups = df.groupby("Department").groups

# 상기 인덱스를 가지고 승진 후 경과연도를 인덱스로 잘라 변수로 매칭
hr = df["yrs_since_last_promotion"][groups["Human Resources"]] 
sales = df["yrs_since_last_promotion"][groups["Sales"]] 
rnd = df["yrs_since_last_promotion"][groups["Research & Development"]]

# Scipy 모듈의 One-Way ANOVA 메소드 사용
anova = stats.f_oneway(hr,sales,rnd)
anova # P Value 가 .05 보다 크므로 귀무가설 채택

F_onewayResult(statistic=0.7346134416339346, pvalue=0.48012467830275873)