In [88]:
# 검정(檢定) : 검사하여 인정하는 것
import pandas as pd
import numpy as np
import random
from scipy import stats as sp

In [89]:
# 검정 종류
hypothesis = ['독립성 검정', '상관비 검정', '무상관 검정', '모평균 검정', '모비율 검정']
desc = ['카테고리+카테고리 데이터 분석', '카테고리+수치 데이터 분석', '수치+수치 데이터 분석', '두 광고의 한 달 수입 분석', '검색 광고와 배너 광고의 한 달 수입 분석', '검색 광고와 배너 광고의 한 달 전환율 분석']

for hypo in range( len(hypothesis) ) :
    print(hypothesis[hypo], ":", desc[hypo])


독립성 검정 : 카테고리+카테고리 데이터 분석
상관비 검정 : 카테고리+수치 데이터 분석
무상관 검정 : 수치+수치 데이터 분석
모평균 검정 : 두 광고의 한 달 수입 분석
모비율 검정 : 검색 광고와 배너 광고의 한 달 수입 분석


In [90]:
# 검정의 순서

hypo_steps = ["모집단 정의", "귀무,대립 가설", "검정 종류 실시", "유의수준 결정", "표본데이터 검정통계량 구하기", "검정통계량 기각역 조사", "기각역기반 판단 결론"]
hypo_steps

['모집단 정의',
 '귀무,대립 가설',
 '검정 종류 실시',
 '유의수준 결정',
 '표본데이터 검정통계량 구하기',
 '검정통계량 기각역 조사',
 '기각역기반 판단 결론']

In [101]:
# 검정

random_test = [] # random.randint(1, 10)
random_range = []

for i in range( 3 ) :
    for j in range( 100 ) :
        random_test.append( random.randint(1, 10) )
        
    random_range.append( random_test )
    random_test = []

ads = pd.DataFrame( random_range, index = ["Google-ads", "Naver-ads", "Facebook-ads"] ).T
x = [4, 5, 7]

In [102]:
np.mean(ads['Google-ads'])

5.43

In [103]:
# 단일 T 검정
# 표본이 하나일 때, 모집단의 평균과 표본 집단의 평균 사이에 차이가 있는지를 검증하는 방법

# 전체 방문자 2,000명 각 매체별로 100명을 추려 각 매체의 전체 방문자의 평균 전환 수가 4(구글) / 5(네이버) / 7(페이스북) 개 라는 것을 증명
# 귀무 가설 : 기존의 이론 (챔피언) <- (^^)
# 대립 가설 : 새로운 이론 (도전자) <- 4/5/7 

# 귀무가설과 대립가설을 설정할 때는 모집단의 비교값을 이용할 때도 있지만 내가 강하게 주장하는 새로운 내용이 대립가설이 될 수도 있다.

one_t_Result_googleads = stats.ttest_1samp(ads['Google-ads'], 4) # 단일 표본
one_t_Result_naverads = stats.ttest_1samp(ads['Naver-ads'], 5) # 단일 표본
one_t_Result_facebookads = stats.ttest_1samp(ads['Facebook-ads'], 7) # 단일 표본

one_t_Result = [ one_t_Result_googleads[1], one_t_Result_naverads[1], one_t_Result_facebookads[1] ]

# 95% 유의수준
# 1-0.95 = 0.05
# 표현은 통계적으로 오류를 범할 가능성이 적다
for i in range( 3 ) :
    if 0.05 < one_t_Result[i] :
        print( "귀무가설 채택 :", ads.columns[i], "는 평균 전환 값", x[i], "이/가 아닙니다."  )
    else :
        print( "대립가설 채택 :", ads.columns[i], "는 평균 전환 값", x[i], "이/가 맞습니다."  )

대립가설 채택 : Google-ads 는 평균 전환 값 4 이/가 맞습니다.
귀무가설 채택 : Naver-ads 는 평균 전환 값 5 이/가 아닙니다.
대립가설 채택 : Facebook-ads 는 평균 전환 값 7 이/가 맞습니다.


In [93]:
# 다중 T 검정
# 표본 집단이 하나 이상일 때, 두 표본 집단의 평균 사이에 차이가 있는지를 검증하는 방법

# 구글과 네이버 광고
# 귀무 가설: 두 매체중 네이버 광고가 더 유익한 매체입니다.
# 대립 가설: 두 매체중 구글광고가 더 유익한 매체입니다.

two_t_Result = stats.ttest_ind(random_range[0], random_range[1])

# 95% 유의수준
# 1-0.95 = 0.05
# 표현은 통계적으로 오류를 범할 가능성이 적다
if 0.05 < two_t_Result[1] :
    print( "귀무가설 채택 :", "네이버 짱"  )
else :
    print( "대립가설 채택 :", "구글 짱"  )
    
# 네이버와 페이스북 광고
# 귀무 가설: 두 매체중 네이버 광고가 더 유익한 매체입니다.
# 대립 가설: 두 매체중 페이스북 광고가 더 유익한 매체입니다.

two_t_Result = stats.ttest_ind(random_range[1], random_range[2])

# 95% 유의수준
# 1-0.95 = 0.05
# 표현은 통계적으로 오류를 범할 가능성이 적다
if 0.05 < two_t_Result[1] :
    print( "귀무가설 채택 :", "네이버 짱"  )
else :
    print( "대립가설 채택 :", "페이스북 짱"  )
    
# 구글과 페이스북 광고
# 귀무 가설: 두 매체중 구글 광고가 더 유익한 매체입니다.
# 대립 가설: 두 매체중 페이스북 광고가 더 유익한 매체입니다.

two_t_Result = stats.ttest_ind(random_range[0], random_range[2])

# 95% 유의수준
# 1-0.95 = 0.05
# 표현은 통계적으로 오류를 범할 가능성이 적다
if 0.05 < two_t_Result[1] :
    print( "귀무가설 채택 :", "구글 짱"  )
else :
    print( "대립가설 채택 :", "페이스북 짱"  )

귀무가설 채택 : 네이버 짱
귀무가설 채택 : 네이버 짱
귀무가설 채택 : 구글 짱


In [94]:
# 대응 T 검정
# 표본 집단간의 전/후 관계 

# 페이스북에서 구글로 예산을 변경하고, 나온 결과를 토대로 앞으로 의사결정을 하려고 함
# 귀무 가설: 광고 매체의 비용을 바꿨더니 수익이 소폭 상승하지 않은 것 같습니다.
# 대립 가설: 광고 매체의 비용을 바꿨더니 수익이 소폭 상승한 것 같습니다.
three_t_Result = stats.ttest_rel(random_range[1], random_range[2])

# 95% 유의수준
# 1-0.95 = 0.05
# 표현은 통계적으로 오류를 범할 가능성이 적다
if 0.05 < three_t_Result[1] :
    print( "귀무가설 채택 :", "기존에 하던 광고나 제대로 합시다"  )
else :
    print( "대립가설 채택 :", "역시, 새로운 광고 매체를 활용한 것이 신의 한 수!"  )


귀무가설 채택 : 기존에 하던 광고나 제대로 합시다
