<a href="https://colab.research.google.com/github/frances-son/data-analysis/blob/main/Data_Driven_Report_chp3_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 229 페이지 - 당신의 질문에 데이터가 답한다: 가설검정
- 데이터 분석에 핵심적인 요소, 어떤 주장이 사실인지 아닌지 판단하는데 꼭 필요.
- 가설검정은 귀무가설과 대립가설을 설정하고 수집한 데이터를 바탕으로 이 가설들을 검증하는 과정.
- p-값 : 귀무가설이 참일 경우 주어진 데이터가 관찰될 확률이다. p-값이 유의 수준보다 작으면 귀무가설을 기각하고 대립가설을 채택한다.


## 분석목표
치킨집 사장이 매출을 늘리기 위해 유튜브, 인스타그램, 페이스북에서 광고 캠페인을 실행하고 있다. 하지만 기대했던 결과를 얻지 못해 플랫폼별로 일일 방문자 수에 차이가 있는지 확인하고자 함.
가설 검증을 통해 세 플랫폼(유튜브, 인스타그램, 페이스북) 별 평균 고객 확보에 차이가 있는지 확인

- 귀무가설(H0) : u1(유튜브 일일 평균 고객) = u2(인스타그램 일일 평균 고객) = u3(페이스부 일일 평균 고객) -> 모든 플랫폼의 일일 평균 고객 차이가 없다.
- 대립가설(H1) : 플랫폼 간 일일 평균 고객 차이가 존재한다.

----
- 귀무가설(H0) : 데이터는 정규분포다.
- 대립가설(H1) : 데이터가 정규 분포가 아니다.
- 귀무가설(H0) : 샘플의 분산이 동일하다.
- 대립가설(H1) : 샘플의 분산이 다르다.


In [22]:
import statistics

Youtube = [1913, 1879, 1939, 2146, 2040, 2127, 2122, 2156, 2036, 1974, 1956, 2146, 2151, 1943, 2125]
Instagram = [2305., 2355., 2203., 2231., 2185., 2420., 2386., 2410., 2340., 2349., 2241., 2396., 2244., 2267., 2281.]
Facebook = [2133., 2522., 2124., 2551., 2293., 2367., 2460., 2311., 2178., 2113., 2048., 2443., 2265., 2095., 2528.]

statistics.mean(Youtube)

print("mean : Y=%.3f, I=%.3f, F=%.3f" % (statistics.mean(Youtube), statistics.mean(Instagram), statistics.mean(Facebook)))

mean : Y=2043.533, I=2307.533, F=2295.400


### 3.3.4 분석방법 결정하기

- 선행조건 : 데이터의 정규성 및 등분산 가정을 충족하는지 확인
 - 정규성가정 : 데이터가 각 그룹 내에서 정상적으로 분포한다는 가정
 - 등분산가정 : 각 그룹의 데이터 분산(확산)이 동일하다는 가정. 위반하면 결과가 편향될 수 있고 분석에서 도출된 결론이 정확하지 않을 수 있다.

- 여기서 정규성 가정 - 샤피로 윌크 검정 / 등분산 가정 - 레빈 검정 사용
 - 정규성 검정 샤피로윌크 검정에서 p값이 0.05 보다 크거나 같으면 정규 분포라고 가정

In [5]:
from scipy.stats import shapiro, levene, f_oneway

# perform normality test for each group
stat1, p1 = shapiro(Youtube)
stat2, p2 = shapiro(Instagram)
stat3, p3 = shapiro(Facebook)

# perfrom equal variance test for all groups
stat, p = levene(Youtube, Instagram, Facebook)

#print the results
print ("Normality Test Results")
print("Youtube group : Statistics = %.3f, p = %.3f" % (stat1, p1))
print("Instagram group : Statistics = %.3f, p = %.3f" % (stat2, p2))
print("Facebook group : Statistics = %.3f, p = %.3f" % (stat3, p3))
print("\nEqual Variance Test Results:")
print("Statistics=%.3f, p=%.3f " % (stat,p))

# perform ANOVA test
stat, p = f_oneway(Youtube, Instagram, Facebook)

# print the results
print("\nANOVA Test Results:")
print("Statistics=%.3f, p=%.3f" % (stat, p))


Normality Test Results
Youtube group : Statistics = 0.865, p = 0.029
Instagram group : Statistics = 0.943, p = 0.416
Facebook group : Statistics = 0.917, p = 0.172

Equal Variance Test Results:
Statistics=7.887, p=0.001 

ANOVA Test Results:
Statistics=21.282, p=0.000


인스타그램, 페이스북은 샤피로윌크 검정 결과가 p값이 0.05보다 크거나 같기 때문에 정규분포라고 가정할 수 있으나, 유튜브는 p값이 0.05보다 작기 때문에 정규 분포 가정을 위반함.

또한 등분산검정에서도 p값이 0.05보다 작기 때문에 등분산 가정도 위반

-> 정규성 및 분산 동질성 가정이 충족되지 않으므로 <비모수적 버전의 분산분석검정>을 사용해야 한다. -> 크루스칼 왈리스 검정 사용

In [7]:
from scipy.stats import kruskal

stat,p_value = kruskal(Youtube, Instagram, Facebook)
if p_value < 0.05:
  print("세 그룹의 평균 사이에는 통계적으로 유의미한 차이가 있다.")
else:
  print("세 그룹의 평균 사이에는 통계적으로 유의미한 차이가 없다.")


세 그룹의 평균 사이에는 통계적으로 유의미한 차이가 있다.


어떤 그룹의 평균이 유의미하게 다른지 알 수 없음. 어떤 그룹이 유의미한지 알아보기 이해 scikit_posthocs 를 사용.

scikit_posthocs는 분산분석이후 사후테스트로 각 그룹의 평균이 어떻게 다른지 세부적으로 볼 수 있는 라이브러리.

In [12]:
!pip install scikit_posthocs

import scikit_posthocs as sp
import pandas as pd
# perfrom kruskal-wallis test
df = sp.posthoc_dunn([Youtube, Instagram, Facebook])
df



Unnamed: 0,1,2,3
1,1.0,1.4e-05,0.000184
2,1.4e-05,1.0,0.540761
3,0.000184,0.540761,1.0


In [16]:
df.columns = ['Youtube', 'Instagram', 'Facebook']
df.index = ['Youtube', 'Instagram', 'Facebook']
df = df.round(2)
df


Unnamed: 0,Youtube,Instagram,Facebook
Youtube,1.0,0.0,0.0
Instagram,0.0,1.0,0.54
Facebook,0.0,0.54,1.0


p 값이 0.05보다 낮은 것 : 두 그룹 간의 평균에 유의미한 차이가 있음.

유튜브 - 인스타그램 / 유튜브 - 페이스북

-> 유튜브 일일 방문자 수는 인스타그램과 페이스북보다 낮은 수치이므로 유튜브에 마케팅 비용을 투자하는 것은 최소화해야 할 것으로 보인다.
->하지만 이 분석에서 다른 플랫폼보다 유튜브 실적이 더 낮은 이유는 언급하지 않기 때문에, 플랫폼 방문자가 치킨 구매로 연결되는지와 어떤 플랫폼 유저가 치킨 구매력이 상대적으로 높은지를 추가적으로 확인할 필요가 있다. 또한 추가 데이터를 확보하여 고객의 선호도와 행동 유형에 따라 마케팅 전략을 맞춤화한다면 데이터 기반 의사결정을 통해 리스크를 최소화하고 판매로 연결할 수 있을 것.
