## 가설검정
- ### 귀무가설과 대립가설을 설정하고 수집한 데이터를 바탕으로 이 가설들을 검증하는 과정이다.

### 예제)
#### 당신은 다니던 직장을 그만두고 꿈에 그리던 치킨집 사장이 됐다. 그런데 생각보다 매출이 오르지 않아 정기적으로 유튜브, 인스타그램, 페이스북 등 <br/><br/>각 플랫폼에 광고 캠페인을 균등한 비율로 진행하고 있다. 하지만 광고에 투자하는 금액에 비해 치킨 판매량이 상승하는 것 같이 않다. 당신은 플랫폼별<br/><br/> 방문자 수의 차이가 궁금했다. 그래서 사용자의 유입 경로를 파악할 수 있는 어플리케이션을 사용하기 시작했다. 어플리케이션에서는 플랫폼별 일일 방문 <br/><br/>고객에 대한 수치를 확인할 수 있다.

- #### 귀무가설: 모든 플랫폼의 일일 평균 고객 차이가 없다.
- #### 대립가설: 플랫폼 간의 일일 평균 고객 차이가 존재한다.

In [2]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [3]:
Youtube = [1913, 1879, 1939, 2146, 2040, 2127, 2122, 2156, 2036, 1974, 1956, 2146, 2151, 1943, 2125]
Instagram = [2305., 2355., 2203., 2231., 2185., 2420., 2386., 2410., 2340., 2349., 2241., 2396., 2244., 2267., 2281.]
Facebook = [2133., 2522., 2124., 2551., 2293., 2367., 2460., 2311., 2178., 2113., 2048., 2443., 2265., 2095., 2528.]

### 1) 분석 방법
- #### 세 그룹의 평균에 유의미한 차이가 있는지 확인하기 위한 선행 조건은 <span style="color:blue">데이터의 정규성 및 등분산 가정을 충족하는지 확인</span> 하는 것이다.
- #### 정규성 가정은 데이터가 각 그룹 내에서 정상적으로 분표한다는 가정이고, 등분산 가정은 각 그룹의 데이터 분산(확산)이 동일하다는 가정이다.
- #### 등분산 가정을 위반하면 결과가 편향될 수 있고 분석에서 도출된 결론이 정확하지 않을 수 있다.
- #### 여기서 정규성 가정은 <span style="color:orange">샤피로 윌크 검정</span>을 사용하고, 등분산 가정은 <span style="color:orange">레빈 검정</span>을 사용한다. 

In [5]:
from scipy.stats import shapiro, levene, f_oneway

# 정규성 검정
stat1, p1 = shapiro(Youtube)
stat2, p2 = shapiro(Instagram)
stat3, p3 = shapiro(Facebook)

# 등분산성 검정
stat, p = levene(Youtube, Instagram, Facebook)

# print the results
print("Normality Test(Shapiro) Results:")
print("Youtube group: Statistics=%.3f, p=%.3f" % (stat1, p1))
print("Instagram group: Statistics=%.3f, p=%.3f" % (stat2, p2))
print("Facebook group: Statistics=%.3f, p=%.3f" % (stat3, p3))
print("\nEqual Variance Test Results:")
print("Statistics=%.3f, p=%.3f" % (stat, p))

# perform ANOVA test
stat, p = f_oneway(Youtube, Instagram, Facebook)

# print the results
print("\nANOVA Test Results:")
print("Statistics=%.3f, p=%.3f" % (stat, p))

Normality Test(Shapiro) Results:
Youtube group: Statistics=0.865, p=0.029
Instagram group: Statistics=0.943, p=0.416
Facebook group: Statistics=0.917, p=0.172

Equal Variance Test Results:
Statistics=7.887, p=0.001

ANOVA Test Results:
Statistics=21.282, p=0.000


#### 결과)
- #### 정규성검정인 샤피로 월크 검정에서 p-값이 0.05보다 크거나 같으면 정규 분포라고 가정한다.
- #### 인스타그램이나 페이스북과 달리 유튜브는 p-값이 0.05보다 작기 때문에(p=0.029) 정규 분포 가정을 위반한다. 
- #### 등분산 검정에서도 p-값이 0.05보다 작기 때문에(0.001) 등분산 가정도 위반한다. 
- #### 정규성 및 분산 동질성 가정이 충족되지 않을 경우 비모수적 버전의 분산분석검정을 사용해야하기에 여기서는 <span style="color:orange">크루스칼 왈리스 검정</span>을 사용한다.

In [6]:
# Calculate the average of each group
avg_Youtube = sum(Youtube) / len(Youtube)
avg_Instagram = sum(Instagram) / len(Instagram)
avg_Facebook = sum(Facebook) / len(Facebook)

# Print the results
print("Average of Youtube group:", avg_Youtube)
print("Average of Instagram group:", avg_Instagram)
print("Average of Facebook group:", avg_Facebook)

Average of Youtube group: 2043.5333333333333
Average of Instagram group: 2307.5333333333333
Average of Facebook group: 2295.4


In [7]:
from scipy.stats import kruskal
stat, p_value = kruskal(Youtube, Instagram, Facebook)
if p_value < 0.05:
    print("세 그룹의 평균 사이에는 통계적으로 유의미한 차이가 있다.")
else:
    print("세 그룹의 평균 사이에는 통계적으로 유의미한 차이가 없다.")

세 그룹의 평균 사이에는 통계적으로 유의미한 차이가 있다.


In [8]:
!pip install scikit_posthocs

Collecting scikit_posthocs
  Downloading scikit_posthocs-0.8.0-py3-none-any.whl (32 kB)
Installing collected packages: scikit_posthocs
Successfully installed scikit_posthocs-0.8.0


In [9]:
import scikit_posthocs as sp

# Perform Kruskal-Wallis test
sp.posthoc_dunn([Youtube, Instagram, Facebook])

Unnamed: 0,1,2,3
1,1.0,1.4e-05,0.000184
2,1.4e-05,1.0,0.540761
3,0.000184,0.540761,1.0


In [10]:
import pandas as pd
# create a dataframe with the correlation matrix
df = pd.DataFrame({'Youtube': [1.000000, 0.000014, 0.000184],
                   'Instagram': [0.000014, 1.000000, 0.540761],
                   'Facebook': [0.000184, 0.540761, 1.000000]},
                  index=['Youtube', 'Instagram', 'Facebook'])

df = df.round(2)

print(df)

           Youtube  Instagram  Facebook
Youtube        1.0       0.00      0.00
Instagram      0.0       1.00      0.54
Facebook       0.0       0.54      1.00


#### 결과)
- #### 인스타그램과 페이스북의 효과 비교에 대한 p-값은 0.54로 유의 수준 0.05보다 크다. 따라서 두 그룹 간의 평균에 유의미한 차이 없다.
- #### 유튜브와 페이스북의 효과 비교/ 인스타그램과 유튜브 대한 p-값은 유의 수준 0.05보다 작다. 즉, 두 그룹 간의 평균에는 유의미한 차이가 있다.