## 소비량과 검색량의 상관관계 분석

In [2]:
import pandas as pd

In [3]:
pd_attract = pd.read_csv('../data/data_attraction.csv')
pd_consume = pd.read_csv('../data/data_consume.csv')

In [4]:
total_search_region = pd_attract.groupby('region')['attraction_search'].sum()
total_consume_region = pd_consume.groupby('region')['consumption_amount'].sum()

In [7]:
df_search_consume= pd.DataFrame({'검색량' : total_search_region, '소비량' : total_consume_region})
df_search_consume.reset_index()
df_search_consume

Unnamed: 0_level_0,검색량,소비량
region,Unnamed: 1_level_1,Unnamed: 2_level_1
강원,44630768,4908100000.0
경기,103530347,34914710000.0
경남,21867415,5771857000.0
경북,23736682,4654284000.0
광주,9147267,3537131000.0
대구,17619046,6567972000.0
대전,16038903,5160175000.0
부산,35671964,11162510000.0
서울,84305657,42920030000.0
세종,6835117,384225000.0


### 가설 검정
- 귀무가설 : 검색량과 소비량 사이의 관계성이 없다(p-value>0.05)
- 대립가설 : 검색량과 소비량 사이의 관계성이 있다(p-value<0.05)

In [12]:
# 데이터 건수가 5,000개 이상이므로 Anderson-normality test 시행
import scipy.stats as stats

statistic, critical_values, significance_level = stats.anderson(pd_attract['attraction_search'])
print(statistic, critical_values, significance_level)

2321.7437005274187 [0.576 0.656 0.787 0.918 1.092] [15.  10.   5.   2.5  1. ]


- 검색량은 정규분포를 따르지 않음

In [13]:
statistic, critical_values, significance_level = stats.anderson(pd_consume['consumption_amount'])
print(statistic, critical_values, significance_level)

304.3803428405429 [0.574 0.654 0.784 0.915 1.088] [15.  10.   5.   2.5  1. ]


- 소비량은 정규분포를 따르지 않음

In [22]:
import numpy as np
attraction_search_array = df_search_consume['검색량'].to_numpy()
consumption_amount_array = df_search_consume['소비량'].to_numpy()

In [25]:
correlation, p_value = stats.spearmanr(attraction_search_array, consumption_amount_array)
print(correlation, p_value)

0.7769607843137256 0.00024331533106465494


- p-value 값이 매우 작기 때문에 귀무가설 기각
- 검색량과 소비량은 상관관계가 있다