# 데이터 분석 실무
## 파이썬 라이브러리를 활용해서 통계 기법을 적용한 데이터 분석을 배우는 과정입니다.

#### 이번 시간은 제주도 관광데이터를 활용해서 분석을 해보는 시간입니다.
* 먼저, 데이터를 불러오고 살펴보겠습니다.(jeju_2018.csv, encoding 'cp949')
* 내국인 관광객 지역, 업종, 성별, 연령대별 카드 이용 데이터
* https://www.jejudatahub.net/data/view/data/597

In [1]:
# 필요 라이브러리 import
import pandas as pd

In [2]:
# 데이터 불러오기
df_jeju = pd.read_csv('jeju_2018.csv', encoding='cp949')
df_jeju

Unnamed: 0,sido,sigungu,cityGubun,marketType,userType,ageGroup,gender,dtYearMonth,userCount,useCount,useCost
0,제주도,제주시,읍면,유흥,제주도민,60대이상,여,201812,23,29,4240100
1,제주도,제주시,읍면,유흥,제주도민,60대이상,남,201812,114,190,27414000
2,제주도,제주시,읍면,유흥,제주도민,50대,여,201812,52,71,6848000
3,제주도,제주시,읍면,유흥,제주도민,50대,남,201812,259,458,91468500
4,제주도,제주시,읍면,유흥,제주도민,40대,여,201812,77,99,10021600
...,...,...,...,...,...,...,...,...,...,...,...
8014,제주도,서귀포시,도심,교통,내국인관광객,30대,남,201801,1442,1691,70364681
8015,제주도,서귀포시,도심,교통,내국인관광객,20대미만,여,201801,6,6,177975
8016,제주도,서귀포시,도심,교통,내국인관광객,20대미만,남,201801,1,1,20000
8017,제주도,서귀포시,도심,교통,내국인관광객,20대,여,201801,602,634,19857600


##### 변수 요약
* sido: 시도
* sigungu: 시군구
* cityGubun: 도심구분
* marketType: 업종
* userType: 관광객구분
* ageGroup: 연령대
* gender: 성별
* dtYearMonth: 년월
* userCount: 고객수
* useCount: 사용횟수
* useCost: 사용금액

#### 두 집단 간 차이 분석 : t-test

##### 가설설정
* 가설 1: 월별 남성과 여성의 이용 횟수의 차이가 있는지 여부를 검정한다.
* 가설 2: 월별 20대와 30대의 이용 비용의 차이가 있는지 여부를 검정한다.
* 가설 3: 월별 도심과 읍면 지역의 이용자 수의 차이가 있는지 여부를 검정한다.

In [3]:
# 필요 라이브러리 import
import pandas as pd
from scipy import stats

* 가설 1 검정

In [4]:
# 가설 1: 남성과 여성의 이용 횟수 비교
## 데이터 생성
male_data = df_jeju[df_jeju['gender'] == '남'][['useCount','dtYearMonth']].groupby('dtYearMonth').sum()
female_data = df_jeju[df_jeju['gender'] == '여'][['useCount','dtYearMonth']].groupby('dtYearMonth').sum()

In [5]:
male_data

Unnamed: 0_level_0,useCount
dtYearMonth,Unnamed: 1_level_1
201801,2124011
201802,1859953
201803,2183760
201804,2266748
201805,2402306
201806,2405125
201807,2538655
201808,2711957
201809,2397757
201810,2349726


In [6]:
## 검정통계량 계산
t_statistic, p_value = stats.ttest_ind(male_data, female_data)

print(p_value)

[7.98072469e-08]


In [7]:
## 결과 도출
if p_value < 0.05:
    print("남성과 여성의 이용 횟수는 통계적으로 유의미한 차이가 있습니다.")
else:
    print("남성과 여성의 이용 횟수는 통계적으로 유의미한 차이가 없습니다.")

남성과 여성의 이용 횟수는 통계적으로 유의미한 차이가 있습니다.


* 가설 2 검정

In [None]:
# 가설 2: 20대와 30대의 이용 비용 비교
## 데이터 생성
age_20s_data = df_jeju[df_jeju['ageGroup'] == '20대'][['useCost','dtYearMonth']].groupby('dtYearMonth').sum()
age_30s_data = df_jeju[df_jeju['ageGroup'] == '30대'][['useCost','dtYearMonth']].groupby('dtYearMonth').sum()

In [None]:
## 검정통계량 계산
t_statistic, p_value = stats.ttest_ind(age_20s_data, age_30s_data)

print(p_value)

In [None]:
## 결과 도출
if p_value < 0.05:
    print("20대와 30대의 이용 비용은 통계적으로 유의미한 차이가 있습니다.")
else:
    print("20대와 30대의 이용 비용은 통계적으로 유의미한 차이가 없습니다.")

* 가설 3 검정

In [None]:
# 가설 3: 도심과 읍면 지역의 이용자 수 비교
## 데이터 생성
urban_data = df_jeju[df_jeju['cityGubun'] == '도심'][['userCount','dtYearMonth']].groupby('dtYearMonth').sum()
rural_data = df_jeju[df_jeju['cityGubun'] == '읍면'][['userCount','dtYearMonth']].groupby('dtYearMonth').sum()

In [None]:
## 검정통계량 계산
t_statistic, p_value = stats.ttest_ind(urban_data, rural_data)

print(p_value)

In [None]:
## 결과 도출
if p_value < 0.05:
    print("도심과 읍면 지역의 이용자 수는 통계적으로 유의미한 차이가 있습니다.")
else:
    print("도심과 읍면 지역의 이용자 수는 통계적으로 유의미한 차이가 없습니다.")

#### 세 집단 이상 차이 분석 : ANOVA

##### 가설설정
* 가설 1: 'marketType'에 따라 'userCount'가 유의미하게 다를까요?
* 가설 2: 'ageGroup'에 따라 'userCount'가 유의미하게 다를까요?
* 가설 3: 'marketType'과 'ageGroup'의 상호작용이 'userCount'에 유의미한 영향을 미치나요?

* 가설 1 검정

In [8]:
# 필요 라이브러리 import
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

In [11]:
# 가설 1: marketType에 따른 userCount 차이 분산분석
## 데이터 생성
market_data = df_jeju[['userCount','marketType','dtYearMonth']].groupby(['marketType','dtYearMonth']).sum().reset_index()
market_data

Unnamed: 0,marketType,dtYearMonth,userCount
0,교통,201801,207486
1,교통,201802,186274
2,교통,201803,210007
3,교통,201804,212344
4,교통,201805,214701
...,...,...,...
79,유흥,201808,35543
80,유흥,201809,36059
81,유흥,201810,33695
82,유흥,201811,32280


In [12]:
## 검정통계량 계산
model_1 = ols('userCount ~ marketType', data=market_data).fit()
anova_table_1 = sm.stats.anova_lm(model_1)

In [13]:
## 결과 도출
print("=== 가설 1: marketType에 따른 userCount 분산분석 결과 ===")
print(anova_table_1)

=== 가설 1: marketType에 따른 userCount 분산분석 결과 ===
              df        sum_sq       mean_sq           F        PR(>F)
marketType   6.0  5.812829e+12  9.688048e+11  817.412545  1.484046e-67
Residual    77.0  9.126110e+10  1.185209e+09         NaN           NaN


In [14]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# DataFrame의 'marketType'과 'userCount' 열을 사용하여 사후 검정 수행
posthoc = pairwise_tukeyhsd(market_data['userCount'], market_data['marketType'])

# 사후 검정 결과 출력
print(posthoc)

       Multiple Comparison of Means - Tukey HSD, FWER=0.05        
group1 group2   meandiff   p-adj     lower        upper     reject
------------------------------------------------------------------
    교통  문화/레져 -112218.6667    0.0  -154771.572  -69665.7613   True
    교통     소매  -12863.8333  0.969  -55416.7387    29689.072  False
    교통     쇼핑    448713.75    0.0  406160.8447  491266.6553   True
    교통     숙박 -169053.6667    0.0  -211606.572 -126500.7613   True
    교통    식음료  491712.6667    0.0  449159.7613   534265.572   True
    교통     유흥    -177148.0    0.0 -219700.9053 -134595.0947   True
 문화/레져     소매   99354.8333    0.0    56801.928  141907.7387   True
 문화/레져     쇼핑  560932.4167    0.0  518379.5113   603485.322   True
 문화/레져     숙박     -56835.0 0.0023  -99387.9053  -14282.0947   True
 문화/레져    식음료  603931.3333    0.0   561378.428  646484.2387   True
 문화/레져     유흥  -64929.3333 0.0003 -107482.2387   -22376.428   True
    소매     쇼핑  461577.5833    0.0   419024.678  504130.4887   

* 가설 2 검정

In [15]:
# 필요 라이브러리 import
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

In [30]:
# 가설 1: ageGroup에 따른 userCount 차이 분산분석
## 데이터 생성
age_data = df_jeju[['userCount','ageGroup','dtYearMonth']].groupby(['ageGroup','dtYearMonth']).sum().reset_index()
age_data.head(2)

Unnamed: 0,ageGroup,dtYearMonth,userCount
0,20대,201801,327011
1,20대,201802,333273


In [31]:
## 검정통계량 계산
model_2 = ols('userCount ~ ageGroup', data=age_data).fit()
anova_table_2 = sm.stats.anova_lm(model_2)

In [32]:
## 결과 도출
print("\n=== 가설 2: ageGroup에 따른 userCount 분산분석 결과 ===")
print(anova_table_2)


=== 가설 2: ageGroup에 따른 userCount 분산분석 결과 ===
            df        sum_sq       mean_sq           F        PR(>F)
ageGroup   5.0  2.046611e+12  4.093223e+11  285.857361  2.684379e-43
Residual  66.0  9.450612e+10  1.431911e+09         NaN           NaN


In [33]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# DataFrame의 'marketType'과 'userCount' 열을 사용하여 사후 검정 수행
posthoc = pairwise_tukeyhsd(age_data['userCount'], age_data['ageGroup'])

# 사후 검정 결과 출력
print(posthoc)

       Multiple Comparison of Means - Tukey HSD, FWER=0.05        
group1 group2   meandiff   p-adj     lower        upper     reject
------------------------------------------------------------------
   20대  20대미만 -337208.9167    0.0 -382551.3158 -291866.5175   True
   20대    30대     124707.5    0.0   79365.1008  170049.8992   True
   20대    40대     151564.0    0.0  106221.6008  196906.3992   True
   20대    50대   31958.8333 0.3162  -13383.5658   77301.2325  False
   20대  60대이상 -150560.6667    0.0 -195903.0658 -105218.2675   True
 20대미만    30대  461916.4167    0.0  416574.0175  507258.8158   True
 20대미만    40대  488772.9167    0.0  443430.5175  534115.3158   True
 20대미만    50대    369167.75    0.0  323825.3508  414510.1492   True
 20대미만  60대이상    186648.25    0.0  141305.8508  231990.6492   True
   30대    40대      26856.5  0.512  -18485.8992   72198.8992  False
   30대    50대  -92748.6667    0.0 -138091.0658  -47406.2675   True
   30대  60대이상 -275268.1667    0.0 -320610.5658 -229925.7675   

* 가설 3 검정

In [34]:
# 필요 라이브러리 import
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

In [35]:
# 가설 1: ageGroup에 따른 userCount 차이 분산분석
## 데이터 생성
merge_data = df_jeju[['userCount','marketType','ageGroup','dtYearMonth']].groupby(['marketType','ageGroup','dtYearMonth']).sum().reset_index()
merge_data

Unnamed: 0,marketType,ageGroup,dtYearMonth,userCount
0,교통,20대,201801,25392
1,교통,20대,201802,24796
2,교통,20대,201803,26976
3,교통,20대,201804,25429
4,교통,20대,201805,25366
5,교통,20대,201806,29397
6,교통,20대,201807,35202
7,교통,20대,201808,36100
8,교통,20대,201809,28921
9,교통,20대,201810,26146


In [36]:
## 검정통계량 계산
model_3 = ols('userCount ~ marketType * ageGroup', data=merge_data).fit()
anova_table_3 = sm.stats.anova_lm(model_3)

In [37]:
## 결과 도출
print("\n=== 가설 3: marketType과 ageGroup의 상호작용이 userCount에 미치는 영향 분산분석 결과 ===")
print(anova_table_3)


=== 가설 3: marketType과 ageGroup의 상호작용이 userCount에 미치는 영향 분산분석 결과 ===
                        df        sum_sq       mean_sq            F  \
marketType             6.0  9.688048e+11  1.614675e+11  2788.309495   
ageGroup               5.0  2.923731e+11  5.847461e+10  1009.771981   
marketType:ageGroup   30.0  2.775970e+11  9.253232e+09   159.789933   
Residual             462.0  2.675383e+10  5.790873e+07          NaN   

                            PR(>F)  
marketType            0.000000e+00  
ageGroup             4.776792e-246  
marketType:ageGroup  7.133941e-223  
Residual                       NaN  


In [38]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# 상호작용항 만들기
merge_data['combi'] = merge_data['marketType'] + " / " + merge_data['ageGroup']
merge_data
# 사후 검정 결과 계산
posthoc = pairwise_tukeyhsd(merge_data['userCount'], merge_data['combi'])

# 사후 검정 결과 출력
pd.set_option('display.max_rows', None)
posthoc._results_table

group1,group2,meandiff,p-adj,lower,upper,reject
교통 / 20대,교통 / 20대미만,-27644.0,0.0,-39877.9137,-15410.0863,True
교통 / 20대,교통 / 30대,21767.8333,0.0,9533.9197,34001.747,True
교통 / 20대,교통 / 40대,27375.0833,0.0,15141.1697,39608.997,True
교통 / 20대,교통 / 50대,19881.5,0.0,7647.5863,32115.4137,True
교통 / 20대,교통 / 60대이상,3344.0833,1.0,-8889.8303,15577.997,False
교통 / 20대,문화/레져 / 20대,-8219.6667,0.8209,-20453.5803,4014.247,False
교통 / 20대,문화/레져 / 20대미만,-25897.5,0.0,-38131.4137,-13663.5863,True
교통 / 20대,문화/레져 / 30대,-4978.5,1.0,-17212.4137,7255.4137,False
교통 / 20대,문화/레져 / 40대,619.1667,1.0,-11614.747,12853.0803,False
교통 / 20대,문화/레져 / 50대,-9311.5833,0.547,-21545.497,2922.3303,False


#### 상관분석

In [39]:
# 필요 라이브러리 import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [40]:
# 데이터프레임의 변수 간 상관계수 계산
correlation_matrix = df_jeju.corr()

ValueError: could not convert string to float: '제주도'

In [41]:
# 상관계수 출력
print(correlation_matrix)

NameError: name 'correlation_matrix' is not defined

In [42]:
# 상관계수를 히트맵으로 시각화
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()

NameError: name 'correlation_matrix' is not defined

#### 회귀분석
* 종속변수는 useCost
* 독립변수는 marketType,	userType,	ageGroup,	gender

In [44]:
import pandas as pd
import statsmodels.api as sm

# 범주형 변수 변환
categorical_cols = ['marketType', 'userType', 'ageGroup', 'gender']
data_encoded = pd.get_dummies(df_jeju[['marketType', 'userType', 'ageGroup', 'gender','useCost']], columns=categorical_cols, drop_first=True)

# 독립변수/종속변수 설정
y = data_encoded['useCost']
X = data_encoded.drop('useCost', axis=1)

# 상수항 추가
X = sm.add_constant(X)

# 회귀식 도출
model = sm.OLS(y, X).fit()

# 결과 출력
print(model.summary())

ValueError: Pandas data cast to numpy dtype of object. Check input data with np.asarray(data).

In [None]:
# Extract the regression results
results = pd.DataFrame({'coef': model.params, 'std_err': model.bse, 't_value': model.tvalues, 'p_value': model.pvalues})

# Print the results DataFrame
print(results)