# =============================================
# [공간정보 탐색적 데이터 분석 경진대회]

    * 주제
        * 공간 정보를 활용한 탐색적 데이터 분석 경진대회
    * 배경
        * 공간 정보를 활용하여 올해 5~8월까지의 제주 지역 데이터를 분석하여 다양한 인사이트 도출
    * 목표
        * 공간 정보를 활용한 탐색적 데이터 분석 및 시각화
        * 공간 정보에 대한 일반인의 관심을 제고할 수 있는 인사이트 도출
    * 주최/주관
        * 주최 : 국토연구원
        * 주관 : DACON

### 목차
    * 0. 세팅
    * 1. 데이터 로드 및 확인
    * 2. EDA (1), ""
    * 3. EDA (2), ""
    * 4. EDA (3), ""
    * 5. 시각화

# =============================================
# 0. 세팅

In [5]:
import pandas as pd
import numpy as np

pd.options.plotting.backend = 'plotly' # 시각화

import plotly.express as px # 지도에 표시
import plotly.io as pio
import plotly.graph_objects as go

from pyproj import Proj, transform # 좌표계 변환

pio.renderers.default = 'notebook_connected' # 제출

# =============================================
# 1. 데이터 로드 및 확인

### 1.1 데이터 로드

In [46]:
## 1-1. 데이터 로드

data_5 = pd.read_csv('./data/KRI-DAC_Jeju_data5.txt')
data_6 = pd.read_csv('./data/KRI-DAC_Jeju_data6.txt')
data_7 = pd.read_csv('./data/KRI-DAC_Jeju_data7.txt').drop(['X', 'Y'], axis=1)
data_8 = pd.read_csv('./data/KRI-DAC_Jeju_data8.txt')

In [47]:
# OBJECTID 값 업데이트
max_5 = data_5.shape[0]
max_6 = data_6.shape[0]
max_7 = data_7.shape[0]

data_6['OBJECTID'] += max_5
data_7['OBJECTID'] += (max_5 + max_6)
data_8['OBJECTID'] += (max_5 + max_6 + max_7)

In [48]:
## 1-1. 데이터 병합
data = pd.concat([data_5, data_6, data_7, data_8], axis=0)
data

Unnamed: 0,OBJECTID,Field1,YM,SIDO,SIGUNGU,FranClass,Type,Time,TotalSpent,DisSpent,NumofSpent,NumofDisSpent,POINT_X,POINT_Y
0,1,1,202005,제주특별자치도,제주시,영세,일반한식,00시,363000,66500,10,2,877005.9834,1.479766e+06
1,2,2,202005,제주특별자치도,제주시,영세,단란주점,00시,1180000,0,3,0,877005.7447,1.479816e+06
2,3,3,202005,제주특별자치도,제주시,중소1,편의점,00시,157670,6850,20,2,877056.6756,1.479616e+06
3,4,4,202005,제주특별자치도,제주시,영세,편의점,00시,46600,0,2,0,877055.9593,1.479766e+06
4,5,5,202005,제주특별자치도,제주시,영세,주점,00시,66000,0,2,0,877055.4817,1.479866e+06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
280080,1119425,280081,202008,제주특별자치도,제주시,영세,편의점,x시,13700,0,2,0,950266.5976,1.502458e+06
280081,1119426,280082,202008,제주특별자치도,제주시,영세,일반한식,x시,56000,0,1,0,950317.5379,1.502258e+06
280082,1119427,280083,202008,제주특별자치도,제주시,영세,일반한식,x시,28000,0,1,0,950469.1585,1.501909e+06
280083,1119428,280084,202008,제주특별자치도,제주시,중소1,중국음식,x시,46000,0,3,0,950574.6388,1.500760e+06


### 1.2 데이터 확인
    * 데이터 정의
        * YM : 기준년월
        * SIDO : 지역대분류명
        * SIGUNGU : 지역중분류명
        * FranClass : 소상공인구분
        * Type : 업종명
        * Time : 시간대(x는 무승인거래, 2~6 새벽, 6~11 오전, 11~15 점심, 15~18 오후, 18~22 저녁, 22~02 심야)
        * TotalSpent : 총사용금액(재난지원금 사용금액을 포함한 금액)
        * DisSpent : 재난지원금 사용금액
        * NumOfSpent : 총 이용건수
        * NumOfDisSpent : 총 재난지원금 이용건수
        * POINT_X, POINT_Y : X,Y 좌표

In [6]:
data['SIDO'].unique()

array(['제주특별자치도'], dtype=object)

In [7]:
data['SIGUNGU'].unique()

array(['제주시', '서귀포시'], dtype=object)

In [8]:
data['FranClass'].unique()

array(['영세', '중소1', '중소', '중소2', '일반'], dtype=object)

In [9]:
data['Type'].unique()

array(['일반한식', '단란주점', '편의점', '주점', '스넥', '서양음식', '일식회집', '기타음료식품', '노래방',
       '중국음식', '슈퍼마켓', '유흥주점', '기타숙박업', '기타레져업', '당구장', '농축수산품', '유아원',
       '골프경기장', '세탁소', '가방', '콘도', '주차장', '문화취미기타', '주유소', '사무서비스',
       '자동차정비', '특급호텔', '볼링장', '화장품', '기타회원제형태업소', '주류판매점', '제과점',
       '피부미용실', '약국', '칵테일바', '정육점', '독서실', '스포츠레져용품', '골프용품', 'LPG',
       '종합병원', '사우나', '화원', '의원', '안마스포츠마사지', '골프연습장', '2급호텔', '기타대인서비스',
       '보습학원', '부동산분양', '화물운송', '애완동물', '동물병원', '대형할인점', '인터넷Mall', '항공사',
       '헬스크럽', '기타유통업', '레져용품수리', '정장', '레져업소(회원제형태)', '관광여행', '1급호텔',
       '침구수예점', '사진관', '악세사리', '보관창고업', '기념품점', '미용원', '영화관', '의료용품',
       '세차장', '인터넷종합Mall', '기타잡화', '성인용품점', '상품권', '종합용역', '기계공구',
       '조세서비스', '택시', '기타의료기관및기기', '가례서비스', '구내매점', '수영장', '목재석재철물',
       '건축요업품', '기타업종', '렌트카', '종합레져타운', '유류판매', '농축협직영매장', '기타건축자재',
       '비료농약사료종자', '농기계', '보일러펌프', '가전제품', '스포츠의류', '페인트', '미곡상',
       '기타농업관련', '기타가구', '공공요금', '기능학원', '면세점', '기타교육', '위탁급식업', '이용원',
       '조명기구',

In [10]:
data['Time'].unique()

array(['00시', '01시', '02시', '03시', '04시', '05시', '06시', '07시', '08시',
       '09시', '10시', '11시', '12시', '13시', '14시', '15시', '16시', '17시',
       '18시', '19시', '20시', '21시', '22시', '23시', 'x시'], dtype=object)

In [11]:
print(data['TotalSpent'].max())
print(data['TotalSpent'].min())

872468620
1


In [12]:
print(data['DisSpent'].max())
print(data['DisSpent'].min())

68372220
-650000


In [13]:
print(data['NumofSpent'].max())
print(data['NumofSpent'].min())

10359
1


In [14]:
print(data['NumofDisSpent'].max())
print(data['NumofDisSpent'].min())

1025
-1


In [15]:
print(data_5['NumofDisSpent'].sum())
print(data_6['NumofDisSpent'].sum())
print(data_7['NumofDisSpent'].sum())
print(data_8['NumofDisSpent'].sum())

# 재난지원금의 경우 사용 기한이 8월까지였다는 점을 확인해볼만함

# 먼저, 5월부텉 8월까지 재난 지원금 사용 건수가 줄어드는데,
# 이는 지원금이 들어오고나서 얼마 지나지 않아 모두 사용해버리는 가구가 많다는 뜻

# 반대로 사용 기한이 다가오는데 금액이 남아있는 사람들도 분석해볼만함
# 왜냐하면 어차피 사용해야 한다면 남은 돈 다 털어내기 위해서 상대적으로 '큰' 금액을 지출할 것으로 예상 됨
# 이를 증명하기 위해서는 총 4개월의 재난지원금 건당 금액을 비교해보면 될 듯 함

782769
384342
56363
18660


### 1.3 데이터 수정
    * 시간대 분류
        * x : 무승인거래
        * 2~6 : 새벽
        * 6~11 : 오전
        * 11~15 : 점심
        * 15~18 : 오후
        * 18~22 : 저녁
        * 22~02 : 심야
        
    * 업종 분류
        * 업종은 한국표준산업분류(KSIC)의 기준을 따랐습니다.
          참고 : https://namu.wiki/w/%ED%95%9C%EA%B5%AD%ED%91%9C%EC%A4%80%EC%82%B0%EC%97%85%EB%B6%84%EB%A5%98
        * 

# =============================================
# 
# =============================================

# =============================================
# 
# =============================================

# =============================================
# 지도에 표시 using plotly
# =============================================

In [52]:
# Scatter Plots on Mapbox 링크
# https://plotly.com/python/scattermapbox/


# fig = px.scatter_mapbox(data, # data frame 지정
#                         lat="POINT_Y", lon="POINT_X", # 위도 경도 지정
#                         hover_name="Type",
#                         hover_data=["SIGUNGU", "FranClass", "Time", "TotalSpent", "DisSpent"], # 추가로 보여줄 데이터 지정
#                         color=["TotalSpent"], # 컬러 지정
#                         size="NumofSpent",
#                         size_max=15, # 크기 지정
#                         zoom = 10, height = 400
#                        )

# fig.update_layout(mapbox_style="white-bg")
# fig.update_layout(margin={"r":0, "t":0, "l":0, "b":0})

# fig.show()


# 아무리 해도 출력이 안됨...
# 에러는 없이 코드가 실행 되니까 출력 단계에서 문제인가 고민했다
# 왜그런지 생각해보니, 좌표계의 문제이지 않나 싶다.
# 참고한 예제나 블로그 코드에서는 위도경도를 쓰는데, 데이터는 ITRF2000 좌표계 값을 쓴다.
# 따라서 이 값을 변환해서 그래프를 그려야 한다

In [16]:
# 좌표계 변환 : ITRF2000 -> WGS84
# ref. URL : https://m.blog.naver.com/wideeyed/221243506770
xy_ITFR2000 = Proj(init="epsg:5178") # ITRF2000 좌표계
xy_WGS84 = Proj(init="epsg:4326") # GPS 경도 위도


'+init=<authority>:<code>' syntax is deprecated. '<authority>:<code>' is the preferred initialization method. When making the change, be mindful of axis order changes: https://pyproj4.github.io/pyproj/stable/gotchas.html#axis-order-changes-in-proj-6


'+init=<authority>:<code>' syntax is deprecated. '<authority>:<code>' is the preferred initialization method. When making the change, be mindful of axis order changes: https://pyproj4.github.io/pyproj/stable/gotchas.html#axis-order-changes-in-proj-6


'+init=<authority>:<code>' syntax is deprecated. '<authority>:<code>' is the preferred initialization method. When making the change, be mindful of axis order changes: https://pyproj4.github.io/pyproj/stable/gotchas.html#axis-order-changes-in-proj-6


'+init=<authority>:<code>' syntax is deprecated. '<authority>:<code>' is the preferred initialization method. When making the change, be mindful of axis order changes: https://pyproj4.github.io/pyproj/stable/gotchas.html#axis-order-changes-in-

In [17]:
# sample 예제
x1, y1 = 877005.9834, 1.479766e+06
x2, y2 = transform(xy_ITFR2000, xy_WGS84, x1, y1)
print(x2, y2)

126.17674598466576 33.30508901176835



This function is deprecated. See: https://pyproj4.github.io/pyproj/stable/gotchas.html#upgrading-to-pyproj-2-from-pyproj-1



In [49]:
# 변환

tmp_data = data_6[:1000]
tmp_data

Unnamed: 0,OBJECTID,Field1,YM,SIDO,SIGUNGU,FranClass,Type,Time,TotalSpent,DisSpent,NumofSpent,NumofDisSpent,POINT_X,POINT_Y
0,273184,1,202006,제주특별자치도,제주시,영세,일반한식,00시,502000,0,10,0,877005.9834,1.479766e+06
1,273185,2,202006,제주특별자치도,제주시,영세,단란주점,00시,1520000,0,8,0,877005.7447,1.479816e+06
2,273186,3,202006,제주특별자치도,제주시,중소1,편의점,00시,482310,0,35,0,877056.6756,1.479616e+06
3,273187,4,202006,제주특별자치도,제주시,영세,편의점,00시,38050,5450,3,1,877055.9593,1.479766e+06
4,273188,5,202006,제주특별자치도,제주시,영세,일반한식,00시,32000,32000,1,1,877055.4817,1.479866e+06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,274179,996,202006,제주특별자치도,제주시,영세,주점,00시,108000,0,2,0,905046.6218,1.499991e+06
996,274180,997,202006,제주특별자치도,제주시,영세,주점,00시,816500,0,29,0,905046.3818,1.500041e+06
997,274181,998,202006,제주특별자치도,제주시,중소1,스넥,00시,52300,0,2,0,905046.3818,1.500041e+06
998,274182,999,202006,제주특별자치도,제주시,영세,일반한식,00시,688000,0,7,0,905045.4221,1.500241e+06


In [50]:
%%time
def trans_xy(x, y) :
    return transform(xy_ITFR2000, xy_WGS84, x, y)

# trans = tmp_data.apply(lambda row : trans_xy(row.POINT_X, row.POINT_Y), axis=1)
data_5 = data_5.apply(lambda row : trans_xy(row.POINT_X, row.POINT_Y), axis=1)


This function is deprecated. See: https://pyproj4.github.io/pyproj/stable/gotchas.html#upgrading-to-pyproj-2-from-pyproj-1



KeyboardInterrupt: 

In [51]:
tmp_data = tmp_data.assign(
    lon = trans.apply(lambda x:x[0]),
    lat = trans.apply(lambda x:x[1])
)

In [23]:
tmp_data

Unnamed: 0,OBJECTID,Field1,YM,SIDO,SIGUNGU,FranClass,Type,Time,TotalSpent,DisSpent,NumofSpent,NumofDisSpent,POINT_X,POINT_Y,lon,lat
0,1,1,202005,제주특별자치도,제주시,영세,일반한식,00시,363000,66500,10,2,877005.9834,1.479766e+06,126.176746,33.305090
1,2,2,202005,제주특별자치도,제주시,영세,단란주점,00시,1180000,0,3,0,877005.7447,1.479816e+06,126.176737,33.305540
2,3,3,202005,제주특별자치도,제주시,중소1,편의점,00시,157670,6850,20,2,877056.6756,1.479616e+06,126.177311,33.303746
3,4,4,202005,제주특별자치도,제주시,영세,편의점,00시,46600,0,2,0,877055.9593,1.479766e+06,126.177283,33.305098
4,5,5,202005,제주특별자치도,제주시,영세,주점,00시,66000,0,2,0,877055.4817,1.479866e+06,126.177264,33.305999
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,96,96,202005,제주특별자치도,서귀포시,영세,일반한식,00시,252500,94000,4,2,883796.6354,1.470603e+06,126.250848,33.223210
96,97,97,202005,제주특별자치도,서귀포시,영세,일반한식,00시,67000,0,2,0,883796.3972,1.470653e+06,126.250839,33.223661
97,98,98,202005,제주특별자치도,서귀포시,영세,서양음식,00시,70000,0,1,0,883796.1589,1.470703e+06,126.250830,33.224112
98,99,99,202005,제주특별자치도,서귀포시,영세,일반한식,00시,70000,0,1,0,883796.1589,1.470703e+06,126.250830,33.224112


In [52]:
# 시각화

fig = px.scatter_mapbox(
    tmp_data,
    lat = 'lat', lon = 'lon',
    hover_name="OBJECTID",
    hover_data=["SIGUNGU", "FranClass", "Time", "TotalSpent", "DisSpent"], # 추가로 보여줄 데이터 지정
)

fig.update_layout(mapbox_style="open-street-map")
fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})

fig.update_layout(mapbox=dict(
    center=go.layout.mapbox.Center(
        lat=tmp_data.lat.median(),
        lon=tmp_data.lon.median()
    )
))

fig.show()

In [None]:
def transform_ITRF2WGS(data_5) : 
    return pd.Series(transform(xy_ITFR2000, xy_WGS84, data_5['POINT_X'], data_5['POINT_Y']), index=['POINT_X', 'POINT_Y'])

data_5[['POINT_X', 'POINT_Y']] = data_5.apply(transform_ITRF2WGS, axis=1)

data_5

In [None]:
# 변환
def transform_ITRF2WGS(data_5) : 
    return pd.Series(transform(xy_ITFR2000, xy_WGS84, tmp_data['POINT_X'], tmp_data['POINT_Y']), index=['POINT_X', 'POINT_Y'])

tmp_data[['POINT_X', 'POINT_Y']] = tmp_data.apply(transform_ITRF2WGS, axis=1)

In [20]:
fig = px.scatter_mapbox(tmp_data, # data frame 지정
                        lat="POINT_Y", lon="POINT_X", # 위도 경도 지정
                        hover_name="Type",
                        hover_data=["SIGUNGU", "FranClass", "Time", "TotalSpent", "DisSpent"], # 추가로 보여줄 데이터 지정
                        color="TotalSpent", # 컬러 지정
                        size="NumofSpent",
                        size_max=15, # 크기 지정
                        zoom = 10, height = 400
                       )

fig.update_layout(mapbox_style="white-bg")
fig.update_layout(margin={"r":0, "t":0, "l":0, "b":0})

ValueError: 
    Invalid value of type 'numpy.ndarray' received for the 'lat' property of layout.mapbox.center
        Received value: array([33.30508967, 33.3055403 , 33.30374564, 33.30509753, 33.30599879])

    The 'lat' property is a number and may be specified as:
      - An int or float