# 경기도 지역화폐 공공데이터 EDA & Data Preprocessing

In [14]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## 1. 데이터 수집

### 1) 지역화폐 결제 관련 데이터
경기도 시군구별 지역화폐 사용량 데이터 접근 가능 ➡️ 경기도 데이터 사용   
<br>
### 참고 사이트
- [경기지역경제포털](https://bigdata-region.kr/)   
- [경기데이터드림](https://data.gg.go.kr/)   
<br>
### 데이터 리스트   
- 2019년 3~9월 주간 결제금액 정보
- 2019년 3~9월 일간 가맹점별 결제금액 정보
- 남녀별 소비패턴 현황
- 행정동별 지자체 상품 카드 사용 빈도 현황
- 연령별 거주인구 대비 지역화폐 사용금액 현황
- 연령별 지역화폐 사용 빈도 현황
- 용도지역별 결제업종 분석
- 지역별 지역화폐 사용량 및 지역별 소상공인 분포
- 지역별 지역화폐 결제금액 및 결제변화율
- ~~지역화폐 가맹점 현황~~

## 2. EDA(Exploratory Data Analysis)
> 탐색적 데이터 분석 : 데이터를 다양한 각도에서 관찰하고 이해하는 과정으로 시각화기법, 기본통계분석을 통해 데이터의 특징과 구조를 파악하고 유의미한 결과를 도출하는 방법   
<br>
"데이터 분석하기 전 전처리를 하면서 데이터를 이해하는 작업"   

### EDA를 잘하는 방법
1. 데이터가 가진 feature와 value의 의미를 이해하는 기술   
2. 결측치 처리 및 데이터필터링 기술   
3. <u>이해하기 쉬운 시각화를 하는 기술</u>

### 1) 지역별 지역화폐 사용량 및 지역별 소상공인 분포

경기도 지역별 결제현황 및 상권업종대분류 대비 상가 건수

- 분석인덱스 : 인덱스
- 가맹점우편번호 : 지역화폐 가맹점 우편번호
- 성별코드 : 결제 회원의 성별코드
- 연령대코드 : 결제 회원의 연령대코드
- 결제수 : 우편번호 기준 성별 및 연령에 따른 결제 횟수
- 업종대분류명 : 표준 업종코드 기준 상권업종대분류명
- 상가수 : 우편번호 기준 상권업종대분류에 따른 상가 수
- 데이터 기준일 : 2019년 10월 ~2020년 06월

### 2) 경기도 우편번호 DB

경기도 지역별 우편번호 및 도로명, 지번주소

### 3) 남녀별 소비패턴 현황
2019년 경기도 시군구 남녀별 월 단위 소비패턴 현황
- 시군구 : 시군구 명
- 성별 : M(남성), F(여성)
- 가맹업종명 : 가맹업종명
- 총결제금액 : 시군구 행정동 별 결제금액 (단위: 원)
- 데이터 기준일 : 2019년 03월 ~2019년 09월


In [15]:
# Load Data
df_lcrcy_induty = pd.read_csv('./data/TP_LCRCY_USE_ND_INDUTY_DISTRB.csv')
df_postnum = pd.read_table('./data/gg.txt', sep='|')
df_mwmn = pd.read_csv('./data/TP_MWMN_ACCTO_CNSMP_PTTRN.csv')

  interactivity=interactivity, compiler=compiler, result=result)
  if (await self.run_code(code, result,  async_=asy)):


In [16]:
df_lcrcy_induty.head()

Unnamed: 0,분석인덱스,가맹점우편번호,성별코드,연령대코드,결제수,업종대분류명,상가수
0,0,10125,M,40,1,C제조업,15
1,1,10125,M,40,1,E하수·폐기물처리;원료재생및환경복원업,1
2,2,10125,M,40,1,F건설업,5
3,3,10125,M,40,1,G도매및소매업,52
4,4,10125,M,40,1,H운수업,9


In [17]:
df_postnum.head()

Unnamed: 0,우편번호,시도,시도영문,시군구,시군구영문,읍면,읍면영문,도로명코드,도로명,도로명영문,...,법정동코드,법정동명,리명,행정동명,산여부,지번본번,읍면동일련번호,지번부번,구우편번호,우편번호일련번호
0,12410,경기도,Gyeonggi-do,가평군,Gapyeong-gun,가평읍,Gapyeong-eup,418203216017,보납로,Bonap-ro,...,4182025030,,개곡리,가평읍,0,436,1,2,,
1,12410,경기도,Gyeonggi-do,가평군,Gapyeong-gun,가평읍,Gapyeong-eup,418203216017,보납로,Bonap-ro,...,4182025030,,개곡리,가평읍,0,436,1,4,,
2,12410,경기도,Gyeonggi-do,가평군,Gapyeong-gun,가평읍,Gapyeong-eup,418203216017,보납로,Bonap-ro,...,4182025030,,개곡리,가평읍,0,462,1,5,,
3,12410,경기도,Gyeonggi-do,가평군,Gapyeong-gun,가평읍,Gapyeong-eup,418203216017,보납로,Bonap-ro,...,4182025030,,개곡리,가평읍,0,436,1,1,,
4,12410,경기도,Gyeonggi-do,가평군,Gapyeong-gun,가평읍,Gapyeong-eup,418203216017,보납로,Bonap-ro,...,4182025030,,개곡리,가평읍,0,436,1,3,,


In [18]:
df_mwmn.head()

Unnamed: 0,년월,시도명,시군구명,성별코드,가맹점업종명,총결제금액
0,2019-03,경기도,양주시,F,유통업 영리,7600
1,2019-03,경기도,양주시,F,일반휴게음식,26200
2,2019-04,경기도,가평군,F,회원제형태,10000
3,2019-04,경기도,가평군,F,기타,10450
4,2019-04,경기도,가평군,F,신변잡화,45500


In [19]:
# Drop unused columns & duplicate rows
df_postnum = df_postnum.drop(['시도영문', '시군구영문', '읍면영문', '산여부', '지번본번', '지하여부', '건물번호본번', '건물번호부번', '건물관리번호', '다량배달처명', '시군구용건물명', '읍면동일련번호', '지번부번', '법정동명', '구우편번호', '우편번호일련번호', '도로명코드', '도로명', '도로명영문'], axis=1)
df_postnum = df_postnum.drop_duplicates(['우편번호'], keep='first')

### Extract Data
- 행정동별 지역화폐 사용횟수 및 상가수

In [20]:
# Group by postnum
df_1 = df_lcrcy_induty.groupby('가맹점우편번호').sum().reset_index().drop('분석인덱스', axis=1)
df_1.head()

Unnamed: 0,가맹점우편번호,결제수,상가수
0,10125,12,194
1,10200,336,297
2,10201,1980,1254
3,10202,4576,1534
4,10203,24,35


In [21]:
# Merge address data & postnum data
df_1_merged = pd.merge(df_1, df_postnum.loc[:, ['우편번호', '시군구', '행정동명']], left_on='가맹점우편번호', right_on='우편번호', how='left').drop('우편번호', axis=1).drop_duplicates(['가맹점우편번호'], keep='first')
df_1_merged = df_1_merged[['가맹점우편번호', '시군구', '행정동명', '결제수', '상가수']]
df_1_merged['가맹점우편번호'] = df_1_merged['가맹점우편번호'].astype(str)
df_1_merged.head()

Unnamed: 0,가맹점우편번호,시군구,행정동명,결제수,상가수
0,10125,김포시,고촌읍,12,194
1,10200,고양시 일산서구,송산동,336,297
2,10201,고양시 일산서구,송산동,1980,1254
3,10202,고양시 일산서구,송산동,4576,1534
4,10203,고양시 일산서구,송포동,24,35


In [22]:
# Group by address
dataset1 = df_1_merged.groupby(['시군구', '행정동명']).sum().reset_index()
dataset1.head()

Unnamed: 0,시군구,행정동명,결제수,상가수
0,가평군,가평읍,255432,9416
1,가평군,북면,3939,664
2,가평군,상면,2015,1074
3,가평군,설악면,10605,1550
4,가평군,조종면,43751,3788


### Extract Data
- 각 행정동 연령대별 지역화폐 사용횟수

In [23]:
# Group by address & age band
df_lcrcy_induty['연령대코드'] = df_lcrcy_induty['연령대코드'].astype(str)
df_2 = df_lcrcy_induty.groupby(['가맹점우편번호', '연령대코드']).sum().reset_index().drop('분석인덱스', axis=1)
df_2.head()

Unnamed: 0,가맹점우편번호,연령대코드,결제수,상가수
0,10125,40,12,194
1,10200,20,8,33
2,10200,30,104,66
3,10200,40,56,66
4,10200,50,152,66


In [24]:
df_2_merged = pd.merge(df_2, df_postnum.loc[:, ['우편번호', '시군구', '행정동명']], left_on='가맹점우편번호', right_on='우편번호', how='left').drop('우편번호', axis=1)
df_2_merged = df_2_merged.groupby(['시군구', '행정동명', '연령대코드']).sum().reset_index()
dataset2 = df_2_merged.loc[df_2_merged['연령대코드'].isin(['10', '20', '30', '40', '50', '60'])]
dataset2.head()

Unnamed: 0,시군구,행정동명,연령대코드,가맹점우편번호,결제수,상가수
0,가평군,가평읍,10,186265,2375,1171
1,가평군,가평읍,20,235956,15703,1349
2,가평군,가평읍,30,260797,57533,1380
3,가평군,가평읍,40,273208,89239,1378
4,가평군,가평읍,50,285637,70382,1413


In [29]:
# Groupby address & category
df_3 = df_mwmn.groupby(['시군구명', '가맹점업종명']).sum().reset_index()
df_3_mean = df_mwmn.groupby('가맹점업종명').mean().reset_index()
df_3_mean = df_3_mean.rename(columns={'가맹점업종명': '가맹점업종명', '총결제금액': '평균결제금액'})
dataset3 = pd.merge(df_3, df_3_mean, on='가맹점업종명', how='left')
dataset3['평균결제금액'] = dataset3['평균결제금액'].astype(int)
dataset3.head()

Unnamed: 0,시군구명,가맹점업종명,총결제금액,평균결제금액
0,가평군,가구,386600,2260097
1,가평군,건강식품,978500,590878
2,가평군,건축자재,1287350,291760
3,가평군,광학제품,179000,312660
4,가평군,기타,716000,319198
