# 데이터 분석에 앞서...

# 데이터 분석에 앞서...

## 주제 및 가치

### ○ 주제 
    ▶ 포스트 코로나 시대 유망 품목 및 산업 발굴
    ▶ 코로나로 인한 국민의 생활/소비의 변화 파악    

### ○ 가치
    ▶ 빅데이터의 가치를 활용하여 코로나가 미치는 영향을 보다 객관적이고 포괄적으로 이해
    ▶ 데이터 분석을 통해 발굴한 인사이트의 활용

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# 데이터 불러오기

In [2]:
card= pd.read_csv("card.csv")

# 데이터 전처리

In [4]:
card.head()

Unnamed: 0,receipt_dttm,adstrd_code,adstrd_nm,mrhst_induty_cl_code,mrhst_induty_cl_nm,selng_cascnt,salamt
0,20200104,1174066000,성내3동,7041,약국,463,5843230
1,20200104,1174066000,성내3동,7022,치과의원,33,7835550
2,20200104,1174066000,성내3동,7021,한의원,53,4589800
3,20200104,1174066000,성내3동,7020,의원,339,9267240
4,20200104,1174066000,성내3동,6110,자동차정비,19,4441000


In [5]:
# 칼럼명 변경
card.columns=['카드사용접수일', '행정동코드', '가맹점행정동명', '가맹점업종코드', '가맹점업종명',
              '매출발생건수', '매출발생금액']

# 숫자 데이터를 string type에서 int64로 변경
card.매출발생건수=card.매출발생건수.astype('int64')
card.매출발생금액=card.매출발생금액.astype('int64')

# 날짜 데이터를 string type에서 date type으로 변경
card.카드사용접수일 = pd.to_datetime(card.카드사용접수일, format="%Y%m%d")

# BC카드 업종 코드 분류에 따른 대분류를 위해 업종코드를 앞에 한자리만 추출
# slicing을 위해 string type으로 변경
card.가맹점업종코드=card.가맹점업종코드.astype(str)
card['가맹점업종코드앞자리']=card.가맹점업종코드.str.slice(start=0,stop=1)

# 행정동코드를 다른 데이터와 같게 자릿수를 맞춰줌
card.행정동코드=card.행정동코드.astype(str)
card.행정동코드=card.행정동코드.str.slice(start=0,stop=8)
card.행정동코드=card.행정동코드.astype('int64')

# 가맹점 업종 코드를 앞에 2자리만 남기게 slicing
card['가맹점업종코드두자리']=card.가맹점업종코드.str.slice(start=0, stop=2)

In [6]:
# 가맹점 업종 대분류
# 가맹점 업종 코드 앞자리에 따라 분류
# card_s={1:'관광',2:'취미',3:'생활',4:'쇼핑',5:'교육',6:'차량',7:'의료',8:'음식',9:'기타'}

In [7]:
# 카드 사용 접수일을 월만 남기도록 slicing
card.카드사용접수일=card.카드사용접수일.astype(str)
card.카드사용접수일=card.카드사용접수일.str.slice(start=5,stop=7)

### 행정동 데이터와 카드 데이터 병합

In [8]:
adstrd = pd.read_csv("adstrd_master.csv")

In [9]:
adstrd.columns=['행정동코드','동','시','구']

In [10]:
# float 타입인 행정동코드를 int타입으로 변경
adstrd.행정동코드=adstrd.행정동코드.astype('int64')

# 서울시 데이터만 뽑아서 데이터 프레임으로 생성
adstrd_seoul=adstrd.loc[adstrd.시=="서울특별시"]
adstrd_seoul.columns=['행정동코드','행정동명','시','구']

In [11]:
adstrd_seoul

Unnamed: 0,행정동코드,행정동명,시,구
0,11110515,청운효자동,서울특별시,종로구
1,11110530,사직동,서울특별시,종로구
2,11110540,삼청동,서울특별시,종로구
3,11110550,부암동,서울특별시,종로구
4,11110560,평창동,서울특별시,종로구
...,...,...,...,...
420,11740650,성내2동,서울특별시,강동구
421,11740660,성내3동,서울특별시,강동구
422,11740685,길동,서울특별시,강동구
423,11740690,둔촌1동,서울특별시,강동구


In [12]:
# 카드 데이터와 행정동 데이터를 행정동코드 기준으로 병합

card_gu=pd.merge(adstrd_seoul, card, on='행정동코드', how='outer')

In [13]:
card_gu

Unnamed: 0,행정동코드,행정동명,시,구,카드사용접수일,가맹점행정동명,가맹점업종코드,가맹점업종명,매출발생건수,매출발생금액,가맹점업종코드앞자리,가맹점업종코드두자리
0,11110515,청운효자동,서울특별시,종로구,01,청운효자동,9210,세탁소,10,107370,9,92
1,11110515,청운효자동,서울특별시,종로구,01,청운효자동,8399,기타음료식품,55,903270,8,83
2,11110515,청운효자동,서울특별시,종로구,01,청운효자동,8301,제과점,104,1352260,8,83
3,11110515,청운효자동,서울특별시,종로구,01,청운효자동,8021,스넥,109,2320200,8,80
4,11110515,청운효자동,서울특별시,종로구,01,청운효자동,8013,주점,16,911300,8,80
...,...,...,...,...,...,...,...,...,...,...,...,...
3713947,11740700,둔촌2동,서울특별시,강동구,06,둔촌2동,7101,이 용 원,1,25000,7,71
3713948,11740700,둔촌2동,서울특별시,강동구,06,둔촌2동,2199,기타레져업,161,765700,2,21
3713949,11740700,둔촌2동,서울특별시,강동구,06,둔촌2동,7111,미용 재료,2,50000,7,71
3713950,11740700,둔촌2동,서울특별시,강동구,06,둔촌2동,7001,종합병원,20,5335390,7,70


# 그래프 그리기

## 가맹점 업종 코드, 구 별 매출 발생 건수를 그래프로 시각화

In [14]:
# 필요한 모듈 import
# plotly 사용

import chart_studio.plotly as py
import cufflinks as cf
cf.go_offline(connected=True)

In [15]:
# 가맹점 업종 코드 별 각 구의 매출 발생 건수 합계

card_gu_pivot1=pd.pivot_table(card_gu, index='가맹점업종코드앞자리', columns='구', values='매출발생건수', aggfunc='sum')

In [16]:
card_gu_pivot1

구,강남구,강동구,강북구,강서구,관악구,광진구,구로구,금천구,노원구,도봉구,...,성동구,성북구,송파구,양천구,영등포구,용산구,은평구,종로구,중구,중랑구
가맹점업종코드앞자리,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,1464470,31693,14242,758711,39022,195771,52528,25991,16947,6998,...,15915,15007,315206,452073,92953,43429,24640,79718,41345994,23164
2,1457961,582724,208367,640083,806491,585194,440882,282048,613687,268117,...,306915,412620,931103,449532,475430,530929,409894,404846,612916,400150
3,532682,185876,42653,449746,208474,336041,426418,334972,207664,209620,...,280674,446672,520674,337248,1270496,175485,256011,88627,312069,258355
4,37547905,6208346,2027223,12245286,8090786,5134596,38498146,5284084,5768857,3057588,...,4319787,4648477,10471387,11831269,10038008,52703563,5222978,3874081,31453594,4354291
5,935201,162045,32362,181529,372653,132603,243341,115976,218454,77068,...,152855,216798,298116,199316,218431,167034,140102,1192677,434807,90530
6,3769920,125322,25817,273440,39675,80447,941573,147640,54096,46585,...,375945,48607,361358,75947,1078345,408167,45555,5571594,1757403,44547
7,4521334,1684308,529838,1820369,1525855,1306960,1588344,824059,1569239,732179,...,926079,1154995,2816508,1340486,1842155,773614,1341004,1627348,1260992,1089355
8,18473343,5203573,1807479,6976096,6291168,5211558,5410284,3985826,4748921,2259867,...,4664436,4088921,9477096,4190947,8517904,5870548,4017636,7848965,15437742,3129882
9,5800001,406762,232737,593793,244148,326114,1065236,186875,330396,145035,...,345636,182163,631635,283882,629740,5333267,203184,654306,7320421,136268


In [17]:
# x축 : 각 업종 별 코드
# 1:'관광',2:'취미',3:'생활',4:'쇼핑',5:'교육',6:'차량',7:'의료',8:'음식',9:'기타'
# y축 : 업종 코드 별 각 구의 매출 발생 건수

card_gu_pivot1.iplot(kind='line')

## 카드 사용 접수 월 별 각 구의 매출 발생 건수를 그래프로 시각화 

In [18]:
# 카드사용 접수 일을 월별로 grouping
# 각 구 별로 매출 발생 건수를 value로 grouping

card_gu_pivot2=pd.pivot_table(card_gu, index='카드사용접수일', columns='구', values='매출발생건수', aggfunc='sum')

In [19]:
card_gu_pivot2

구,강남구,강동구,강북구,강서구,관악구,광진구,구로구,금천구,노원구,도봉구,...,성동구,성북구,송파구,양천구,영등포구,용산구,은평구,종로구,중구,중랑구
카드사용접수일,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,11890505,2243566,752969,3957003,2942820,2202868,7809806,1796153,2156370,1033066,...,1730482,1740131,4276690,3148920,3754154,9806785,1879370,3903744,19653014,1508122
2,10607989,1958558,656233,3282732,2437286,1802197,6727556,1543124,1849240,909526,...,1571623,1498921,3573306,2650965,3299758,9017602,1557559,3272043,13740693,1273891
3,14399547,2868228,967828,4587210,3434597,2560642,9761422,2150956,2605530,1362367,...,2225794,2189270,4985424,3752071,4667322,14099344,2255283,3922384,17988601,1878997
4,14575330,2912666,974359,4718057,3428699,2589655,9750934,2230436,2633537,1355207,...,2305808,2227360,5067956,3658637,4814450,13081286,2294725,4146742,18707727,1871258
5,15673398,3150215,1073218,5054977,3664304,2843679,9930268,2352576,2904848,1467480,...,2420898,2407502,5426361,4079727,5159745,13426375,2508031,4427498,20296394,2045673
6,7356048,1457416,496111,2339074,1710566,1310243,4686766,1114226,1378736,675411,...,1133637,1151076,2493346,1870380,2468033,6574644,1166036,1669751,9549509,948601


In [20]:
# x축 : 카드 사용 접수 월 > 1~6월
# y축 : 카드사용 월 별 각 구의 매출 발생 건수

card_gu_pivot2.iplot(kind='line')

## 월별 매출 발생 건수 top3, botton3 구 그래프

In [21]:
# 필요한 모듈 import
import plotly.express as px
from plotly import graph_objects as go

In [22]:
# Top3 월별 매출 발생 건수

fig=go.Figure()

fig.add_trace(go.Funnel(
name='서초구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['서초구']))

fig.add_trace(go.Funnel(
name='중구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['중구']))

fig.add_trace(go.Funnel(
name='강남구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['강남구']))

fig.show()

In [23]:
# Botton 3 월별 매출 발생 건수

fig=go.Figure()

fig.add_trace(go.Funnel(
name='중랑구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['중랑구']))

fig.add_trace(go.Funnel(
name='도봉구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['도봉구']))

fig.add_trace(go.Funnel(
name='강북구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['강북구']))

fig.show()

In [24]:
# Top 3, Botton 3 월별 매출 발생 건수

fig=go.Figure()

fig.add_trace(go.Funnel(
name='서초구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['서초구']))

fig.add_trace(go.Funnel(
name='중구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['중구']))

fig.add_trace(go.Funnel(
name='강남구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['강남구']))

fig.add_trace(go.Funnel(
name='중랑구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['중랑구']))

fig.add_trace(go.Funnel(
name='도봉구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['도봉구']))

fig.add_trace(go.Funnel(
name='강북구',
y=card_gu_pivot2.index+"월",
x=card_gu_pivot2['강북구']))

fig.show()

'쇼핑' 부분이 가장 많은 부분을 차지하므로 쇼핑에 대해 분석하기 위해 전처리를 해줌

In [25]:
# 가맹점 업종 코드를 앞에 2자리만 남기게 slicing
card_gu['가맹점업종코드두자리']=card_gu['가맹점업종코드'].str.slice(start=0, stop=2)

In [26]:
card_gu.가맹점업종코드두자리.unique()

array(['92', '83', '80', '70', '42', '40', '22', '71', '51', '44', '90',
       '50', '32', '20', '52', '91', '61', '99', '21', '93', '34', '10',
       '60', '30', '96', '11', '43', '84', '81', '82', '62', '33', '41',
       '31', '95'], dtype=object)

In [27]:
# 쇼핑과 관련된 가맹점 업종 코드에 해당되는 데이터 추출
card_shopping=card_gu[card_gu['가맹점업종코드두자리'].isin(['40','41','42','43','44'])]

In [28]:
# 각 쇼핑 가맹점 업종 코드 별 데이터 추출

card_shopping_40=card_shopping.loc[card_gu['가맹점업종코드두자리']=='40']
card_shopping_41=card_shopping.loc[card_gu['가맹점업종코드두자리']=='41']
card_shopping_42=card_shopping.loc[card_gu['가맹점업종코드두자리']=='42']
card_shopping_43=card_shopping.loc[card_gu['가맹점업종코드두자리']=='43']
card_shopping_44=card_shopping.loc[card_gu['가맹점업종코드두자리']=='44']

In [29]:
card_shopping_40.가맹점업종명.unique()

array(['슈퍼 마켓', '편 의 점', '상품권 전문판매', '인터넷Mall', '상품권', '대형할인점', '면 세 점',
       '인터넷종합Mall', '기타유통업', '연 쇄 점', '인터넷P/G', 'PG 상품권', '자사카드발행백화점',
       '전자상거래 상품권 전문판매', '전자상거래 상품권', '통신판매1', '일반백화점', '농축수산가공품',
       '통신판매2', 'CATV홈쇼핑'], dtype=object)

In [30]:
card_shopping_41.가맹점업종명.unique()

array(['공무원연금매점', '구내매점(국가기관등)', '기타비영리유통'], dtype=object)

In [31]:
card_shopping_42.가맹점업종명.unique()

array(['정장', '기타의류', '맞춤복 점', '내의판매점', '양 품 점', '단체복', '스포츠의류', '아동의류',
       '와이셔츠/타이', '캐쥬얼의류'], dtype=object)

card_shopping_43.가맹점업종명.unique()

In [32]:
card_shopping_44.가맹점업종명.unique()

array(['기타잡화', '기념품 점', '악세 사리', '신   발', '귀 금 속', '가   방', '제 화 점',
       '시   계', '성인용품점'], dtype=object)

### 정리
- 서초구를 제외한 거의 모든 구에서 '쇼핑' 부문에서 매출 건수가 가장 많은 것을 알 수 있음
- 거의 모든 구가 2월에 매출 건수가 가장 적으며, 5월에 가장 많은 매출 건수를 보임
- 코로나 감염으로 인해 비대면 서비스 수요가 증가했음을 알 수 있음
- 신천지 집단 감염이 발생한 2월부터 소비가 주춤한 것을 알 수 있음
- 신천지 집단 감염은 대구, 경북 지역에서 발생하였으나, 서울에서도 소비가 주춤한 것을 알 수 있음
- 고강도 사회적 거리두기 종료 시점인 5월에 가장 소비가 많은 것을 알 수 있음(6월 데이터는 완전하지 않으므로 해석에서 제외)
- 대부분의 회사 본사가 몰려있는 서초구, 강남구, 중구에서 가장 소비 건수가 많은 것을 알 수 있음
- 거의 주거지역이 몰려있으며 서울 외곽지역, 산이 있는 지역이 소비 건수가 적은 것을 알 수 있음