# 데이터 분석에 앞서...

## 주제 및 가치

### ○ 주제 
    ▶ 포스트 코로나 시대 유망 품목 및 산업 발굴
    ▶ 코로나로 인한 국민의 생활/소비의 변화 파악    

### ○ 가치
    ▶ 빅데이터의 가치를 활용하여 코로나가 미치는 영향을 보다 객관적이고 포괄적으로 이해
    ▶ 데이터 분석을 통해 발굴한 인사이트의 활용

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

# 데이터 불러오기

In [10]:
card_raw = pd.read_csv("C:/Users/COM/Downloads/KOSAPROJECT1/KT_data_20200703/card.csv", encoding='utf-8')

In [11]:
card = card_raw
card.shape

(3777647, 7)

# 데이터 전처리

In [12]:
card['receipt_dttm'] = pd.to_datetime(card['receipt_dttm'], format="%Y%m%d")

In [17]:
card.head()

Unnamed: 0,카드사용접수일,가맹점행정코드,가맹점행정동명,가맹점업종코드,가맹점업종명,매출발생건수,매출발생금액
0,2020-01-04,1174066000,성내3동,7041,약국,463,5843230
1,2020-01-04,1174066000,성내3동,7022,치과의원,33,7835550
2,2020-01-04,1174066000,성내3동,7021,한의원,53,4589800
3,2020-01-04,1174066000,성내3동,7020,의원,339,9267240
4,2020-01-04,1174066000,성내3동,6110,자동차정비,19,4441000


In [14]:
card.rename(columns={'receipt_dttm':'카드사용접수일',
                            'adstrd_code':'가맹점행정코드',
                            'adstrd_nm':'가맹점행정동명',
                            'mrhst_induty_cl_code':'가맹점업종코드',
                            'mrhst_induty_cl_nm':'가맹점업종명',
                            'selng_cascnt':'매출발생건수',
                            'salamt':'매출발생금액' }, inplace=True)

In [15]:
card.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3777647 entries, 0 to 3777646
Data columns (total 7 columns):
 #   Column   Dtype         
---  ------   -----         
 0   카드사용접수일  datetime64[ns]
 1   가맹점행정코드  int64         
 2   가맹점행정동명  object        
 3   가맹점업종코드  int64         
 4   가맹점업종명   object        
 5   매출발생건수   object        
 6   매출발생금액   object        
dtypes: datetime64[ns](1), int64(2), object(4)
memory usage: 201.7+ MB


In [16]:
card.describe(include='all')

Unnamed: 0,카드사용접수일,가맹점행정코드,가맹점행정동명,가맹점업종코드,가맹점업종명,매출발생건수,매출발생금액
count,3777647,3777647.0,3777647,3777647.0,3777647,3777647.0,3777647
unique,155,,424,,265,12150.0,756953
top,2020-05-28 00:00:00,,신사동,,일반한식,1.0,철물
freq,30256,,23650,,65528,641598.0,34937
first,2020-01-04 00:00:00,,,,,,
last,2020-06-14 00:00:00,,,,,,
mean,,1144511000.0,,6077.223,,,
std,,19188650.0,,2387.383,,,
min,,1111052000.0,,1001.0,,,
25%,,1126069000.0,,4201.0,,,


In [49]:
card.sort_values('매출발생금액', ascending=False, inplace=True)
card.head()
#idx_str = card[card['매출발생금액'] == '철물'].value_counts()
#card = card.drop(idx_str)

Unnamed: 0,카드사용접수일,가맹점행정코드,가맹점행정동명,가맹점업종코드,가맹점업종명,매출발생건수,매출발생금액
3351404,2020-05-30,1171061000,삼전동,4302,카페트,커텐,천막
909390,2020-02-28,1147053000,목3동,4302,카페트,커텐,천막
3530519,2020-06-06,1159054000,상도2동,4302,카페트,커텐,천막
2712709,2020-05-07,1111070000,숭인1동,4302,카페트,커텐,천막
1324934,2020-03-15,1135058000,월계3동,4302,카페트,커텐,천막


In [53]:
card['가맹점업종명'].value_counts()

일반한식         65528
서양음식         65499
편 의 점        65160
스넥           65007
미 용 원        64073
             ...  
통신기기무이자할부        8
카지노              8
택시회사             4
P2P송금            2
중고자동차위탁판매        1
Name: 가맹점업종명, Length: 264, dtype: int64

In [55]:
card['카드사용접수일'].value_counts()

2020-05-28    29961
2020-05-22    29959
2020-05-21    29885
2020-05-26    29861
2020-05-30    29779
              ...  
2020-01-05     8109
2020-01-12     8042
2020-01-20     5556
2020-01-13     5442
2020-01-06     5387
Name: 카드사용접수일, Length: 155, dtype: int64

In [54]:
card['가맹점업종명'].unique()

array(['카페트', '전자상거래 상품권 전문판매', '인터넷Mall', '슈퍼 마켓', '약국', '특급 호텔',
       '컴 퓨 터', '의원', '제과점', '서양음식', '기타음료식품', '완 구 점', '보습학원', '편 의 점',
       '자동차부품', '주점', '동물병원', '정 육 점', '기타가구', '전기차충전소', '대형할인점', '주 유 소',
       '장례서비스', '이동통신요금', '치과의원', '유아원', '일식회집', '일반 가구', '사무서비스',
       '기타건축자재', '레져업소(회원제형태)', '안경', '학원(회원제형태)', '과학기자재', '정장', '스넥',
       '페 인 트', '노래방', '윤활유전문판매', '한의원', '악세 사리', '애완 동물', '농축수산품',
       '가   방', '기타레져업', '스포츠레져용품', '통신 기기', '서적출판(회원제형태)', '중국음식',
       '문구용 품', '화물 운송', '기타의료기관및기타의료기기', '조명 기구', '내의판매점', '건축요업품',
       '주 차 장', '비 영 리', '미 용 원', '일반한식', '티켓', 'L P G', '일반 서적', '종합병원',
       '기타전기제품', '제약회사', '홍삼 제품', '침구수예점', '시   계', '영화관', '자동차정비',
       '소프트웨어', '기타전문점', '기타건강식', '기타회원제형태업소4', '기능학원', '종합용역', '냉열 기기',
       '기타잡화', '화 장 품', '가전 제품', '볼 링 장', '제 화 점', '칵테일바', 'CATV홈쇼핑',
       '위탁급식업', '공공요금/대상', '기계 공구', '기타숙박업', '독서실', '기타 교육', '단란주점',
       '세탁소', '컴퓨터학원', '주방 용구', '인터넷종합Mall', '병원', '헬스 크럽', '혼례서비스',
       '기타주방용구', '

# 탐색적 데이터 분석 및 시각화

## 횡단적 데이터 탐색

### 지역별 감염자 및 유동인구의 관계

### 지역별 감염자 및 소비 패턴 관계

## 코로나 전후 종단적 데이터 탐색

###  감염자 누적 및 지역별 유동인구 변화

### 업종별 소비 패턴의 변화

# 결론 및 인사이트