In [53]:
# Pandas Basics
from IPython.display import Image 
from matplotlib import font_manager, rc
from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="white", context="talk")
font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/MALGUN.TTF").get_name()
rc('font', family=font_name)

In [55]:
# 카드 사용 데이터 읽어오기
card_data = pd.read_csv('data/card_data.csv', encoding='EUC-KR')
card_data.head()

Unnamed: 0,가맹점블록코드(BLCK_CD),내국인업종코드(SB_UPJONG_CD),기준년월(TS_YM),일별(TS_YMD),요일(DAW),시간대(TM),카드이용금액계(AMT_CORR)
0,231793,SB001,201906,20190612,토요일,18,58851.0
1,11694,SB007,201711,20171127,금요일,1,21629.0
2,420182,SB054,201904,20190407,금요일,19,25150.0
3,158487,SB039,201712,20171225,월요일,18,60360.0
4,33587,SB016,201704,20170422,일요일,18,111666.0


In [57]:
card_data['카드이용금액계(AMT_CORR)']

0       58851.0
1       21629.0
2       25150.0
3       60360.0
4      111666.0
         ...   
495     87360.0
496    219811.0
497    364000.0
498    251500.0
499    313950.0
Name: 카드이용금액계(AMT_CORR), Length: 500, dtype: float64

In [56]:
# 카드 업종 분류 데이터 읽어오기
card_code = pd.read_csv('data/card_code.csv', encoding='EUC-KR')
card_code.head()

Unnamed: 0,대분류(SB_L_UPJONG_NM),중분류(SB_M_UPJONG_NM),내국인업종분류(SB_UPJONG_NM),내국인업종코드(SB_UPJONG_CD)
0,요식/유흥,한식,한식,sb001
1,요식/유흥,일식/중식/양식,일식,sb002
2,요식/유흥,일식/중식/양식,양식,sb003
3,요식/유흥,일식/중식/양식,중식,sb004
4,요식/유흥,제과/커피/패스트푸드,제과점,sb005


In [47]:
# key값으로 활용할 내국인업종코드가 대/소문자 구분있으므로 변경
card_code['내국인업종코드(SB_UPJONG_CD)'] = card_code['내국인업종코드(SB_UPJONG_CD)'].str.upper()
card_code['내국인업종코드(SB_UPJONG_CD)']

0     SB001
1     SB002
2     SB003
3     SB004
4     SB005
      ...  
58    SB059
59    SB060
60    SB061
61    SB062
62    SB063
Name: 내국인업종코드(SB_UPJONG_CD), Length: 63, dtype: object

In [48]:
# key값 join
df = pd.merge(card_data, card_code,
              on = '내국인업종코드(SB_UPJONG_CD)', how = 'left') # left join
df

Unnamed: 0,가맹점블록코드(BLCK_CD),내국인업종코드(SB_UPJONG_CD),기준년월(TS_YM),일별(TS_YMD),요일(DAW),시간대(TM),카드이용금액계(AMT_CORR),대분류(SB_L_UPJONG_NM),중분류(SB_M_UPJONG_NM),내국인업종분류(SB_UPJONG_NM)
0,231793,SB001,201906,20190612,토요일,18,58851.0,요식/유흥,한식,한식
1,11694,SB007,201711,20171127,금요일,1,21629.0,요식/유흥,제과/커피/패스트푸드,패스트푸드
2,420182,SB054,201904,20190407,금요일,19,25150.0,의료,약국,약국
3,158487,SB039,201712,20171225,월요일,18,60360.0,미용,미용서비스,미용실
4,33587,SB016,201704,20170422,일요일,18,111666.0,유통,편의점,편의점
...,...,...,...,...,...,...,...,...,...,...
495,23342,SB016,201703,20170314,토요일,19,87360.0,유통,편의점,편의점
496,21173,SB019,201804,20180414,월요일,14,219811.0,음/식료품,음/식료품,농수산물
497,47892,SB016,202106,20210621,금요일,15,364000.0,유통,편의점,편의점
498,28521,SB001,201811,20181106,목요일,19,251500.0,요식/유흥,한식,한식


In [49]:
# key값인 내국인업종코드 index로 지정
df2 = df.set_index(['내국인업종코드(SB_UPJONG_CD)'])
df.head()

Unnamed: 0,가맹점블록코드(BLCK_CD),내국인업종코드(SB_UPJONG_CD),기준년월(TS_YM),일별(TS_YMD),요일(DAW),시간대(TM),카드이용금액계(AMT_CORR),대분류(SB_L_UPJONG_NM),중분류(SB_M_UPJONG_NM),내국인업종분류(SB_UPJONG_NM)
0,231793,SB001,201906,20190612,토요일,18,58851.0,요식/유흥,한식,한식
1,11694,SB007,201711,20171127,금요일,1,21629.0,요식/유흥,제과/커피/패스트푸드,패스트푸드
2,420182,SB054,201904,20190407,금요일,19,25150.0,의료,약국,약국
3,158487,SB039,201712,20171225,월요일,18,60360.0,미용,미용서비스,미용실
4,33587,SB016,201704,20170422,일요일,18,111666.0,유통,편의점,편의점


In [50]:
# 필요 변수 추출
df3 = df2[['대분류(SB_L_UPJONG_NM)','중분류(SB_M_UPJONG_NM)','일별(TS_YMD)',
          '요일(DAW)','시간대(TM)','카드이용금액계(AMT_CORR)']]
df3

Unnamed: 0_level_0,대분류(SB_L_UPJONG_NM),중분류(SB_M_UPJONG_NM),일별(TS_YMD),요일(DAW),시간대(TM),카드이용금액계(AMT_CORR)
내국인업종코드(SB_UPJONG_CD),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
SB001,요식/유흥,한식,20190612,토요일,18,58851.0
SB007,요식/유흥,제과/커피/패스트푸드,20171127,금요일,1,21629.0
SB054,의료,약국,20190407,금요일,19,25150.0
SB039,미용,미용서비스,20171225,월요일,18,60360.0
SB016,유통,편의점,20170422,일요일,18,111666.0
...,...,...,...,...,...,...
SB016,유통,편의점,20170314,토요일,19,87360.0
SB019,음/식료품,음/식료품,20180414,월요일,14,219811.0
SB016,유통,편의점,20210621,금요일,15,364000.0
SB001,요식/유흥,한식,20181106,목요일,19,251500.0


In [51]:
# 변수명 변경
df4 = df3.rename(columns = {'대분류(SB_L_UPJONG_NM)'   : '대분류',
                            '중분류(SB_M_UPJONG_NM)'   : '중분류',
                            '일별(TS_YMD)'             : '사용일자',
                            '요일(DAW)'                : '사용요일',
                            '시간대(TM)'               : '사용시간',
                            '카드이용금액계(AMT_CORR)' : '사용금액'})
df4

Unnamed: 0_level_0,대분류,중분류,사용일자,사용요일,사용시간,사용금액
내국인업종코드(SB_UPJONG_CD),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
SB001,요식/유흥,한식,20190612,토요일,18,58851.0
SB007,요식/유흥,제과/커피/패스트푸드,20171127,금요일,1,21629.0
SB054,의료,약국,20190407,금요일,19,25150.0
SB039,미용,미용서비스,20171225,월요일,18,60360.0
SB016,유통,편의점,20170422,일요일,18,111666.0
...,...,...,...,...,...,...
SB016,유통,편의점,20170314,토요일,19,87360.0
SB019,음/식료품,음/식료품,20180414,월요일,14,219811.0
SB016,유통,편의점,20210621,금요일,15,364000.0
SB001,요식/유흥,한식,20181106,목요일,19,251500.0


In [52]:
# data 분석을 위한 '사용금액' column 천단위 콤마
df4.info()
# format(df4['사용금액'], ',f')

<class 'pandas.core.frame.DataFrame'>
Index: 500 entries, SB001 to SB054
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   대분류     500 non-null    object 
 1   중분류     500 non-null    object 
 2   사용일자    500 non-null    int64  
 3   사용요일    500 non-null    object 
 4   사용시간    500 non-null    int64  
 5   사용금액    500 non-null    float64
dtypes: float64(1), int64(2), object(3)
memory usage: 27.3+ KB


In [9]:
# data 분석을 위한 칼럼 신규 추가
# 1. 사용시간 구분
# 새벽 : 00시~06시 / 오전 : 06시~11시 / 점심 : 11시~13시 / 오후 : 13시~18시 / 저녁 : 18시~24시
사용시간구분 = []

for idx in df4['사용시간']:
    if idx >= 18:
        사용시간구분.append('저녁')
    elif idx >= 13:
        사용시간구분.append('오후')
    elif idx >= 11:
        사용시간구분.append('점심')
    elif idx >= 6:
        사용시간구분.append('오전')
    else:
        사용시간구분.append('새벽')
df4['사용시간구분'] = 사용시간구분
df4

Unnamed: 0_level_0,대분류,중분류,사용일자,사용요일,사용시간,사용금액,사용시간구분
내국인업종코드(SB_UPJONG_CD),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
SB001,요식/유흥,한식,20190612,토요일,18,58851.0,저녁
SB007,요식/유흥,제과/커피/패스트푸드,20171127,금요일,1,21629.0,새벽
SB054,의료,약국,20190407,금요일,19,25150.0,저녁
SB039,미용,미용서비스,20171225,월요일,18,60360.0,저녁
SB016,유통,편의점,20170422,일요일,18,111666.0,저녁
...,...,...,...,...,...,...,...
SB016,유통,편의점,20170314,토요일,19,87360.0,저녁
SB019,음/식료품,음/식료품,20180414,월요일,14,219811.0,오후
SB016,유통,편의점,20210621,금요일,15,364000.0,오후
SB001,요식/유흥,한식,20181106,목요일,19,251500.0,저녁


In [10]:
# pd.pivot_table(df4, values = '사용금액', index = ['대분류'], columns = ['사용요일'])

In [18]:
# 업종별 카드사용건수 현황
obj = df4.groupby('대분류').size()
obj.sort_values(ascending = False)

대분류
요식/유흥        194
유통           133
의료            47
음/식료품         36
스포츠/문화/레저     22
미용            18
의류/잡화         11
주유            11
가정생활/서비스      10
자동차            8
교육/학원          5
가전/가구          3
여행/교통          2
dtype: int64

In [28]:
# 업종별 카드사용금액 현황
obj = df4.groupby('대분류').sum()
obj = obj['사용금액']
obj.sort_values(ascending = False)
# df4.groupby('대분류').sum()

대분류
유통           43635503.40
요식/유흥        37435848.02
스포츠/문화/레저    15072817.80
의류/잡화        13486173.00
의료            9306894.05
음/식료품         6913069.00
미용            4703612.10
가정생활/서비스      4512322.30
주유            3365673.60
자동차           2943913.90
여행/교통          775405.00
가전/가구          750362.70
교육/학원          472317.00
Name: 사용금액, dtype: float64

In [None]:
# ---------------------------------- 피벗 테이블 작성 방법 ---------------------------------- 
pd.pivot_table(df, values = 'D', index = ['A','B'], columns = ['C'])

In [None]:
# ---------------------------------- 결측치 처리 방법 ---------------------------------- 
df1.fillna(value = 5)