In [1]:
# import library
import pandas as pd
import numpy as np

In [20]:
# load data
file_path = '../../data/jeju/'
data = pd.read_csv(file_path+'201901-202003.csv')
data.head()

Unnamed: 0,REG_YYMM,CARD_SIDO_NM,CARD_CCG_NM,STD_CLSS_NM,HOM_SIDO_NM,HOM_CCG_NM,AGE,SEX_CTGO_CD,FLC,CSTMR_CNT,AMT,CNT
0,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,20s,1,1,4,311200,4
1,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,30s,1,2,7,1374500,8
2,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,30s,2,2,6,818700,6
3,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,40s,1,3,4,1717000,5
4,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,40s,1,4,3,1047300,3


## 변수 설명

- CARD ~ : 카드 이용 지역 
- HOM ~ : 카드 사용자 거주지역
- STD_CLSS_NM : 업종명
- SEX_CTGO_CD : 성별(1:남, 2:여)
- FLC : 가구생애주기(1: 1인가구, 2: 영유아자녀가구, 3: 중고생자녀가구, 4: 성인자녀가구, 5: 노년가구)
- CSTMR_CNT : 이용고객수(명)
- AMT : 이용금액(원)
- CNT : 이용건수(건)

In [3]:
# dtype 확인
data.dtypes

REG_YYMM         int64
CARD_SIDO_NM    object
CARD_CCG_NM     object
STD_CLSS_NM     object
HOM_SIDO_NM     object
HOM_CCG_NM      object
AGE             object
SEX_CTGO_CD      int64
FLC              int64
CSTMR_CNT        int64
AMT              int64
CNT              int64
dtype: object

In [4]:
# 결측치 확인
data.isnull().sum()

# CARD_CCG_NM : 카드이용지역 시군구(가맹점 주소기준) 결측치가 많다
# HOM_CCG_NM : 카드이용자 거주 주소 시군구 결측치가 많다

REG_YYMM             0
CARD_SIDO_NM         0
CARD_CCG_NM      87213
STD_CLSS_NM          0
HOM_SIDO_NM          0
HOM_CCG_NM      147787
AGE                  0
SEX_CTGO_CD          0
FLC                  0
CSTMR_CNT            0
AMT                  0
CNT                  0
dtype: int64

In [6]:
# 데이터 개수 확인
data.shape
# 2천4백만개..

(24697792, 12)

In [7]:
# 결측치 있는 데이터를 우선 봐보자
data[data['CARD_CCG_NM'].isnull()]

Unnamed: 0,REG_YYMM,CARD_SIDO_NM,CARD_CCG_NM,STD_CLSS_NM,HOM_SIDO_NM,HOM_CCG_NM,AGE,SEX_CTGO_CD,FLC,CSTMR_CNT,AMT,CNT
1243710,201901,세종,,건강보조식품 소매업,세종,,30s,1,2,14,2737050,17
1243711,201901,세종,,건강보조식품 소매업,세종,,30s,2,2,14,2595350,14
1243712,201901,세종,,건강보조식품 소매업,세종,,40s,1,3,13,2531950,11
1243713,201901,세종,,건강보조식품 소매업,세종,,40s,2,3,11,2118425,12
1243714,201901,세종,,건강보조식품 소매업,세종,,50s,1,4,21,3025500,23
...,...,...,...,...,...,...,...,...,...,...,...,...
24409418,202003,세종,,화장품 및 방향제 소매업,충북,청주시 흥덕구,40s,2,3,5,88700,5
24409419,202003,세종,,화장품 및 방향제 소매업,충북,청주시 흥덕구,50s,1,4,3,62400,3
24409420,202003,세종,,화장품 및 방향제 소매업,충북,청주시 흥덕구,50s,2,4,10,494800,11
24409421,202003,세종,,화장품 및 방향제 소매업,충북,청주시 흥덕구,60s,2,5,10,623100,10


In [9]:
# 세종시 데이터가 누락된 것 같으니 세종에 해당하는 데이터개수 추출 후 결측치 개수와 비교해보기
sejong_df = data.loc[data['CARD_SIDO_NM'] == '세종']
sejong_df.shape

# raw data의 'CARD_CCG_NM' 누락 데이터에 해당하는 시도는 '세종'이다!

(87213, 12)

In [15]:
sejong_df[sejong_df.isnull()].shape

(87213, 12)

In [10]:
data.loc[data['HOM_CCG_NM'].isnull()]

Unnamed: 0,REG_YYMM,CARD_SIDO_NM,CARD_CCG_NM,STD_CLSS_NM,HOM_SIDO_NM,HOM_CCG_NM,AGE,SEX_CTGO_CD,FLC,CSTMR_CNT,AMT,CNT
420,201901,강원,강릉시,과실 및 채소 소매업,세종,,30s,1,2,3,58000,3
421,201901,강원,강릉시,과실 및 채소 소매업,세종,,40s,1,3,3,263000,4
1189,201901,강원,강릉시,기타 대형 종합 소매업,세종,,20s,1,1,3,176540,3
1190,201901,강원,강릉시,기타 대형 종합 소매업,세종,,20s,2,1,4,234880,6
1191,201901,강원,강릉시,기타 대형 종합 소매업,세종,,30s,1,2,4,177640,5
...,...,...,...,...,...,...,...,...,...,...,...,...
24697496,202003,충북,충주시,한식 음식점업,세종,,30s,2,2,5,188500,8
24697497,202003,충북,충주시,한식 음식점업,세종,,40s,1,3,18,1056500,28
24697498,202003,충북,충주시,한식 음식점업,세종,,50s,1,4,25,770150,35
24697499,202003,충북,충주시,한식 음식점업,세종,,50s,2,4,4,19500,4


In [11]:
sejong_hom_df = data.loc[data['HOM_SIDO_NM'] == '세종']
print(sejong_hom_df.head())
sejong_hom_df.shape

      REG_YYMM CARD_SIDO_NM CARD_CCG_NM   STD_CLSS_NM HOM_SIDO_NM HOM_CCG_NM  \
420     201901           강원         강릉시   과실 및 채소 소매업          세종        NaN   
421     201901           강원         강릉시   과실 및 채소 소매업          세종        NaN   
1189    201901           강원         강릉시  기타 대형 종합 소매업          세종        NaN   
1190    201901           강원         강릉시  기타 대형 종합 소매업          세종        NaN   
1191    201901           강원         강릉시  기타 대형 종합 소매업          세종        NaN   

      AGE  SEX_CTGO_CD  FLC  CSTMR_CNT     AMT  CNT  
420   30s            1    2          3   58000    3  
421   40s            1    3          3  263000    4  
1189  20s            1    1          3  176540    3  
1190  20s            2    1          4  234880    6  
1191  30s            1    2          4  177640    5  


(147787, 12)

In [13]:
miss_df = sejong_hom_df[sejong_hom_df.isnull()]
miss_df.shape

# 거주지역이 세종인 카드사용자의 시군구 데이터(HOM_CCG_NM) 결측치와 raw data의 HOM_CCG_NM 결측치와 일치.
# 그러므로 결측치값은 모두 세종에 대한 시군구 데이터

(147787, 12)

## 세종특별자치시

- 세종특별자치시는 현재 '시군구'가 따로 존재하지 않음
- 아직 읍,면,행정동 밖에 없는 상태
- 이러한 이유 때문에 '시군구'를 나타내는 CARD_CCG_NM, HOM_CCG_NM 이 결측치이다.
- 결측치를 위한 대체값은 ``'세종시'``로 결정

In [30]:
# 결측치 대체 완료
data['CARD_CCG_NM'] = data['CARD_CCG_NM'].fillna('세종시')
data['HOM_CCG_NM'] = data['HOM_CCG_NM'].fillna('세종시')
data.isnull().sum()

REG_YYMM        0
CARD_SIDO_NM    0
CARD_CCG_NM     0
STD_CLSS_NM     0
HOM_SIDO_NM     0
HOM_CCG_NM      0
AGE             0
SEX_CTGO_CD     0
FLC             0
CSTMR_CNT       0
AMT             0
CNT             0
dtype: int64

In [33]:
credit_df.head()

Unnamed: 0,REG_YYMM,CARD_SIDO_NM,CARD_CCG_NM,STD_CLSS_NM,HOM_SIDO_NM,HOM_CCG_NM,AGE,SEX_CTGO_CD,FLC,CSTMR_CNT,AMT,CNT
0,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,20s,1,1,4,311200,4
1,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,30s,1,2,7,1374500,8
2,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,30s,2,2,6,818700,6
3,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,40s,1,3,4,1717000,5
4,201901,강원,강릉시,건강보조식품 소매업,강원,강릉시,40s,1,4,3,1047300,3


In [32]:
# 다시 원본 데이터로드 시간 줄이기 위해 복사본으로 할당해놓기
credit_df = data.copy()
credit_df.dtypes

REG_YYMM         int64
CARD_SIDO_NM    object
CARD_CCG_NM     object
STD_CLSS_NM     object
HOM_SIDO_NM     object
HOM_CCG_NM      object
AGE             object
SEX_CTGO_CD      int64
FLC              int64
CSTMR_CNT        int64
AMT              int64
CNT              int64
dtype: object

In [37]:
# 연월칼럼 datetime으로 바꿔주기
# 우선 string 형태로 바꿔주기
credit_df['REG_YYMM'] = credit_df['REG_YYMM'].astype(str)

MemoryError: 