## Library import

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import gc
import numpy as np
from matplotlib import font_manager, rc
from tqdm import tqdm
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)

## Data load

In [None]:
data = pd.read_csv('C:/Users/user/Desktop/DACON/jeju_credit_card/201901-202003.csv')
gc.collect()

### Features

'REG_YYMM' : 년월

'CARD_SIDO_NM' : 카드 이용지역_시도(가맹정 기준)

'CARD_CCG_NM' : '카드 이용지역_시군구(가맹점 기준)

'STD_CLSS_NM' : 업종명

'HOM_SIDO_NM' : 거주지역_시도(고객 집주소)

'HOM_CCG_NM' : 거주지역_시군구(고객 집주소)

'AGE' : 나이

'SEX_CTGO_CD' : 성별(1: 남, 2: 여)

'FLC' : 가구 생애 주기 가구생애주기 (1: 1인가구, 2: 영유아자녀가구, 3: 중고생자녀가구, 4: 성인자녀가구, 5: 노년가구)

'CSTMR_CNT' : 이용고객수(명)

'AMT' : 이용금액(원)

'CNT' : 이용건수(건)

row : "특정" 날짜, 업종, 고객의 지역, 연령, 성별로 구분되는 그룹. 이 그룹의 이용 고객 수, 이용금액, 이용건수 또한 features로 표현되어 있다.

목적 : 주어지는 test 데이터(2020년 4월(Public), 2020년 7월(Private))를 특정 지역, 업종, 날짜(월)로 그룹화 하고, 해당그룹의 AMT(이용금액)을 예측하는 모델을 만드는 것.

In [None]:
data.columns

## 데이터 살펴보기

In [None]:
data.head()

In [None]:
data.shape

전체 데이터 수는 24,697,792(약 2470만개)이며, 12개의 features를 갖는다.

### 전체 업종의 종류는?

In [None]:
print(data.STD_CLSS_NM.unique(),'\n\n')
print(f'업종의 종류는 {len(data.STD_CLSS_NM.unique())}개 이다.')

### 업종별 비율은?

In [None]:
grupby_clss = data.loc[:,['STD_CLSS_NM', 'AMT']].groupby('STD_CLSS_NM')

clss = pd.DataFrame(grupby_clss['STD_CLSS_NM'].count())
clss['ratio'] = clss.STD_CLSS_NM / len(data)
clss['percentage'] = clss['ratio'] * 100
clss = clss.sort_values('percentage', ascending = False)

clss['AMT'] = grupby_clss.sum()
clss
## 업종별 금액의 비율을 합쳐서 표현해보기

In [None]:
plt.figure(figsize = (15,7))
sns.barplot(clss.index, clss.percentage)
plt.title('size of classes')
plt.xticks(rotation= 90)
plt.show()

In [None]:
del grupby_clss
del clss
gc.collect()

# 시각화

### 지역, 업종별 매출을 월별로 시각화


In [None]:
group_data = data.loc[:,['CARD_SIDO_NM', 'STD_CLSS_NM','REG_YYMM', 'AMT']].groupby(['CARD_SIDO_NM', 'STD_CLSS_NM','REG_YYMM']).sum()
group_data = np.log(group_data)

days = group_data.reset_index()['REG_YYMM'].unique().astype('str')
days # REG_YYMM를 string으로 변환

citys = data.CARD_SIDO_NM.unique()
# citys : 지역(시도)의 이름들을 list로 저장


for city in citys:
    # 지역별로 figure생성
    plt.figure(figsize = (10,5))
    clsses = data[data.CARD_SIDO_NM == city].STD_CLSS_NM.unique()
    # 특정지역에서는 업종이 없는 경우도 있음.
    # 지역별로 업종 list를 새로 생성
    for clss in clsses:
        #업종별로 barplot 그리기 : x축은 날짜, y축은 해당 업종, 지역의 AMT 총합
        y = group_data.loc[city, clss,:].values.reshape(-1)
        #print(len(y), len(days))
        if len(y) == len(days):
            plt.plot(days, y, alpha = 0.7, label = city) 
        else:
            print(city, clss) # 월별데이터가 모두 없는 경우는 plot에서 제외하고 print
        plt.xticks(rotation= 45)
    plt.title(city)
    plt.show()
    #break

In [None]:
del group_data
gc.collect()

# 예측 모형 만들기
### 지역과 업종별로 새롭게 계산한 Cov 변수를 적용하여 예측하기
1. group_city_clss_time, group_city_clss 만들기
2. m1_m4_ratio, cov_ratio 계산하기



1. 20년1월 * (19년4월 / 19년1월) => 예측_20년4월(non_cov)
2. mean(20년2월/19년2월, 20년3월/19년3월) => 예측_con_ratio 
3. 예측_20년4월(non_cov) * 예측_con_ratio  => 예측_20년4월(cov)

## 1. group_city_clss_time, group_city_clss 만들기

* group_city_clss_time : (도시, 업종, 월별)을 기준으로 groupby
* group_city_clss : (도시, 업종)을 기준으로 groupby

### 1) group_city_clss_time

In [None]:
# 데이터를 날짜, 도시, 업종으로 groupby
# 인덱싱을 편하게 하기 위해 row를 CARD_SIDO_NM,	STD_CLSS_NM, REG_YYMM 3개의 level로 표현

group_city_clss_time = data.loc[:, ['REG_YYMM', 'CARD_SIDO_NM', 'STD_CLSS_NM', 'AMT']]\
                           .groupby(['CARD_SIDO_NM', 'STD_CLSS_NM', 'REG_YYMM'])['AMT']\
                           .sum()

group_city_clss_time = pd.DataFrame(group_city_clss_time)
gc.collect()
# group_data는 'AMT'하나만 column으로 갖는다.
group_city_clss_time = np.log(group_city_clss_time)
group_city_clss_time

### 2) group_city_clss

In [None]:
#group_city_clss 만들기
# CARD_SIDO_NM , STD_CLSS_NM으로만 groupby
# REG_YYMM는 모두 통합
group_city_clss = pd.DataFrame(data.loc[:, ['CARD_SIDO_NM',
                          'STD_CLSS_NM',
                          'AMT']].groupby(['CARD_SIDO_NM',
                                          'STD_CLSS_NM'])['AMT'].sum())

group_city_clss['AMT'] = np.log(group_city_clss['AMT'])
group_city_clss = group_city_clss.reset_index() #index를 column에 포함시키기
group_city_clss['m1_m4_ratio'] =  0
group_city_clss['cov_ratio'] = 0
group_city_clss

## 2. m1_m4_ratio, cov_ratio 계산하기

### 1) m1_m4_ratio, cov_ratio 계산하기

In [None]:
# 지역, 업종별로 코로나 영향을 조사하는 함수
citys = group_city_clss.CARD_SIDO_NM.unique()

i = 0 # row의 index
for city in tqdm(citys):
    clsses = group_city_clss[group_city_clss.CARD_SIDO_NM == city].STD_CLSS_NM.unique()
    for clss in clsses:                 
        # m1_m4_ratio 구하기-----------------------------------------------------------------------------------
        ## 201901, 201904, 202001중 하나라도 없을 경우 m01_m04_ratio 계산이 무의미함
        condition = (201901 not in group_city_clss_time.loc[city, clss].index) or \
                        (201904 not in group_city_clss_time.loc[city, clss].index) or \
                            (202001 not in group_city_clss_time.loc[city, clss].index)
        if condition: # condition이 True일 때는 -1로 채우기
            group_city_clss.iloc[i, 4] =  -1
            
        else: # 모든 데이터가 다 있을 때, m01_m04_ratio를 계산
            m01_m04_ratio = group_city_clss_time.loc[city, clss, 201904].values \
                            / group_city_clss_time.loc[city, clss, 201901].values
            group_city_clss.iloc[i, 4] =  m01_m04_ratio
        
        # cov_ratio 구하기-----------------------------------------------------------------------------------
        ## 201902, 201903, 202002, 202003 중 하나라도 없을 경우 cov_ratio 계산이 무의미함
        condition = (201902 not in group_city_clss_time.loc[city, clss].index) or \
                        (201903 not in group_city_clss_time.loc[city, clss].index) or \
                            (202002 not in group_city_clss_time.loc[city, clss].index) or \
                                (202003 not in group_city_clss_time.loc[city, clss].index) 
        if condition:
            group_city_clss.iloc[i, 3] =  -1
            
        else:
            ratio_m02 = group_city_clss_time.loc[city, clss, 202002].values \
                            / group_city_clss_time.loc[city, clss, 201902].values
            ratio_m03 = group_city_clss_time.loc[city, clss, 202003].values \
                            / group_city_clss_time.loc[city, clss, 201903].values
            group_city_clss.iloc[i, 3] =  np.mean([ratio_m02, ratio_m03])
        
        # i는 1 증가-----------------------------------------------------------------------------------
        i = i+1
group_city_clss

### 2) m1_m4_ratio, cov_ratio의 null 채우기

In [None]:
print('cov_ratio가 없는 경우',len(group_city_clss[(group_city_clss['cov_ratio'] == -1)]), '개 /  650 개')
print('m1_m4_ratio가 없는 경우',len(group_city_clss[(group_city_clss['m1_m4_ratio'] == -1)]), '개 /  650 개')

#### i. cov_ratio의 null 값 채우기

In [None]:
group_city_clss[(group_city_clss['STD_CLSS_NM'] == '택시 운송업') ]
## 택시 운송없의 경우 우선 데이터가 많지 않다.
## 또한 지역별로 코로나 변수의 편차가 심하다 -> 어던 지역은 코로나의 영향을 덜 받고, 어떤 지역은 코로나의 영향을 많이 받는다.
#  이 문제를 해결할 방법이 떠오르지 않으므로 그냥 동일 업종의 다른 지역 ratio를 평균해서 구함.

# 이곳의 null값을 채우는 방법 -> 1안 코로나 변수가 존재하는 지역들의 평균
                                # 2안 있는 데이터를 잘 조합하여 생성

In [None]:
none_clsses = group_city_clss[group_city_clss['cov_ratio'] == -1].STD_CLSS_NM.unique()

for none_clss in none_clsses:
    group_city_clss.loc[((group_city_clss.STD_CLSS_NM == none_clss) & (group_city_clss.cov_ratio == -1)),'cov_ratio']\
            = group_city_clss.loc[((group_city_clss.STD_CLSS_NM == none_clss) \
                & (group_city_clss.cov_ratio != -1)),'cov_ratio'].mean()

In [None]:
group_city_clss[group_city_clss['STD_CLSS_NM'] == '택시 운송업']

In [14]:
print('cov_ratio가 없는 경우',len(group_city_clss[(group_city_clss['cov_ratio'] == -1)]), '개 /  650 개')
## 모든 Null 값을 채웠다.

cov_ratio가 없는 경우 0 개 /  650 개


#### ii. m1_m4_ratio의 null 값 채우기

In [15]:
# 같은 방식으로 m1_m4_ratio의 Null 데이터로 채웠다.
# 하지만 2020년 1월 데이터가 없을 경우 2020년 4월 데이터를 구 할 수 없다. 이 문제를 해결할 방법을 찾아야 한다.
none_clsses = group_city_clss[group_city_clss['m1_m4_ratio'] == -1].STD_CLSS_NM.unique()
for none_clss in none_clsses:
    group_city_clss.loc[((group_city_clss.STD_CLSS_NM == none_clss) & (group_city_clss.m1_m4_ratio == -1)),'m1_m4_ratio']\
            = group_city_clss.loc[((group_city_clss.STD_CLSS_NM == none_clss) & (group_city_clss.m1_m4_ratio != -1)),'m1_m4_ratio'].mean()

In [16]:
print('m1_m4_ratio가 없는 경우',len(group_city_clss[(group_city_clss['m1_m4_ratio'] == -1)]), '개 /  650 개')

m1_m4_ratio가 없는 경우 0 개 /  650 개


## 3.  non_cov 20년 4월 예측하기

In [17]:
group_city_clss['COV_M04'] = 0

for i in tqdm(range(len(group_city_clss))):
        city = group_city_clss.iloc[i,0]
        clss = group_city_clss.iloc[i,1]

        no_202001 = (202001 not in group_city_clss_time.loc[city, clss].index)
        if no_202001:
            no_201904 = (201904 not in group_city_clss_time.loc[city, clss].index)
            if no_201904:
                group_city_clss.iloc[i,-1] = group_city_clss_time.loc[city, clss].values.mean()
            else:
                group_city_clss.iloc[i,-1] = group_city_clss_time.loc[city, clss, 201904].values

        else:
            group_city_clss.iloc[i,-1] = group_city_clss_time.loc[city, clss, 202001].values\
                                      * group_city_clss.iloc[i,3]\
                                      * group_city_clss.iloc[i,4]

group_city_clss

100%|███████████████████████████████████████████████████████████████████████████████| 650/650 [00:00<00:00, 772.33it/s]


Unnamed: 0,CARD_SIDO_NM,STD_CLSS_NM,AMT,m1_m4_ratio,cov_ratio,COV_M04
0,강원,건강보조식품 소매업,21.322555,0.979164,0.982407,18.311367
1,강원,골프장 운영업,24.660779,0.997095,1.055955,22.046687
2,강원,과실 및 채소 소매업,23.537206,0.995333,0.978955,20.636046
3,강원,관광 민예품 및 선물용품 소매업,19.940658,0.971566,0.968806,16.210154
4,강원,그외 기타 분류안된 오락관련 서비스업,12.083905,0.948003,1.062286,12.083905
...,...,...,...,...,...,...
645,충북,피자 햄버거 샌드위치 및 유사 음식점업,23.781699,0.995492,1.000281,20.932187
646,충북,한식 음식점업,26.513671,0.990158,1.001085,23.584251
647,충북,호텔업,20.090111,0.944111,1.008980,16.705659
648,충북,화장품 및 방향제 소매업,22.939802,0.980083,0.997129,19.694103


## 4. COV_M04를 submission에 채워넣기

In [18]:
group_city_clss['COV_M04'] = np.exp(group_city_clss['COV_M04']) # 로그 스케일을 다시 복원

submission_layout = pd.read_csv('C:/Users/user/Desktop/DACON/jeju_credit_card/submission.csv', index_col=0)
submission_layout = submission_layout.merge(group_city_clss.loc[:,['CARD_SIDO_NM', 'STD_CLSS_NM', 'COV_M04']],
                              left_on=['CARD_SIDO_NM', 'STD_CLSS_NM'],
                              right_on=['CARD_SIDO_NM', 'STD_CLSS_NM'],
                              how='left')
submission_layout = submission_layout.fillna(0)

submission_layout

Unnamed: 0,REG_YYMM,CARD_SIDO_NM,STD_CLSS_NM,AMT,COV_M04
0,202004,강원,건강보조식품 소매업,0,8.964489e+07
1,202004,강원,골프장 운영업,0,3.756249e+09
2,202004,강원,과실 및 채소 소매업,0,9.164756e+08
3,202004,강원,관광 민예품 및 선물용품 소매업,0,1.096429e+07
4,202004,강원,그외 기타 분류안된 오락관련 서비스업,0,1.770000e+05
...,...,...,...,...,...
1389,202007,충북,피자 햄버거 샌드위치 및 유사 음식점업,0,1.232347e+09
1390,202007,충북,한식 음식점업,0,1.747873e+10
1391,202007,충북,호텔업,0,1.799597e+07
1392,202007,충북,화장품 및 방향제 소매업,0,3.573058e+08


In [21]:
submit_path = 'C:/Users/user/Desktop/DACON/jeju_credit_card/submission.csv'

submission_layout = pd.read_csv(submit_path, index_col=0)
submission_layout = submission_layout.loc[submission_layout['REG_YYMM']==202004,:]
submission_layout = submission_layout.merge(group_city_clss.loc[:,['CARD_SIDO_NM', 'STD_CLSS_NM', 'COV_M04']],
                              left_on=['CARD_SIDO_NM', 'STD_CLSS_NM'],
                              right_on=['CARD_SIDO_NM', 'STD_CLSS_NM'],
                              how='left')
submission_layout = submission_layout.fillna(0)


AMT = list(submission_layout['COV_M04'])*2
del submission_layout
gc.collect()

submission = pd.read_csv(submit_path, index_col=0)
submission.AMT = AMT
submission.to_csv('C:/Users/user/Desktop/DACON/jeju_credit_card/log_submission.csv', encoding='utf-8-sig')
submission.head()

Unnamed: 0_level_0,REG_YYMM,CARD_SIDO_NM,STD_CLSS_NM,AMT
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,202004,강원,건강보조식품 소매업,89644890.0
1,202004,강원,골프장 운영업,3756249000.0
2,202004,강원,과실 및 채소 소매업,916475600.0
3,202004,강원,관광 민예품 및 선물용품 소매업,10964290.0
4,202004,강원,그외 기타 분류안된 오락관련 서비스업,177000.0
