# 상점 신용카드 매출 예측
- 소상공인 가맹점 신용카드 빅데이터와 AI로 매출 예측 분석
- 2019년 2월 28일까지의 카드 거래 데이터를 이용하여 2019년 3월 1일 ~ 5월 31일까지의 상점별 3개월 총 매출 예측
- 제공된 데이터의 레코드 단위는 '거래'이며, 예측하고자 하는 레코드의 단위는 3개월 간의 상점 매출임.
#### funda_train.csv : 모델 학습용 데이터

- store_id : 상점의 고유 id
- card_id : 사용한 카드의 고유 아이디
- card_company : 비식별화된 카드 회사
- transcated_date : 거래 날짜
- transacted_time : 거래 시간
- installment_term : 할부 개월 수
- region : 상점 지역
- type_of_business : 상점 업종
- amount : 거래액

#### submission.csv:
- store_id: 상점의 고유 id


### 기본 데이터 구조 설계
- 레코드가 수집된 시간 기준으로 3개월 이후의 총 매출을 예측하도록 구조를 설계해야 함
- ex)
 - 상점 ID: 1, 시점: 4, 특징: 시점 1 ~ 3까지의 상점 1의 특징, 라벨: 시점 5 ~ 7까지의 상점 1의 매출 합계
 - 상점 ID: 1, 시점: 5, 특징: 시점 2 ~ 4까지의 상점 1의 특징, 라벨: 시점 6 ~ 8까지의 상점 1의 매출 합계
 - 상점 ID: 1, 시점: 6, 특징: 시점 3 ~ 5까지의 상점 1의 특징, 라벨: 시점 7 ~ 9까지의 상점 1의 매출 합계
 - 상점 ID: 2136, 시점: 38, 특징: 시점 35 ~ 37까지의 상점 1의 특징, 라벨: 시점 38 ~ 40까지의 상점 1의 매출 합계
 - 상점 ID: 2136, 시점: 38, 특징: 시점 36 ~ 38까지의 상점 1의 특징, 라벨: 시점 39 ~ 41까지의 상점 1의 매출 합계




- 시점의 정의 = ((년-2016)*12 + 월)

## 기초 탐색 및 데이터 준비

#### 학습 데이터 불러오기

In [1]:
import pandas as pd
import os
# df의 시간 범위: 2016-06-01 ~ 2019-02-28
df = pd.read_csv("funda_train.csv")
df.head()

Unnamed: 0,store_id,card_id,card_company,transacted_date,transacted_time,installment_term,region,type_of_business,amount
0,0,0,b,2016-06-01,13:13,0,,기타 미용업,1857.142857
1,0,1,h,2016-06-01,18:12,0,,기타 미용업,857.142857
2,0,2,c,2016-06-01,18:52,0,,기타 미용업,2000.0
3,0,3,a,2016-06-01,20:22,0,,기타 미용업,7857.142857
4,0,4,c,2016-06-02,11:06,0,,기타 미용업,2000.0


In [2]:
# submission_df의 범위: 2019-03-01 ~ 2019-05-31
submission_df = pd.read_csv("submission.csv")
submission_df.head()

Unnamed: 0,store_id,amount
0,0,0
1,1,0
2,2,0
3,4,0
4,5,0


#### 변수 목록 탐색

In [3]:
# 상점 ID는 일치
print(df['store_id'].unique())
print(submission_df['store_id'].unique())

[   0    1    2 ... 2134 2135 2136]
[   0    1    2 ... 2134 2135 2136]


In [4]:
print(df.columns)
print(submission_df.columns)

# 일치하는 컬럼이 store_id와 amount 밖에 없으므로, 새로운 특징을 추출하는 것이 바람직함

Index(['store_id', 'card_id', 'card_company', 'transacted_date',
       'transacted_time', 'installment_term', 'region', 'type_of_business',
       'amount'],
      dtype='object')
Index(['store_id', 'amount'], dtype='object')


- 예측 대상은 3개월 합계이고, 가지고 있는 데이터는 분단위로 정리되어 있음
- t-2, t-1, t월의 데이터로 t + 1, t + 2, t + 3월의 매출 합계를 예측하는 것으로 문제를 정의
- 따라서 거래 내역을 요약하여 월별로 데이터를 새로 정의하는 것이 중요

## 학습 데이터 구축

#### 년/월 추출

- 기존 시간 변수 transacted_date 에서 연도와 월을 추출

In [5]:
# .str.split을 이용한 년/월 추출
df['transacted_year'] = df['transacted_date'].str.split('-', expand = True).iloc[:, 0].astype(int)
df['transacted_month'] = df['transacted_date'].str.split('-', expand = True).iloc[:, 1].astype(int)
df.head()

Unnamed: 0,store_id,card_id,card_company,transacted_date,transacted_time,installment_term,region,type_of_business,amount,transacted_year,transacted_month
0,0,0,b,2016-06-01,13:13,0,,기타 미용업,1857.142857,2016,6
1,0,1,h,2016-06-01,18:12,0,,기타 미용업,857.142857,2016,6
2,0,2,c,2016-06-01,18:52,0,,기타 미용업,2000.0,2016,6
3,0,3,a,2016-06-01,20:22,0,,기타 미용업,7857.142857,2016,6
4,0,4,c,2016-06-02,11:06,0,,기타 미용업,2000.0,2016,6


#### 시점 변수 생성
- 시점 (t) = (연도-2016)*12 + 월

In [6]:
# 데이터 병합을 위한 새로운 컬럼 생성 및 기존 시간 변수 삭제
df['t'] = (df['transacted_year'] - 2016) * 12 + df['transacted_month']
df.drop(['transacted_year', 'transacted_month', 'transacted_date', 'transacted_time'], axis = 1, inplace = True)

#### 불필요한 변수 제거
- card_id, card_company는 특징으로 사용하기에는 너무 세분화될 수 있을 뿐만 아니라, 특징으로 유효할 가능성이 없다고 판단하여 삭제

In [7]:
df.drop(['card_id', 'card_company'], axis = 1, inplace = True)

#### 업종 특성, 지역, 할부 평균 탐색

- 상태 공간이 매우 큰 범주 변수임을 확인하여, 더미화하기에는 부적절하다고 판단
- 업종 및 지역에 따른 상점 매출 합계의 평균을 사용하기로 결정
- 할부 값은 할부 거래인지 여부만 나타내도록 이진화
- 이 과정에서 결측은 제거하지 않고 없음이라고 변환

In [8]:
df['installment_term'].value_counts().head() # 대부분이 일시불이므로, installment_term 변수를 할부인지 아닌지를 여부로 변환

0    6327632
3     134709
2      42101
5      23751
6      10792
Name: installment_term, dtype: int64

In [9]:
df['installment_term'] = (df['installment_term'] > 0).astype(int)
df['installment_term'].value_counts()

0    6327632
1     228981
Name: installment_term, dtype: int64

In [10]:
# 상점별 평균 할부 비율
installment_term_per_store = df.groupby(['store_id'])['installment_term'].mean()
installment_term_per_store.head()

store_id
0    0.038384
1    0.000000
2    0.083904
4    0.001201
5    0.075077
Name: installment_term, dtype: float64

In [11]:
# groupby에 결측을 포함시키기 위해, 결측을 문자로 대체
# 지역은 너무 많아서 그대로 활용하기 어려움. 따라서 그대로 더미화하지 않고, 이를 기반으로 한 새로운 변수를 파생해서 사용
df['region'].fillna('없음', inplace = True)
df['region'].value_counts().head()

없음        2042766
경기 수원시     122029
충북 청주시     116766
경남 창원시     107147
경남 김해시     100673
Name: region, dtype: int64

In [12]:
df['type_of_business'].value_counts().head()
# 업종도 그 수가 너무 많아 그대로 활용하기 어려움

한식 음식점업    745905
두발 미용업     178475
의복 소매업     158234
기타 주점업     102413
치킨 전문점      89277
Name: type_of_business, dtype: int64

In [13]:
# groupby에 결측을 포함시키기 위해, 결측을 문자로 대체
df['type_of_business'].fillna('없음', inplace = True)

#### 학습 데이터 구조 작성

- 기존에 정리되지 않은 데이터를 바탕으로 학습 데이터를 생성해야 하는 경우에는 레코드의 단위를 고려하여 학습 데이터의 구조를 먼저 작성하는 것이 바람직함
- funda_train.csv(이하 train_df)에서 store_id, region, type_of_business, t를 기준으로 중복을 제거한 뒤, 해당 컬럼만 갖는 데이터프레임으로 학습 데이터(train_df)를 초기화함

In [14]:
# 'store_id', 'region', 'type_of_business', 't'를 기준으로 중복을 제거한 뒤, 해당 컬럼만 가져옴
train_df = df.drop_duplicates(subset = ['store_id', 'region', 'type_of_business', 't'])[['store_id', 'region', 'type_of_business', 't']]
train_df.head()

Unnamed: 0,store_id,region,type_of_business,t
0,0,없음,기타 미용업,6
145,0,없음,기타 미용업,7
323,0,없음,기타 미용업,8
494,0,없음,기타 미용업,9
654,0,없음,기타 미용업,10


#### 평균 할부율 부착

1. installment_term_per_store 생성
 - store_id에 따른 installment_term의 평균을 groupby를 이용하여 생성 : installment_term_per_store
2. installment_term_per_store를 사전화 : installment_term_per_store.to_dict()

3. train_df의 store_id를 replace 하는 방식으로 평균 할부율 변수 생성


In [15]:
train_df['평균할부율'] = train_df['store_id'].replace(installment_term_per_store.to_dict())

#### t-1, t-2, t-3 시점의 매출 합계 부착

- 한 데이터에서는 시점 t를, 다른 데이터에서는 시점 t-1을 붙여야 하는 경우 
 - case 1. t가 유니크한 경우, 각 데이터를 정렬 후, 한 데이터에 대해 shift를 사용한 뒤 concat 수행
 - case 2. t가 유니크하지 않은 경우, t+1 변수를 생성하여 merge 수행

In [16]:
# store_id와 t에 따른 amount 합계 계산: amount_sum_per_t_and_sid
amount_sum_per_t_and_sid = df.groupby(['store_id', 't'], as_index = False)['amount'].sum()
amount_sum_per_t_and_sid.head()

Unnamed: 0,store_id,t,amount
0,0,6,747000.0
1,0,7,1005000.0
2,0,8,871571.4
3,0,9,897857.1
4,0,10,835428.6


In [17]:
# 몇몇 상점은 중간이 비어있음을 확인 => merge에서 문제가 생길 수 있음
amount_sum_per_t_and_sid.groupby(['store_id'])['t'].count().head(10)

store_id
0     33
1     33
2     33
4     33
5     33
6     31
7     31
8     28
9     29
10    23
Name: t, dtype: int64

In [18]:
# 따라서 모든 값을 채우기 위해, 피벗 테이블을 생성하고 결측을 바로 앞 값으로 채움
amount_sum_per_t_and_sid = pd.pivot_table(df, values = 'amount', index = 'store_id', columns = 't', aggfunc = 'sum')
amount_sum_per_t_and_sid.head(10)

t,6,7,8,9,10,11,12,13,14,15,...,29,30,31,32,33,34,35,36,37,38
store_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,747000.0,1005000.0,871571.428571,897857.1,835428.6,697000.0,761857.1,585642.857143,794000.0,720257.142857,...,686428.6,707285.7,758714.3,679857.1,651857.1,739000.0,676000.0,874571.4,682857.1,515285.7
1,137214.285714,163000.0,118142.857143,90428.57,118071.4,111857.1,115571.4,129642.857143,160214.3,168428.571429,...,80500.0,78285.71,100785.7,92142.86,63571.43,95000.0,80785.71,85285.71,148285.7,77428.57
2,260714.285714,82857.14,131428.571429,142857.1,109714.3,198571.4,160000.0,180714.285714,154285.7,43571.428571,...,472857.1,354285.7,689285.7,457857.1,480714.3,510000.0,185428.6,340714.3,407857.1,496857.1
4,733428.571429,768928.6,698428.571429,936428.6,762714.3,859571.4,1069857.0,689142.857143,1050143.0,970285.714286,...,775428.6,881285.7,1050929.0,849285.7,698142.9,828428.6,883000.0,923857.1,944857.1,882285.7
5,342500.0,432714.3,263500.0,232142.9,211571.4,182085.7,147571.4,120957.142857,186428.6,169000.0,...,443857.1,563714.3,607071.4,482885.7,195000.0,324928.6,383300.0,399571.4,323000.0,215514.3
6,,,568857.142857,1440143.0,1238857.0,1055429.0,926857.1,885642.857143,800357.1,930714.285714,...,1808357.0,1752286.0,1583786.0,1628786.0,2074071.0,1907643.0,2389143.0,2230286.0,2015500.0,2463857.0
7,,,107857.142857,375642.9,323642.9,345000.0,291428.6,231614.285714,271357.1,249857.142857,...,265714.3,419542.9,462842.9,423128.6,320328.6,420028.6,314385.7,302414.3,136471.4,57971.43
8,,,,,,192571.4,735500.0,467857.142857,475642.9,603500.0,...,1837429.0,1359857.0,1213543.0,1086000.0,1369557.0,1272071.0,1260557.0,1157257.0,1134671.0,1298329.0
9,,,,,107142.9,637142.9,603571.4,225428.571429,287142.9,344428.571429,...,638571.4,276571.4,340000.0,254285.7,926571.4,871428.6,692857.1,662857.1,370000.0,405714.3
10,,,,,,,,,,,...,290285.7,607857.1,444571.4,641428.6,795571.4,499285.7,590142.9,518428.6,525142.9,654857.1


In [19]:
# 따라서 모든 값을 채우기 위해, 피벗 테이블을 생성하고 결측을 바로 앞 값으로 채움
amount_sum_per_t_and_sid = amount_sum_per_t_and_sid.fillna(method = 'ffill', axis = 1).fillna(method = 'bfill', axis = 1)
amount_sum_per_t_and_sid.head(10)

t,6,7,8,9,10,11,12,13,14,15,...,29,30,31,32,33,34,35,36,37,38
store_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,747000.0,1005000.0,871571.428571,897857.1,835428.6,697000.0,761857.1,585642.857143,794000.0,720257.142857,...,686428.6,707285.7,758714.3,679857.1,651857.1,739000.0,676000.0,874571.4,682857.1,515285.7
1,137214.285714,163000.0,118142.857143,90428.57,118071.4,111857.1,115571.4,129642.857143,160214.3,168428.571429,...,80500.0,78285.71,100785.7,92142.86,63571.43,95000.0,80785.71,85285.71,148285.7,77428.57
2,260714.285714,82857.14,131428.571429,142857.1,109714.3,198571.4,160000.0,180714.285714,154285.7,43571.428571,...,472857.1,354285.7,689285.7,457857.1,480714.3,510000.0,185428.6,340714.3,407857.1,496857.1
4,733428.571429,768928.6,698428.571429,936428.6,762714.3,859571.4,1069857.0,689142.857143,1050143.0,970285.714286,...,775428.6,881285.7,1050929.0,849285.7,698142.9,828428.6,883000.0,923857.1,944857.1,882285.7
5,342500.0,432714.3,263500.0,232142.9,211571.4,182085.7,147571.4,120957.142857,186428.6,169000.0,...,443857.1,563714.3,607071.4,482885.7,195000.0,324928.6,383300.0,399571.4,323000.0,215514.3
6,568857.142857,568857.1,568857.142857,1440143.0,1238857.0,1055429.0,926857.1,885642.857143,800357.1,930714.285714,...,1808357.0,1752286.0,1583786.0,1628786.0,2074071.0,1907643.0,2389143.0,2230286.0,2015500.0,2463857.0
7,107857.142857,107857.1,107857.142857,375642.9,323642.9,345000.0,291428.6,231614.285714,271357.1,249857.142857,...,265714.3,419542.9,462842.9,423128.6,320328.6,420028.6,314385.7,302414.3,136471.4,57971.43
8,192571.428571,192571.4,192571.428571,192571.4,192571.4,192571.4,735500.0,467857.142857,475642.9,603500.0,...,1837429.0,1359857.0,1213543.0,1086000.0,1369557.0,1272071.0,1260557.0,1157257.0,1134671.0,1298329.0
9,107142.857143,107142.9,107142.857143,107142.9,107142.9,637142.9,603571.4,225428.571429,287142.9,344428.571429,...,638571.4,276571.4,340000.0,254285.7,926571.4,871428.6,692857.1,662857.1,370000.0,405714.3
10,496714.285714,496714.3,496714.285714,496714.3,496714.3,496714.3,496714.3,496714.285714,496714.3,496714.285714,...,290285.7,607857.1,444571.4,641428.6,795571.4,499285.7,590142.9,518428.6,525142.9,654857.1


In [20]:
# stack을 이용하여, 컬럼도 행 인덱스로 밀어넣고, 인덱스를 초기화하여 인덱스를 컬럼으로 가져옴
amount_sum_per_t_and_sid = amount_sum_per_t_and_sid.stack().reset_index()
amount_sum_per_t_and_sid.rename({0:"amount"}, axis = 1, inplace = True)

In [21]:
# t - k (k = 1, 2, 3) 시점의 부착
# train_df의 t는 amount_sum_per_t_and_sid의 t-k과 부착되어야 하므로, amount_sum_per_t_and_sid의 t에 k를 더함

for k in range(1, 4):
    amount_sum_per_t_and_sid['t_{}'.format(k)] = amount_sum_per_t_and_sid['t'] + k
    train_df = pd.merge(train_df, amount_sum_per_t_and_sid.drop('t', axis = 1), left_on = ['store_id', 't'], right_on = ['store_id', 't_{}'.format(k)])
    
    # 부착한 뒤, 불필요한 변수 제거 및 변수명 변경: 다음 이터레이션에서의 병합이 잘되게 하기 위해서
    train_df.rename({"amount":"{}_before_amount".format(k)}, axis = 1, inplace = True)
    train_df.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    amount_sum_per_t_and_sid.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    
train_df.head()

Unnamed: 0,store_id,region,type_of_business,t,평균할부율,1_before_amount,2_before_amount,3_before_amount
0,0,없음,기타 미용업,9,0.038384,871571.428571,1005000.0,747000.0
1,0,없음,기타 미용업,10,0.038384,897857.142857,871571.4,1005000.0
2,0,없음,기타 미용업,11,0.038384,835428.571429,897857.1,871571.4
3,0,없음,기타 미용업,12,0.038384,697000.0,835428.6,897857.1
4,0,없음,기타 미용업,13,0.038384,761857.142857,697000.0,835428.6


#### t-1, t-2, t-3 시점의 지역별 매출 합계 평균 부착

### 기존 매출 합계 부착
- store_id 와 t에 따른 amount의 합계 계산 : amount_sum_per_t_and_sid

- 다음 과정을 k = 1, 2, 3에 대해 반복
1. amount_sum_per_t_and_sid 에 t_k 변수 생성 (t_k = t + k)
2. train_df와 amount_sum_per_t_and_sid 병합 (단, amount_sum_per_t_and_sid 에는 t 컬럼 삭제 )
3. 병합 후 train_df의 amount 변수명을 k_before_amount로 변경
4. 불필요한 변수가 추가되는 것을 막기 위해, amount_sum_per_t_and_sid와 train_df에 t_k 변수 삭제

### 기존 지역별 매출 합계 부착
1. store_id를 키로 하고, region을 value로 하는 사전 생성
2. amount_sum_per_t_and_sid에서 region 변수 생성 및 region과 t에 따른 amount 평균 계산: amount_mean_per_t_and_region
3. 다음 과정을 k = 1, 2, 3 에 대해 반복
 1. amount_mean_per_t_and_region에 t_k변수 생성 (t_k = t + k)
 2. train_df와 amount_mean_per_t_and_region 병합 (단, amount_mean_per_t_and_region에는 t컬럼 삭제)
 3. 병합 후 train_df의 amount 변수명을 k_before_amount_of_region로 변경
 4. 불필요한 변수가 추가되는 것을 막기 위해, amount_sum_per_t_and_sid와 train_df에 t_k 변수 삭제

In [22]:
# amount_sum_per_t_and_sid의 store_id를 region으로 대체시키기
store_to_region = df[['store_id', 'region']].drop_duplicates().set_index(['store_id'])['region'].to_dict()
amount_sum_per_t_and_sid['region'] = amount_sum_per_t_and_sid['store_id'].replace(store_to_region)

# 지역별 평균 매출 계산
amount_mean_per_t_and_region = amount_sum_per_t_and_sid.groupby(['region', 't'], as_index = False)['amount'].mean()

In [23]:
# t - k (k = 1, 2, 3) 시점의 부착

for k in range(1, 4):
    amount_mean_per_t_and_region['t_{}'.format(k)] = amount_mean_per_t_and_region['t'] + k
    train_df = pd.merge(train_df, amount_mean_per_t_and_region.drop('t', axis = 1), left_on = ['region', 't'], right_on = ['region', 't_{}'.format(k)])
    train_df.rename({"amount":"{}_before_amount_of_region".format(k)}, axis = 1, inplace = True)
    
    train_df.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    amount_mean_per_t_and_region.drop(['t_{}'.format(k)], axis = 1, inplace = True)    
    
train_df.head()

Unnamed: 0,store_id,region,type_of_business,t,평균할부율,1_before_amount,2_before_amount,3_before_amount,1_before_amount_of_region,2_before_amount_of_region,3_before_amount_of_region
0,0,없음,기타 미용업,9,0.038384,871571.428571,1005000.0,747000.0,761987.421532,756108.674948,739654.068323
1,1,없음,없음,9,0.0,118142.857143,163000.0,137214.285714,761987.421532,756108.674948,739654.068323
2,2,없음,없음,9,0.083904,131428.571429,82857.14,260714.285714,761987.421532,756108.674948,739654.068323
3,5,없음,의복 액세서리 및 모조 장신구 도매업,9,0.075077,263500.0,432714.3,342500.0,761987.421532,756108.674948,739654.068323
4,7,없음,없음,9,0.011558,107857.142857,107857.1,107857.142857,761987.421532,756108.674948,739654.068323


#### t-1, t-2, t-3 시점의 업종별 매출 합계 평균 부착


### 기존 업종별 매출 합계 부착
1. store_id를 키로 설정 , type_of_business를 value로 하는 사전 생성
2. amount_sum_per_t_and_sid에서 type_of_business 변수 생성 및 type_of_business와 t에 따른 amount 평균 계산 : amount_mean_per_t_and_type_of_business
3. 다음 과정을 k = 1, 2, 3 에 대해 반복
 1. amount_mean_per_t_and_ type_of_business에 t_k 변수 생성 (t_k = t + k)
 2. train_df와 amount_mean_per_t_and_ type_of_business 병합 ( 단, type_of_business에는 t 컬럼 삭제 )
 3. 병합 후 train_df의 amount 변수명을 k_before_amount_of_region로 변경
 4. 불필요한 변수가 추가되는 것을 막기 위해, type_of_business와 train_df에 t_k 변수 삭제
 
### 라벨 부착하기
1. 다음 과정을 k = 1, 2, 3 에 대해 반복
 1. amount_sum_per_t_and_sid에 t_k (t_k = t – k) 변수 생성
 2. train_df와 amount_sum_per_t_and_sid를 병합
 3. 병합 후, train_df의 amount 변수명을 Y_k 로 변경
2. 라벨 생성 : Y = Y_1 + Y_2 + Y_3

In [24]:
# amount_sum_per_t_and_sid의 store_id를 type_of_business으로 대체시키기
store_to_type_of_business = df[['store_id', 'type_of_business']].drop_duplicates().set_index(['store_id'])['type_of_business'].to_dict()
amount_sum_per_t_and_sid['type_of_business'] = amount_sum_per_t_and_sid['store_id'].replace(store_to_type_of_business)

# 지역별 평균 매출 계산
amount_mean_per_t_and_type_of_business = amount_sum_per_t_and_sid.groupby(['type_of_business', 't'], as_index = False)['amount'].mean()

In [25]:
# t - k (k = 1, 2, 3) 시점의 부착
# train_df의 t는 amount_sum_per_t_and_sid의 t-k과 부착되어야 하므로, amount_sum_per_t_and_sid의 t에 k를 더함

for k in range(1, 4):
    amount_mean_per_t_and_type_of_business['t_{}'.format(k)] = amount_mean_per_t_and_type_of_business['t'] + k
    train_df = pd.merge(train_df, amount_mean_per_t_and_type_of_business.drop('t', axis = 1), left_on = ['type_of_business', 't'], right_on = ['type_of_business', 't_{}'.format(k)])
    train_df.rename({"amount":"{}_before_amount_of_type_of_business".format(k)}, axis = 1, inplace = True)
    
    train_df.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    amount_mean_per_t_and_type_of_business.drop(['t_{}'.format(k)], axis = 1, inplace = True)       
    
train_df.head()

Unnamed: 0,store_id,region,type_of_business,t,평균할부율,1_before_amount,2_before_amount,3_before_amount,1_before_amount_of_region,2_before_amount_of_region,3_before_amount_of_region,1_before_amount_of_type_of_business,2_before_amount_of_type_of_business,3_before_amount_of_type_of_business
0,0,없음,기타 미용업,9,0.038384,871571.428571,1005000.0,747000.0,761987.4,756108.7,739654.1,761025.0,804979.761905,679950.0
1,792,없음,기타 미용업,9,0.218887,681142.857143,880857.1,733714.285714,761987.4,756108.7,739654.1,761025.0,804979.761905,679950.0
2,23,경기 안양시,기타 미용업,9,0.048795,879242.857143,730857.1,845285.714286,828831.7,588733.0,955973.3,761025.0,804979.761905,679950.0
3,192,경기 화성시,기타 미용업,9,0.100542,579000.0,523428.6,551142.857143,1234460.0,1227921.0,1180455.0,761025.0,804979.761905,679950.0
4,536,서울 광진구,기타 미용업,9,0.01481,96285.714286,79857.14,99857.142857,3786820.0,3397973.0,3524075.0,761025.0,804979.761905,679950.0


#### 라벨 부착하기

In [26]:
# 현 시점에서 t + 1, t + 2, t + 3의 매출을 부착해야 함

In [27]:
amount_sum_per_t_and_sid.drop(['region', 'type_of_business'], axis = 1, inplace = True)
for k in range(1, 4):
    amount_sum_per_t_and_sid['t_{}'.format(k)] = amount_sum_per_t_and_sid['t'] - k   
    train_df = pd.merge(train_df, amount_sum_per_t_and_sid.drop('t', axis = 1), left_on = ['store_id', 't'], right_on = ['store_id', 't_{}'.format(k)])
    train_df.rename({"amount": "Y_{}".format(k)}, axis = 1, inplace = True)
    
    train_df.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    amount_sum_per_t_and_sid.drop(['t_{}'.format(k)], axis = 1, inplace = True)      

In [28]:
train_df['Y'] = train_df['Y_1'] + train_df['Y_2'] + train_df['Y_3']

## 학습 데이터 탐색 및 전처리

#### 특징과 라벨 분리

In [29]:
X = train_df.drop(['store_id', 'region', 'type_of_business', 't', 'Y_1', 'Y_2', 'Y_3', 'Y'], axis = 1)
Y = train_df['Y']

#### 데이터 분할 및 구조 탐색

In [30]:
from sklearn.model_selection import train_test_split
Train_X, Test_X, Train_Y, Test_Y = train_test_split(X, Y)
Train_X.shape # 특징 대비 샘플이 많음

(37673, 10)

In [31]:
Train_Y.describe()

count    3.767300e+04
mean     3.455220e+06
std      5.392722e+06
min      0.000000e+00
25%      1.131571e+06
50%      2.215564e+06
75%      4.100429e+06
max      1.727659e+08
Name: Y, dtype: float64

#### 이상치 제거

In [32]:
import numpy as np
def IQR_rule(val_list): # 한 특징에 포함된 값 (열 벡터)
    # IQR 계산    
    Q1 = np.quantile(val_list, 0.25)
    Q3 = np.quantile(val_list, 0.75)
    IQR = Q3 - Q1
    
    # IQR rule을 위배하지 않는 bool list 계산 (True: 이상치 X, False: 이상치 O)
    not_outlier_condition = (Q3 + 1.5 * IQR > val_list) & (Q1 - 1.5 * IQR < val_list)
    return not_outlier_condition

In [33]:
Y_condition = IQR_rule(Train_Y)
Train_Y = Train_Y[Y_condition]
Train_X = Train_X[Y_condition]

#### 치우침 제거

In [34]:
# 모두 좌로 치우침을 확인
Train_X.skew()

평균할부율                                  2.979842
1_before_amount                        2.444171
2_before_amount                        2.428243
3_before_amount                        2.463657
1_before_amount_of_region              3.244259
2_before_amount_of_region              3.206229
3_before_amount_of_region              3.200283
1_before_amount_of_type_of_business    1.793848
2_before_amount_of_type_of_business    1.910635
3_before_amount_of_type_of_business    1.885685
dtype: float64

In [35]:
# 치우침 제거
import numpy as np
biased_variables = Train_X.columns[Train_X.skew().abs() > 1.5] # 왜도의 절대값이 1.5 이상인 컬럼만 가져오기
Train_X[biased_variables] = Train_X[biased_variables] - Train_X[biased_variables].min() + 1
Train_X[biased_variables] = np.sqrt(Train_X[biased_variables])

In [36]:
Train_X.skew()

평균할부율                                  2.769802
1_before_amount                        0.624789
2_before_amount                        0.726716
3_before_amount                        0.737180
1_before_amount_of_region              1.811923
2_before_amount_of_region              1.779948
3_before_amount_of_region              1.774822
1_before_amount_of_type_of_business   -0.275585
2_before_amount_of_type_of_business   -0.270576
3_before_amount_of_type_of_business   -0.247877
dtype: float64

#### 스케일링 수행

In [37]:
Train_X.max() - Train_X.min() # 특징 간 스케일 차이가 큼을 확인 => 스케일이 작은 특징은 영향을 거의 주지 못할 것이라 예상됨

평균할부율                                     0.379933
1_before_amount                        3688.250931
2_before_amount                        3595.029696
3_before_amount                        3518.070636
1_before_amount_of_region              2588.236153
2_before_amount_of_region              2588.236153
3_before_amount_of_region              2588.236153
1_before_amount_of_type_of_business    2581.717478
2_before_amount_of_type_of_business    2614.039115
3_before_amount_of_type_of_business    2341.952868
dtype: float64

In [38]:
# 스케일링 수행
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler().fit(Train_X)
s_Train_X = scaler.transform(Train_X)
s_Test_X = scaler.transform(Test_X)

Train_X = pd.DataFrame(s_Train_X, columns = Train_X.columns)
Test_X = pd.DataFrame(s_Test_X, columns = Train_X.columns)

del s_Train_X, s_Test_X # 메모리 관리를 위해, 불필요한 값은 제거

#### 모델 학습 

샘플 대비 특징이 적고, 특징의 타입이 전부 연속형으로 같음. 따라서 아래 세 개의 모델 및 특징 선택 기준을 고려

- 모델 1. kNN
- 모델 2. RandomForestRegressor
- 모델 3. LightGBM

- 특징 선택: 3 ~ 10개 (기준: f_regression)

In [39]:
from sklearn.model_selection import ParameterGrid
from sklearn.neighbors import KNeighborsRegressor as KNN
from sklearn.ensemble import RandomForestRegressor as RFR
from lightgbm import LGBMRegressor as LGB
from sklearn.feature_selection import *

In [40]:
# 파라미터 그리드 생성
param_grid = dict() 
# 입력: 모델 함수, 출력: 모델의 하이퍼 파라미터 그리드

# 모델별 파라미터 그리드 생성
param_grid_for_knn = ParameterGrid({"n_neighbors": [1, 3, 5, 7],
                           "metric":['euclidean', 'cosine']})

param_grid_for_RFR = ParameterGrid({"max_depth": [1, 2, 3, 4],
                           "n_estimators":[100, 200],
                                   "max_samples":[0.5, 0.6, 0.7, None]}) # 특징 대비 샘플이 많아서 붓스트랩 비율 (max_samples)을 설정 

param_grid_for_LGB = ParameterGrid({"max_depth": [1, 2, 3, 4],
                                   "n_estimators":[100, 200],
                            "learning_rate": [0.05, 0.1, 0.15]})

# 모델 - 하이퍼 파라미터 그리드를 param_grid에 추가
param_grid[KNN] = param_grid_for_knn
param_grid[RFR] = param_grid_for_RFR
param_grid[LGB] = param_grid_for_LGB

In [41]:
# 출력을 위한 max_iter_num 계산
max_iter_num = 0
for k in range(10, 2, -1):
    for M in param_grid.keys():
        for P in param_grid[M]:
            max_iter_num += 1
           
from sklearn.metrics import mean_absolute_error as MAE

best_score = 9999999999
iteration_num = 0
for k in range(10, 2, -1): # 메모리 부담 해소를 위해, 1씩 감소시킴
    selector = SelectKBest(f_regression, k = k).fit(Train_X, Train_Y)
    selected_features = Train_X.columns[selector.get_support()]

    Train_X = Train_X[selected_features]
    Test_X = Test_X[selected_features]
    
    for M in param_grid.keys():
        for P in param_grid[M]:
            # LightGBM에서 DataFrame이 잘 처리되지 않는 것을 방지하기 위해 .values를 사용
            model = M(**P).fit(Train_X.values, Train_Y.values)
            pred_Y = model.predict(Test_X.values)
            score = MAE(Test_Y.values, pred_Y)
            
            if score < best_score:
                best_score = score
                best_model = M
                best_paramter = P
                best_features = selected_features    
                
            iteration_num += 1
            print("iter_num:{}/{}, score: {}, best_score: {}".format(iteration_num, max_iter_num, round(score, 2), round(best_score, 2)))

iter_num:1/512, score: 4226292.7, best_score: 4226292.7
iter_num:2/512, score: 3966742.96, best_score: 3966742.96
iter_num:3/512, score: 4327727.63, best_score: 3966742.96
iter_num:4/512, score: 4386552.03, best_score: 3966742.96
iter_num:5/512, score: 1956342.02, best_score: 1956342.02
iter_num:6/512, score: 1696555.71, best_score: 1696555.71
iter_num:7/512, score: 1622245.04, best_score: 1622245.04
iter_num:8/512, score: 1586524.15, best_score: 1586524.15
iter_num:9/512, score: 3032534.15, best_score: 1586524.15
iter_num:10/512, score: 3033367.64, best_score: 1586524.15
iter_num:11/512, score: 3035198.11, best_score: 1586524.15
iter_num:12/512, score: 3039050.95, best_score: 1586524.15
iter_num:13/512, score: 3033930.11, best_score: 1586524.15
iter_num:14/512, score: 3036046.92, best_score: 1586524.15
iter_num:15/512, score: 3037878.48, best_score: 1586524.15
iter_num:16/512, score: 3037848.18, best_score: 1586524.15
iter_num:17/512, score: 3812271.62, best_score: 1586524.15
iter_num

### 최종 모델 학습

- 파라미터 튜닝을 통해 찾은 최적의 파라미터로 전체 데이터에 대해 재학습 수행
- 이 떄, 새로 들어온 데이터에 대해서도 동일한 전처리를 하기 위해, pipeline을 함수화함

In [42]:
def pipeline(X):
    X[biased_variables] = X[biased_variables] - X[biased_variables].min() + 1
    X[biased_variables] = np.sqrt(X[biased_variables])        
    X = pd.DataFrame(scaler.transform(X), columns = X.columns)
    X = X[best_features]
    return X
    
model = best_model(**best_paramter).fit(pipeline(X).values, Y)

## 적용 데이터 구성
- 새로 들어온 데이터인 submission_df 에 대해서도 모델의 입력으로 들어갈 수 있도록 전처리 수행
- 전처리된 데이터를 모델에 투입하여 출력값을 얻고, 이를 데이터프레임화하여 정리

In [43]:
# 2019-03-01 ~ 2019-05-31
submission_df['t'] = (2019 - 2016) * 12 + 2

In [44]:
# region 변수와 type_of_business 변수 부착 
submission_df['region'] = submission_df['store_id'].replace(store_to_region)
submission_df['type_of_business'] = submission_df['store_id'].replace(store_to_type_of_business)

#### 특징 부착

In [45]:
submission_df['평균할부율'] = submission_df['store_id'].replace(installment_term_per_store.to_dict())
submission_df.head()

Unnamed: 0,store_id,amount,t,region,type_of_business,평균할부율
0,0,0,38,없음,기타 미용업,0.038384
1,1,0,38,없음,없음,0.0
2,2,0,38,없음,없음,0.083904
3,4,0,38,서울 종로구,없음,0.001201
4,5,0,38,없음,의복 액세서리 및 모조 장신구 도매업,0.075077


In [46]:
submission_df.drop('amount', axis = 1, inplace = True)

In [47]:
# t - k (k = 1, 2, 3) 시점의 부착
# submission_df의 t는 amount_sum_per_t_and_sid의 t-k과 부착되어야 하므로, amount_sum_per_t_and_sid의 t에 k를 더함

for k in range(1, 4):
    amount_sum_per_t_and_sid['t_{}'.format(k)] = amount_sum_per_t_and_sid['t'] + k    
    submission_df = pd.merge(submission_df, amount_sum_per_t_and_sid.drop('t', axis = 1), left_on = ['store_id', 't'], right_on = ['store_id', 't_{}'.format(k)])
    submission_df.rename({"amount":"{}_before_amount".format(k)}, axis = 1, inplace = True)
    submission_df.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    amount_sum_per_t_and_sid.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    


In [48]:
# 지역 관련 변수 부착
for k in range(1, 4):
    amount_mean_per_t_and_region['t_{}'.format(k)] = amount_mean_per_t_and_region['t'] + k
    submission_df = pd.merge(submission_df, amount_mean_per_t_and_region.drop('t', axis = 1), left_on = ['region', 't'], right_on = ['region', 't_{}'.format(k)])
    submission_df.rename({"amount":"{}_before_amount_of_region".format(k)}, axis = 1, inplace = True)
    
    submission_df.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    amount_mean_per_t_and_region.drop(['t_{}'.format(k)], axis = 1, inplace = True)    

In [49]:
# t - k (k = 1, 2, 3) 시점의 부착
# submission_df의 t는 amount_sum_per_t_and_sid의 t-k과 부착되어야 하므로, amount_sum_per_t_and_sid의 t에 k를 더함

for k in range(1, 4):
    amount_mean_per_t_and_type_of_business['t_{}'.format(k)] = amount_mean_per_t_and_type_of_business['t'] + k
    submission_df = pd.merge(submission_df, amount_mean_per_t_and_type_of_business.drop('t', axis = 1), left_on = ['type_of_business', 't'], right_on = ['type_of_business', 't_{}'.format(k)])
    submission_df.rename({"amount":"{}_before_amount_of_type_of_business".format(k)}, axis = 1, inplace = True)
    
    submission_df.drop(['t_{}'.format(k)], axis = 1, inplace = True)
    amount_mean_per_t_and_type_of_business.drop(['t_{}'.format(k)], axis = 1, inplace = True)       
    
submission_df.head()

Unnamed: 0,store_id,t,region,type_of_business,평균할부율,1_before_amount,2_before_amount,3_before_amount,1_before_amount_of_region,2_before_amount_of_region,3_before_amount_of_region,1_before_amount_of_type_of_business,2_before_amount_of_type_of_business,3_before_amount_of_type_of_business
0,0,38,없음,기타 미용업,0.038384,682857.142857,874571.428571,676000.0,946877.7,1000725.0,988619.5,585125.0,650055.952381,558241.666667
1,792,38,없음,기타 미용업,0.218887,743214.285714,871071.428571,973857.142857,946877.7,1000725.0,988619.5,585125.0,650055.952381,558241.666667
2,1828,38,경기 용인시,기타 미용업,0.195502,953000.0,816857.142857,911957.142857,1801051.0,2009936.0,1897275.0,585125.0,650055.952381,558241.666667
3,23,38,경기 안양시,기타 미용업,0.048795,660857.142857,999285.714286,827571.428571,784378.0,642183.2,678844.6,585125.0,650055.952381,558241.666667
4,192,38,경기 화성시,기타 미용업,0.100542,467571.428571,550571.428571,399142.857143,1209348.0,1125181.0,1049587.0,585125.0,650055.952381,558241.666667


In [50]:
submission_X = submission_df[X.columns]
submission_X = pipeline(submission_X)

pred_Y = model.predict(submission_X)

result = pd.DataFrame({"store_id":submission_df['store_id'].values,
                      "pred_amount":pred_Y})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self[k1] = value[k2]


In [51]:
result.sort_values(by = 'store_id')

Unnamed: 0,store_id,pred_amount
0,0,5.168055e+06
12,1,1.315465e+06
13,2,1.564663e+06
612,4,5.263719e+06
1187,5,4.485424e+06
...,...,...
609,2132,3.245156e+06
610,2133,1.507945e+06
1186,2134,1.180110e+06
611,2135,2.155392e+06
