# 3. 향후 판매량 예측 경진대회 베이스라인 모델

- **계획**
    1. 피처명 한글화
    2. 다운캐스팅
    3. 데이터 조합 생성
    4. 파생 피처 추가
    5. 테스트 데이터 이어붙이기
    6. 나머지 데이터 병합 (최종 데이터 생성)
    7. 훈련, 검증, 테스트 데이터 만들기

In [1]:
import numpy as np
import pandas as pd
import warnings

warnings.filterwarnings(action='ignore') # 경고 문구 생략

# 데이터 경로
data_path = '/kaggle/input/competitive-data-science-predict-future-sales/'

sales_train = pd.read_csv(data_path + 'sales_train.csv')
shops = pd.read_csv(data_path + 'shops.csv')
items = pd.read_csv(data_path + 'items.csv')
item_categories = pd.read_csv(data_path + 'item_categories.csv')
test = pd.read_csv(data_path + 'test.csv')
submission = pd.read_csv(data_path + 'sample_submission.csv')

## 3-1. 피처 엔지니어링 I : 피처명 한글화

- 피처를 쉽게 알아보려면 피처명이 한글인 것이 좋다
- `sales_train.csv`, `shops.csv`, `items.csv`, `item_categories.csv`, `test.csv` 의 피처명을 모두 한글로 바꾸어보자

In [2]:
sales_train = sales_train.rename(columns={'date': '날짜', 
                                          'date_block_num': '월ID',
                                          'shop_id': '상점ID',
                                          'item_id': '상품ID',
                                          'item_price': '판매가',
                                          'item_cnt_day': '판매량'})

sales_train.head()

Unnamed: 0,날짜,월ID,상점ID,상품ID,판매가,판매량
0,02.01.2013,0,59,22154,999.0,1.0
1,03.01.2013,0,25,2552,899.0,1.0
2,05.01.2013,0,25,2552,899.0,-1.0
3,06.01.2013,0,25,2554,1709.05,1.0
4,15.01.2013,0,25,2555,1099.0,1.0


In [3]:
shops = shops.rename(columns={'shop_name': '상점명',
                              'shop_id': '상점ID'})

shops.head()

Unnamed: 0,상점명,상점ID
0,"!Якутск Орджоникидзе, 56 фран",0
1,"!Якутск ТЦ ""Центральный"" фран",1
2,"Адыгея ТЦ ""Мега""",2
3,"Балашиха ТРК ""Октябрь-Киномир""",3
4,"Волжский ТЦ ""Волга Молл""",4


In [4]:
items = items.rename(columns={'item_name': '상품명',
                              'item_id': '상품ID',
                              'item_category_id': '상품분류ID'})

items.head()

Unnamed: 0,상품명,상품ID,상품분류ID
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40


In [5]:
item_categories = item_categories.rename(columns=
                                         {'item_category_name': '상품분류명',
                                          'item_category_id': '상품분류ID'})

item_categories.head()

Unnamed: 0,상품분류명,상품분류ID
0,PC - Гарнитуры/Наушники,0
1,Аксессуары - PS2,1
2,Аксессуары - PS3,2
3,Аксессуары - PS4,3
4,Аксессуары - PSP,4


In [6]:
test = test.rename(columns={'shop_id': '상점ID',
                            'item_id': '상품ID'})

test.head()

Unnamed: 0,ID,상점ID,상품ID
0,0,5,5037
1,1,5,5320
2,2,5,5233
3,3,5,5232
4,4,5,5268


## 3-2. 피처 엔지니어링 II: 데이터 다운캐스팅

- **다운캐스팅(downcasting)**: 더 작은 데이터타입으로 변환하는 작업
- 데이터 다운캐스팅을 왜 하는지와 그 방법을 배워보자


- 판다스로 데이터를 불러오면 기본적으로 정수형은 `int64`, 실수형은 `float64` 타입을 할당
- 각각 정수형, 실수형에서 가장 큰 타입
- 크지 않은 숫자가 저장된 피처라면 `int8`, `int16`, `int32`, `float16`, `float32` 등 보다 작은 타입으로 할당할 수 있다.
    - 메모리 낭비를 막고, 훈련 속도를 높힐 수 있음
    



In [7]:
# 해당 피처 크기에 맞게 적절한 타입으로 바꿔주는 함수
def downcast(df, verbose=True):
    start_mem = df.memory_usage().sum() / 1024**2
    for col in df.columns:
        dtype_name = df[col].dtype.name
        if dtype_name == 'object':
            pass
        elif dtype_name == 'bool':
            df[col] = df[col].astype('int8')
        elif dtype_name.startswith('int') or (df[col].round() == df[col]).all():
            df[col] = pd.to_numeric(df[col], downcast='integer')
        else:
            df[col] = pd.to_numeric(df[col], downcast='float')
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose:
        print('{:.1f}% 압축됨'.format(100 * (start_mem - end_mem) / start_mem))
    
    return df

In [8]:
all_df = [sales_train, shops, items, item_categories, test]
for df in all_df:
    df = downcast(df)

62.5% 압축됨
38.6% 압축됨
54.2% 압축됨
39.9% 압축됨
70.8% 압축됨


## 3-3. 피처 엔지니어링 III : 데이터 조합 생성

- 우리는 `월ID`, `상점ID`, `상품ID` 피처 조합이 
- 데이터 조합은 `itertools`가 제공하는 `product()` 함수로 쉽게 만들어낼 수 있다.

In [9]:
from itertools import product

train = []
# 월ID, 상점ID, 상품ID 조합 생성 
for i in sales_train['월ID'].unique():
    all_shop = sales_train.loc[sales_train['월ID']==i, '상점ID'].unique()
    all_item = sales_train.loc[sales_train['월ID']==i, '상품ID'].unique()
    train.append(np.array(list(product([i], all_shop, all_item))))

idx_features = ['월ID', '상점ID', '상품ID'] # 기준 피처
# 리스트 타입인 train을 DataFrame 타입으로 변환 
train = pd.DataFrame(np.vstack(train), columns=idx_features)

train

Unnamed: 0,월ID,상점ID,상품ID
0,0,59,22154
1,0,59,2552
2,0,59,2554
3,0,59,2555
4,0,59,2564
...,...,...,...
10913845,33,21,7635
10913846,33,21,7638
10913847,33,21,7640
10913848,33,21,7632


- 월 ID의 고윳값 (0~33) 별로 모든 상점ID 고윳값, 상품ID 고윳값을 구해 조합을 생성
- 이렇게 만든 `train`을 앞으로 훈련 데이터의 뼈대로 사용할것이다.
- 뼈대가 되는 `train`에 타깃값을 병합하고, 나머지 `shops.csv`, `items.csv`, `item_categories.csv`도 병합할 것이다.

## 3-4. 피처 엔지니어링 IV : 타깃값(월간 판매량) 추가

- `sales_train`에는 <u>일별 판매량</u>을 나타내는 '판매량' 피처가 있다
- 하지만 우리가 원하는 타깃값은 각 상점의 상품별 <u>월간 판매량</u>입니다.
- 이 값을 구하려면 `월ID`, `상점ID`, `상품ID`를 기준으로 그룹화해 판매량을 더해야 합니다.
    - `groupby()` 함수를 이용

In [10]:
# idx_features를 기준으로 그룹화해 판매량 합 구하기 
group = sales_train.groupby(idx_features).agg({'판매량': 'sum'})
# 인덱스 재설정
group = group.reset_index()
# 피처명을 '판매량'에서 '월간 판매량'으로 변경
group = group.rename(columns={'판매량': '월간 판매량'})

group

Unnamed: 0,월ID,상점ID,상품ID,월간 판매량
0,0,0,32,6
1,0,0,33,3
2,0,0,35,1
3,0,0,43,1
4,0,0,51,2
...,...,...,...,...
1609119,33,59,22087,6
1609120,33,59,22088,2
1609121,33,59,22091,1
1609122,33,59,22100,1


- `train`과 `group`을 병합해보자
- `train`은 월ID, 상점ID, 상품ID, 조합이므로 `group`을 병합하면
    - ➡️ 월ID, 상점ID, 상품ID, 월간 판매량 조합을 구할 수 있다.

In [11]:
# train과 group 병합하기
train = train.merge(group, on=idx_features, how='left')

train

Unnamed: 0,월ID,상점ID,상품ID,월간 판매량
0,0,59,22154,1.0
1,0,59,2552,
2,0,59,2554,
3,0,59,2555,
4,0,59,2564,
...,...,...,...,...
10913845,33,21,7635,
10913846,33,21,7638,
10913847,33,21,7640,
10913848,33,21,7632,


- 결측값은 0으로 추후에 대체할 예정

### 🗑️ 가비지 컬렉션(Garbage collection)

- `group` 데이터는 더 이상 필요 없으니 메모리 절약 차원에서 가비지 컬렉션을 해주겠다.

In [12]:
import gc # 가비지 컬렉터 불러오기

del group # 더는 사용하지 않는 변수 지정
gc.collect(); # 가비지 컬렉션 수행

## 3-5. 피처 엔지니어링 V : 테스트 데이터 이어붙이기

- 이제 `train` 데이터에 테스트 데이터(`test`)를 이어붙일 것이다.
- 테스트 데이터를 이어붙이는 이유는 뒤이어 `shops.csv`, `items.csv`, `item_categories` 데이터를 병합할 때 테스트 데이터도 한번에 하기 위해서이다.

In [15]:
test['월ID'] = 34

In [16]:
# train과 test 이어붙이기
all_data = pd.concat([train, test.drop('ID', axis=1)],
                     ignore_index=True, # 기존 인덱스 무시(0부터 새로 시작)
                     keys=idx_features) # 이어붙이는 기준이 되는 피처

In [17]:
# 결측값을 0으로 대체
all_data = all_data.fillna(0)

all_data

Unnamed: 0,월ID,상점ID,상품ID,월간 판매량
0,0,59,22154,1.0
1,0,59,2552,0.0
2,0,59,2554,0.0
3,0,59,2555,0.0
4,0,59,2564,0.0
...,...,...,...,...
11128045,34,45,18454,0.0
11128046,34,45,16188,0.0
11128047,34,45,15757,0.0
11128048,34,45,19648,0.0


## 3-6. 피처 엔지니어링 VI : 나머지 데이터 병합(최종 데이터 생성)

In [18]:
# 나머지 데이터 병합
all_data = all_data.merge(shops, on='상점ID', how='left')
all_data = all_data.merge(items, on='상품ID', how='left')
all_data = all_data.merge(item_categories, on='상품분류ID', how='left')

# 데이터 다운캐스팅
all_data = downcast(all_data)

# 가비지 컬렉션
del shops, items, item_categories
gc.collect();

26.4% 압축됨


In [19]:
all_data.head()

Unnamed: 0,월ID,상점ID,상품ID,월간 판매량,상점명,상품명,상품분류ID,상품분류명
0,0,59,22154,1,"Ярославль ТЦ ""Альтаир""",ЯВЛЕНИЕ 2012 (BD),37,Кино - Blu-Ray
1,0,59,2552,0,"Ярославль ТЦ ""Альтаир""",DEEP PURPLE The House Of Blue Light LP,58,Музыка - Винил
2,0,59,2554,0,"Ярославль ТЦ ""Альтаир""",DEEP PURPLE Who Do You Think We Are LP,58,Музыка - Винил
3,0,59,2555,0,"Ярославль ТЦ ""Альтаир""",DEEP PURPLE 30 Very Best Of 2CD (Фирм.),56,Музыка - CD фирменного производства
4,0,59,2564,0,"Ярославль ТЦ ""Альтаир""",DEEP PURPLE Perihelion: Live In Concert DVD (К...,59,Музыка - Музыкальное видео


In [20]:
all_data = all_data.drop(['상점명', '상품명', '상품분류명'], axis=1)

## 3-7. 피처 엔지니어링 VII : 마무리

- 앞서 모든 데이터를 병합해 `all_data`를 만들었다.
- 이제 `all_data`를 활용해 훈련, 검증, 테스트용 데이터를 만들 것이다.
>    - **훈련 데이터**: 2013.01 ~ 2015.09 (월ID = 32) 까지의 판매 내역
>    - **검증 데이터**: 2015.10 (월ID = 33) 판매 내역
>    - **테스트 데이터**: 2015.11 (월ID = 34) 판매 내역

In [21]:
# 훈련 데이터 (피처)
X_train = all_data[all_data['월ID'] < 33]
X_train = X_train.drop(['월간 판매량'], axis=1)
# 검증 데이터 (피처)
X_valid = all_data[all_data['월ID'] == 33]
X_valid = X_valid.drop(['월간 판매량'], axis=1)
# 테스트 데이터 (피처)
X_test = all_data[all_data['월ID'] == 34]
X_test = X_test.drop(['월간 판매량'], axis=1)

# 훈련 데이터 (타깃값)
y_train = all_data[all_data['월ID'] < 33]['월간 판매량']
y_train = y_train.clip(0, 20) # 타깃값을 0 ~ 20로 제한
# 검증 데이터 (타깃값)
y_valid = all_data[all_data['월ID'] == 33]['월간 판매량']
y_valid = y_valid.clip(0, 20)

- 추가로 `clip()` 넘파이 함수를 활용해 타깃값인 '각 상점 상품별 월간 판매량'을 0~20 사이로 제한

In [22]:
del all_data
gc.collect();

## 3-8. 모델 훈련 및 성능 검증

- 베이스라인 모델로는 "LigthGBM"을 사용
- 기본 파라미터만 설정하고 "LightGBM"용 데이터셋을 만들어서 훈련
- `train()` 메서드의 `categorical_feature` 파라미터에는 범주형 데이터를 전달
    - 범주형 데이터로는 상점ID, 상품ID, 상품분류ID가 있다.
    - 이중 상품ID를 뺀 상점ID와 상품분류ID만 인수로 전달할 것이다.
    - LightGBM 문서에 따르면 고윳값 개수가 너무 많은 범주형 데이터는 수치형 데이터로 취급해야 성능이 더 잘 나온다고 한다.

In [23]:
import lightgbm as lgb

# LightGBM 하이퍼파라미터
params = {'metric': 'rmse', # 평가지표 = rmse
          'num_leaves': 255,
          'learning_rate': 0.01,
          'force_col_wise': True,
          'random_state': 10}

# 범주형 피처 설정
cat_features = ['상점ID', '상품분류ID']

# LightGBM 훈련 및 검증 데이터셋
dtrain = lgb.Dataset(X_train, y_train)
dvalid = lgb.Dataset(X_valid, y_valid)

# LightGBM 모델 훈련
lgb_model = lgb.train(params=params,
                      train_set=dtrain,
                      num_boost_round=500,
                      valid_sets=(dtrain, dvalid),
                      categorical_feature=cat_features,
                      verbose_eval=50)  

[LightGBM] [Info] Total Bins 426
[LightGBM] [Info] Number of data points in the train set: 10675678, number of used features: 4
[LightGBM] [Info] Start training from score 0.299125
[50]	training's rmse: 1.14777	valid_1's rmse: 1.06755
[100]	training's rmse: 1.11425	valid_1's rmse: 1.0386
[150]	training's rmse: 1.09673	valid_1's rmse: 1.02671
[200]	training's rmse: 1.08573	valid_1's rmse: 1.02027
[250]	training's rmse: 1.07722	valid_1's rmse: 1.01661
[300]	training's rmse: 1.0698	valid_1's rmse: 1.0138
[350]	training's rmse: 1.06317	valid_1's rmse: 1.01084
[400]	training's rmse: 1.05734	valid_1's rmse: 1.00936
[450]	training's rmse: 1.05224	valid_1's rmse: 1.00818
[500]	training's rmse: 1.04792	valid_1's rmse: 1.00722


## 3-9. 예측 및 결과 제출

In [24]:
# 예측
preds = lgb_model.predict(X_test).clip(0, 20)
# 제출 파일 생성
submission['item_cnt_month'] = preds
submission.to_csv('submission.csv', index=False)

In [25]:
del X_train, y_train, X_valid, y_valid, X_test, lgb_model, dtrain, dvalid
gc.collect();