# Time Series Feature

In [1]:
import os 
import datetime

In [2]:
%matplotlib inline 

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Data Load 

In [97]:
# sale = pd.read_excel(os.path.join('..', '..', '..', 'sale_data_v03_0820.xlsx'))
sale = pd.read_excel(os.path.join('..', '0.Data', '01_제공데이터', 'sale_data_v03_0820.xlsx'))

In [98]:
sale.shape

(38309, 15)

In [20]:
# 무형 데이터 처리 
sale["NEW상품명"] = sale["NEW상품명"].fillna(sale["상품명"])

In [91]:
sale.head()

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,NEW상품코드,NEW상품명,결제방법,단위,브랜드,옵션,종류
0,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,2099000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0
1,2019-01-01 06:00:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,4371000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0
2,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,3262000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0
3,2019-01-01 06:20:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,6955000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0
4,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,6672000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0


In [92]:
sale.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38309 entries, 0 to 38308
Data columns (total 15 columns):
방송일시       38309 non-null datetime64[ns]
노출(분)      21525 non-null float64
마더코드       38309 non-null int64
상품코드       38309 non-null int64
상품명        38309 non-null object
상품군        38309 non-null object
판매단가       38309 non-null int64
취급액        35379 non-null float64
NEW상품코드    37372 non-null float64
NEW상품명     38309 non-null object
결제방법       37372 non-null float64
단위         22390 non-null object
브랜드        33066 non-null object
옵션         4140 non-null object
종류         22744 non-null object
dtypes: datetime64[ns](1), float64(4), int64(3), object(7)
memory usage: 4.4+ MB


## Feature Engineering

### 1. 동일 상품 / 브랜드 총 방송횟수
* 판매횟수만 따지기 위해서는 원래 데이터를 봐야 하고,
* 방송횟수를 따지기 위해서는 원래 데이터에서 '노출(분)' NaN값을 drop한 dataframe을 봐야 함 !

In [22]:
def broadcast_count(df) :
    # 동일 상품 / 브랜드 총 방송횟수 - 먼저 돌리기 !!
    item_count = df.dropna(subset = ["노출(분)"]).groupby('NEW상품명').count()['방송일시'].reset_index().rename(columns = {'방송일시' : '상품노출횟수'})   
    brand_count = df.dropna(subset = ["노출(분)"]).groupby('브랜드').count()['방송일시'].reset_index().rename(columns = {'방송일시' : '브랜드노출횟수'})

    df = df.merge(item_count, on = 'NEW상품명', how = 'left')
    df = df.merge(brand_count, on = '브랜드', how = 'left')

    df["상품노출횟수"] = df["상품노출횟수"].fillna(method='ffill')
    df["브랜드노출횟수"] = df["브랜드노출횟수"].fillna(0)

    return df

In [93]:
sale = broadcast_count(sale)
sale.head()

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,NEW상품코드,NEW상품명,결제방법,단위,브랜드,옵션,종류,상품노출횟수,브랜드노출횟수
0,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,2099000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0
1,2019-01-01 06:00:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,4371000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0
2,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,3262000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0
3,2019-01-01 06:20:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,6955000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0
4,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,6672000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0


### 2. 동일 상품 / 브랜드 총 판매횟수
* NEW상품명 기준 

In [32]:
def sales_count(df) : 
    df["상품총판매횟수"] = df.groupby(["NEW상품명"])["방송일시"].transform('size')
    df["브랜드총판매횟수"] = df.groupby(["브랜드"])["방송일시"].transform('size')
    
    df["브랜드총판매횟수"] = df["브랜드총판매횟수"].fillna(0)
    
    return df

In [94]:
sale = sales_count(sale)
sale.head()

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,NEW상품코드,NEW상품명,결제방법,단위,브랜드,옵션,종류,상품노출횟수,브랜드노출횟수,상품총판매횟수,브랜드총판매횟수
0,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,2099000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0
1,2019-01-01 06:00:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,4371000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0
2,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,3262000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0
3,2019-01-01 06:20:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,6955000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0
4,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,6672000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0


### 3. 동일상품 시간차 

In [87]:
def product_timelag(df) :
    df["duration"] = df.groupby(["NEW상품명"])["방송일시"].diff()
    
    df["duration"] = df["duration"].fillna(0)
    
    # days, hours, minutes -> minutes 기준으로 합쳐 주기로 함 ! 
    time = df['duration'].dt.components[['days', 'hours', 'minutes']]
    time["동일상품시간차"] = time['days']*60*24 + time['hours']*60 + time['minutes']
    
    df = pd.concat([df, time], axis = 1)
    df = df.drop(['duration', 'days', 'hours', 'minutes'], axis=1)
    
    return df

In [95]:
sale = product_timelag(sale)
sale.head()

  after removing the cwd from sys.path.


Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,NEW상품코드,NEW상품명,결제방법,단위,브랜드,옵션,종류,상품노출횟수,브랜드노출횟수,상품총판매횟수,브랜드총판매횟수,동일상품시간차
0,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,2099000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0,0
1,2019-01-01 06:00:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,4371000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0,0
2,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,3262000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0,20
3,2019-01-01 06:20:00,,100346,201079,테이트 여성 셀린니트3종,의류,39900,6955000.0,866.0,테이트 여성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0,20
4,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,의류,39900,6672000.0,865.0,테이트 남성 셀린니트 3종,0.0,3종,테이트,,0,5.0,62.0,5,121.0,20


### 최종 데이터 타입 ! 

In [96]:
sale.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 38309 entries, 0 to 38308
Data columns (total 20 columns):
방송일시        38309 non-null datetime64[ns]
노출(분)       21525 non-null float64
마더코드        38309 non-null int64
상품코드        38309 non-null int64
상품명         38309 non-null object
상품군         38309 non-null object
판매단가        38309 non-null int64
취급액         35379 non-null float64
NEW상품코드     37372 non-null float64
NEW상품명      38309 non-null object
결제방법        37372 non-null float64
단위          22390 non-null object
브랜드         33066 non-null object
옵션          4140 non-null object
종류          22744 non-null object
상품노출횟수      38309 non-null float64
브랜드노출횟수     38309 non-null float64
상품총판매횟수     38309 non-null int64
브랜드총판매횟수    38309 non-null float64
동일상품시간차     38309 non-null int64
dtypes: datetime64[ns](1), float64(7), int64(5), object(7)
memory usage: 7.4+ MB
