# 빅 콘테스트 데이터 모델링
> 이전의 기초적인 데이터 전처리와 모델링을 더욱 발전시켜 정확도의 향상을 노려보자.

In [3]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np
import pickle

In [4]:
# 전처리한 데이터 불러오기
with open('dataframe_2.pkl', 'rb') as f:
    load_df=pickle.load(f)
    
load_df

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,성별 포함,년,월,일자,시,분,초
1,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,2099000,1,2019,1,1,6,0,0
2,2019-01-01 06:00:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,4371000,2,2019,1,1,6,0,0
3,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,3262000,1,2019,1,1,6,20,0
4,2019-01-01 06:20:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,6955000,2,2019,1,1,6,20,0
5,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,6672000,1,2019,1,1,6,40,0
6,2019-01-01 06:40:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,9337000,2,2019,1,1,6,40,0
7,2019-01-01 07:00:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,6819000,2,2019,1,1,7,0,0
8,2019-01-01 07:20:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,15689000,2,2019,1,1,7,20,0
9,2019-01-01 07:40:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,25370000,2,2019,1,1,7,40,0
10,2019-01-01 08:00:00,20.0,100808,202377,CERINI by PAT 남성 소프트 기모 릴렉스팬츠,2,59900,16133000,1,2019,1,1,8,0,0


이전 모델링에서는 원래 주어진 데이터셋에 몇 가지 column을 추가하였다. 추가한 column의 상세 사항은 다음과 같다.

1. '성별 포함' : 남/녀 성별 카테고리를 나눌 수 있는 상품에 임의의 숫자를 부여하였다. 남자는 1, 여자는 2, 성별 카테고리에 포함되지 않는 상품의 경우 0을 값으로 했다.
<br>
2. '년', '월', '일', '시', '분', '초' : '방송일시' column을 년, 월, 일, 시간, 분, 초로 분할하여 각각 column으로 만들었다.  


이 외에 또 추가할 수 있는 정보가 있을까? 상품명을 좀 더 자세히 들여다보자.

In [5]:
# 무이자/일시불 구분 상품 확인
# 무이자
load_df[load_df['상품명'].str.contains('무이자')] # 6257

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,성별 포함,년,월,일자,시,분,초
46,2019-01-01 20:00:00,20.0,100150,200465,무이자 LG 통돌이 세탁기,1,489000,19123000,0,2019,1,1,20,0,0
48,2019-01-01 20:20:00,20.0,100150,200465,무이자 LG 통돌이 세탁기,1,489000,58685000,0,2019,1,1,20,20,0
50,2019-01-01 20:40:00,20.0,100150,200465,무이자 LG 통돌이 세탁기,1,489000,46068000,0,2019,1,1,20,40,0
81,2019-01-02 10:00:00,20.0,100448,202093,무이자 쿠첸 풀스텐 압력밥솥 10인용(A1),0,168000,8951000,0,2019,1,2,10,0,0
83,2019-01-02 10:00:00,20.0,100448,202095,무이자 쿠첸 풀스텐 압력밥솥 6인용(A1),0,158000,2262000,0,2019,1,2,10,0,0
85,2019-01-02 10:20:00,20.0,100448,202093,무이자 쿠첸 풀스텐 압력밥솥 10인용(A1),0,168000,13074000,0,2019,1,2,10,20,0
87,2019-01-02 10:20:00,20.0,100448,202095,무이자 쿠첸 풀스텐 압력밥솥 6인용(A1),0,158000,4507000,0,2019,1,2,10,20,0
89,2019-01-02 10:40:00,20.0,100448,202093,무이자 쿠첸 풀스텐 압력밥솥 10인용(A1),0,168000,18925000,0,2019,1,2,10,40,0
91,2019-01-02 10:40:00,20.0,100448,202095,무이자 쿠첸 풀스텐 압력밥솥 6인용(A1),0,158000,3368000,0,2019,1,2,10,40,0
94,2019-01-02 12:00:00,20.0,100765,202230,무이자 린나이 간편쿡 자동불꽃조절 가스레인지 3구,0,238000,10107000,0,2019,1,2,12,0,0


In [6]:
# 일시불
load_df[load_df['상품명'].str.contains('일시불')] # 6232

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,성별 포함,년,월,일자,시,분,초
45,2019-01-01 20:00:00,20.0,100150,200533,일시불 LG 통돌이 세탁기,1,439000,35519000,0,2019,1,1,20,0,0
47,2019-01-01 20:20:00,20.0,100150,200533,일시불 LG 통돌이 세탁기,1,439000,56859000,0,2019,1,1,20,20,0
49,2019-01-01 20:40:00,20.0,100150,200533,일시불 LG 통돌이 세탁기,1,439000,68320000,0,2019,1,1,20,40,0
80,2019-01-02 10:00:00,20.0,100448,202098,일시불 쿠첸 풀스텐 압력밥솥 10인용 (A1),0,158000,7239000,0,2019,1,2,10,0,0
82,2019-01-02 10:00:00,20.0,100448,202100,일시불 쿠첸 풀스텐 압력밥솥 6인용(A1),0,148000,2118000,0,2019,1,2,10,0,0
84,2019-01-02 10:20:00,20.0,100448,202098,일시불 쿠첸 풀스텐 압력밥솥 10인용 (A1),0,158000,27223000,0,2019,1,2,10,20,0
86,2019-01-02 10:20:00,20.0,100448,202100,일시불 쿠첸 풀스텐 압력밥솥 6인용(A1),0,148000,9408000,0,2019,1,2,10,20,0
88,2019-01-02 10:40:00,20.0,100448,202098,일시불 쿠첸 풀스텐 압력밥솥 10인용 (A1),0,158000,44478000,0,2019,1,2,10,40,0
90,2019-01-02 10:40:00,20.0,100448,202100,일시불 쿠첸 풀스텐 압력밥솥 6인용(A1),0,148000,13024000,0,2019,1,2,10,40,0
95,2019-01-02 12:00:00,20.0,100765,202238,일시불 린나이 간편쿡 자동불꽃조절 가스레인지 3구,0,228000,2270000,0,2019,1,2,12,0,0


보다시피 적지 않은 상품이 무이자/일시불로 구분되어 있음을 볼 수 있다. 그렇다면 이를 이용해 새로운 column을 생성해보자.

## 무이자/일시불 구분 column 추가

In [7]:
# 새로운 column 추가하기
condition_li=[
    (load_df['상품명'].str.contains('무이자')),
    (load_df['상품명'].str.contains('일시불'))
]
value_li=[1, 2]
load_df['무이자/일시불 구분']=np.select(condition_li,value_li) # 해당 사항 없는 상품의 값은 0으로 표시

In [8]:
load_df

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,성별 포함,년,월,일자,시,분,초,무이자/일시불 구분
1,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,2099000,1,2019,1,1,6,0,0,0
2,2019-01-01 06:00:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,4371000,2,2019,1,1,6,0,0,0
3,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,3262000,1,2019,1,1,6,20,0,0
4,2019-01-01 06:20:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,6955000,2,2019,1,1,6,20,0,0
5,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,6672000,1,2019,1,1,6,40,0,0
6,2019-01-01 06:40:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,9337000,2,2019,1,1,6,40,0,0
7,2019-01-01 07:00:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,6819000,2,2019,1,1,7,0,0,0
8,2019-01-01 07:20:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,15689000,2,2019,1,1,7,20,0,0
9,2019-01-01 07:40:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,25370000,2,2019,1,1,7,40,0,0
10,2019-01-01 08:00:00,20.0,100808,202377,CERINI by PAT 남성 소프트 기모 릴렉스팬츠,2,59900,16133000,1,2019,1,1,8,0,0,0


## 주문량 column 추가

In [9]:
# 취급액 / 판매단가
load_df['주문량'] = load_df['취급액'] / load_df['판매단가']
load_df

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,성별 포함,년,월,일자,시,분,초,무이자/일시불 구분,주문량
1,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,2099000,1,2019,1,1,6,0,0,0,52.606516
2,2019-01-01 06:00:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,4371000,2,2019,1,1,6,0,0,0,109.548872
3,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,3262000,1,2019,1,1,6,20,0,0,81.754386
4,2019-01-01 06:20:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,6955000,2,2019,1,1,6,20,0,0,174.310777
5,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,6672000,1,2019,1,1,6,40,0,0,167.218045
6,2019-01-01 06:40:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,9337000,2,2019,1,1,6,40,0,0,234.010025
7,2019-01-01 07:00:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,6819000,2,2019,1,1,7,0,0,0,115.576271
8,2019-01-01 07:20:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,15689000,2,2019,1,1,7,20,0,0,265.915254
9,2019-01-01 07:40:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,25370000,2,2019,1,1,7,40,0,0,430.000000
10,2019-01-01 08:00:00,20.0,100808,202377,CERINI by PAT 남성 소프트 기모 릴렉스팬츠,2,59900,16133000,1,2019,1,1,8,0,0,0,269.332220


In [10]:
# 단위 수 조정(소수 셋째자리에서 반올림)
load_df['주문량'] = np.round(load_df['주문량'], 2)
load_df

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액,성별 포함,년,월,일자,시,분,초,무이자/일시불 구분,주문량
1,2019-01-01 06:00:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,2099000,1,2019,1,1,6,0,0,0,52.61
2,2019-01-01 06:00:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,4371000,2,2019,1,1,6,0,0,0,109.55
3,2019-01-01 06:20:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,3262000,1,2019,1,1,6,20,0,0,81.75
4,2019-01-01 06:20:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,6955000,2,2019,1,1,6,20,0,0,174.31
5,2019-01-01 06:40:00,20.0,100346,201072,테이트 남성 셀린니트3종,2,39900,6672000,1,2019,1,1,6,40,0,0,167.22
6,2019-01-01 06:40:00,20.0,100346,201079,테이트 여성 셀린니트3종,2,39900,9337000,2,2019,1,1,6,40,0,0,234.01
7,2019-01-01 07:00:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,6819000,2,2019,1,1,7,0,0,0,115.58
8,2019-01-01 07:20:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,15689000,2,2019,1,1,7,20,0,0,265.92
9,2019-01-01 07:40:00,20.0,100305,200974,오모떼 레이스 파운데이션 브라,3,59000,25370000,2,2019,1,1,7,40,0,0,430.00
10,2019-01-01 08:00:00,20.0,100808,202377,CERINI by PAT 남성 소프트 기모 릴렉스팬츠,2,59900,16133000,1,2019,1,1,8,0,0,0,269.33


이제 추가한 열을 바탕으로 다시 한번 모델링을 시도해 보자. 우선은 훈련을 위한 column들을 고르고(이전과 달리 '년' column은 학습에서 제외한다. 너무 거시적인 단위라 실시간 방송의 매출에 있어서는 그리 큰 영향을 미치지 못한다고 판단되었기 때문이다.), 선정이 끝나면 그 column들을 언제나 꺼내 쓰기 쉽도록 pkl파일로 저장한다.

In [18]:
# 훈련에 사용할 column 선택, 추출
train_df=load_df[['노출(분)', '마더코드', '상품코드', '상품군', '판매단가', '성별 포함', '월', '일자', '시', '분', '무이자/일시불 구분']]
label_df=load_df[['취급액']]

In [38]:
# 훈련 데이터 확인
train_df.head(10)
train_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 37372 entries, 1 to 38304
Data columns (total 11 columns):
노출(분)         37372 non-null float64
마더코드          37372 non-null int64
상품코드          37372 non-null int64
상품군           37372 non-null int64
판매단가          37372 non-null int64
성별 포함         37372 non-null int32
월             37372 non-null int64
일자            37372 non-null int64
시             37372 non-null int64
분             37372 non-null int64
무이자/일시불 구분    37372 non-null int32
dtypes: float64(1), int32(2), int64(8)
memory usage: 3.1 MB


In [20]:
# 정답 label 확인
label_df.head(10)

Unnamed: 0,취급액
1,2099000
2,4371000
3,3262000
4,6955000
5,6672000
6,9337000
7,6819000
8,15689000
9,25370000
10,16133000


In [21]:
# 각 데이터 저장
# 훈련 데이터
with open('train_df.pkl', 'wb') as f:
    pickle.dump(train_df, f)

# 정답 데이터
with open('label_df.pkl', 'wb') as f:
    pickle.dump(label_df, f)
    
print('저장이 완료되었습니다.')

저장이 완료되었습니다.


## 데이터 정규화 시도
> 현재 훈련 데이터셋을 보면, 각 column의 단위에 큰 차이가 나는 것을 확인할 수 있다. 이는 모델링에 영향을 미칠 수 있는 요소이므로 scaler를 이용하여 정규화를 진행한다.

In [22]:
# 라이브러리 불러오기
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 저장해둔 데이터 불러오기
with open('train_df.pkl', 'rb') as f:
    train_df=pickle.load(f)
    
with open('label_df.pkl', 'rb') as f:
    label_df=pickle.load(f)

In [23]:
# 정규화 준비
scaler_1=MinMaxScaler()
scaler_2=StandardScaler()

# MinMaxScaler
scaler_1.fit(train_df)
train_df_mm=scaler_1.transform(train_df)

# StandardScaler
scaler_2.fit(train_df)
train_df_s=scaler_2.transform(train_df)

  return self.partial_fit(X, y)
  return self.partial_fit(X, y)
  # This is added back by InteractiveShellApp.init_path()


In [24]:
# 정규화 데이터 확인
print(train_df_mm)
print(train_df_s)

[[0.46714032 0.40753828 0.42658177 ... 0.26086957 0.         0.        ]
 [0.46714032 0.40753828 0.42936729 ... 0.26086957 0.         0.        ]
 [0.46714032 0.40753828 0.42658177 ... 0.26086957 0.4        0.        ]
 ...
 [0.46714032 0.52767962 0.55312376 ... 0.         0.         1.        ]
 [0.46714032 0.52767962 0.55073617 ... 0.         0.         0.5       ]
 [0.46714032 0.52767962 0.55352169 ... 0.         0.         1.        ]]
[[-0.12301411 -0.17304154 -0.18958555 ... -1.25496094 -1.22391267
  -0.65578011]
 [-0.12301411 -0.17304154 -0.18009808 ... -1.25496094 -1.22391267
  -0.65578011]
 [-0.12301411 -0.17304154 -0.18958555 ... -1.25496094 -0.00432397
  -0.65578011]
 ...
 [-0.12301411  0.23273225  0.24141675 ... -2.16123427 -1.22391267
   1.96243624]
 [-0.12301411  0.23273225  0.23328463 ... -2.16123427 -1.22391267
   0.65332807]
 [-0.12301411  0.23273225  0.2427721  ... -2.16123427 -1.22391267
   1.96243624]]


## 모델링
> 추가 전처리 전의 데이터로 시도했던 모델과 동일한 모델로 정확도의 변화를 확인해본다. 


- 이전의 모델링에서 가장 결과가 좋았던 RandomForestRegressor, GradientBoostiongRegressor를 선택한다. 
- 똑같은 random_state 값(=66)을 주어 보다 정확한 비교를 시도한다.

In [66]:
# 라이브러리 불러오기
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from xgboost import XGBRegressor
from lightgbm import LGBMRegressor

# train/test/val split
x_train, x_test, y_train, y_test=train_test_split(train_df_mm, label_df, train_size=0.9, test_size=0.1)
# x_val, x_test, y_test, y_val=train_test_split(x_test, y_test, train_size=0.5, test_size=0.5)

# 모델 적용
model_rf=RandomForestRegressor(random_state=66)
model_rf.fit(x_train, y_train)

model_gb=GradientBoostingRegressor(random_state=66)
model_gb.fit(x_train, y_train)

model_xgb=XGBRegressor(random_state=66)
model_xgb.fit(x_train, y_train)

model_lgbm=LGBMRegressor(random_state=66)
model_lgbm.fit(x_train, y_train)

# 정확도 비교
print("randomforest 훈련 정확도 : {:.2f}".format(model_rf.score(x_train, y_train)))
print("randomforest 테스트 정확도 : {:.2f}".format(model_rf.score(x_test, y_test)))

print("gradientboosting 훈련 정확도 : {:.2f}".format(model_gb.score(x_train, y_train)))
print("gradientboosting 테스트 정확도 : {:.2f}".format(model_gb.score(x_test, y_test)))

print("XGBoost 훈련 정확도 : {:.2f}".format(model_xgb.score(x_train, y_train)))
print("XGBoost 테스트 정확도 : {:.2f}".format(model_xgb.score(x_test, y_test)))

print("lgbm 훈련 정확도 : {:.2f}".format(model_lgbm.score(x_train, y_train)))
print("lgbm 테스트 정확도 : {:.2f}".format(model_lgbm.score(x_test, y_test)))

  del sys.path[0]
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


randomforest 훈련 정확도 : 0.94
randomforest 테스트 정확도 : 0.71
gradientboosting 훈련 정확도 : 0.51
gradientboosting 테스트 정확도 : 0.52
XGBoost 훈련 정확도 : 0.80
XGBoost 테스트 정확도 : 0.75
lgbm 훈련 정확도 : 0.69
lgbm 테스트 정확도 : 0.68


놀랍게도 훈련 정확도 및 테스트 정확도가 대폭 상승하였다. 그러나 지나치게 1에 가까운 것으로 보아 과적합이 강하게 의심된다. scaler를 사용하지 않았을 때도 정확도는 큰 차이가 나지 않았고, random_state를 주지 않은 상태에서도 마찬가지였으므로 column의 새로운 열 추가가 주요한 영향을 미친 것으로 보인다. 

## 테스트 데이터 전처리
> 실제 test 데이터에 적용하기 위해서는 test 데이터를 전처리하는 과정이 필요하다. 우선 먼젓번의 전처리 과정을 참고하여 함수화한 후 적용한다.

In [32]:
# 전처리 함수화
def data_preprocessing(df):
    df=df.fillna(method='ffill')
    df['상품군']=df['상품군'].replace(['주방', '가전', '의류', '속옷','잡화', '농수축', '생활용품', '가구', '이미용', '건강기능', '침구'], 
                    [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
    
    condition_li=[
        (df['상품명'].str.contains('남성')),
        (df['상품명'].str.contains('여성')),
        (df['상품명'].str.contains('브라')),
        (df['상품명'].str.contains('오모떼')),
        (df['상품명'].str.contains('보정팬티')),
        (df['상품명'].str.contains('뷰티'))]
    value_li=[1, 2, 2, 2, 2, 2]
    
    df['성별 포함']=np.select(condition_li,value_li)
    
    # 방송일시 전처리하기
#     df['월']=df['방송일시'].dt.month
#     df['일자']=df['방송일시'].dt.day
#     df['시']=df['방송일시'].dt.hour
#     df['분']=df['방송일시'].dt.minute
#     df['초']=df['방송일시'].dt.second
    
    # 새로운 column 추가하기
    condition_li=[
        (df['상품명'].str.contains('무이자')),
        (df['상품명'].str.contains('일시불'))]
    value_li=[1, 2]
    df['무이자/일시불 구분']=np.select(condition_li,value_li) # 해당 사항 없는 상품의 값은 0으로 표시
    
    train_df=df[['방송일시', '노출(분)', '마더코드', '상품코드', '상품군', '판매단가', '성별 포함', '무이자/일시불 구분']]
    
    return train_df

In [27]:
test_df=pd.read_csv('test_data.csv') # 테스트 데이터

row_name=test_df.loc[0].tolist()
test_df.columns=row_name
test_df=test_df.drop(test_df.index[0])

test_df.head(10)

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액
1,2020-06-01 6:20,20,100650,201971,잭필드 남성 반팔셔츠 4종,의류,59800,
2,2020-06-01 6:40,20,100650,201971,잭필드 남성 반팔셔츠 4종,의류,59800,
3,2020-06-01 7:00,20,100650,201971,잭필드 남성 반팔셔츠 4종,의류,59800,
4,2020-06-01 7:20,20,100445,202278,쿠미투니카 쿨 레이시 란쥬쉐이퍼&팬티,속옷,69900,
5,2020-06-01 7:40,20,100445,202278,쿠미투니카 쿨 레이시 란쥬쉐이퍼&팬티,속옷,69900,
6,2020-06-01 8:00,20,100445,202278,쿠미투니카 쿨 레이시 란쥬쉐이퍼&팬티,속옷,69900,
7,2020-06-01 8:20,20,100381,201247,바비리스 퍼펙트 볼륨스타일러,이미용,59000,
8,2020-06-01 8:40,20,100381,201247,바비리스 퍼펙트 볼륨스타일러,이미용,59000,
9,2020-06-01 9:00,20,100381,201247,바비리스 퍼펙트 볼륨스타일러,이미용,59000,
10,2020-06-01 9:20,20,100638,201956,램프쿡 자동회전냄비,주방,109000,


In [29]:
# 상품군 '무형'에 속하는 행 모두 제거
drop_idx = test_df[test_df['상품군']=='무형'].index
test_df = test_df.drop(drop_idx)
test_df.head(10)

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품명,상품군,판매단가,취급액
1,2020-06-01 6:20,20,100650,201971,잭필드 남성 반팔셔츠 4종,의류,59800,
2,2020-06-01 6:40,20,100650,201971,잭필드 남성 반팔셔츠 4종,의류,59800,
3,2020-06-01 7:00,20,100650,201971,잭필드 남성 반팔셔츠 4종,의류,59800,
4,2020-06-01 7:20,20,100445,202278,쿠미투니카 쿨 레이시 란쥬쉐이퍼&팬티,속옷,69900,
5,2020-06-01 7:40,20,100445,202278,쿠미투니카 쿨 레이시 란쥬쉐이퍼&팬티,속옷,69900,
6,2020-06-01 8:00,20,100445,202278,쿠미투니카 쿨 레이시 란쥬쉐이퍼&팬티,속옷,69900,
7,2020-06-01 8:20,20,100381,201247,바비리스 퍼펙트 볼륨스타일러,이미용,59000,
8,2020-06-01 8:40,20,100381,201247,바비리스 퍼펙트 볼륨스타일러,이미용,59000,
9,2020-06-01 9:00,20,100381,201247,바비리스 퍼펙트 볼륨스타일러,이미용,59000,
10,2020-06-01 9:20,20,100638,201956,램프쿡 자동회전냄비,주방,109000,


In [33]:
# 데이터 전처리
pred_data=data_preprocessing(test_df)
pred_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2716 entries, 1 to 2891
Data columns (total 8 columns):
방송일시          2716 non-null object
노출(분)         2716 non-null object
마더코드          2716 non-null object
상품코드          2716 non-null object
상품군           2716 non-null int64
판매단가          2716 non-null object
성별 포함         2716 non-null int32
무이자/일시불 구분    2716 non-null int32
dtypes: int32(2), int64(1), object(5)
memory usage: 169.8+ KB


In [36]:
pred_data.head(10)

Unnamed: 0,방송일시,노출(분),마더코드,상품코드,상품군,판매단가,성별 포함,무이자/일시불 구분
1,2020-06-01 6:20,20,100650,201971,2,59800,1,0
2,2020-06-01 6:40,20,100650,201971,2,59800,1,0
3,2020-06-01 7:00,20,100650,201971,2,59800,1,0
4,2020-06-01 7:20,20,100445,202278,3,69900,0,0
5,2020-06-01 7:40,20,100445,202278,3,69900,0,0
6,2020-06-01 8:00,20,100445,202278,3,69900,0,0
7,2020-06-01 8:20,20,100381,201247,8,59000,0,0
8,2020-06-01 8:40,20,100381,201247,8,59000,0,0
9,2020-06-01 9:00,20,100381,201247,8,59000,0,0
10,2020-06-01 9:20,20,100638,201956,0,109000,0,0


In [47]:
# 데이터프레임 column 타입 변경
# 방송일시
pred_data['방송일시'] = pd.to_datetime(pred_data['방송일시'], format='%Y-%m-%d %H:%M:%S', errors='raise')
pred_data['월']=pred_data['방송일시'].dt.month
pred_data['일자']=pred_data['방송일시'].dt.day
pred_data['시']=pred_data['방송일시'].dt.hour
pred_data['분']=pred_data['방송일시'].dt.minute
# pred_data['초']=pred_data['방송일시'].dt.second

# 노출(분), 마더코드, 상품코드, 판매단가
# pred_data[['노출(분)'], ['마더코드'], ['상품코드'], ['판매단가']] = pred_data[['노출(분)'], ['마더코드'], ['상품코드'], ['판매단가']].apply(pd.to_numeric)
pred_data = pred_data.astype({'노출(분)' : int,
                              '마더코드' : int,
                              '상품코드' : int})
pred_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2716 entries, 1 to 2891
Data columns (total 13 columns):
방송일시          2716 non-null datetime64[ns]
노출(분)         2716 non-null int32
마더코드          2716 non-null int32
상품코드          2716 non-null int32
상품군           2716 non-null int64
판매단가          2716 non-null object
성별 포함         2716 non-null int32
무이자/일시불 구분    2716 non-null int32
월             2716 non-null int64
일자            2716 non-null int64
시             2716 non-null int64
분             2716 non-null int64
초             2716 non-null int64
dtypes: datetime64[ns](1), int32(5), int64(6), object(1)
memory usage: 244.0+ KB


In [60]:
# 판매단가
pred_data['판매단가'] = pred_data['판매단가'].str.replace(',', '').astype('int')
# pred_data['판매단가'] = pred_data['판매단가'].astype('int')

In [62]:
pred_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2716 entries, 1 to 2891
Data columns (total 13 columns):
방송일시          2716 non-null datetime64[ns]
노출(분)         2716 non-null int32
마더코드          2716 non-null int32
상품코드          2716 non-null int32
상품군           2716 non-null int64
판매단가          2716 non-null int32
성별 포함         2716 non-null int32
무이자/일시불 구분    2716 non-null int32
월             2716 non-null int64
일자            2716 non-null int64
시             2716 non-null int64
분             2716 non-null int64
초             2716 non-null int64
dtypes: datetime64[ns](1), int32(6), int64(6)
memory usage: 233.4 KB


## predict data 생성하기