## 01. 모듈 호출

In [1]:
import pandas as pd
# pandas 모듈 호출

In [2]:
import numpy as np
# numpy 모듈 호출

In [4]:
from sklearn import datasets, tree
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error

## 02. 대상 데이터 불러오기

In [5]:
featuresData = \
pd.read_csv("../../../stdcode6/dataset/feature_regression_example.csv")

In [6]:
featuresData.head(5)

Unnamed: 0,REGIONID,PRODUCTGROUP,PRODUCT,ITEM,YEARWEEK,YEAR,WEEK,QTY,HOLIDAY,HCLUS,PROMOTION,PRO_PERCENT
0,SEOUL_BANK_001,PG02,PRODUCT0010,ITEM0115,201501,2015,1,1225,Y,1,Y,0.209442
1,SEOUL_BANK_001,PG02,PRODUCT0010,ITEM0115,201502,2015,2,968,N,4,Y,0.209442
2,SEOUL_BANK_001,PG02,PRODUCT0010,ITEM0115,201503,2015,3,1209,N,4,Y,0.208155
3,SEOUL_BANK_001,PG02,PRODUCT0010,ITEM0115,201504,2015,4,1810,Y,2,Y,0.208155
4,SEOUL_BANK_001,PG02,PRODUCT0010,ITEM0115,201505,2015,5,1773,N,4,Y,0.208155


## 03. 데이터 형변환

In [8]:
featuresData.dtypes

REGIONID         object
PRODUCTGROUP     object
PRODUCT          object
ITEM             object
YEARWEEK          int64
YEAR              int64
WEEK              int64
QTY               int64
HOLIDAY          object
HCLUS             int64
PROMOTION        object
PRO_PERCENT     float64
dtype: object

In [9]:
featuresData["YEARWEEK"] = featuresData.YEARWEEK.astype(int)

In [10]:
featuresData["YEAR"] = featuresData.YEARWEEK.astype(int)

In [11]:
featuresData["WEEK"] = featuresData.WEEK.astype(int)

In [12]:
featuresData.dtypes

REGIONID         object
PRODUCTGROUP     object
PRODUCT          object
ITEM             object
YEARWEEK          int32
YEAR              int32
WEEK              int32
QTY               int64
HOLIDAY          object
HCLUS             int64
PROMOTION        object
PRO_PERCENT     float64
dtype: object

In [None]:
# 데이터 형변환을 통해 int64에서 int32로 YEARWEEK, YEAR, WEEK 컬럼 데이터 타입을 변환.

## 04. 특성 타입 추가. 컬럼 신설

In [13]:
featuresData["HO_YN"] = \
np.where(featuresData.HOLIDAY == "Y", 1, 0)
# HO_YN 컬럼을 신설. HOLIDAY가 Y라면 1, 아니라면 0 값을 산입

In [14]:
featuresData["PRO_YN"] =\
np.where(featuresData.PROMOTION == "Y", 1, 0)
# PRO_YN 컬럼을 신설. PROMOTION이 Y라면 1, 아니라면 0 값을 산입

In [17]:
featuresData.head(1)
# 컬럼 두 개가 생성되었음을 확인

Unnamed: 0,REGIONID,PRODUCTGROUP,PRODUCT,ITEM,YEARWEEK,YEAR,WEEK,QTY,HOLIDAY,HCLUS,PROMOTION,PRO_PERCENT,HO_YN,PRO_YN
0,SEOUL_BANK_001,PG02,PRODUCT0010,ITEM0115,201501,201501,1,1225,Y,1,Y,0.209442,1,1


### 04-1. 반증 사례 검증

In [19]:
featuresData.loc[(featuresData.HO_YN == 1) \
                 & (featuresData.HOLIDAY == "N")]

Unnamed: 0,REGIONID,PRODUCTGROUP,PRODUCT,ITEM,YEARWEEK,YEAR,WEEK,QTY,HOLIDAY,HCLUS,PROMOTION,PRO_PERCENT,HO_YN,PRO_YN


In [20]:
featuresData.loc[(featuresData.HO_YN == 0) \
                 & (featuresData.HOLIDAY == "Y")]

Unnamed: 0,REGIONID,PRODUCTGROUP,PRODUCT,ITEM,YEARWEEK,YEAR,WEEK,QTY,HOLIDAY,HCLUS,PROMOTION,PRO_PERCENT,HO_YN,PRO_YN


In [21]:
featuresData.loc[(featuresData.PRO_YN == 1) \
                 & (featuresData.PROMOTION == "N")]

Unnamed: 0,REGIONID,PRODUCTGROUP,PRODUCT,ITEM,YEARWEEK,YEAR,WEEK,QTY,HOLIDAY,HCLUS,PROMOTION,PRO_PERCENT,HO_YN,PRO_YN


In [22]:
featuresData.loc[(featuresData.PRO_YN == 0) \
                 & (featuresData.PROMOTION == "Y")]

Unnamed: 0,REGIONID,PRODUCTGROUP,PRODUCT,ITEM,YEARWEEK,YEAR,WEEK,QTY,HOLIDAY,HCLUS,PROMOTION,PRO_PERCENT,HO_YN,PRO_YN


In [None]:
# HOLIDAY와 PROMOTION이 Y일 시 1, 아닐 시 0 값을 산입하였으므로
# HOLIDAY와 PROMOTION이 Y이며 신설 컬럼에 0이 들어간 컬럼이 존재하는지,
# HOLIDAY와 PROMOTION이 N이며 신설 컬럼에 1이 들어간 컬럼이 존재하는지 확인.
# 네 가지 사례 모두 해당하는 데이터가 존재하지 않으므로, 올바르게 입력되었음을 확인.

## 05. 상관관계 확인 DataFrame 생성

In [23]:
corrDf = featuresData.corr()

In [24]:
corrDf

Unnamed: 0,YEARWEEK,YEAR,WEEK,QTY,HCLUS,PRO_PERCENT,HO_YN,PRO_YN
YEARWEEK,1.0,1.0,0.275593,0.112267,-0.071586,0.404889,0.049867,0.205916
YEAR,1.0,1.0,0.275593,0.112267,-0.071586,0.404889,0.049867,0.205916
WEEK,0.275593,0.275593,1.0,0.289766,-0.339943,0.329705,0.27371,0.060206
QTY,0.112267,0.112267,0.289766,1.0,-0.53723,0.700195,0.505932,0.612451
HCLUS,-0.071586,-0.071586,-0.339943,-0.53723,1.0,-0.545619,-0.974601,-0.374072
PRO_PERCENT,0.404889,0.404889,0.329705,0.700195,-0.545619,1.0,0.487062,0.898554
HO_YN,0.049867,0.049867,0.27371,0.505932,-0.974601,0.487062,1.0,0.365148
PRO_YN,0.205916,0.205916,0.060206,0.612451,-0.374072,0.898554,0.365148,1.0


In [None]:
# corr은 Co-rellation의 약자로, 두 데이터 간의 상관계수를 의미합니다.
# 계수는 -1 이상 ~ +1 이하의 값을 지닙니다.
# 값이 1에 수렴할 수록 유사한 움직임을 지닌다는 의미이며, 강한 양의 상관관계를 지닌다고 합니다.
# 값이 -1에 수렴할 수록 서로 반대되는 움직임을 지닌다는 의미이며, 강한 음의 상관관계를 지닌다고 합니다.
# 값이 0인 경우에는, 서로 상관 없이 움직인다는 의미를 지닙니다.

## 06. 특성 선정 / 데이터의 분리

### 06-1. 특성의 선정

In [25]:
featuresStd = 0.5
# 유의성을 지니는 상관계수 기준을 0.5로 설정하였습니다.

In [26]:
features = list(corrDf[(abs(corrDf.QTY) > featuresStd) & \
                       (abs(corrDf.QTY) != 1)].index)
# QTY와의 상관관계가 0.5 이상인 데이터를 추립니다.
# 상관관계가 1인 데이터는 자신을 의미하므로, 함께 추려내줍니다.

In [27]:
features
# QTY와 유의성을 지니는 데이터의 컬럼명을 담은 list
# 여기 담긴 친구들은 앞으로 features로 활용됩니다.

['HCLUS', 'PRO_PERCENT', 'HO_YN', 'PRO_YN']

In [28]:
label = ["QTY"]
# 머신러닝 간 분석 대상으로 삼을 데이터를 선언합니다.
# 이 친구는 앞으로 label로 사용할 것입니다.

### 06-2. 데이터의 분리

In [29]:
yearweekStd = 201630
# 2016년 30주차 데이터를 기준으로 Training-Data와 Test-Data를 구분합니다.
# 보통 적합한 비율은 약 7-80 : 2-30 수준이라고 합니다.

In [30]:
trainingData_features = featuresData[featuresData.YEARWEEK <= yearweekStd][features]

In [31]:
trainingData_label = featuresData[featuresData.YEARWEEK <= yearweekStd][label]

In [33]:
testData_features = featuresData[featuresData.YEARWEEK > yearweekStd][features]

In [55]:
testData_label = featuresData[featuresData.YEARWEEK > yearweekStd][label]

In [None]:
# trainingData와 testData를 구분합니다. 구분의 기준은 기설정한 yearweekStd 입니다.
# 즉, 2016년 30주차 이전 / 이후로 훈련용 데이터와 테스트 데이터를 구분한다는 이야기입니다.

In [None]:
# features와 label은 06-1에서 설정한 features list와 label list를 의미합니다.
# features list에는 HCLUS, PRO_PERCENT, HO_YN, PRO_YN이 담겨있으며,
# label list에는 QTY가 담겨있습니다.

#### 06-2-1. 반례 사례 검증

In [35]:
trainingData_features.loc[featuresData.YEARWEEK > yearweekStd]

Unnamed: 0,HCLUS,PRO_PERCENT,HO_YN,PRO_YN


In [36]:
trainingData_label.loc[featuresData.YEARWEEK > yearweekStd]

Unnamed: 0,QTY


In [37]:
testData_features.loc[featuresData.YEARWEEK <= yearweekStd]

Unnamed: 0,HCLUS,PRO_PERCENT,HO_YN,PRO_YN


In [38]:
testData_features.loc[featuresData.YEARWEEK <= yearweekStd]

Unnamed: 0,HCLUS,PRO_PERCENT,HO_YN,PRO_YN


In [None]:
# 반대 괄호값을 지닌 값들을 검증합니다.
# 현재는 존재하지 않음을 확인하였으며, 이를 통해 정확히 데이터가 담겼음을 확인할 수 있습니다.

## 07. 모델의 선언과 학습

In [40]:
model_method = \
tree.DecisionTreeRegressor(random_state = 1)
# tree Decision 모델을 설정하였습니다.

In [41]:
model = model_method.fit(trainingData_features, \
                         trainingData_label)
# 설정한 모델에게 trainingData_features와 trainingData-label을 주고 학습시킵니다.

## 08. 예측 수행

In [44]:
predict = model.predict(testData_features)
# 학습이 완료된 모델에게 testData_features 데이터를 던져줬습니다.

In [45]:
predict
# 모델이 예측한 판매량 데이터

array([1606.5       , 1606.5       ,  350.71428571, 1434.6       ,
       1434.6       , 1434.6       , 1434.6       , 1434.6       ,
       1606.5       , 1606.5       , 2620.42857143, 1606.5       ,
        350.71428571, 2193.8       , 2193.8       , 2193.8       ,
       2193.8       , 2193.8       , 2193.8       , 2193.8       ,
       2193.8       , 2193.8       ])

## 09. 데이터 테이블 합산

In [56]:
testData_label
# 실제 발생하였던 판매량 데이터

Unnamed: 0,QTY
83,1522
84,2100
85,43
86,1700
87,1514
88,1501
89,1491
90,806
91,2111
92,2400


In [62]:
predictData = pd.DataFrame(predict, columns = ["PREDICT"])
# 비교를 위해 predict를 DataFrame으로 말아줍니다.

In [68]:
predictData

Unnamed: 0,PREDICT
0,1606.5
1,1606.5
2,350.714286
3,1434.6
4,1434.6
5,1434.6
6,1434.6
7,1434.6
8,1606.5
9,1606.5


In [64]:
testData_label = testData_label.reset_index(drop = True, inplace = False)
# 컬럼 수 비교를 위해 testData_label의 인덱스 번호를 초기화해줍니다.

In [65]:
testData_label

Unnamed: 0,QTY
0,1522
1,2100
2,43
3,1700
4,1514
5,1501
6,1491
7,806
8,2111
9,2400


In [69]:
finalResult = pd.concat( [testData_label, predictData], axis=1 )
# 실측치 QTY와 예측치 PREDICT를 concat을 사용하여 합쳐줍니다.
# 합쳐진 DataFrame을 finalResult라고 명명합니다.

In [70]:
finalResult

Unnamed: 0,QTY,PREDICT
0,1522,1606.5
1,2100,1606.5
2,43,350.714286
3,1700,1434.6
4,1514,1434.6
5,1501,1434.6
6,1491,1434.6
7,806,1434.6
8,2111,1606.5
9,2400,1606.5


## 10. 결과 검증

In [71]:
mean_absolute_error(finalResult["QTY"], finalResult["PREDICT"])
# MAE 지표 검증

460.25259740259736

In [72]:
mean_squared_error(finalResult["QTY"], finalResult["PREDICT"])
#MSE 지표 검증

364501.50973098335