# Purpose 

### 商品・日付・店舗区分から販売数を予測
* * *

# Agenda

1. 商品情報を説明変数とする
1. 日付×店舗区分から、店舗毎の販売数を当てる時系列分析


## import

In [153]:
% matplotlib inline
import matplotlib.pylab as plt
import pandas as pd
import numpy as np
import bokeh.plotting as bplt
from IPython.display import display, HTML
from pprintpp import pprint as pp
import xgboost as xgb
from sklearn import cross_validation

bplt.output_notebook()

In [132]:
datanames  = ['product', 'sales', 'store', 'test', 'train']
sex = ['m', 'w']
age = ['00_19', '20_49', '50_']
segments = ['m00_19', 'm20_49', 'm50_', 'w00_19', 'w20_49', 'w50_']
pids = ['p000', 'p001', 'p002', 'p003', 'p004', 'p005', 'p006', 'p007',
       'p008', 'p009', 'p010', 'p011', 'p012', 'p013', 'p014', 'p015',
       'p016', 'p017', 'p018', 'p019', 'p020', 'p021', 'p022', 'p023',
       'p024', 'p025', 'p026', 'p027', 'p028', 'p029', 'p030', 'p031',
       'p032', 'p033', 'p034', 'p035', 'p036', 'p037', 'p038', 'p039',
       'p040', 'p041', 'p042', 'p043', 'p044', 'p045', 'p046', 'p047',
       'p048', 'p049', 'p050', 'p051', 'p052', 'p053', 'p054', 'p055',
       'p056', 'p057', 'p058', 'p059', 'p060', 'p061', 'p062', 'p063',
       'p064', 'p065', 'p066', 'p067', 'p068', 'p069', 'p070', 'p071',
       'p072']
train_dates = [201506, 201507, 201508, 201509, 201510, 201511, 201512, 201601, 201602, 201603, 201604, 201605]
store_catecol = ['area', 'location']
size_dict = {'size_g': 'g', 'size_stick':'本', 'size_piece':'個', 'size_sheet':'枚'}
# 本 -> stick for index[50] , 個 -> stick for index[14, 15, 25, 37] , 枚 -> stick for index[27, 28] 
product_catecol = ['category', 'package_type', 'genre', 'manufacturer']
product_apeals = ['cal', '食物繊維', '乳酸菌', 'オリーブオイル', '砂糖', '糖類', '糖質', '食塩']
allergys= ['allergy_egg', 'allergy_wheat', 'allergy_milk', 'allergy_peanut', 'allergy_shrimp']

In [133]:
df_dict_origin = {datanames[n] : pd.read_csv('../data/{}.tsv'.format(name), delimiter='\t') for n, name in enumerate(datanames)}
df_dict = {name : df_dict_origin[name].copy() for name in df_dict_origin}

## Pre-paration

### store's categorical variables -> dummy

* store_catecol = ['area', 'location']のダミー変数を生成
* store_catecol = ['area', 'location']をドロップ

In [134]:
for df_n in ['train', 'test', 'store']:
    for col in store_catecol:
        dummy = pd.get_dummies(df_dict[df_n][col])
        df_dict[df_n] = pd.concat((df_dict[df_n], dummy), axis=1)
    df_dict[df_n] = df_dict[df_n].drop(store_catecol, axis =1)

### 商品のサイズ種類

* [g, 枚, 個, 本]にカテゴライズ
* 対応するものにfloatで保管
* 違うカラムには０を保存

In [135]:
df_n = 'product'
col_n = 'size'
entity = 'g'

df_dict[df_n][df_dict[df_n][col_n].str.contains(entity).apply(lambda x: False if x else True)][col_n]

14     4個
15     4個
25     7個
27     6枚
28     5枚
37     7個
50    10本
Name: size, dtype: object

In [136]:
df_n = 'product'
col_n = 'size'
decode_n = 'utf-8'
dtype_d = 'float64'

for size_n in size_dict:
    df_dict[df_n][size_n] = df_dict[df_n][col_n].apply(lambda x: x.decode(decode_n)[:-1]).astype(dtype_d)
    df_dict[df_n].loc[df_dict[df_n][col_n].str.contains(size_dict[size_n]).apply(lambda x: False if x else True), size_n] = 0
df_dict[df_n] = df_dict[df_n].drop(col_n, axis=1)

### 商品のカテゴリカル変数 -> ダミー変数

* category :  [おやつごろシリーズ菓子, ナチュラルローソン菓子]
* package_type : [カップ, 箱, 袋]
* genre : (total 24)[u'クッキー', u'クラッカー', u'スナック菓子', u'チョコレート', u'チョコレート菓子', u'ドーナツ', u'パイ', u'パイ加工品', u'ビスケット', u'ポテトチップス', u'マシュマロ', u'ラスク', u'半生菓子', u'有機干し芋', u'油菓子', u'準チョコレート', u'焼菓子', u'種実加工品', u'米菓', u'米菓子', u'菓子', u'野菜チップス', u'魚介乾製品', u'魚介加工品']
* manufacturer : (total 40) [u'ぼんち株式会社', u'イケダヤ製菓株式会社', u'イトウ製菓株式会社', u'カバヤ食品株式会社', u'カルビー株式会社',u'ジャパンフリトレー株式会社', u'ダイシンフーズ株式会社', u'ニッポー株式会社', u'ハース株式会社', u'ホンダ製菓株式会社',u'リスカ株式会社', u'ローヤル製菓株式会社', u'久保田製菓有限会社', u'宝製菓株式会社', u'旺旺ジャパン株式会社',u'東京カリント株式会社', u'株式会社おやつカンパニー', u'株式会社エイワ', u'株式会社オリーヴ', u'株式会社カレイナ',u'株式会社ギンビス', u'株式会社ニッコー', u'株式会社ミツヤ', u'株式会社リボン', u'株式会社ロッテ',u'株式会社不二家', u'株式会社北食', u'株式会社合食', u'株式会社壮関', u'株式会社天乃屋', u'株式会社末広製菓',u'株式会社村田製菓', u'株式会社東ハト', u'株式会社栗山米菓', u'株式会社正栄デリシィ', u'株式会社湖池屋',u'株式会社道南冷蔵', u'森永製菓株式会社', u'江崎グリコ株式会社', u'阿部幸製菓株式会社']

In [137]:
df_n = 'product'
for col in product_catecol:
    dummy = pd.get_dummies(df_dict[df_n][col])
    df_dict[df_n] = pd.concat((df_dict[df_n], dummy), axis=1)
df_dict[df_n] = df_dict[df_n].drop(product_catecol, axis =1)

### 商品のアピールポイント -> ダミー変数

* [cal, 食物繊維, 乳酸菌, オリーブオイル, 砂糖, 糖類, 糖質, 食塩]
* アピールポイントに上記のワードを含む商品にフラグをたてる

In [138]:
df_dict[df_n].appeal_point[df_dict[df_n].appeal_point.apply(pd.notnull)]

0          126kcal
1         食物繊維3.8g
2           63kcal
3           61kcal
4       乳酸菌200億個配合
5        オリーブオイル使用
6          130kcal
7         食物繊維4.4g
8        砂糖ゼロ　糖類ゼロ
9        砂糖ゼロ・糖類ゼロ
10        食物繊維2.1g
11    乳酸菌2億個（5枚当り）
12    乳酸菌2億個（5枚当り）
13        食物繊維2.1g
14          糖質7.5g
15          糖質7.5g
16         174kcal
17         砂糖食塩不使用
18        食物繊維3.6g
19           砂糖不使用
20          乳酸菌2億個
21         168kcal
22        食物繊維2.5g
23        食物繊維5.2ｇ
24         砂糖食塩不使用
25          糖質9.3g
Name: appeal_point, dtype: object

In [139]:
df_n = 'product'
col_n = 'appeal_point'

df_dict[df_n][col_n] = df_dict[df_n][col_n].fillna(value='tmp')
for word in product_apeals:
    df_dict[df_n][word] = df_dict[df_n].appeal_point.apply(lambda x: 1 if word in x else 0)
df_dict[df_n] = df_dict[df_n].drop(col_n, axis =1)


### アレルギー情報の0補間

In [140]:
df_n = 'product'

for col_n in allergys:
    df_dict[df_n][col_n] = df_dict[df_n][col_n].fillna(0)

### 説明文の有無フラグ

In [141]:
df_n = 'product'
col_n = 'description'

df_dict[df_n][col_n] =  df_dict[df_n][col_n].apply(lambda x: 0 if pd.isnull(x) else 1)

### 原材料のダミー変数

* エンコードがうまくいかない
* カラム数が膨大
* 以上の理由より一時放置

In [142]:
pd.isnull(df_dict['product'].materials).value_counts()

False    73
Name: materials, dtype: int64

In [143]:
pp([unicode(word, 'utf-8') for word in df_dict['product'].materials[1].split('、')])

[
    u'クルミ',
    u'ココナッツ',
    u'ア\u30fcモンド',
    u'グラニュ\u30fc糖',
    u'砂糖',
    u'ショ糖',
    u'でん粉',
    u'ぶどう糖',
    u'デキストリン',
    u'食塩',
    u'乳等を主要成分とする食品',
    u'香料',
]


### 栄養成分量

* 欠損値は0補間
* 範囲表示のものは中間の値を使用

In [144]:
df_n = 'product'
_split = '\xef\xbd\x9e'
_type = np.float
colkey = 'nutrition'
type_key = 'object'

for col in df_dict[df_n].columns:
    if colkey in col:
        df_dict[df_n][col] = df_dict[df_n][col].fillna(value=0)
        if df_dict[df_n][col].dtype == type_key:
            _TrueFalse = df_dict[df_n][col].str.contains(_split).fillna(value=False)
            inds = df_dict[df_n][_TrueFalse][col].index
            for i in inds:
                df_dict[df_n].loc[i, col] = np.array(df_dict[df_n][col][i].split(_split)).astype(np.float).mean()
            df_dict[df_n][col] = df_dict[df_n][col].astype(_type)

### 概要文と原材料をドロップ

In [145]:
drop_col = ['abstract', 'materials', 'pname']
df_n = 'product'

df_dict[df_n] = df_dict[df_n].drop(drop_col, axis=1)

## typeがintやfloatになっているのか確認

In [146]:
for df_n in datanames:
    print '#######{}######'.format(df_n)
    for n, t in enumerate(df_dict[df_n].dtypes):
        if t == 'object':
            print [df_dict[df_n].columns[n], df_dict[df_n].dtypes[n]]

#######product######
['pid', dtype('O')]
#######sales######
['pid', dtype('O')]
['sid', dtype('O')]
['segment', dtype('O')]
#######store######
['sid', dtype('O')]
#######test######
['pid', dtype('O')]
#######train######
['pid', dtype('O')]


## pidでproduct_dfと[train_df, test_df]をマージ

In [151]:
main_dfs = ['train', 'test']
subdf_dict = {'pid': 'product'}
_how = 'left'

for df_n in main_dfs:
    for _id in subdf_dict:
        df_dict[df_n] = df_dict[df_n].merge(df_dict[subdf_dict[_id]], how=_how, on=_id).drop(_id, axis=1)

pid
pid


## クロスバリデーション

In [193]:
df_n = 'train'
label = 'y'
train_X = df_dict[df_n].drop(label, axis=1).values
train_Y = np.log(1+df_dict[df_n][label]).values[:, np.newaxis]

df_n = 'test'
test_X = df_dict[df_n].values.T

In [None]:
skf = cross_validation.KFold(train_Y.size, n_folds=10, shuffle=True,random_state=25)

for train, test in skf:
    X_Train, X_Test, y_Train, y_Test = train_X[train], train_X[test], train_Y[train], train_Y[test]
    dtrain = xgb.DMatrix(X_Train, label=y_Train)
    dvalid = xgb.DMatrix(X_Test, label=y_Test)
    watchlist = [(dtrain, 'train'),(dvalid, 'eval')]
    model = xgb.train(params, dtrain, num_boost_round=10,evals=watchlist,early_stopping_rounds=10)
    predictions = model.predict(dvalid)
    N = model.best_iteration
    N_boost_round.append(N)
    score = model.best_score
    Score.append(score)
Average_best_num_boost_round = np.average(N_boost_round)
Average_best_score = np.average(Score)
print "\tAverage of best iteration {0}\n".format(Average_best_num_boost_round)
print "\tScore {0}\n\n".format(Average_best_score)
# return {'loss': Average_best_score, 'status': STATUS_OK}

In [None]:
params = params={'max_depth': [5],
        'subsample': [0.95],
        'colsample_bytree': [1.0]
}
Score=[]

from sklearn.grid_search import GridSearchCV
xgb_model = xgb.XGBRegressor()

xgb_model = xgb.XGBClassifier()
gs = GridSearchCV(xgb_model,
                  params,
                  cv=10,
                  scoring='mean_squared_error',
                  n_jobs=1,
                  verbose=2)
gs.fit(train_X,train_Y)
predict = gs.predict(testX)

print confusion_matrix(testY, predict)

In [213]:
from sklearn.metrics import make_scorer

def rmsle(predicted, actual):
    return np.sqrt(np.nansum(np.square(np.log(predicted + 1) - np.log(actual + 1)))/float(len(actual)))
scorer = make_scorer(rmsle, greater_is_better=False)

In [215]:
df_dict[df_n][label]

0        2.0751
1        1.9033
2        1.9302
3        1.7969
4        1.5835
5        1.6490
6        1.5663
7        1.7244
8        1.8074
9        1.9184
10       1.6520
11       2.0811
12       3.7353
13       3.6531
14       3.5241
15       3.2409
16       3.2480
17       3.1812
18       2.9443
19       2.6898
20       2.8634
21       3.5881
22       3.7661
23       3.9610
24       2.1136
25       1.9892
26       2.0667
27       1.8409
28       1.6484
29       1.9582
          ...  
22806    6.6322
22807    5.7511
22808    5.3596
22809    6.3630
22810    6.1183
22811    5.5799
22812    1.3215
22813    2.2026
22814    2.4230
22815    2.8633
22816    2.4228
22817    1.9824
22818    2.2026
22819    3.9646
22820    3.3040
22821    2.8633
22822    3.3039
22823    1.9823
22824    3.5665
22825    3.1311
22826    2.7709
22827    3.0660
22828    3.4316
22829    4.3963
22830    4.7247
22831    5.0227
22832    4.7809
22833    4.9258
22834    4.6815
22835    3.8845
Name: y, dtype: float64

In [217]:
np.exp(np.log(df_dict[df_n][label]+1))-1

0        2.0751
1        1.9033
2        1.9302
3        1.7969
4        1.5835
5        1.6490
6        1.5663
7        1.7244
8        1.8074
9        1.9184
10       1.6520
11       2.0811
12       3.7353
13       3.6531
14       3.5241
15       3.2409
16       3.2480
17       3.1812
18       2.9443
19       2.6898
20       2.8634
21       3.5881
22       3.7661
23       3.9610
24       2.1136
25       1.9892
26       2.0667
27       1.8409
28       1.6484
29       1.9582
          ...  
22806    6.6322
22807    5.7511
22808    5.3596
22809    6.3630
22810    6.1183
22811    5.5799
22812    1.3215
22813    2.2026
22814    2.4230
22815    2.8633
22816    2.4228
22817    1.9824
22818    2.2026
22819    3.9646
22820    3.3040
22821    2.8633
22822    3.3039
22823    1.9823
22824    3.5665
22825    3.1311
22826    2.7709
22827    3.0660
22828    3.4316
22829    4.3963
22830    4.7247
22831    5.0227
22832    4.7809
22833    4.9258
22834    4.6815
22835    3.8845
Name: y, dtype: float64