In [128]:
# Import base librares
import pandas as pd
import numpy as np
import os
from pathlib import Path
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline 


In [129]:
# Download data files
data_folder = Path('../readonly/final_project_data')

transactions    = pd.read_csv(data_folder/'sales_train.csv.gz')
items           = pd.read_csv(data_folder/'items.csv')
item_categories = pd.read_csv(data_folder/'item_categories.csv')
shops           = pd.read_csv(data_folder/'shops.csv')

In [130]:
# Base data observation
print('Transactions shape:', transactions.shape)
transactions.head()

Transactions shape: (2935849, 6)


Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day
0,02.01.2013,0,59,22154,999.0,1.0
1,03.01.2013,0,25,2552,899.0,1.0
2,05.01.2013,0,25,2552,899.0,-1.0
3,06.01.2013,0,25,2554,1709.05,1.0
4,15.01.2013,0,25,2555,1099.0,1.0


In [131]:
print('items shape:', items.shape)
items.head()

items shape: (22170, 3)


Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40


In [132]:
print('item_categories shape:', item_categories.shape)
item_categories.head()

item_categories shape: (84, 2)


Unnamed: 0,item_category_name,item_category_id
0,PC - Гарнитуры/Наушники,0
1,Аксессуары - PS2,1
2,Аксессуары - PS3,2
3,Аксессуары - PS4,3
4,Аксессуары - PSP,4


In [133]:
print('shops shape:', shops.shape)
shops.head()

shops shape: (60, 2)


Unnamed: 0,shop_name,shop_id
0,"!Якутск Орджоникидзе, 56 фран",0
1,"!Якутск ТЦ ""Центральный"" фран",1
2,"Адыгея ТЦ ""Мега""",2
3,"Балашиха ТРК ""Октябрь-Киномир""",3
4,"Волжский ТЦ ""Волга Молл""",4


In [134]:
# Merge into one table
transactions.date = pd.to_datetime(transactions.date, yearfirst=True)
data = transactions.merge(items).merge(item_categories).merge(shops)
# Calculate income from transaction
data['income'] = data['item_price'] * data['item_cnt_day']
# Number of month since year 2013
data['mdate'] = ((data['date'].dt.year-2013)*12)+data['date'].dt.month
# Add year, month and day rows
# data['year'] = data['date'].dt.year
# data['month'] = data['date'].dt.month
# data['day'] = data['date'].dt.day
data

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day,item_name,item_category_id,item_category_name,shop_name,income,mdate
0,2013-02-01,0,59,22154,999.0,1.0,ЯВЛЕНИЕ 2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",999.0,2
1,2013-04-26,3,59,944,150.0,1.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",150.0,4
2,2013-06-26,5,59,944,199.5,1.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",199.5,6
3,2013-07-20,6,59,944,199.5,1.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",199.5,7
4,2013-09-14,8,59,944,299.0,2.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",598.0,9
...,...,...,...,...,...,...,...,...,...,...,...,...
2935844,2015-10-22,33,55,13093,250.0,1.0,Карта оплаты Windows: 250 рублей [Цифровая вер...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,250.0,34
2935845,2015-09-21,32,55,13091,1000.0,1.0,Карта оплаты Windows: 1000 рублей [Цифровая ве...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,1000.0,33
2935846,2015-09-16,32,55,13094,2500.0,1.0,Карта оплаты Windows: 2500 рублей [Цифровая ве...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,2500.0,33
2935847,2015-09-22,32,55,13094,2500.0,2.0,Карта оплаты Windows: 2500 рублей [Цифровая ве...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,5000.0,33


In [135]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2935849 entries, 0 to 2935848
Data columns (total 12 columns):
 #   Column              Dtype         
---  ------              -----         
 0   date                datetime64[ns]
 1   date_block_num      int64         
 2   shop_id             int64         
 3   item_id             int64         
 4   item_price          float64       
 5   item_cnt_day        float64       
 6   item_name           object        
 7   item_category_id    int64         
 8   item_category_name  object        
 9   shop_name           object        
 10  income              float64       
 11  mdate               int64         
dtypes: datetime64[ns](1), float64(3), int64(5), object(3)
memory usage: 291.2+ MB


In [158]:
# Calc normalized monthly sum of sales in each shop/item
d_sum = data.groupby(['shop_id', 'item_id', 'mdate'])['income'].sum()
d_sum_norm = d_sum/d_sum.max()*20
d_sum_norm

shop_id  item_id  mdate
0        30       2        0.029015
         31       2        0.016862
         32       1        0.003122
                  2        0.004683
                  3        0.001561
                             ...   
59       22164    35       0.002645
         22167    3        0.001056
                  10       0.001056
                  12       0.001056
                  18       0.001056
Name: income, Length: 1799395, dtype: float64

In [None]:
%%timeit
# Make the fiture - previous_value_benchmark as 
d_sum_idx = pd.MultiIndex.from_product([np.arange(data['shop_id'].max()+1)
                                        , np.arange(data['item_id'].max()+1)
                                        , np.arange(data['mdate'].max()+1)])
d_sum_indexed = pd.DataFrame(index=d_sum_idx, data=d_sum_norm)
d_sum_indexed = d_sum_indexed.shift(periods=-1)
# d_sum_indexed.fillna(value=0, inplace=True)
# d_sum_indexed.reset_index(inplace=True)
# d_sum_indexed.columns=['shop_id', 'mdate', 'previous_value_benchmark']
d_sum_indexed

In [154]:
data.merge(how='left', right=d_sum_indexed, on=['shop_id', 'mdate'])

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day,item_name,item_category_id,item_category_name,shop_name,income,mdate,previous_value_benchmark
0,2013-02-01,0,59,22154,999.0,1.0,ЯВЛЕНИЕ 2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",999.0,2,2.043961
1,2013-04-26,3,59,944,150.0,1.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",150.0,4,1.488593
2,2013-06-26,5,59,944,199.5,1.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",199.5,6,1.685984
3,2013-07-20,6,59,944,199.5,1.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",199.5,7,1.772746
4,2013-09-14,8,59,944,299.0,2.0,2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир""",598.0,9,1.850096
...,...,...,...,...,...,...,...,...,...,...,...,...,...
2935844,2015-10-22,33,55,13093,250.0,1.0,Карта оплаты Windows: 250 рублей [Цифровая вер...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,250.0,34,1.269444
2935845,2015-09-21,32,55,13091,1000.0,1.0,Карта оплаты Windows: 1000 рублей [Цифровая ве...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,1000.0,33,2.487329
2935846,2015-09-16,32,55,13094,2500.0,1.0,Карта оплаты Windows: 2500 рублей [Цифровая ве...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,2500.0,33,2.487329
2935847,2015-09-22,32,55,13094,2500.0,2.0,Карта оплаты Windows: 2500 рублей [Цифровая ве...,36,Карты оплаты - Windows (Цифра),Цифровой склад 1С-Онлайн,5000.0,33,2.487329
