# Import libraries

In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load
# edited by Mayur

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)

# Load necessary files

In [2]:
items = pd.read_csv("items.csv.zip")
item_categories = pd.read_csv("item_categories.csv")
sales_train = pd.read_csv("sales_train.csv.zip", parse_dates=['date'])
shops = pd.read_csv("shops.csv")
sales_test = pd.read_csv("test.csv.zip")

# Add data from files to train and test datasets

Train dataset

In [3]:
sales_train = sales_train.join(items.set_index('item_id'), on='item_id')
sales_train = sales_train.join(item_categories.set_index('item_category_id'), on='item_category_id')
sales_train = sales_train.join(shops.set_index('shop_id'), on='shop_id')
sales_train.head()

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day,item_name,item_category_id,item_category_name,shop_name
0,2013-02-01,0,59,22154,999.0,1.0,ЯВЛЕНИЕ 2012 (BD),37,Кино - Blu-Ray,"Ярославль ТЦ ""Альтаир"""
1,2013-03-01,0,25,2552,899.0,1.0,DEEP PURPLE The House Of Blue Light LP,58,Музыка - Винил,"Москва ТРК ""Атриум"""
2,2013-05-01,0,25,2552,899.0,-1.0,DEEP PURPLE The House Of Blue Light LP,58,Музыка - Винил,"Москва ТРК ""Атриум"""
3,2013-06-01,0,25,2554,1709.05,1.0,DEEP PURPLE Who Do You Think We Are LP,58,Музыка - Винил,"Москва ТРК ""Атриум"""
4,2013-01-15,0,25,2555,1099.0,1.0,DEEP PURPLE 30 Very Best Of 2CD (Фирм.),56,Музыка - CD фирменного производства,"Москва ТРК ""Атриум"""


Test dataset

In [4]:
sales_test['date_block_num'] = 34
sales_test = sales_test.join(items.set_index('item_id'), on='item_id')
sales_test = sales_test.join(item_categories.set_index('item_category_id'), on='item_category_id')
sales_test = sales_test.join(shops.set_index('shop_id'), on='shop_id')

sales_test.head()

Unnamed: 0,ID,shop_id,item_id,date_block_num,item_name,item_category_id,item_category_name,shop_name
0,0,5,5037,34,"NHL 15 [PS3, русские субтитры]",19,Игры - PS3,"Вологда ТРЦ ""Мармелад"""
1,1,5,5320,34,ONE DIRECTION Made In The A.M.,55,Музыка - CD локального производства,"Вологда ТРЦ ""Мармелад"""
2,2,5,5233,34,"Need for Speed Rivals (Essentials) [PS3, русск...",19,Игры - PS3,"Вологда ТРЦ ""Мармелад"""
3,3,5,5232,34,"Need for Speed Rivals (Classics) [Xbox 360, ру...",23,Игры - XBOX 360,"Вологда ТРЦ ""Мармелад"""
4,4,5,5268,34,"Need for Speed [PS4, русская версия]",20,Игры - PS4,"Вологда ТРЦ ""Мармелад"""


Before adding *item_price* feature let's inspect price for each item and find wrong prices.

In [5]:
# for each item get price mode which more than 5
def amode(col):
    i = 0
    res = 0
    count = col.value_counts().index
    while res <= 5 and i < len(count):
        res = count[i]
        i += 1
    return res

def alast(col):
    return res
    
# group train dataset by prices, aggregate by price mode
item_prices = sales_train[['item_id', 'item_price', 
                           'item_name']].groupby('item_id').agg({'item_price': [np.min, 
                                                                                np.max, 
                                                                                amode],
                                                                 'item_name': lambda x: x.iloc[0]})
# add feature for difference between min and max prices
item_prices['price_diff'] = item_prices.item_price.amax/item_prices.item_price.amin
# get all prices with the difference between min and max prices more than 15 and min price less than 5
# save indexes of these prices
wrong_prices = item_prices[(item_prices.item_price.amin <= 5) & 
                           (item_prices.price_diff >= 15)].sort_values('price_diff', ascending=False)

Fix wrong prices in train dataset.

In [6]:
for i_id in list(wrong_prices.index):
    sales_train.loc[(sales_train.item_id == i_id) & 
                    (sales_train.item_price <= 5), 'item_price'] = wrong_prices.loc[i_id, 'item_price'].amode

In [7]:
shops_last_prices = sales_train[['shop_id', 'item_id', 'item_price']].groupby(['shop_id', 
                                                                               'item_id']).agg(lambda x: x.iloc[-1])

sales_test = sales_test.join(shops_last_prices, on=['shop_id', 'item_id'])

In [10]:
sales_test.shape

(214200, 9)

In [11]:
sales_train[(sales_train.shop_id == 5) & (sales_train.item_id == 5320)]

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day,item_name,item_category_id,item_category_name,shop_name


In [12]:
sales_test

Unnamed: 0,ID,shop_id,item_id,date_block_num,item_name,item_category_id,item_category_name,shop_name,item_price
0,0,5,5037,34,"NHL 15 [PS3, русские субтитры]",19,Игры - PS3,"Вологда ТРЦ ""Мармелад""",749.5
1,1,5,5320,34,ONE DIRECTION Made In The A.M.,55,Музыка - CD локального производства,"Вологда ТРЦ ""Мармелад""",
2,2,5,5233,34,"Need for Speed Rivals (Essentials) [PS3, русск...",19,Игры - PS3,"Вологда ТРЦ ""Мармелад""",1199.0
3,3,5,5232,34,"Need for Speed Rivals (Classics) [Xbox 360, ру...",23,Игры - XBOX 360,"Вологда ТРЦ ""Мармелад""",599.0
4,4,5,5268,34,"Need for Speed [PS4, русская версия]",20,Игры - PS4,"Вологда ТРЦ ""Мармелад""",
...,...,...,...,...,...,...,...,...,...
214195,214195,45,18454,34,СБ. Союз 55,55,Музыка - CD локального производства,"Самара ТЦ ""ПаркХаус""",99.0
214196,214196,45,16188,34,Настольная игра Нано Кёрлинг,64,Подарки - Настольные игры,"Самара ТЦ ""ПаркХаус""",
214197,214197,45,15757,34,НОВИКОВ АЛЕКСАНДР Новая коллекция,55,Музыка - CD локального производства,"Самара ТЦ ""ПаркХаус""",199.0
214198,214198,45,19648,34,ТЕРЕМ - ТЕРЕМОК сб.м/ф (Регион),40,Кино - DVD,"Самара ТЦ ""ПаркХаус""",


# Futher ideas

- add city feature
- add mean/mode etc price for each category
- add global categories - music, games, programs, book, tickets, deliver etc
- add binary category for payment service
- add binary category - is digital
- add binary categories for Blu-Ray, CD, XBOX 360, PS3, DVD, 1C, PSVita, Live! - is a card for XBOX 360
- add text description: item name + item category name + shop name
- do we need to drop shops and items that are not presented in test dataset?

In [14]:
for i in list(sales_train.item_category_name.unique()):
    print(f'{i}\n')

Кино - Blu-Ray

Музыка - Винил

Музыка - CD фирменного производства

Музыка - Музыкальное видео

Музыка - CD локального производства

Игры - XBOX 360

Игры - PS3

Игры PC - Дополнительные издания

Игры PC - Стандартные издания

Игры - PSP

Кино - DVD

Программы - Для дома и офиса

Книги - Методические материалы 1С

Игры PC - Коллекционные издания

Игры - PSVita

Подарки - Развитие

Программы - 1С:Предприятие 8

Программы - Обучающие

Музыка - MP3

Музыка - Подарочные издания

Аксессуары - PSP

Подарки - Гаджеты, роботы, спорт

Книги - Аудиокниги

Игровые консоли - XBOX 360

Аксессуары - PS3

Аксессуары - PS4

Аксессуары - PSVita

Подарки - Сертификаты, услуги

Карты оплаты - PSN

Карты оплаты - Live!

Аксессуары - XBOX 360

Кино - Blu-Ray 3D

Игры - Аксессуары для игр

Игровые консоли - PSVita

Книги - Аудиокниги 1С

Кино - Коллекционное

Подарки - Открытки, наклейки

Игровые консоли - PS3

Подарки - Сувениры

Подарки - Настольные игры (компактные)

Чистые носители (штучные)

Чистые но