In [11]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 训练数据
train = pd.read_csv('./data/sales_train.csv')   # (2935849, 6)

# 测试数据
test = pd.read_csv('./data/test.csv')   # (214200, 3)

# 合并[train,test],items
items = pd.read_csv('./data/items.csv')
items = items[['item_id', 'item_category_id']]
train = pd.merge(left=train, right=items, on='item_id')
# 对原数据没有改变
test = pd.merge(left=test, right=items, on='item_id')
test = test.sort_values(by='ID')
test = test.reset_index(drop=True)

# 删除训练数据中的异常数据
train = train[train.item_cnt_day <= 1000]
train = train[train.item_price <= 100000]

# 中位数填补item_price为负数的数据
price_df = train[train.item_id == 2973]
train.loc[train.item_price < 0, 'item_price'] = price_df.item_price.median()

# 构造item_cnt_month特征
train2 = train.groupby(['shop_id','item_id','date_block_num']).agg({'item_cnt_day': 'sum'}).reset_index()
train2 = train2.rename(columns={'item_cnt_day': 'item_cnt_month'})

In [12]:
train

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day,item_category_id
0,02.01.2013,0,59,22154,999.0,1.0,37
1,23.01.2013,0,24,22154,999.0,1.0,37
2,20.01.2013,0,27,22154,999.0,1.0,37
3,02.01.2013,0,25,22154,999.0,1.0,37
4,03.01.2013,0,25,22154,999.0,1.0,37
...,...,...,...,...,...,...,...
2935844,17.10.2015,33,25,8428,249.0,1.0,40
2935845,01.10.2015,33,25,7903,12198.0,1.0,15
2935846,29.10.2015,33,25,7610,2890.0,1.0,64
2935847,22.10.2015,33,25,7635,2100.0,1.0,64


In [13]:
month_lst = list(range(1, 13)) + list(range(1, 13)) + list(range(1, 11))

In [14]:
date_num_lst = list(range(0, 34))

In [15]:
dateBlock2month = dict(tuple(zip(date_num_lst, month_lst)))

In [16]:
train2

Unnamed: 0,shop_id,item_id,date_block_num,item_cnt_month
0,0,30,1,31.0
1,0,31,1,11.0
2,0,32,0,6.0
3,0,32,1,10.0
4,0,33,0,3.0
...,...,...,...,...
1609118,59,22164,27,2.0
1609119,59,22164,30,1.0
1609120,59,22167,9,1.0
1609121,59,22167,11,2.0


# # train2添加month特征

In [17]:
train2['month'] = train2['date_block_num'].map(dateBlock2month)

In [20]:
test['date_block_num'] = 34

In [22]:
test['month'] = 11

In [23]:
test

Unnamed: 0,ID,shop_id,item_id,item_category_id,date_block_num,month
0,0,5,5037,19,34,11
1,1,5,5320,55,34,11
2,2,5,5233,19,34,11
3,3,5,5232,23,34,11
4,4,5,5268,20,34,11
...,...,...,...,...,...,...
214195,214195,45,18454,55,34,11
214196,214196,45,16188,64,34,11
214197,214197,45,15757,55,34,11
214198,214198,45,19648,40,34,11


In [24]:
train2

Unnamed: 0,shop_id,item_id,date_block_num,item_cnt_month,month
0,0,30,1,31.0,2
1,0,31,1,11.0,2
2,0,32,0,6.0,1
3,0,32,1,10.0,2
4,0,33,0,3.0,1
...,...,...,...,...,...
1609118,59,22164,27,2.0,4
1609119,59,22164,30,1.0,7
1609120,59,22167,9,1.0,10
1609121,59,22167,11,2.0,12


# train2添加item_category_id特征

In [28]:
train2 = pd.merge(left=train2, right=items, on='item_id', how='left')
train2

Unnamed: 0,shop_id,item_id,date_block_num,item_cnt_month,month,item_category_id
0,0,30,1,31.0,2,40
1,0,31,1,11.0,2,37
2,0,32,0,6.0,1,40
3,0,32,1,10.0,2,40
4,0,33,0,3.0,1,37
...,...,...,...,...,...,...
1609118,59,22164,27,2.0,4,37
1609119,59,22164,30,1.0,7,37
1609120,59,22167,9,1.0,10,49
1609121,59,22167,11,2.0,12,49


In [58]:
train

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day,item_category_id
0,02.01.2013,0,59,22154,999.0,1.0,37
1,23.01.2013,0,24,22154,999.0,1.0,37
2,20.01.2013,0,27,22154,999.0,1.0,37
3,02.01.2013,0,25,22154,999.0,1.0,37
4,03.01.2013,0,25,22154,999.0,1.0,37
...,...,...,...,...,...,...,...
2935844,17.10.2015,33,25,8428,249.0,1.0,40
2935845,01.10.2015,33,25,7903,12198.0,1.0,15
2935846,29.10.2015,33,25,7610,2890.0,1.0,64
2935847,22.10.2015,33,25,7635,2100.0,1.0,64


In [37]:
test

Unnamed: 0,ID,shop_id,item_id,item_category_id,date_block_num,month
0,0,5,5037,19,34,11
1,1,5,5320,55,34,11
2,2,5,5233,19,34,11
3,3,5,5232,23,34,11
4,4,5,5268,20,34,11
...,...,...,...,...,...,...
214195,214195,45,18454,55,34,11
214196,214196,45,16188,64,34,11
214197,214197,45,15757,55,34,11
214198,214198,45,19648,40,34,11


# 分析商品类别

In [69]:
itemcat = pd.read_csv('./data/item_categories.csv')
itemcat

Unnamed: 0,item_category_name,item_category_id
0,PC - Гарнитуры/Наушники,0
1,Аксессуары - PS2,1
2,Аксессуары - PS3,2
3,Аксессуары - PS4,3
4,Аксессуары - PSP,4
...,...,...
79,Служебные,79
80,Служебные - Билеты,80
81,Чистые носители (шпиль),81
82,Чистые носители (штучные),82


In [70]:
list(itemcat.item_category_name.unique())

['PC - Гарнитуры/Наушники',
 'Аксессуары - PS2',
 'Аксессуары - PS3',
 'Аксессуары - PS4',
 'Аксессуары - PSP',
 'Аксессуары - PSVita',
 'Аксессуары - XBOX 360',
 'Аксессуары - XBOX ONE',
 'Билеты (Цифра)',
 'Доставка товара',
 'Игровые консоли - PS2',
 'Игровые консоли - PS3',
 'Игровые консоли - PS4',
 'Игровые консоли - PSP',
 'Игровые консоли - PSVita',
 'Игровые консоли - XBOX 360',
 'Игровые консоли - XBOX ONE',
 'Игровые консоли - Прочие',
 'Игры - PS2',
 'Игры - PS3',
 'Игры - PS4',
 'Игры - PSP',
 'Игры - PSVita',
 'Игры - XBOX 360',
 'Игры - XBOX ONE',
 'Игры - Аксессуары для игр',
 'Игры Android - Цифра',
 'Игры MAC - Цифра',
 'Игры PC - Дополнительные издания',
 'Игры PC - Коллекционные издания',
 'Игры PC - Стандартные издания',
 'Игры PC - Цифра',
 'Карты оплаты (Кино, Музыка, Игры)',
 'Карты оплаты - Live!',
 'Карты оплаты - Live! (Цифра)',
 'Карты оплаты - PSN',
 'Карты оплаты - Windows (Цифра)',
 'Кино - Blu-Ray',
 'Кино - Blu-Ray 3D',
 'Кино - Blu-Ray 4K',
 'Кино - DV

In [71]:
itemcat['split']=itemcat.item_category_name.str.split('-')

In [72]:
itemcat

Unnamed: 0,item_category_name,item_category_id,split
0,PC - Гарнитуры/Наушники,0,"[PC , Гарнитуры/Наушники]"
1,Аксессуары - PS2,1,"[Аксессуары , PS2]"
2,Аксессуары - PS3,2,"[Аксессуары , PS3]"
3,Аксессуары - PS4,3,"[Аксессуары , PS4]"
4,Аксессуары - PSP,4,"[Аксессуары , PSP]"
...,...,...,...
79,Служебные,79,[Служебные]
80,Служебные - Билеты,80,"[Служебные , Билеты]"
81,Чистые носители (шпиль),81,[Чистые носители (шпиль)]
82,Чистые носители (штучные),82,[Чистые носители (штучные)]


In [73]:
itemcat['type'] = itemcat['split'].map(lambda x:x[0])

In [74]:
itemcat

Unnamed: 0,item_category_name,item_category_id,split,type
0,PC - Гарнитуры/Наушники,0,"[PC , Гарнитуры/Наушники]",PC
1,Аксессуары - PS2,1,"[Аксессуары , PS2]",Аксессуары
2,Аксессуары - PS3,2,"[Аксессуары , PS3]",Аксессуары
3,Аксессуары - PS4,3,"[Аксессуары , PS4]",Аксессуары
4,Аксессуары - PSP,4,"[Аксессуары , PSP]",Аксессуары
...,...,...,...,...
79,Служебные,79,[Служебные],Служебные
80,Служебные - Билеты,80,"[Служебные , Билеты]",Служебные
81,Чистые носители (шпиль),81,[Чистые носители (шпиль)],Чистые носители (шпиль)
82,Чистые носители (штучные),82,[Чистые носители (штучные)],Чистые носители (штучные)


In [75]:
itemcat['sub_type'] = itemcat['split'].map(lambda x:x[1] if len(x) > 1 else x[0])

In [76]:
itemcat

Unnamed: 0,item_category_name,item_category_id,split,type,sub_type
0,PC - Гарнитуры/Наушники,0,"[PC , Гарнитуры/Наушники]",PC,Гарнитуры/Наушники
1,Аксессуары - PS2,1,"[Аксессуары , PS2]",Аксессуары,PS2
2,Аксессуары - PS3,2,"[Аксессуары , PS3]",Аксессуары,PS3
3,Аксессуары - PS4,3,"[Аксессуары , PS4]",Аксессуары,PS4
4,Аксессуары - PSP,4,"[Аксессуары , PSP]",Аксессуары,PSP
...,...,...,...,...,...
79,Служебные,79,[Служебные],Служебные,Служебные
80,Служебные - Билеты,80,"[Служебные , Билеты]",Служебные,Билеты
81,Чистые носители (шпиль),81,[Чистые носители (шпиль)],Чистые носители (шпиль),Чистые носители (шпиль)
82,Чистые носители (штучные),82,[Чистые носители (штучные)],Чистые носители (штучные),Чистые носители (штучные)


In [77]:
from sklearn.preprocessing import LabelEncoder

In [78]:
itemcat.type.unique()

array(['PC ', 'Аксессуары ', 'Билеты (Цифра)', 'Доставка товара',
       'Игровые консоли ', 'Игры ', 'Игры Android ', 'Игры MAC ',
       'Игры PC ', 'Карты оплаты (Кино, Музыка, Игры)', 'Карты оплаты ',
       'Кино ', 'Книги ', 'Музыка ', 'Подарки ', 'Программы ',
       'Служебные', 'Служебные ', 'Чистые носители (шпиль)',
       'Чистые носители (штучные)', 'Элементы питания'], dtype=object)

In [79]:
itemcat.sub_type.unique()

array([' Гарнитуры/Наушники', ' PS2', ' PS3', ' PS4', ' PSP', ' PSVita',
       ' XBOX 360', ' XBOX ONE', 'Билеты (Цифра)', 'Доставка товара',
       ' Прочие', ' Аксессуары для игр', ' Цифра',
       ' Дополнительные издания', ' Коллекционные издания',
       ' Стандартные издания', 'Карты оплаты (Кино, Музыка, Игры)',
       ' Live!', ' Live! (Цифра)', ' PSN', ' Windows (Цифра)', ' Blu',
       ' DVD', ' Коллекционное', ' Артбуки, энциклопедии', ' Аудиокниги',
       ' Аудиокниги (Цифра)', ' Аудиокниги 1С', ' Бизнес литература',
       ' Комиксы, манга', ' Компьютерная литература',
       ' Методические материалы 1С', ' Открытки',
       ' Познавательная литература', ' Путеводители',
       ' Художественная литература', ' CD локального производства',
       ' CD фирменного производства', ' MP3', ' Винил',
       ' Музыкальное видео', ' Подарочные издания', ' Атрибутика',
       ' Гаджеты, роботы, спорт', ' Мягкие игрушки', ' Настольные игры',
       ' Настольные игры (компактные)', '

In [81]:
le = LabelEncoder()
itemcat['type_code']=le.fit_transform(itemcat.type)

In [82]:
itemcat

Unnamed: 0,item_category_name,item_category_id,split,type,sub_type,type_code
0,PC - Гарнитуры/Наушники,0,"[PC , Гарнитуры/Наушники]",PC,Гарнитуры/Наушники,0
1,Аксессуары - PS2,1,"[Аксессуары , PS2]",Аксессуары,PS2,1
2,Аксессуары - PS3,2,"[Аксессуары , PS3]",Аксессуары,PS3,1
3,Аксессуары - PS4,3,"[Аксессуары , PS4]",Аксессуары,PS4,1
4,Аксессуары - PSP,4,"[Аксессуары , PSP]",Аксессуары,PSP,1
...,...,...,...,...,...,...
79,Служебные,79,[Служебные],Служебные,Служебные,16
80,Служебные - Билеты,80,"[Служебные , Билеты]",Служебные,Билеты,17
81,Чистые носители (шпиль),81,[Чистые носители (шпиль)],Чистые носители (шпиль),Чистые носители (шпиль),18
82,Чистые носители (штучные),82,[Чистые носители (штучные)],Чистые носители (штучные),Чистые носители (штучные),19


In [83]:
itemcat['sub_type_code']=le.fit_transform(itemcat.sub_type)

In [84]:
itemcat

Unnamed: 0,item_category_name,item_category_id,split,type,sub_type,type_code,sub_type_code
0,PC - Гарнитуры/Наушники,0,"[PC , Гарнитуры/Наушники]",PC,Гарнитуры/Наушники,0,28
1,Аксессуары - PS2,1,"[Аксессуары , PS2]",Аксессуары,PS2,1,9
2,Аксессуары - PS3,2,"[Аксессуары , PS3]",Аксессуары,PS3,1,10
3,Аксессуары - PS4,3,"[Аксессуары , PS4]",Аксессуары,PS4,1,11
4,Аксессуары - PSP,4,"[Аксессуары , PSP]",Аксессуары,PSP,1,13
...,...,...,...,...,...,...,...
79,Служебные,79,[Служебные],Служебные,Служебные,16,61
80,Служебные - Билеты,80,"[Служебные , Билеты]",Служебные,Билеты,17,25
81,Чистые носители (шпиль),81,[Чистые носители (шпиль)],Чистые носители (шпиль),Чистые носители (шпиль),18,62
82,Чистые носители (штучные),82,[Чистые носители (штучные)],Чистые носители (штучные),Чистые носители (штучные),19,63


# train2添加type_code,sub_type_code

In [85]:
train2

Unnamed: 0,shop_id,item_id,date_block_num,item_cnt_month,month,item_category_id
0,0,30,1,31.0,2,40
1,0,31,1,11.0,2,37
2,0,32,0,6.0,1,40
3,0,32,1,10.0,2,40
4,0,33,0,3.0,1,37
...,...,...,...,...,...,...
1609118,59,22164,27,2.0,4,37
1609119,59,22164,30,1.0,7,37
1609120,59,22167,9,1.0,10,49
1609121,59,22167,11,2.0,12,49


In [87]:
itemcat_simple = itemcat[['item_category_id','type_code','sub_type_code']]
itemcat_simple

Unnamed: 0,item_category_id,type_code,sub_type_code
0,0,0,28
1,1,1,9
2,2,1,10
3,3,1,11
4,4,1,13
...,...,...,...
79,79,16,61
80,80,17,25
81,81,18,62
82,82,19,63


In [88]:
train2 = pd.merge(left=train2, right=itemcat_simple, on='item_category_id', how='left')
train2

Unnamed: 0,shop_id,item_id,date_block_num,item_cnt_month,month,item_category_id,type_code,sub_type_code
0,0,30,1,31.0,2,40,11,4
1,0,31,1,11.0,2,37,11,1
2,0,32,0,6.0,1,40,11,4
3,0,32,1,10.0,2,40,11,4
4,0,33,0,3.0,1,37,11,1
...,...,...,...,...,...,...,...,...
1609118,59,22164,27,2.0,4,37,11,1
1609119,59,22164,30,1.0,7,37,11,1
1609120,59,22167,9,1.0,10,49,12,36
1609121,59,22167,11,2.0,12,49,12,36


# test添加type_code,sub_type_code

In [89]:
test

Unnamed: 0,ID,shop_id,item_id,item_category_id,date_block_num,month
0,0,5,5037,19,34,11
1,1,5,5320,55,34,11
2,2,5,5233,19,34,11
3,3,5,5232,23,34,11
4,4,5,5268,20,34,11
...,...,...,...,...,...,...
214195,214195,45,18454,55,34,11
214196,214196,45,16188,64,34,11
214197,214197,45,15757,55,34,11
214198,214198,45,19648,40,34,11


In [90]:
np.unique(test.item_category_id.values)

array([ 0,  2,  3,  5,  6,  7,  9, 11, 12, 15, 16, 19, 20, 21, 22, 23, 24,
       25, 26, 27, 28, 29, 30, 31, 33, 34, 35, 36, 37, 38, 40, 41, 42, 43,
       44, 45, 47, 49, 54, 55, 56, 57, 58, 60, 61, 62, 63, 64, 65, 67, 69,
       70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 83], dtype=int64)

In [91]:
test = pd.merge(left=test, right=itemcat_simple, on='item_category_id', how='left')
test

Unnamed: 0,ID,shop_id,item_id,item_category_id,date_block_num,month,type_code,sub_type_code
0,0,5,5037,19,34,11,5,10
1,1,5,5320,55,34,11,13,2
2,2,5,5233,19,34,11,5,10
3,3,5,5232,23,34,11,5,16
4,4,5,5268,20,34,11,5,11
...,...,...,...,...,...,...,...,...
214195,214195,45,18454,55,34,11,13,2
214196,214196,45,16188,64,34,11,14,39
214197,214197,45,15757,55,34,11,13,2
214198,214198,45,19648,40,34,11,11,4


In [92]:
train2

Unnamed: 0,shop_id,item_id,date_block_num,item_cnt_month,month,item_category_id,type_code,sub_type_code
0,0,30,1,31.0,2,40,11,4
1,0,31,1,11.0,2,37,11,1
2,0,32,0,6.0,1,40,11,4
3,0,32,1,10.0,2,40,11,4
4,0,33,0,3.0,1,37,11,1
...,...,...,...,...,...,...,...,...
1609118,59,22164,27,2.0,4,37,11,1
1609119,59,22164,30,1.0,7,37,11,1
1609120,59,22167,9,1.0,10,49,12,36
1609121,59,22167,11,2.0,12,49,12,36


# 分析shops

In [97]:
shops = pd.read_csv('./data/shops.csv')
shops

Unnamed: 0,shop_name,shop_id
0,"!Якутск Орджоникидзе, 56 фран",0
1,"!Якутск ТЦ ""Центральный"" фран",1
2,"Адыгея ТЦ ""Мега""",2
3,"Балашиха ТРК ""Октябрь-Киномир""",3
4,"Волжский ТЦ ""Волга Молл""",4
5,"Вологда ТРЦ ""Мармелад""",5
6,"Воронеж (Плехановская, 13)",6
7,"Воронеж ТРЦ ""Максимир""",7
8,"Воронеж ТРЦ Сити-Парк ""Град""",8
9,Выездная Торговля,9


In [98]:
shops['split']=shops.shop_name.str.split(' ')

In [99]:
shops

Unnamed: 0,shop_name,shop_id,split
0,"!Якутск Орджоникидзе, 56 фран",0,"[!Якутск, Орджоникидзе,, 56, фран]"
1,"!Якутск ТЦ ""Центральный"" фран",1,"[!Якутск, ТЦ, ""Центральный"", фран]"
2,"Адыгея ТЦ ""Мега""",2,"[Адыгея, ТЦ, ""Мега""]"
3,"Балашиха ТРК ""Октябрь-Киномир""",3,"[Балашиха, ТРК, ""Октябрь-Киномир""]"
4,"Волжский ТЦ ""Волга Молл""",4,"[Волжский, ТЦ, ""Волга, Молл""]"
5,"Вологда ТРЦ ""Мармелад""",5,"[Вологда, ТРЦ, ""Мармелад""]"
6,"Воронеж (Плехановская, 13)",6,"[Воронеж, (Плехановская,, 13)]"
7,"Воронеж ТРЦ ""Максимир""",7,"[Воронеж, ТРЦ, ""Максимир""]"
8,"Воронеж ТРЦ Сити-Парк ""Град""",8,"[Воронеж, ТРЦ, Сити-Парк, ""Град""]"
9,Выездная Торговля,9,"[Выездная, Торговля]"


In [100]:
shops['shop_city'] = shops['split'].map(lambda x:x[0])