# Описание задачи

## Производственная практика 2022/2023 в Университете ИТМО "Построение модели машинного обучения для предсказания спроса на товары"
### Мне в рамках индивидуального задания необходимо разработать модель машинного обучения, которая будет предсказывать спрос на товары, то есть решать задачу регрессии временных рядов
### Для этой задачи я взял самый популярный доступный [датасет](https://www.kaggle.com/competitions/demand-forecasting-kernels-only) по предсказанию спроса на товары

# Импорт библиотек

In [275]:
import random

import numpy as np
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

# Чтение датасета

In [213]:
df = pd.read_csv('data/train.csv', parse_dates=['date'])

In [214]:
df.sample(10)

Unnamed: 0,date,store,item,sales
464354,2014-07-05,5,26,60
363965,2014-08-15,10,20,58
386821,2017-03-16,2,22,92
216233,2015-02-05,9,12,53
413753,2015-12-14,7,23,13
330261,2017-05-01,1,19,43
874066,2016-05-23,9,48,57
753883,2017-04-21,3,42,46
138342,2016-10-24,6,8,57
187554,2016-07-26,3,11,93


В нашем датасете содержатся данные за 5 лет о покупках в 10 магазинах 50 товаров
Задание на kaggle подразумевает предсказание спроса на эти 50 товаров в 10 магазинах на следующие 3 месяца, однако в рамках практики мы облегчим задачу. Нашей задачей будет предсказать стоимость 1 товара в 1 магазине за 1 год (последний, 5-ый год)

# Исследование датасета

In [215]:
df.shape

(913000, 4)

In [216]:
df.isna().sum()

date     0
store    0
item     0
sales    0
dtype: int64

In [217]:
df.describe()

Unnamed: 0,store,item,sales
count,913000.0,913000.0,913000.0
mean,5.5,25.5,52.250287
std,2.872283,14.430878,28.801144
min,1.0,1.0,0.0
25%,3.0,13.0,30.0
50%,5.5,25.5,47.0
75%,8.0,38.0,70.0
max,10.0,50.0,231.0


In [218]:
df.dtypes

date     datetime64[ns]
store             int64
item              int64
sales             int64
dtype: object

Описание полей датасета:
- `date` - Дата
- `store` - Id магазина
- `item` - Id товара
- `sales` - Количество продаж текущего товара в текущем магазине на текущую дату

# Краткий анализ распределения переменных

In [219]:
all(df['date'].value_counts() == 10 * 50) # 10 магазинов * 50 товаров

True

In [220]:
all(df['store'].value_counts() == 50 * 1826) # 50 товаров * 5 лет

True

In [221]:
all(df['item'].value_counts() == 10 * 1826) # 10 товаров * 5 лет

True

## Немного графиков

In [222]:
px.line(df.groupby(['date'])[['sales']].sum(),
        title='Сумма продаж всех товаров за каждый день по всем магазинам')

In [223]:
px.line(df.groupby([pd.Grouper(freq='MS', key='date')])[['sales']].sum(),
        title='Сумма продаж всех товаров за каждый месяц по всем магазинам')

Распределение суммы продаж по товарам и магазинам

In [224]:
px.bar(pd.pivot_table(df, values='sales',
               columns='store',
               index='item',
               aggfunc='sum'), title="Распределение суммы продаж по товарам и магазинам",
       template='plotly_dark')

Распределение суммы продаж по товарам, магазинам и годам

In [225]:
df.groupby(['item', 'store' ,pd.Grouper(freq='Y', key='date')]).sum().unstack().unstack()

Unnamed: 0_level_0,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales,sales
date,2013-12-31,2013-12-31,2013-12-31,2013-12-31,2013-12-31,2013-12-31,2013-12-31,2013-12-31,2013-12-31,2013-12-31,...,2017-12-31,2017-12-31,2017-12-31,2017-12-31,2017-12-31,2017-12-31,2017-12-31,2017-12-31,2017-12-31,2017-12-31
store,1,2,3,4,5,6,7,8,9,10,...,1,2,3,4,5,6,7,8,9,10
item,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3,Unnamed: 10_level_3,Unnamed: 11_level_3,Unnamed: 12_level_3,Unnamed: 13_level_3,Unnamed: 14_level_3,Unnamed: 15_level_3,Unnamed: 16_level_3,Unnamed: 17_level_3,Unnamed: 18_level_3,Unnamed: 19_level_3,Unnamed: 20_level_3,Unnamed: 21_level_3
1,6025,8530,7603,6973,5092,5101,4704,8122,7063,7510,...,8097,11584,10418,9379,6917,6745,6263,11066,9625,10059
2,16036,22942,20210,18898,13391,13590,12490,21711,18922,19906,...,21823,30718,27322,25294,18347,18501,16682,29517,25239,26978
3,10100,14165,12688,11710,8540,8556,7646,13625,11800,12582,...,13646,19457,17229,15827,11431,11452,10585,18536,15770,16869
4,6045,8590,7764,7076,5011,5139,4700,8323,7110,7551,...,8078,11651,10350,9475,6778,6828,6202,10805,9491,10125
5,5002,7068,6270,5882,4329,4205,3796,6832,5916,6321,...,6824,9658,8665,7902,5874,5716,5270,9358,7976,8564
6,16182,22989,20149,18671,13594,13630,12385,21784,18626,20012,...,21784,30717,27314,25025,18322,18362,16772,29474,25205,27014
7,16293,22987,20188,18885,13453,13474,12301,21981,18802,20036,...,21568,30803,27438,25293,18288,18202,16833,29383,25362,26869
8,21112,30233,26222,24680,17779,17848,16464,28457,24446,26184,...,28591,40518,35924,33496,24182,24031,22062,39194,33456,35457
9,14201,19816,17849,16541,11788,12034,10985,19027,16461,17602,...,18927,26937,23784,22043,15901,16243,14809,26236,22181,23636
10,19988,28604,25189,23278,16842,16905,15628,27136,23329,25172,...,27493,38746,34384,31565,22999,22813,21112,36933,31981,33835


# Выберем (случайным образом) нашу целевую связку магазин - товар

In [83]:
# random_shop = random.randint(df['store'].min(), df['store'].max() + 1)
# random_item = random.randint(df['item'].min(), df['item'].max() + 1)

In [84]:
# print(f"Наша целевая связка: магазин {random_shop} + товар {random_item}")

Наша целевая связка: магазин 5 + товар 44


### Наша целевая связка: магазин 5 + товар 44

In [226]:
target_pair = (5, 44)

In [227]:
temp_df = df.groupby(['store', 'item'])[['sales']].sum().reset_index()
temp_df[(temp_df['item'] == 44) & (temp_df['store'] == 5)]

Unnamed: 0,store,item,sales
243,5,44,40930


In [228]:
print(f"Среднее: {temp_df['sales'].mean()}, СКО: {temp_df['sales'].std()}, Максимум: "
      f"{temp_df['sales'].max()}, Минимум: {temp_df['sales'].min()}")

Среднее: 95409.024, СКО: 43938.190666269766, Максимум: 205677, Минимум: 23252


# Получилось так, что у нас далеко не самая популярная связка товара и магазина, но всё равно попробуем предсказать именно её. Если быть точнее, то предскажем спрос на этот товар в этом магазине в 2017 году, а история продаж всех товаров во всех магазинах за 2013 - 2016 года будет нашей обучающей выборкой

# Feature Engineering

In [229]:
df = df.merge(df.groupby(['store',
                          'date'])[['sales']].sum().reset_index().rename(columns={'sales': 'store_sales'}),
              on=['store', 'date'], how='left')

In [230]:
df = df.merge(df.groupby(['item',
                          'date'])[['sales']].sum().reset_index().rename(columns={'sales': 'item_sales'}),
              on=['item', 'date'], how='left')

In [231]:
df['sales_lag_365_days'] = df.groupby(["store", "item"])['sales'].transform(lambda x: x.shift(365))
df['store_sales_lag_365_days'] = df.groupby(["store", "item"])['store_sales'].transform(lambda x: x.shift(365))
df['item_sales_lag_365_days'] = df.groupby(["store", "item"])['item_sales'].transform(lambda x: x.shift(365))

In [232]:
df

Unnamed: 0,date,store,item,sales,store_sales,item_sales,sales_lag_365_days,store_sales_lag_365_days,item_sales_lag_365_days
0,2013-01-01,1,1,13,1316,133,,,
1,2013-01-02,1,1,11,1264,99,,,
2,2013-01-03,1,1,14,1305,127,,,
3,2013-01-04,1,1,13,1452,145,,,
4,2013-01-05,1,1,10,1499,149,,,
...,...,...,...,...,...,...,...,...,...
912995,2017-12-27,10,50,63,2221,511,60.0,2173.0,474.0
912996,2017-12-28,10,50,59,2429,587,43.0,2128.0,469.0
912997,2017-12-29,10,50,74,2687,596,68.0,2432.0,566.0
912998,2017-12-30,10,50,62,2742,612,63.0,2484.0,585.0


In [233]:
train_df = df.loc[df['date'] < '2017-01-01'].copy()
test_df = df.loc[(df['date'] >= '2017-01-01') & (df['store'] == 5) &
           (df['item'] == 44)].copy()

In [234]:
train_df

Unnamed: 0,date,store,item,sales,store_sales,item_sales,sales_lag_365_days,store_sales_lag_365_days,item_sales_lag_365_days
0,2013-01-01,1,1,13,1316,133,,,
1,2013-01-02,1,1,11,1264,99,,,
2,2013-01-03,1,1,14,1305,127,,,
3,2013-01-04,1,1,13,1452,145,,,
4,2013-01-05,1,1,10,1499,149,,,
...,...,...,...,...,...,...,...,...,...
912630,2016-12-27,10,50,60,2173,474,42.0,1820.0,389.0
912631,2016-12-28,10,50,43,2128,469,45.0,2040.0,476.0
912632,2016-12-29,10,50,68,2432,566,51.0,2074.0,456.0
912633,2016-12-30,10,50,63,2484,585,44.0,2187.0,473.0


In [263]:
test_df.sample(5)

Unnamed: 0,date,store,item,sales,store_sales,item_sales,sales_lag_365_days,store_sales_lag_365_days,item_sales_lag_365_days,dayofweek,quarter,month,dayofyear,dayofmonth,weekofyear,season
794046,2017-04-12,5,44,27,2165,330,18.0,2139.0,304.0,2,2,4,102,12,15,1
794085,2017-05-21,5,44,37,3051,446,23.0,2711.0,378.0,6,2,5,141,21,20,1
794301,2017-12-23,5,44,16,1832,266,21.0,1684.0,252.0,5,4,12,357,23,51,0
793983,2017-02-08,5,44,14,1538,192,27.0,1471.0,242.0,2,1,2,39,8,6,0
794057,2017-04-23,5,44,30,2844,399,25.0,2509.0,395.0,6,2,4,113,23,16,1


In [264]:
def create_date_time_features(data):
    """
    Создание тайм-сириес фичей
    """
    data = data.copy(deep=True)
    data['dayofweek'] = data.date.dt.dayofweek
    data['quarter'] = data.date.dt.quarter
    data['month'] = data.date.dt.month
    data['dayofyear'] = data.date.dt.dayofyear
    data['dayofmonth'] = data.date.dt.day
    data['weekofyear'] = data.date.dt.isocalendar().week.astype("int64")
    # 0: Зима
    # 1: Весна
    # 2: Лето
    # 3: Осень
    data["season"] = np.where(data.month.isin([12,1,2]), 0, 1)
    data["season"] = np.where(data.month.isin([6,7,8]), 2, data["season"])
    data["season"] = np.where(data.month.isin([9, 10, 11]), 3, data["season"])
    return data

In [265]:
train_df = create_date_time_features(train_df)
test_df = create_date_time_features(test_df)

In [266]:
target_pair

(5, 44)

In [267]:
train_df[(train_df['store'] == 5) & (train_df['item'] == 44)]

Unnamed: 0,date,store,item,sales,store_sales,item_sales,sales_lag_365_days,store_sales_lag_365_days,item_sales_lag_365_days,dayofweek,quarter,month,dayofyear,dayofmonth,weekofyear,season
792484,2013-01-01,5,44,13,1032,154,,,,1,1,1,1,1,1,0
792485,2013-01-02,5,44,8,997,165,,,,2,1,1,2,2,1,0
792486,2013-01-03,5,44,9,1130,170,,,,3,1,1,3,3,1,0
792487,2013-01-04,5,44,16,1258,189,,,,4,1,1,4,4,1,0
792488,2013-01-05,5,44,17,1154,202,,,,5,1,1,5,5,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
793940,2016-12-27,5,44,16,1467,215,14.0,1218.0,182.0,1,4,12,362,27,52,0
793941,2016-12-28,5,44,20,1473,210,12.0,1381.0,221.0,2,4,12,363,28,52,0
793942,2016-12-29,5,44,15,1574,232,16.0,1423.0,166.0,3,4,12,364,29,52,0
793943,2016-12-30,5,44,23,1765,268,19.0,1511.0,225.0,4,4,12,365,30,52,0


In [268]:
target_shop_train_df = train_df[(train_df['store'] == 5) & (train_df['item'] == 44)].copy(deep=True)

## Создадим наши датасеты для обучения и предсказаний

In [269]:
target_shop_train_df.shape, test_df.shape

((1461, 16), (365, 16))

In [270]:
final_train_df = pd.get_dummies(target_shop_train_df, columns=['dayofweek', "quarter", 'month', "season"])

In [271]:
y_train = final_train_df[final_train_df['sales_lag_365_days'].notna()]['sales']
X_train = final_train_df[final_train_df['sales_lag_365_days'].notna()].drop(['date', 'sales', 'store_sales',
                                                                             'item_sales', 'item', 'store'],
                                                                            axis=1)

In [272]:
final_test_df = pd.get_dummies(test_df, columns=['dayofweek', "quarter", 'month', "season"])
y_test = final_test_df[final_test_df['sales_lag_365_days'].notna()]['sales']
X_test = final_test_df[final_test_df['sales_lag_365_days'].notna()].drop(['date', 'sales', 'store_sales',
                                                                             'item_sales', 'item', 'store'],
                                                                            axis=1)

In [273]:
print("X dataframes' shapes:", X_train.shape, X_test.shape)

X dataframes' shapes: (1096, 33) (365, 33)


In [274]:
print("y dataframes' shapes:", y_train.shape, y_test.shape)

y dataframes' shapes: (1096,) (365,)


# Графики перед предсказаниями

In [281]:
fig = go.Figure()

fig.add_trace(go.Scatter(x=pd.date_range("2014-01-01", "2016-12-31", freq='D'),
                         y=y_train,
                         name='Обучающая<br>выборка',
                         mode='lines'))

fig.add_trace(go.Scatter(x=pd.date_range("2017-01-01", "2017-12-31", freq='D'),
                         y=y_test,
                         name='Тестовая<br>выборка',
                         mode='lines'))

fig.update_layout(title='Продажи<br>'
                        '<b>Обучающая выборка</b> vs <b>Тестовая выборка</b>')
fig.update_xaxes(title='Дата', tickformat="%d %b %Y")
fig.update_yaxes(title='Продажи за день')

fig.show()

In [283]:
pd.concat([X_train, y_train], ignore_index=True, axis=1)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,24,25,26,27,28,29,30,31,32,33
792849,13.0,1032.0,154.0,1,1,1,0,0,1,0,...,0,0,0,0,0,1,0,0,0,15
792850,8.0,997.0,165.0,2,2,1,0,0,0,1,...,0,0,0,0,0,1,0,0,0,15
792851,9.0,1130.0,170.0,3,3,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,8
792852,16.0,1258.0,189.0,4,4,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,17
792853,17.0,1154.0,202.0,5,5,1,0,0,0,0,...,0,0,0,0,0,1,0,0,0,21
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
793940,14.0,1218.0,182.0,362,27,52,0,1,0,0,...,0,0,0,0,1,1,0,0,0,16
793941,12.0,1381.0,221.0,363,28,52,0,0,1,0,...,0,0,0,0,1,1,0,0,0,20
793942,16.0,1423.0,166.0,364,29,52,0,0,0,1,...,0,0,0,0,1,1,0,0,0,15
793943,19.0,1511.0,225.0,365,30,52,0,0,0,0,...,0,0,0,0,1,1,0,0,0,23


In [289]:
pd.DataFrame(pd.concat([X_train, y_train], ignore_index=True, axis=1),
             columns=X_train.columns.tolist() +
                     ['target']).to_parquet('data/model_datasets/train.parquet')
pd.DataFrame(pd.concat([X_test, y_test], ignore_index=True, axis=1),
             columns=X_test.columns.tolist() +
                     ['target']).to_parquet('data/model_datasets/test.parquet')