Dataset Description
In this competition, you will predict sales for the thousands of product families sold at Favorita stores located in Ecuador. The training data includes dates, store and product information, whether that item was being promoted, as well as the sales numbers. Additional files include supplementary information that may be useful in building your models.

File Descriptions and Data Field Information  

**train.csv**  
The training data, comprising time series of features store_nbr, family, and onpromotion as well as the target sales.
store_nbr identifies the store at which the products are sold.
family identifies the type of product sold.
sales gives the total sales for a product family at a particular store at a given date. Fractional values are possible since products can be sold in fractional units (1.5 kg of cheese, for instance, as opposed to 1 bag of chips).
onpromotion gives the total number of items in a product family that were being promoted at a store at a given date.  

**test.csv**  
The test data, having the same features as the training data. You will predict the target sales for the dates in this file.
The dates in the test data are for the 15 days after the last date in the training data.

**stores.csv**  
Store metadata, including city, state, type, and cluster.
cluster is a grouping of similar stores.

**oil.csv**  
Daily oil price. Includes values during both the train and test data timeframes. (Ecuador is an oil-dependent country and it's economical health is highly vulnerable to shocks in oil prices.)

**holidays_events.csv**  
Holidays and Events, with metadata

NOTE: Pay special attention to the transferred column. A holiday that is transferred officially falls on that calendar day, but was moved to another date by the government. A transferred day is more like a normal day than a holiday. To find the day that it was actually celebrated, look for the corresponding row where type is Transfer. For example, the holiday Independencia de Guayaquil was transferred from 2012-10-09 to 2012-10-12, which means it was celebrated on 2012-10-12. Days that are type Bridge are extra days that are added to a holiday (e.g., to extend the break across a long weekend). These are frequently made up by the type Work Day which is a day not normally scheduled for work (e.g., Saturday) that is meant to payback the Bridge.
Additional holidays are days added a regular calendar holiday, for example, as typically happens around Christmas (making Christmas Eve a holiday).
Additional Notes
Wages in the public sector are paid every two weeks on the 15 th and on the last day of the month. Supermarket sales could be affected by this.
A magnitude 7.8 earthquake struck Ecuador on April 16, 2016. People rallied in relief efforts donating water and other first need products which greatly affected supermarket sales for several weeks after the earthquake.

Описание набора данных
В этом соревновании вам предстоит спрогнозировать продажи тысяч семейств товаров, продаваемых в магазинах Favorita, расположенных в Эквадоре. Данные обучения включают даты, информацию о магазине и продукте, информацию о том, продвигался ли этот товар, а также номера продаж. Дополнительные файлы содержат дополнительную информацию, которая может быть полезна при построении ваших моделей.

Описания файлов и информация о полях данных

**train.csv**  
Данные обучения, включающие временные ряды функций store_nbr, Family и onPromotion, а также целевые продажи.
store_nbr идентифицирует магазин, в котором продаются товары.
Семья определяет тип продаваемого продукта.
Продажи дают общий объем продаж семейства продуктов в конкретном магазине на определенную дату. Возможны дробные значения, поскольку продукция может продаваться в дробных единицах (например, 1,5 кг сыра, а не 1 пакетик чипсов).
onpromotion дает общее количество товаров в семействе продуктов, которые продвигались в магазине на определенную дату.

**test.csv**  
Тестовые данные, имеющие те же характеристики, что и обучающие данные. В этом файле вы спрогнозируете целевые продажи на даты.
Даты в тестовых данных относятся к 15 дням после последней даты в обучающих данных.

**stores.csv**  

Храните метаданные, включая город, штат, тип и кластер.
кластер — это группа похожих магазинов.

**Oil.csv**  
Ежедневная цена на нефть. Включает значения как во время обучения, так и во время тестовых данных. (Эквадор является нефтезависимой страной, и ее экономическое здоровье очень уязвимо к колебаниям цен на нефть.)

**Holidays_events.csv**  
Праздники и события с метаданными


ПРИМЕЧАНИЕ. Обратите особое внимание на переносимый столбец. Перенесенный праздник официально приходится на этот календарный день, но был перенесен правительством на другую дату. Перенесенный день больше похож на обычный день, чем на праздник. Чтобы найти день, когда он действительно отмечался, найдите соответствующую строку, где тип — Перенос. Например, праздник Независимости Гуаякиля был перенесен с 09.10.2012 на 12.10.2012, что означает, что он отмечался 12.10.2012. Дни типа Bridge — это дополнительные дни, которые добавляются к празднику (например, чтобы продлить перерыв на длинные выходные). Они часто состоят из типа «Рабочий день», который представляет собой день, обычно не запланированный для работы (например, суббота), предназначенный для окупаемости Моста.
Дополнительные праздники — это дни, добавленные к обычному календарному празднику, например, как это обычно бывает перед Рождеством (сочельник становится праздником).
Дополнительные замечания
Заработная плата в бюджетной сфере выплачивается каждые две недели – 15-го и в последний день месяца. Это может повлиять на продажи в супермаркетах.
Землетрясение магнитудой 7,8 произошло в Эквадоре 16 апреля 2016 года. Люди сплотились, чтобы оказать помощь, жертвуя воду и другие продукты первой необходимости, что сильно повлияло на продажи в супермаркетах в течение нескольких недель после землетрясения.

In [2]:
# Loading libraries

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import catboost as cb 
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_squared_error

In [7]:
# Loading data
train  = pd.read_csv("C:/Users/user/Desktop/Кегля/store-sales-time-series-forecasting/train.csv")