### Решение от Абрамовой Анна Константиновны направление Data Science

### Подготовка и анализ данных

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
plt.rcParams["figure.figsize"] = (12, 8)
plt.rcParams.update({'font.size': 11})

In [3]:
df_transaction = pd.read_parquet("../data/transaction_df.parquet")
df_competitors = pd.read_parquet("../data/df_competitors.parquet")
df_cost = pd.read_parquet("../data/df_cost.parquet")
df_weather = pd.read_parquet("../data/weather_df.parquet")

#### Работа с данными транзакций 

In [4]:
df_transaction

Unnamed: 0,product,price,amount,place,datetime
0,Целебные травы,3.90,1.242125,Анор Лондо,2216-01-02 16:28:00
1,Целебные травы,3.90,-0.079689,Анор Лондо,2216-01-02 16:21:00
2,Целебные травы,3.90,0.882450,Анор Лондо,2216-01-02 03:03:00
3,Целебные травы,3.90,0.621377,Анор Лондо,2216-01-02 03:12:00
4,Целебные травы,3.90,1.367161,Анор Лондо,2216-01-02 05:33:00
...,...,...,...,...,...
875031,Эстус,9.28,1.079104,Фалькония,2218-09-27 14:50:00
875032,Эстус,9.28,1.580617,Фалькония,2218-09-27 06:16:00
875033,Эстус,9.28,1.738492,Фалькония,2218-09-27 11:14:00
875034,Эстус,9.28,0.430340,Фалькония,2218-09-27 22:24:00


In [5]:
df_transaction.dtypes

product             object
price              float64
amount             float64
place               object
datetime    datetime64[ns]
dtype: object

Убираю значение времени время из столбца datetime

In [6]:
df_transaction['datetime'] = pd.to_datetime(df_transaction['datetime']).dt.date

In [7]:
df_transaction

Unnamed: 0,product,price,amount,place,datetime
0,Целебные травы,3.90,1.242125,Анор Лондо,2216-01-02
1,Целебные травы,3.90,-0.079689,Анор Лондо,2216-01-02
2,Целебные травы,3.90,0.882450,Анор Лондо,2216-01-02
3,Целебные травы,3.90,0.621377,Анор Лондо,2216-01-02
4,Целебные травы,3.90,1.367161,Анор Лондо,2216-01-02
...,...,...,...,...,...
875031,Эстус,9.28,1.079104,Фалькония,2218-09-27
875032,Эстус,9.28,1.580617,Фалькония,2218-09-27
875033,Эстус,9.28,1.738492,Фалькония,2218-09-27
875034,Эстус,9.28,0.430340,Фалькония,2218-09-27


Для дальнейшей работы устанавливаю дату в качестве индекса

In [8]:
df_transaction=df_transaction.set_index('datetime')

In [9]:
df_transaction.columns

Index(['product', 'price', 'amount', 'place'], dtype='object')

Проверка таблицы на количество нулевых строк

In [10]:
df_transaction.isna().sum()

product      0
price        0
amount       0
place      432
dtype: int64

Как можно заметить, столбец "place" имеет нулевые строки. Удаляю их. Так же удаляю дубликаты,если они есть.

In [11]:
df_transaction=df_transaction.dropna()

In [12]:
df_transaction=df_transaction.drop_duplicates()

In [13]:
df_transaction.shape

(874604, 4)

Можно заметить, что данных стало меньше.

Устанвливаю ограничения на объем и цену товара, они не могут быть отрицательнымы. 

In [14]:
df_transaction= df_transaction[(df_transaction['amount'] > 0 ) &(df_transaction['price'] > 0 )]

In [15]:
df_transaction.shape

(655659, 4)

Так как в столбце повторяются даты и цена. То я группирую данные о транзакции по цене, дате, месту и продукту, а объем продаж суммирую.

In [16]:
df_trans_group = df_transaction.groupby(['datetime', 'price','product','place']).agg({'amount': ['sum']}).reset_index()

In [17]:
df_trans_group 

Unnamed: 0_level_0,datetime,price,product,place,amount
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,sum
0,2216-01-02,2.73,Целебные травы,Нокрон,44.869785
1,2216-01-02,2.87,Эстус,Нокрон,40.394523
2,2216-01-02,3.60,Эстус,Анор Лондо,46.831999
3,2216-01-02,3.69,Целебные травы,Кеджистан,52.348454
4,2216-01-02,3.90,Целебные травы,Анор Лондо,37.802874
...,...,...,...,...,...
15015,2218-09-27,19.09,Целебные травы,Кеджистан,43.524190
15016,2218-09-27,20.33,Эстус,Врата Балдура,25.646198
15017,2218-09-27,24.42,Эстус,Кеджистан,45.163825
15018,2218-09-27,27.47,Эльфийская пыльца,Врата Балдура,26.922775


Получившая таблица имеет 15020 строк. Содержит данные цен продуктов в рзаных городах по дням

Идея: создать датафрейм, где по одному продукту в один день с одинаковой ценой, объеденины объемы

Проверяю, чтобы дата в сгруппированном фрейме имела нужный формат и устанавливаю дату индексом.

In [18]:
df_trans_group ['datetime'] = pd.to_datetime(df_trans_group ['datetime'])
df_trans_group.dtypes

datetime         datetime64[ns]
price                   float64
product                  object
place                    object
amount    sum           float64
dtype: object

In [19]:
df_trans_group =df_trans_group.set_index('datetime')

In [20]:
df_trans_group .index.min()

Timestamp('2216-01-02 00:00:00')

In [21]:
df_trans_group.index.max()

Timestamp('2218-09-27 00:00:00')

Данные с продажи представлены в период с 02.01.2216 по 27.09.2218, т.е. за 2 года 8 месяцев 25 дней.

#### Анализ данных конкурентов

In [22]:
df_competitors

Unnamed: 0,place,product,competitor,price,date
0,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-04
1,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-05
2,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-06
3,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-09
5,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-11
...,...,...,...,...,...
39451,Фалькония,Эстус,Светлые Души,14.99,2218-09-17
39453,Фалькония,Эстус,Светлые Души,15.36,2218-09-20
39454,Фалькония,Эстус,Светлые Души,15.36,2218-09-22
39455,Фалькония,Эстус,Светлые Души,15.36,2218-09-23


In [23]:
df_competitors.dtypes

place                 object
product               object
competitor            object
price                float64
date          datetime64[ns]
dtype: object

Проверяю количество нулевых данных

In [24]:
df_competitors.isna().sum()

place         0
product       0
competitor    0
price         0
date          0
dtype: int64

Как можно заметить нулевые данные отсутствуют 

In [25]:
df_competitors['competitor'].unique()

array(['Арториас&Co', 'Длань господня', 'ЛилIT', 'Светлые Души'],
      dtype=object)

Переименовываю столбец с ценой и добавляю его и названия конкурентов по совппадающей дате в таблицу с транзакцией

In [26]:
df_competitors=df_competitors.rename(columns={'price':'compet_price','date':'datetime'})

In [27]:
df_competitors

Unnamed: 0,place,product,competitor,compet_price,datetime
0,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-04
1,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-05
2,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-06
3,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-09
5,Анор Лондо,Целебные травы,Арториас&Co,3.78,2216-01-11
...,...,...,...,...,...
39451,Фалькония,Эстус,Светлые Души,14.99,2218-09-17
39453,Фалькония,Эстус,Светлые Души,15.36,2218-09-20
39454,Фалькония,Эстус,Светлые Души,15.36,2218-09-22
39455,Фалькония,Эстус,Светлые Души,15.36,2218-09-23


In [28]:
df_new = df_trans_group.merge(df_competitors, on=['datetime','product','place']).set_index('datetime')

  df_new = df_trans_group.merge(df_competitors, on=['datetime','product','place']).set_index('datetime')


In [29]:
df_new

Unnamed: 0_level_0,product,place,"(price, )","(product, )","(place, )","(amount, sum)",competitor,compet_price
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2216-01-02,Целебные травы,Нокрон,2.73,Целебные травы,Нокрон,44.869785,Арториас&Co,3.04
2216-01-02,Целебные травы,Нокрон,2.73,Целебные травы,Нокрон,44.869785,Длань господня,3.03
2216-01-02,Целебные травы,Нокрон,2.73,Целебные травы,Нокрон,44.869785,ЛилIT,3.07
2216-01-02,Эстус,Нокрон,2.87,Эстус,Нокрон,40.394523,Арториас&Co,2.86
2216-01-02,Эстус,Нокрон,2.87,Эстус,Нокрон,40.394523,ЛилIT,3.09
...,...,...,...,...,...,...,...,...
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,Эльфийская пыльца,Врата Балдура,26.922775,Длань господня,25.93
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,Эльфийская пыльца,Врата Балдура,26.922775,ЛилIT,27.49
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,Эльфийская пыльца,Врата Балдура,26.922775,Светлые Души,24.63
2218-09-27,Эльфийская пыльца,Кеджистан,31.20,Эльфийская пыльца,Кеджистан,47.893352,Длань господня,31.13


Проверяю новый датафрейм на наличие нулевых значений

In [30]:
df_new.isnull().sum()

product          0
place            0
(price, )        0
(product, )      0
(place, )        0
(amount, sum)    0
competitor       0
compet_price     0
dtype: int64

Можно заметить, что есть повторяющиеся столбцы: "product","place". Удаляю их

In [31]:
df_new.columns

Index([        'product',           'place',     ('price', ''),
         ('product', ''),     ('place', ''), ('amount', 'sum'),
            'competitor',    'compet_price'],
      dtype='object')

In [32]:
cols = [3, 4] 
df_new.drop(df_new.columns [cols], axis= 1 , inplace= True )

In [33]:
df_new

Unnamed: 0_level_0,product,place,"(price, )","(amount, sum)",competitor,compet_price
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2216-01-02,Целебные травы,Нокрон,2.73,44.869785,Арториас&Co,3.04
2216-01-02,Целебные травы,Нокрон,2.73,44.869785,Длань господня,3.03
2216-01-02,Целебные травы,Нокрон,2.73,44.869785,ЛилIT,3.07
2216-01-02,Эстус,Нокрон,2.87,40.394523,Арториас&Co,2.86
2216-01-02,Эстус,Нокрон,2.87,40.394523,ЛилIT,3.09
...,...,...,...,...,...,...
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,26.922775,Длань господня,25.93
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,26.922775,ЛилIT,27.49
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,26.922775,Светлые Души,24.63
2218-09-27,Эльфийская пыльца,Кеджистан,31.20,47.893352,Длань господня,31.13


Переименовываю столбцы

In [34]:
df_new = df_new.rename(columns={df_new.columns[2]: 'price',df_new.columns[3]: 'amount'}) 

In [35]:
df_new

Unnamed: 0_level_0,product,place,price,amount,competitor,compet_price
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2216-01-02,Целебные травы,Нокрон,2.73,44.869785,Арториас&Co,3.04
2216-01-02,Целебные травы,Нокрон,2.73,44.869785,Длань господня,3.03
2216-01-02,Целебные травы,Нокрон,2.73,44.869785,ЛилIT,3.07
2216-01-02,Эстус,Нокрон,2.87,40.394523,Арториас&Co,2.86
2216-01-02,Эстус,Нокрон,2.87,40.394523,ЛилIT,3.09
...,...,...,...,...,...,...
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,26.922775,Длань господня,25.93
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,26.922775,ЛилIT,27.49
2218-09-27,Эльфийская пыльца,Врата Балдура,27.47,26.922775,Светлые Души,24.63
2218-09-27,Эльфийская пыльца,Кеджистан,31.20,47.893352,Длань господня,31.13


Следующие шаги:

1. Построить модели SARIMAX для каждого товара в каждом городе
2. Оптимизировать цену, которая максимизирует прибыль и не превышает 20% от цены конкурента. 
    price∗amount−cost∗amount
3. 3 дня должна держаться одна цена