# Маркетплейс GigaMarket

Вы продавец товаров категории одежда на маркетплейсе GigaMarket. Перед началом продаж, у вас на складе хранится по 3000 единиц каждой SKU*.

Спустя почти 4 месяца продаж, маркетплейс вам предоставил исторические данные о ваших товарах. Необходимо провести аналитику

Задача:
1. Ознакомиться с данными (предоставить описание и сделать небольшие выводы на основе того, что дано на старте)
2. Провести Data Cleaning  (если это необходимо) - никогда нельзя полностью доверять данным!
3. Привести данные к виду, с которым будет удобно работать
4. Рассчитать сколько осталось единиц на складе за каждый день. Сколько осталось непроданных единиц?
5. Узнать какой revenue (прибыль) вы, как продавец, получили с этих товаров
6. Исследовать спрос каждого из SKU в разный период времени. Определить чем это вызвано

Приветствуется визуализация с помощью plotly.express на разных этапах

*SKU - индектификатор товара в ритейле - аналог product_id, но просто со своими особенностями



Каждый этап ± описывать, чтобы я смогла понимать ваш ход мыслей


## Знакомимся с данными

In [1]:
import pandas as pd
import plotly.express as px

In [2]:
costs = pd.read_csv('costs.csv')
categories = pd.read_json('categories.json')
daily_sales = pd.read_csv('daily_sales.csv')
groups = pd.read_json('groups.json')
prices = pd.read_csv('prices.csv')
products = pd.read_json('products.json')

### Таблица costs

In [3]:
costs

Unnamed: 0,date,sku,cost
0,2024-01-10,100003,1543
1,2024-01-11,100003,1543
2,2024-01-12,100003,1543
3,2024-01-13,100003,1543
4,2024-01-14,100003,1543
...,...,...,...
555,2024-04-26,100002,1678
556,2024-04-27,100002,1678
557,2024-04-28,100002,1678
558,2024-04-29,100002,1678


*Таблица costs содержит информацию о себестоимости товаров.*


---
**date** - дата, за которую представлена себестоимость товара

**sku** - индектификатор товара в ритейле

**cost** - себестоимость

In [4]:
costs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 560 entries, 0 to 559
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    560 non-null    object
 1   sku     560 non-null    int64 
 2   cost    560 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 13.2+ KB


В таблице costs мы наблюдаем себестоимость за разные даты различных товаров. Дата представлена не в формате даты, в остальном данные корректны. Также sku необходимо привести к строковому типу.

### Таблица categories

In [5]:
categories

Unnamed: 0,id,name
0,1,Одежда
1,2,Обувь


*Таблица categories содержит информацию о категориях одежды.*


---
**id** -  идентификатор категории

**name** - название категории

In [6]:
categories.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      2 non-null      int64 
 1   name    2 non-null      object
dtypes: int64(1), object(1)
memory usage: 160.0+ bytes


В таблице categories мы наблюдаем перечисление категорий. Все данные представлены корректно.

### Таблица groups

In [7]:
groups

Unnamed: 0,id,name
0,1,Шорты
1,2,Юбки
2,3,Рубашки | Блузы
3,4,Футболки
4,5,Толстовки
5,6,Комплекты
6,7,Верхняя одежда
7,8,Деним
8,9,Брюки
9,10,Свитеры


*Таблица groups содержит информацию о группах одежды.*


---


**id** - идентификатор группы

**name** - название группы

In [8]:
groups.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11 entries, 0 to 10
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      11 non-null     int64 
 1   name    11 non-null     object
dtypes: int64(1), object(1)
memory usage: 304.0+ bytes


В таблице groups мы наблюдаем перечисление групп. Все данные представлены корректно.

### Таблица prices

In [9]:
prices

Unnamed: 0,date,sku,price
0,2024-01-10,100003,2399
1,2024-01-11,100003,2399
2,2024-01-12,100003,2399
3,2024-01-13,100003,2399
4,2024-01-14,100003,2399
...,...,...,...
555,2024-04-26,100002,2690
556,2024-04-27,100002,2690
557,2024-04-28,100002,2690
558,2024-04-29,100002,2690


*Таблица prices содержит информацию о розничных ценах.*


---


**date** - дата

**sku** - индектификатор товара в ритейле

**price** - розничная цена

In [10]:
prices.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 560 entries, 0 to 559
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    560 non-null    object
 1   sku     560 non-null    int64 
 2   price   560 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 13.2+ KB


В таблице prices мы наблюдаем розничные цены за разные даты различных товаров. Дата представлена не в формате даты, в остальном данные корректны. Также sku необходимо привести к строковому типу.

### Таблица products

In [11]:
products

Unnamed: 0,sku,name,group_id,category_id
0,100001,Удлиненные шорты из смесового хлопка,1,1
1,100002,Льняная рубашка с вышивкой,3,1
2,100003,Объемная блуза с драпировкой,3,1
3,100004,Джинсы Relaxed fit со средней посадкой,8,1
4,100005,Утепленная куртка прямого кроя,11,1


*Таблица products содержит информацию о продуктах.*

---

**sku** - индектификатор товара в ритейле

**name** - название продукта

**group_id** - идентификатор группы

**category_id** - идентификатор категории

In [12]:
products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   sku          5 non-null      int64 
 1   name         5 non-null      object
 2   group_id     5 non-null      int64 
 3   category_id  5 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 288.0+ bytes


В таблице products мы видим идертификатор товара и его название, а также группу и категорию, к которой он относится. sku необходимо привести к строковому типу. Остальные данные представлены корректно корректны.

### Таблица daily_sales

In [13]:
daily_sales

Unnamed: 0,date,sku,unit_sold,returns,delivered_units,views,orders,cancellations
0,2024-01-10 00:00:00.000000,100005,5.0,0,5,150.0,6.0,1
1,2024-01-11 00:00:00.000000,100005,3.0,0,3,90.0,3.0,0
2,2024-01-12 00:00:00.000000,100005,15.0,0,15,450.0,18.0,3
3,2024-01-13 00:00:00.000000,100005,1.0,0,1,30.0,1.0,0
4,2024-01-14 00:00:00.000000,100005,12.0,0,12,360.0,14.0,2
...,...,...,...,...,...,...,...,...
555,2024-04-26 00:00:00.000000,100001,21.0,0,14,630.0,24.0,2
556,2024-04-27 00:00:00.000000,100001,30.0,1,21,900.0,36.0,3
557,2024-04-28 00:00:00.000000,100001,69.0,2,48,2070.0,82.5,7
558,2024-04-29 00:00:00.000000,100001,25.5,0,17,765.0,30.0,3


*Таблица daily_sales содержит информацию о ежедневных продажах.*

---
**date** - дата продажи

**sku** - индектификатор товара в ритейле

**unit_sold** - кол-во проданных единиц

**returns** - кол-во возвратов

**delivered_units** - кол-во доставленных на склад единиц

`df['delivered_units'] = df['unit_sold'] + df['returns']`

**views** - кол-во просмотров

**orders**  - кол-во заказов

**cancellations** - кол-во отмен

`df['cancellations'] = (df['orders'] - df['delivered_units']).astype(int)`

In [14]:
daily_sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 560 entries, 0 to 559
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   date             560 non-null    object 
 1   sku              560 non-null    int64  
 2   unit_sold        560 non-null    float64
 3   returns          560 non-null    int64  
 4   delivered_units  560 non-null    int64  
 5   views            560 non-null    float64
 6   orders           560 non-null    float64
 7   cancellations    560 non-null    int64  
dtypes: float64(3), int64(4), object(1)
memory usage: 35.1+ KB


В таблице daily_sales мы видим данные об операциях с определенным товаром за опреденный день. Такие как кол-во проданных единиц, кол-во возвратов, кол-во доставленных на склад единиц, кол-во просмотров, кол-во заказов и кол-во отмен. Дата представлена не в формате даты. Столбцы views, unit_sold
и orders представлены в формате float64, их стоит привести к целому значению. Также sku необходимо привести к строковому типу.

## Data Cleaning

Приведем некоторые столбцы к нужному формату и проверим данные на дубликаты. Пропусков в данных нет, это мы увидели в прошлом пункте через `.info()`

In [15]:
costs['date'] = pd.to_datetime(costs['date'])
prices['date'] = pd.to_datetime(prices['date'])
daily_sales['date'] = pd.to_datetime(daily_sales['date'])

daily_sales['views'] = daily_sales['views'].astype(int)
daily_sales['unit_sold'] = daily_sales['unit_sold'].astype(int)
daily_sales['orders'] = daily_sales['orders'].astype(int)

costs['sku'] = costs['sku'].astype(str)
prices['sku'] = prices['sku'].astype(str)
products['sku'] = products['sku'].astype(str)
daily_sales['sku'] = daily_sales['sku'].astype(str)

In [16]:
costs.duplicated(['date', 'sku']).sum()

0

In [17]:
prices.duplicated(['date', 'sku']).sum()

0

In [18]:
daily_sales.duplicated(['date', 'sku']).sum()

0

## Объединение таблиц

Предварительно переименуюем столбцы name в таблицах categories и groups, чтобы при объединении названия были информативны.

In [19]:
categories.columns = ['category_id', 'category']
groups.columns = ['group_id', 'group']

In [20]:
r1 = pd.merge(products, daily_sales, on='sku')
r2 = pd.merge(r1, costs, on=['date','sku'])
r3 = pd.merge(r2, prices, on=['date','sku'])
r4 = pd.merge(r3, categories, on='category_id')
df = pd.merge(r4, groups, on='group_id')
df

Unnamed: 0,sku,name,group_id,category_id,date,unit_sold,returns,delivered_units,views,orders,cancellations,cost,price,category,group
0,100001,Удлиненные шорты из смесового хлопка,1,1,2024-01-10,10,0,10,300,12,2,1230,1499,Одежда,Шорты
1,100001,Удлиненные шорты из смесового хлопка,1,1,2024-01-11,40,2,42,1200,48,6,1230,1499,Одежда,Шорты
2,100001,Удлиненные шорты из смесового хлопка,1,1,2024-01-12,4,0,4,120,4,0,1230,1499,Одежда,Шорты
3,100001,Удлиненные шорты из смесового хлопка,1,1,2024-01-13,17,0,17,510,20,3,1230,1499,Одежда,Шорты
4,100001,Удлиненные шорты из смесового хлопка,1,1,2024-01-14,31,1,32,930,37,5,1230,1499,Одежда,Шорты
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
555,100005,Утепленная куртка прямого кроя,11,1,2024-04-26,19,0,19,570,22,3,4500,5399,Одежда,Куртки
556,100005,Утепленная куртка прямого кроя,11,1,2024-04-27,12,0,12,360,14,2,4500,5399,Одежда,Куртки
557,100005,Утепленная куртка прямого кроя,11,1,2024-04-28,13,0,13,390,15,2,4500,5399,Одежда,Куртки
558,100005,Утепленная куртка прямого кроя,11,1,2024-04-29,0,0,0,0,0,0,4500,5399,Одежда,Куртки


In [21]:
df.category.value_counts().to_frame()

Unnamed: 0_level_0,count
category,Unnamed: 1_level_1
Одежда,560


Так как все товары входят в категорию "Одежда", этот столбец можно удалить. Также уберем столбцы с id категорий и групп.

In [22]:
df = df[['date', 'sku', 'name', 'group', 'cost', 'price', 'unit_sold', 'returns', 'delivered_units', 'views', 'orders', 'cancellations']]
df

Unnamed: 0,date,sku,name,group,cost,price,unit_sold,returns,delivered_units,views,orders,cancellations
0,2024-01-10,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,10,0,10,300,12,2
1,2024-01-11,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,40,2,42,1200,48,6
2,2024-01-12,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,4,0,4,120,4,0
3,2024-01-13,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,17,0,17,510,20,3
4,2024-01-14,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,31,1,32,930,37,5
...,...,...,...,...,...,...,...,...,...,...,...,...
555,2024-04-26,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,19,0,19,570,22,3
556,2024-04-27,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,12,0,12,360,14,2
557,2024-04-28,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,13,0,13,390,15,2
558,2024-04-29,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,0,0,0,0,0,0


Таким образом, мы получили удобную для работы таблицу. Ниже представлено ее полное описание.

*Описание готовой таблицы*

---
**date** - дата продажи

**sku** - индектификатор товара в ритейле

**name** - название продукта

**group** - группа

**cost** - себестоимость

**price** - розничная цена

**unit_sold** - кол-во проданных единиц

**returns** - кол-во возвратов

**delivered_units** - кол-во доставленных на склад единиц

`df['delivered_units'] = df['unit_sold'] + df['returns']`

**views** - кол-во просмотров

**orders**  - кол-во заказов

**cancellations** - кол-во отмен

`df['cancellations'] = (df['orders'] - df['delivered_units']).astype(int)`

## Расчет, сколько осталось единиц на складе за каждый день. Сколько осталось непроданных единиц?

In [23]:
df['warehouse_units'] = 3000 - df.groupby('sku')['unit_sold'].cumsum()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['warehouse_units'] = 3000 - df.groupby('sku')['unit_sold'].cumsum()


In [24]:
df

Unnamed: 0,date,sku,name,group,cost,price,unit_sold,returns,delivered_units,views,orders,cancellations,warehouse_units
0,2024-01-10,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,10,0,10,300,12,2,2990
1,2024-01-11,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,40,2,42,1200,48,6,2950
2,2024-01-12,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,4,0,4,120,4,0,2946
3,2024-01-13,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,17,0,17,510,20,3,2929
4,2024-01-14,100001,Удлиненные шорты из смесового хлопка,Шорты,1230,1499,31,1,32,930,37,5,2898
...,...,...,...,...,...,...,...,...,...,...,...,...,...
555,2024-04-26,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,19,0,19,570,22,3,1338
556,2024-04-27,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,12,0,12,360,14,2,1326
557,2024-04-28,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,13,0,13,390,15,2,1313
558,2024-04-29,100005,Утепленная куртка прямого кроя,Куртки,4500,5399,0,0,0,0,0,0,1313


Теперь посмотрим, сколько осталось непроданных единиц каждого товара.

In [25]:
df1 = df[['sku', 'warehouse_units']].loc[df['date'] == '2024-04-30']

df1

Unnamed: 0,sku,warehouse_units
111,100001,641
223,100002,483
335,100003,1592
447,100004,799
559,100005,1290


In [26]:
fig = px.bar(df1, y='warehouse_units', x='sku', color = 'sku', text_auto='.2s',
            title="Количество непроданных единиц по товарам")
fig.update_layout(xaxis ={"categoryorder":"total descending"})
fig.show()

Таким образом, мы видим, что больше всего осталось непроданных товаров 100003 и 100005. Лучше всего продавались товары 100002 и 100001.

## Узнать какой revenue (прибыль) получили с товаров

In [27]:
df['revenue'] = df['unit_sold'] * (df['price'] - df['cost'])

df['revenue_all']= df.groupby('sku')['revenue'].cumsum()

df2 = df[['sku', 'revenue_all']].loc[df['date'] == '2024-04-30']



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [28]:
fig = px.bar(df2, y='revenue_all', x='sku', color = 'sku', text_auto='.2s',
            title="Прибыль с товаров")
fig.update_layout(xaxis ={"categoryorder":"total descending"})
fig.show()

Самую большую прибыль мы получили с товаров 100005 и 100004, а сумую маленькую с 100001 и 100003. С одной стороны это противоречит нашему предыдущему выводу о том, единиц какого товара мы продали больше, но в данном случае повлияла цена, а не количество проданных  товаров.

## Исследовать спрос каждого из SKU в разный период времени. Определить чем это вызвано

*словарь сосотвветствий
привести к типу стринг*

In [30]:
df['month'] = df['date'].dt.month
list1 = df['sku'].unique()

for i in list1:
  fig = px.bar(df.loc[df['sku'] == i], y='unit_sold', x='month', color ='month',
            title=f'Спрос товара {i} по месецам')
  fig.show()

  #.sort_values('date')

Посмотрев на графики, можно сделать вывод, что в основном март и апрель являются самыми прибыльным месяцами.

In [31]:
df.name.unique()

array(['Удлиненные шорты из смесового хлопка',
       'Льняная рубашка с вышивкой', 'Объемная блуза с драпировкой',
       'Джинсы Relaxed fit со средней посадкой',
       'Утепленная куртка прямого кроя'], dtype=object)

По названиям товаров мы можем понять, то почти все из них относятся скорее к более теплому сезону года. Соответственно, покупают их скорее ближе к лету. Что касается пятоого товара, который является как раз зимним, стоит посмотреть изменение цен.

In [32]:
fig = px.line(df, x="date", y="price", color='sku',
            title="График продаж каждого из товаро")
fig.show()

Цены на пятый товар падают ближе к лету (в марте и апреле). Это говорит о том, что распродаются зимние товары и на них делают скидку. Этим можно обосновать высокие продажи на пятиый товар в марте и апреле.

In [33]:
df['day_of_week'] = df['date'].dt.dayofweek
list1 = df['sku'].unique()

for i in list1:
  fig = px.bar(df.loc[df['sku'] == i], y='unit_sold', x='day_of_week', color ='day_of_week',
            title=f'Спрос товара {i} по дням недели')
  fig.update_layout(xaxis ={"categoryorder":"total descending"})
  fig.show()

Первый и второй товары лучше всего покупают по четвергам и воскресеньям. третий и четвертый по средам и пятница. А пятый по вторникам и пятницам.

Так, мы посмотрели спрос на товары по месяцам и неделям. В разрезе месяцов лучше всего товары покупают в марте и апреле. Это связано с сезонность. Летние вещи преимущественно покупают перед летним сезоном (учитывая, что цены на них не слишком большие). Зимние вещи также покупают в этот период, тк они дороже, а ближе к летниму сезону цены на них снижатся.

Что касается дней недели, в основном покупки совершаюся либо в середине недели, либо по выходным.