Ссылка на презентацию:https://disk.yandex.ru/i/9isx_YNhNAieQQ

# **E-commerce — Выявление профилей потребителей**

**Задача:**

- Сегментировать покупателей по профилю потребления

- Проведите исследовательский анализ данных

- Сегментируйте покупателей на основе истории их покупок

- Не бойтесь выдвигать собственные варианты сегментации покупателей.

- Задумайтесь о том как сегментация может помочь в разработке более
персонализированных предложений для покупателей?

- Попробуйте сформировать сегменты на основе того, что покупают
пользователи. Для этого вы можете проанализировать их покупки и
сегментировать товары на основе принадлежности к той или иной товарной
категории.

- Сформулируйте и проверьте статистические гипотезы
(задачи выше сформулированы предварительно, окончательная постановка
задачи произойдёт на вводной встрече)

**Описание данных:**

Датасет описывает транзакции интернет-магазина товаров для дома и быта «Пока
все ещё тут».

**Колонки в /datasets/ecom_dataset_upd.csv :**

**date** — дата заказа;

**customer_id** — идентификатор покупателя;

**order_id** — идентификатор заказа;

**product** — наименование товара;

**quantity** — количество товара в заказе;

**price** — цена товара.

ЗАДАЧИ:

Предобработка данных

Исследовательский анализ

Выделение профилей

Проверка гипотез

Выводы и рекомендации

##  Изучение общей информации и предобработка данных:

In [1]:
#импортируем библиотеки
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from scipy import stats as st
from sklearn.preprocessing import LabelEncoder #для преобразования id поьзователя
pd.set_option('max_colwidth', 150)#устанавим максимальную ширину столбца до 150 символов


In [2]:
pd.set_option('display.float_format', '{:,.2f}'.format)

In [10]:
#прочтем датасет и сохраним его в переменной
df=pd.read_csv('/datasets/ecom_dataset_upd.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/ecom_dataset_upd.csv'

In [4]:
#выведем первые 15 строк
df.head()

Unnamed: 0,date,customer_id,order_id,product,quantity,price
0,2018100100,ee47d746-6d2f-4d3c-9622-c31412542920,68477,"Комнатное растение в горшке Алое Вера, d12, h30",1,142.0
1,2018100100,ee47d746-6d2f-4d3c-9622-c31412542920,68477,"Комнатное растение в горшке Кофе Арабика, d12, h25",1,194.0
2,2018100100,ee47d746-6d2f-4d3c-9622-c31412542920,68477,Радермахера d-12 см h-20 см,1,112.0
3,2018100100,ee47d746-6d2f-4d3c-9622-c31412542920,68477,Хризолидокарпус Лутесценс d-9 см,1,179.0
4,2018100100,ee47d746-6d2f-4d3c-9622-c31412542920,68477,Циперус Зумула d-12 см h-25 см,1,112.0


In [5]:
#преобразуем данные стобца id пользователя в числовой фомат для удобства
label_encoder = LabelEncoder()
df['customer_id'] = label_encoder.fit_transform(df['customer_id']).astype(int)

### Преобразование столбца даты в формат даты и времени.

In [6]:
#преобразуем формат времени в datetime год-месяц-число-час
df['date']=pd.to_datetime(df['date'],  format ='%Y%m%d%H')

In [7]:
#приведем к нижнему регистру названия товаров
df['product']=df['product'].str.lower()
df.head(7)

Unnamed: 0,date,customer_id,order_id,product,quantity,price
0,2018-10-01,2266,68477,"комнатное растение в горшке алое вера, d12, h30",1,142.0
1,2018-10-01,2266,68477,"комнатное растение в горшке кофе арабика, d12, h25",1,194.0
2,2018-10-01,2266,68477,радермахера d-12 см h-20 см,1,112.0
3,2018-10-01,2266,68477,хризолидокарпус лутесценс d-9 см,1,179.0
4,2018-10-01,2266,68477,циперус зумула d-12 см h-25 см,1,112.0
5,2018-10-01,2266,68477,шеффлера лузеана d-9 см,1,164.0
6,2018-10-01,2266,68477,юкка нитчатая d-12 см h-25-35 см,1,134.0


### Проверка на наличие пропущенных значений и выбросов.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7474 entries, 0 to 7473
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   date         7474 non-null   datetime64[ns]
 1   customer_id  7474 non-null   int32         
 2   order_id     7474 non-null   int64         
 3   product      7474 non-null   object        
 4   quantity     7474 non-null   int64         
 5   price        7474 non-null   float64       
dtypes: datetime64[ns](1), float64(1), int32(1), int64(2), object(1)
memory usage: 321.3+ KB


Датасет состоит из  7474 строк и  6 столбцов:

``date`` - дата (формат - int необходимо преобразовать в timestamp)

``customer_id`` - id пользователя (тип данных -  object необходимо преобразовать в int)

``order_id`` -id закаказа (тип данных int)    

``product`` - название товара (тип данных - object)

``quantity`` - количество товара в заказе  (тип данных -int) 

``price`` - цена товара 

Пропусков в данных нет.

###  Добавим столбцы необходимые для дальнейшего исследования.

In [9]:
#добавим стольбцы необходимые для дальнейшего анализа
df['revenue']= df['quantity']*df['price']
df['hour'] = df['date'].dt.hour
df['day_of_month'] = df['date'].dt.day
df['week'] = df['date'].dt.week
df['day_of_week'] = df['date'].dt.dayofweek + 1
df['month'] = df['date'].astype('datetime64[M]')
df['month_year'] = df['date'].dt.to_period('M').astype(str)
df['year'] = df['date'].dt.year
df['date'] = pd.to_datetime(df['date'].dt.date)


AttributeError: 'DatetimeProperties' object has no attribute 'week'

In [None]:
# добавим столбец сезоны
df['season'] = (df['date'].dt.month%12 + 3)//3

seasons = {
             1: 'Зима',
             2: 'Весна',
             3: 'Лето',
             4: 'Осень'
}

df['season_name'] = df['season'].map(seasons)

In [None]:
df.head(2)

In [None]:
df.info()

In [None]:
#посмотрим основные параметры данных
df.describe()

In [None]:
#количество уникальных значений в столбцах
df.nunique()

Количество уникальных клиентов - 2451, уникальных продуктов - 2341.
Минимальное количество заказов - 1, максимальное -1000.(далее посмотрим много ли таких больших заказов). 
Минимальная цена за еденицу товара - 9, максимальная цена - 14917, средняя - 478.Максимальная стоимость заказа - 675000.(похоже на аномалию). В принципе ничего необычного типичный "магазин у дома", кроме максимального закакза в 1000 ед. В ходе дальнейшего исследования посмотрим этот момент более детально.

In [None]:
# проверим на дубликаты
df.duplicated().sum()

Явных дубликатов нет

### Вывод:



Мы изучили информацию представленную в табице.Датасет состоит из  7474 строк и  12 столбцов:
``date`` - дата, ``customer_id`` - id пользователя, ``order_id`` -id закаказа, ``product`` - название товара, ``quantity`` - количество товара в заказе, ``price`` - цена товара. Были также добавлены столбцы даты, времени, дня недели и тд.
В таблице приведены данные о 2451 уникальных клиентах и 2341 продуктах.Мы преобразовали формат времени и формат id пользователя для удобства исользования в дальнейшем анализе. Явных дубликатов и пропусков нет. Ниже в исследовательском анализе проверим данные на неявные дубликаты.

## Исследовательский анализ данных (EDA)

### Проверка данных на неявные дубликаты.

- order_id может быть связан с несколькими customer_id

- order_id может соответствовать нескольким уникальным датам.

In [None]:
#поcсчитаем есть ли дубликаты order_id в заказах нескольких customer_id
un_customer = df.groupby(['order_id']).agg({'customer_id': ['nunique']})['customer_id']
un_customer['nunique'].value_counts()


In [None]:
#выведем order_id заказа которые задублились 
un_customer.sort_values(by='nunique').tail(5)

In [None]:
#посмотрим на дубликаты более детально
df[df['order_id'].isin([72845, 69485, 71480, 71226, 70542])]

Наименования товаров в заказах с одинаковым order_id одинаковые.Даты отличаються. Вероятно, ошибки произошли, когда заказ с одинаковым id были первоначально отменены, а затем повторно оформлен на другую дату с переназначением номера клиента в журнале. Несмотря на это изменение, order_id остался прежним. Поэтому, в данном случае, при удалении дубликатов сохраним только последнюю строку, связанную с заказом.

In [None]:
#количество уникальных дат на один заказ
un_date = df.groupby(['order_id']).agg({'date': ['nunique']})['date']
un_date['nunique'].value_counts()

In [None]:
un_date.sort_values(by='nunique').tail(3)

In [None]:
#посмотрим на дубликаты более детально
df[df['order_id'].isin([14833,70960,69162])].head(25)

Сценарий похож.За исключением того, что customer_id и order_id остаются неизменными.Небольшое изменения дат.Вероятно, из-за той же ошибки. (отмена заказа и перезаказ новой позиции под тем же order_id). Сохраним только самую последнюю уникальную дату при удалении дубликатов.

В нашей таблице указаны: 

- дата заказа, уникальный идентификатор покупателя,  

- уникальный идентификатор заказа, содержимое заказа (продукт),

- количество продуктов в заказе и цена продукта. 

Каждый уникальный идентификатор заказа должен соответствовать одному уникальному товару. Удалим дубликаты, удалив лишние строки.

In [None]:
#удалим заказы, где на один заказ приходится больше одной даты и одного клиента оставив последний аказ в списке
df = df.drop_duplicates(subset=['order_id', 'product'], keep='last')

In [None]:
#количество уникальных клиентов на один заказ
un_customer_upd = df.groupby(['order_id']).agg({'customer_id': ['nunique']})['customer_id']
un_customer_upd['nunique'].value_counts()

In [None]:
#количество уникальных дат на один заказ
un_date_upd = df.groupby(['order_id']).agg({'date': ['nunique']})['date']
un_date_upd['nunique'].value_counts()

Осталось проверить все ли ошибки в данных исправлены.

In [None]:
un_customer_upd.sort_values(by='nunique', ascending=False).head(1)

In [None]:
df[df['order_id'].isin([69485])].head()

Похоже клиент откоректировал заказ через 6 дней.

In [None]:
un_date_upd.sort_values(by='nunique', ascending=False).head(17)

In [None]:
df[df['order_id'].isin([68760, 14649, 70186, 70318, 71143, 14500, 14897, 71426, 69527,\
                        72517, 70995, 14541, 68814, 69807, 69750])].head(2)

Здесь мы видим, например, что заказ 68760 растянут по времени на 3 дня. Скорее всего это доукомплектования неверно собраного заказа или заказчик откорректировал заказ на следующий день.Эти заказы мы удалять не будем так как их состав не дублируется.

### Работа с распределением значений (аномалии и выбросы)

In [None]:
#посмотрим на стат данные
df.describe()

Видны аномалии в столбце revenue и quantity.Посмотрим на них поближе.

In [None]:
df['quantity'].hist(figsize=(7,5))
plt.title ('Pаспределение количества товара')
plt.xlabel ('Количество')
plt.ylabel ('Частота');

In [None]:
#посмотрим количество не более 15 шт
df['quantity'][df['quantity'] <= 15].hist(figsize=(10,5))
plt.show()

In [None]:
#посмотрим основные критерии количества купленного товара
df['quantity'].describe()

Покупатели магазина предпочитают брать по 1-2 товара. Мax количество приобретенного товара -1000 шт, посмотрим на max заказ поближе.


In [None]:
df[df['quantity'] >= 1000]

In [None]:
#удалим этот заказ
df = df[df['quantity'] != 1000]

Мы удалили этот заказ, так как он исказит результаты исследования.

In [None]:
#проверим
df['revenue'].describe()

### Анализ распределение заказов по дате.

In [None]:
df['date'].agg(['min','max'])

In [None]:
print('Самая раняя дата:', np.min(df['date']))
print('Самая поздняя дата:', np.max(df['date']))
print('Количество дней в исследуемом периоде:', (np.max(df['date']) - np.min(df['date'])).days)
print('Количество месяцев в исследуемом периоде:', df['month'].nunique())

Период предоставленных данных 487 дней это более года (16 месяцев).

In [None]:
# df.groupby('date').agg({'order_id':'nunique'}).plot(figsize=(18, 10), color='m', legend=False)
# plt.title('Динамика за весь период')
# plt.ylabel('Количество заказов')
# plt.xlabel('Дата заказа')
# plt.show()

In [None]:
# проверим количество заказов в представленном периоде в разрезе месяц/год
df.groupby('month_year').agg({'order_id':'nunique'}).plot(figsize=(20, 5), color='m', legend=False)
plt.title('Динамика за весь период')
plt.ylabel('Количество заказов')
plt.xlabel('Дата заказа')
plt.show()

По графику виден всплеск в декабре 2018 и 2019 скорее связан с Новогодними праздниками.В январе 2019 количество заказов ожидаемо идет на спад. Март-апрель 2019 снова подъем скорее связан с садово-огородными работами.Этот аспект посмотрим чуть позже после деления товара на категории.

In [None]:
# n_orders_date= df.groupby(['date']).agg({'order_id': 'count'}).reset_index()
# n_orders_date.columns = ['Дата', 'Количество заказов']
# fig = px.bar(n_orders_date, x='Дата', y='Количество заказов')
# fig.show()

<!-- Есть отдельные всплески закупки товара с апреля по июнь. Скорее всего это связано с весенне-посадочными работами и представленными товарами для сада и огорода. Этот аспект посмотрим чуть позже после деления товара на категории. -->

### Анализ распределения выручки в разрезе месяц/год.

In [None]:
# оценим выручку в в разезе месяц/год
df.groupby(['month_year']).agg({'revenue':'sum'})

In [None]:
# построим график выручки в разезе месяц/год

df.groupby(['month_year']).agg({'revenue':'sum'}).plot(grid=True, figsize = (12,6))
plt.title('Изменение выручки по месяцам')
plt.xticks(rotation=45)
plt.xlabel(' ')
plt.ylabel('Выручка');

Общая тенденция на снижение выручки, несмотря на присутствующие колебания в зависимости от сезона. 

In [None]:
# проанализируем уникальных посетителей в разрезе месяц/год
unique_id_count = (
    df.pivot_table(
        index='month_year', 
        values='customer_id', 
        aggfunc='nunique'
    )
    .sort_values(
        by='month_year', 
        ascending=True
    )
    .rename_axis(
        None, 
        axis=1
    ).reset_index())

display(unique_id_count)

In [None]:
# отобразим на графике уникальных посетителей
f, ax = plt.subplots(figsize = (10, 5))
ax = sns.barplot(x = unique_id_count['month_year'], y = 'customer_id', \
                 data = unique_id_count.sort_values('month_year', ascending = True), \
                 orient = 'v')
plt.title('Анализ продаж по месяцам')
plt.xticks(rotation=45)
ax.set_xlabel('Месяц') 
ax.set_ylabel('Количество уникальных посетителей')
plt.grid()
sns.despine();

По графику видно, что поток новых уникальных посетителей магазина не становится меньше, скорее наоборот.Есть небольшое снижение в летние месяцы, скорее всего связанное с отпусками. Значит скорее проблема не в привлечении клиентов, а в удержании покупателей и совершении ими повторных покупок.

### Анализ динамики продаж по часам

In [None]:
hour_customer_id_pivot = (
    df
    .pivot_table(
        index='hour', 
        values='customer_id', 
        aggfunc='count'
    )
    .sort_values(
        by='customer_id', 
        ascending=False
    )
    .rename_axis(
        None, 
        axis=1
    ).reset_index())

display(hour_customer_id_pivot)

In [None]:
f, ax = plt.subplots(figsize = (15, 5))
ax = sns.barplot(x = hour_customer_id_pivot['hour'], y = 'customer_id', \
                 data = hour_customer_id_pivot.sort_values('customer_id', ascending = False), \
                 orient = 'v')
plt.title('Анализ количества посетителей')
ax.set_xlabel('Час') 
ax.set_ylabel('Количество посетителей')
plt.grid()
sns.despine()
plt.show()


На графике явно отслеживается дневная активность посетителей с 8 до 17 часов.

### Анализ динамики продаж  по сезонам

In [None]:
# создадим сводную таблицу
season_revenue = (
    df
    .pivot_table(
        index='season_name', 
        values='revenue', 
        aggfunc='sum'
    )
    .sort_values(
        by='revenue', 
        ascending=False
    )
    .rename_axis(
        None, 
        axis=1
    ).reset_index())

display(season_revenue)

In [None]:
# Устанавливаем стиль графика
sns.set_style("whitegrid")

# Создаем объект графика
plt.figure(figsize=(10, 6))

# Строим график
sns.barplot(x='season_name', y='revenue', data=season_revenue, palette='viridis')

# Называем оси и график
plt.title('Анализ продаж по сезонам',size=15)
plt.xlabel('')
plt.ylabel('Суммарная стоимость заказов', size=15)
plt.xticks(rotation=45, ha='right') # Поворачиваем названия сезонов для лучшей читаемости

# Показываем график
plt.tight_layout();


Летом самая низкая выручка что связано скорее всего с низкой активностью покупателей. Зимой и осенью выручка примерно одинакова.

### Вывод:

В результате исследовательского анализа были удалены неявные дубликаты и аномалиии.
Анализ распределения заказов по дате показал всплеск активности покупателей в декабре 2018 и 2019 скорее связан с Новогодними праздниками.В январе 2019 количество заказов сошло на спад. Март-апрель 2019 снова подъем скорее связан с садово-огородными работами.
Анализ распределения выручки в разрезе месяц/год выявил общуюю тенденцию на снижение выручки.
Также мы выяснили, что наиболее часто заказывают товары в магазине в период с 8 до 17 часов.
Больше всего выручку приносят осенне-зимний сезон.

## Категоризация товаров

### Разбиение товаров на категории

В таблице указаны названия товаров их очень много и есть похожие названия.

Поэтому нам необходимо разбить товары на категории, чтобы удобнее было анализировать их в дальнейшем.

Так мы сможем изучить какие категории составляют первичный и вторичный товарный ассортимент, а также сможем узнать как меняется динамика продаж по разным категориям в изучаемый период.

Изучим, как устроены названия товаров в столбце product.

In [None]:
#взглянем на количество уникальных продуктов в данных
df['product'].nunique()

Большой массив данных (2340) которые нужно категоризировать для удобства дальнейшей работы с ними.

In [None]:
df.sample(5)

Мы видим, что название продукта находится в самом начале строки, далее расположена дополнительная информация (размер, материал, цвет и т.д.)



In [None]:
# выделим первые два слова из столбца 'product' в новую колонку. 
# затем применим лямбда-функцию, которая берет каждый элемент x которая
# разбивает его на отдельные слова, а затем снова объединяет эти слова в одну строку, разделенную пробелами. 
# результат вернется в столбец 'catetegory'.
df['product_split'] = df['product'].str.split(pat=' ').str[:2].apply(lambda x: ' '.join(x))

In [None]:
df.sample(5)

In [None]:
# взглянем на количество уникальных продуктов в данных
df['product_split'].nunique()

Количество названий сократилось более чем в 2 раза.Изучим полученые значения.

In [None]:
#выведем первые 5 строк
df.groupby(['product_split'])['customer_id'].count().sort_values(ascending=False).head(5)

In [None]:
# выведем значения списка из столбца 'ctegory'
df['product_split'].sort_values().unique()[:926]

In [None]:
#код для проверки непонятных словосочетаний
#df[df['product'].str.contains('ёрш для', case=False)]

В магазине было заказано 2341 товаров разного рода. Среди них: растения, предметы для храниения, для ванны, для уборки, инструменты, спальные принадлежности и т.д.

Разделим товары на следующие категории:

Бытовая химия, товары для уборки

Ванная

Декор / текстиль

Инструменты / товары для ремонта

Кухня

Товары для сада/растения

Хранение / Мебель

Сформируем списки, которые будут содержать слова из столбца product_split, которые позволят обозначить категорию для продуктов.

In [None]:
# бытовая химия, товары для уборки
cleaning = ['автоматическая щетка','антижир posh','антинакипин для','ведро ampari', 'ведро без',
    'ведро для', 'ведро овальное', 'ведро пластиковое','ведро полимербыт',
    'ведро резинопластиковое', 'веник для','веник сорго','гипоаллергенный концентрированный',
    'губка спираль','защитная соль''кондиционер для','концентрат для','набор vileda','насадка для',
    'насадка к','насадка на', 'насадка-моп rozenbal', 'насадка-отжим пластиковая','окномойка с',
    'oполаскиватель для','отбеливатель пероксоль','отжим для','паста для','пылесос delta', 'ролик для',
    'скребок 44', 'скребок для', 'сменная насадка', 'сменный блок', 'сметка с','совок для',
    'совок и', 'совок металический','средство для','средство против','стиральный биопорошок',
    'тряпка для', 'тряпкодержатель с','универсальное средство','чистящий крем','швабра leifheit',
    'швабра для', 'швабра многофункциональная', 'швабра многофункциональная,', 'швабра сальса',
    'швабра хозяйственная','щетка для', 'щетка палубная','щетка универсальная', 
    'щетка хозяйственная', 'щетка-сметка 3-х', 'щетка-сметка 4-х', 'щетка-сметка с',
    'щетка-утюжок с', 'щётка для', 'ёрш бутылочный', 'ёрш для','ёрш унитазный'
    

]

# ванная
bathroom =['ароматизированное средство','бальзам для','бельевые прищепки','ванна 70', 
           'вантуз черный','весы напольные','держатель для','дозатор для','ерш для',
           'жидкое мыло', 'зубная паста','комплект для', 'комплект махровых','махровое полотенце',
           'махровый халат','мыло жидкое','мыло ручной', 'мыло-скраб с', 'мыльница пластмассовая',
           'набор ковров','набор махровых','паста зубная', 'пена для','пробка для','сиденье в',
           'увлажняющая маска','штанга для','штора для', 'штора со'

]

# декор / текстиль
decoration = ['ваза маскарад','двуспальное постельное','декоративная композиция', 'декоративная коробка',
              'искусственная композиция', 'искусственная лиана', 'искусственный лист', 'искусственный цветок', 
              'карниз алюминиевый', 'карниз для','ключница картина', 'ковер придверный', 'коврик bacchetta',
              'коврик dasch', 'коврик sochi', 'коврик в', 'коврик влаговпитывающий', 'коврик ворсовый', 
              'коврик для', 'коврик интерьерный', 'коврик кухонный', 'коврик придверный', 'коврик придверный,',
              'коврик противоскользящий', 'коврик резиновый', 'коврик хлопковый', 'ковёр придверный',
              'кольца для','комплект постельного',' крючок одежный', 'крючок проволочный','ложка обувная',
              'муляж "райские', 'муляж ананас', 'муляж апельсин', 'муляж баклажан', 'муляж банан',
              'муляж банан,', 'муляж булка', 'муляж виноград', 'муляж виноград,', 'муляж вишня',
              'муляж вишня,', 'муляж гранат', 'муляж груша', 'муляж груша,','муляж долька', 'муляж желудь',
              'муляж зеленое', 'муляж клубника', 'муляж красное', 'муляж лайм', 'муляж лимон', 'муляж лимон,',
              'муляж манго', 'муляж мандарин', 'муляж мандарин,', 'муляж морковь', 'муляж оранжевое', 
              'муляж перец', 'муляж перец,', 'муляж персик', 'муляж персик,', 'муляж персики', 'муляж томат', 
              'муляж томат,', 'муляж тыквы', 'муляж хлеб', 'муляж черешнямуляж чеснок', 'муляж яблоко', 
              'муляж яблоко,', 'наволочка wellness', 'наматрасник wellness', 'наматрацник natures',
              'наматрицник-чехол natures','нетканые салфетки','одеяло silver', 'одеяло wellness','плед флисовый', 
              'подголовник bacchetta', 'подголовник для', 'подкладка под', 'пододеяльник 214х150', 
              'подрукавник gimi', 'подрукавник leifheit', 'подрукавник складной', 'подушка 40х40', 
              'подушка декоративная', 'покрывало karna', 'покрывало жаккард', 'покрывало стеганый', 'покрытие для',
              'полотенце махровое', 'полотенце прессованное', 'простынь вафельная', 'простыня двуспальная',
              'простыня на', 'простыня сатиновая','салфетка protec', 'салфетка камушки', 'салфетка махровая',
              'салфетка на','сетка для','стяжки для','ткань для', 'ткань универсальная','уголок оконный', 
              'фал капроновый', 'фиксатор-шар хром', 'фоторамка alparaisa', 'халат вафельный',
              'цветок искусственный', 'чехол eurogold', 'чехол для', 'штора текстильная'  
    
]

# инструменты / товары для ремонта
tools = ['бензин для','веревка полипропиленовая','весы электронные', 'завертка форточная','запасная насадка',
         'защитный экран','измерительный алюминиевый','измерительный угольник,','измерительный алюминиевый',
         'измерительный угольник,', 'крепеж для','лестница стремянка', 'лестница-стремянка dogrular',
         'лестница-стремянка sarayli', 'лестница-стремянка примус','линейка, длина','мешок для',
         'набор инструментов','набор прецизионных','набор сверел','основание для','перчатки latex',
         'перчатки латексные', 'перчатки резиновые', 'петля приварная', 'петля рояльная', 'петля-стрела пс-286',
         'пружина дверная','пьезозажигалка с', 'сверло по', 'сверло-фреза, 6', 'сверло-фреза, 8',
         'стремянка 5', 'стремянка 7', 'стремянка colombo', 'стремянка dogrular', 'стремянка eurogold', 
         'стремянка framar', 'стремянка scab', 'стремянка алюминиевая', 'стремянка бытовая',
         'стремянка металлическая', 'стремянка-табурет алюминиевая', 'стремянки colombo', 'стяжка оконная',
         'термометр на', 'термометр уличный', 'универсальный нож','утюг delta', 
         'утюг электрический','фен дорожный', 'холодная сварка','шило с', 'шнур резиновый',
         'шнур хозяйственный', 'шпагат полипропиленовый', 'шпингалет 80', 'штангенциркуль 150','ёрш радиаторный']

# кухня
kitchen = ['tepмокружка avex','блюдо pasabahce', 'блюдце утро','бульонница luminarc',
           'венчик с','весы настольные','вилка столовая','готовая скатерть', 'доска разделочная',
           'измельчитель овощей', 'картофелемялка металлическая', 'кастрюля алюминиевая','кастрюля круглая',
           'кастрюля чугунная', 'кастрюля эмалированная', 'кастрюля эмалированная,','кипятильник электрический',
           'кисточка силиконовая','ковш пластмассовый', 'котел алюминиевый','кофе арабика','кружка 350', 
           'кружка luminarc', 'кружка бамбук', 'кружка для', 'кружка марли', 'кружка мерная', 'кружка нордик',
           'кружка о', 'кружка прозрачная', 'кружка с', 'кружка тачки', 'крышка оцинкованная','кувшин luminarc', 
           'кувшин пластмассовый', 'кухонное полотенце', 'кухонные ножницы', 'ложка кухонная', 'ложка столовая',
           'ложка чайная', 'лопатка attribute', 'лопатка c','лоток knit', 'лоток для','мантоварка алюминиевая',
           'мантоварка-пароварка webber', 'масленка коровка','миксер delta', 'миксер василиса', 'миксер электрический',
           'мини-сковорода marmiton', 'миска для', 'миска пластмассовая', 'миска фазенда','набор бокалов','набор для',
           'набор кухонных','набор кружек','набор ножей', 'набор посуды','набор стаканов', 'набор столовых', 
           'набор форм', 'набор фужеров', 'набор эмалированных','нож для', 'нож кухонный', 'нож поварской',
           'нож столовый', 'нож универсальный', 'ножеточка универсальная','овощеварка алюминиевая', 'овощечистка с',
           'орехоколка viva,','отделитель косточек', 'подставка для', 'половник attribute', 'полотенце кухонное', 
           'пресс для','просеиватель для','противень прямоугольный','пряные травы', 'разделочная доска', 
           'рассекатель пламени', 'решетка вентиляционная','рукав для', 'рыбочистка металлическая,', 'рыбочистка с',
           'салатник luminarc', 'салатник амори', 'салатник аспен', 'салатник воларэ', 'салатник карин', 
           'салатник колорама', 'салатник рапсоди', 'салатник романтик', 'салатник эмпилабль','салфетница металлическая',
           'сахарница фарфоровая','сервировочная салфетка', 'сито webber','скалка силиконовая,', 'скатерть 150х120',
           'скатерть 180', 'скатерть 350х150', 'скатерть 350х180', 'скатерть dasch', 'скатерть meiwa', 'скатерть towa',
           'скатерть ажурная', 'скатерть азалия', 'скатерть арлет', 'скатерть беатрис','скатерть виниловая', 
           'скатерть джулия', 'скатерть династия', 'скатерть жаклин', 'скатерть из', 'скатерть круглая', 'скатерть лувр',
           'скатерть муза', 'скатерть прямоугольная', 'скатерть рим', 'скатерть сидней','сковорода hard',
           'сковорода scovo', 'сковорода алюминиевая', 'скребок 44','скребок для', 'скребок кондитерский',
           'соковарка алюминиевая', 'соковыжималка для','сотейник алюминиевый','стакан для', 'стакан низкий',
           'стакан пластмассовый', 'стеклянная крышка', 'столовая ложка', 'столовый нож', 'тарелка десертная', 
           'тарелка обеденная', 'тарелка суповая', 'тележка багажная', 'тележка хозяйственная', 'терка webber',
           'терка для', 'термокружка alpenkok', 'термокружка вакуумная', 'термокружка забава', 'термокружка яромир',
           'термос 1л', 'термос со', 'термостакан webber','толкушка деревянная', 'толкушка для','тортница curver', 
           'фарфоровая кружка', 'форма аlpenkok', 'форма для','хлебница webber', 'хлебница деревянная', 
           'хлебница пластмасовая','чайная ложка', 'чайник заварочный', 'чайник со','чайник электрический', 
           'чайник эмалированный', 'чайный набор','шприц кондитерский'

]

# товары для сада/растения
garden = ['агератум рассада','адиантум лиза', 'азалия индика', 'аквилегия махровая','аквилегия обыкновенная',
          'алиссум (лобулярия)', 'алиссум рассада', 'алиссум скальный', 'алоэ вера', 'альбука спиралис',
          'амариллис red', 'анемона белый','антуриум андрианум', 'антуриум тропик',
          'аптения d-10', 'аптения d-12', 'арбуз волгоградец', 'арбуз огонек', 'арбуз сибирские', 
          'арбуз холодок', 'арбуз шуга', 'аргирантерум рассада','артемизия (полынь', 'аспарагус d-12',
          'аспарагус спренжери', 'астра альпийская', 'астра рассада', 'афеляндра скуарроса', 'бадан сердцелистный',
          'базилик застольный', 'базилик зеленый', 'базилик овощной', 'базилик пурпурные', 'базилик смесь',
          'баклажан самурай', 'бакопа ампельная', 'бакопа ампельная,','бальзамин валера',
          'бальзамин новогвинейский','барвинок синий', 'бархатцы веселая', 'бегония ампельная,',
          'бегония вечноцветущая', 'бегония клубневая', 'бегония элатиор,','буддлея вейера',
          'бузульник пржевальского','валериана лекарственная', 'вербейник монетчатый', 'вербена fuhcsia',
          'вербена red', 'вербена white', 'вербена ампельная,', 'вербена крупноцветковая', 'вербена микс',
          'вербена рассада','вероника колосковая','вигна лилиана','виола рассада', 'виола рогатая',
          'газания рассада', 'гайлардия крупноцветковая', 'гардения d-9', 'гвоздика садовая', 
          'гвоздика стандартная', 'гвоздика травянка', 'гвоздика турецкая', 'георгина черная', 
          'герань домашняя', 'гербера d-13', 'гербера комнатная', 'гиацинт blue','гимнокалициум микс', 
          'гиностемма укорененный', 'гипсофила аврора', 'годеция рембранд', 'горох амброзия', 
          'гортензия метельчатая', 'гортензия микс', 'девичий виноград', 'декабрист в','дендробиум санок',
          'дендробиум фиолетовый', 'дендробиум яблоневый','джункус пенсил', 'диффенбахия d-12',
          'диффенбахия камилла','драцена фрагранс', 'душица обыкновенная', 'дыня алтайская',
          'дыня дина', 'дыня золотой', 'дыня колхозница', 'дыня медовый', 'дыня млада', 'дыня награда',
          'дыня симпатия', 'ель канадская','замиокулькас d-15','зверобой продырявленный', 
          'земляника барон', 'земляника садовая', 'змееголовник молдавский','импатиенс нью',
          'иссоп лекарственный', 'кабачок изумруд', 'каланхое каландива', 'калатея кроката', 'калатея микс',
          'календула бронзовая', 'календула пинк', 'календула суприм', 'калибрахоа aloha','калибрахоа bloomtastic',
          'калибрахоа mini', 'калибрахоа rave', 'калибрахоа sweet', 'калибрахоа ампельная,', 
          'калла крупноцветковая', 'каллуна гарден', 'калоцефалус брауни','камнеломка арендса', 
          'камнеломка тенистая', 'кампанула махровая', 'капсикум сальса', 'капуста белокочанная',
          'капуста брокколи', 'капуста брюссельская','капуста декоративная', 'капуста кольраби',
          'капуста цветная', 'кипарисовик лавсона','клен ложноплатановый', 'клубника альба', 'клубника мара',
          'клубника хоней','кодонанта укорененный', 'колеус рассада', 'колокольчик карпатский',
          'колокольчик персиколистный','комнатное растение', 'кореопсис золотой', 'кореопсис толл',
          'кориандр в', 'кориандр стимул','космея клюквенный', 'космея кэнди', 'космея лимонад',
          'космея очаровашка', 'космея попсокс', 'космея снежный','котовник блю','крассула d-17',
          'крассула овата','крокусы pickwick','лаванда d-9', 'лаванда в', 'лаванда торх', 
          'лаватера монт', 'лавр d-9', 'лавр в', 'лавр нобилис', 'лантана d-13', 'лантана в',
          'лапчатка огненное', 'лапчатка травянистая', 'левкой рассада', 'лен небесная',
          'лилейник высокорослый', 'литопс микс', 'лобелия ампельная,', 'лобелия рассада', 'лобелия регатта',
          'лук порей', 'львиный зев', 'любисток удалец','маттиола ночная','мединилла магнифика',
          'мелисса лекарственная','мимоза стыдливая', 'мирт d-20', 'мирт d-9', 'многолетнее растение',
          'молодило в', 'молодило микс', 'монарда в', 'монарда гибридная','муррайя d-9', 'мускари white',
          'мята aura', 'мята d-9', 'мята колосистая', 'мята махито', 'мята перечная','настурция драгоценность',
          'настурция лунный', 'настурция орхидное', 'незабудка смесь', 'нефролепис бостон', 'нивянник (ромашка)',
          'новогоднее дерево','нолина в','овсянница сизая', 'огурец алтай', 'огурец аристократ',
          'огурец багратион', 'огурец боярский', 'огурец закусочный', 'огурец засолочный','однолетнее растение',
          'осина обыкновенная,','папоротник страусник', 'патиссон диск', 'патиссон зонтик', 'патиссон нло',
          'пахира акватика', 'пеларгония angeleyes', 'пеларгония d-13', 'пеларгония toscana',
          'пеларгония грандифлора', 'пеларгония душистая', 'пеларгония зональная', 'пеларгония плющелистная',
          'пеларгония розебудная', 'пеларгония розоцветная', 'пеларгония тюльпановидная', 'петрушка итальянский', 
          'петрушка корневая', 'петрушка листовая', 'петуния baby', 'петуния bordeaux', 'петуния crazytunia',
          'петуния orange', 'петуния pegasus', 'петуния potunia', 'петуния sanguna', 'петуния sky', 
          'петуния surfinia', 'петуния surprice', 'петуния surprise', 'петуния sweetunia', 'петуния ампельная',
          'петуния гибридная', 'петуния изи', 'петуния каскад', 'петуния крупноцветковая', 'петуния махровая',
          'петуния простая', 'петуния рассада', 'петуния свитуния', 'пиретрум робинсон', 'платикодон махровый',
          'подарочный набор', 'подвесное кашпо', 'подсолнечник низкорослый', 'портулак рассада','примула акаулис',
          'примула желтая', 'примула комнатная', 'примула рассада','пуансетия d-12','пуансеттия d-12',
          'пуансеттия d-15', 'пуансеттия d-23', 'пуансеттия в', 'радермахера d-12','ранункулус клуни',
          'рассада арбуза', 'рассада в', 'рассада дыни', 'рассада зелени','рассада кабачка', 'рассада кабачок',
          'рассада капусты', 'рассада клубники', 'рассада огурец', 'рассада огурца', 'рассада остеоспермум',
          'рассада патиссона', 'рассада пеларгония', 'рассада перца', 'рассада пряной', 'рассада томата',
          'рассада тыквы','роза кордана', 'роза кустовая', 'роза мини', 'роза одноголовая', 'роза палас', 
          'роза патио', 'роза садовая', 'роза чайно-гибридная', 'розмарин d-12', 'розмарин d-9', 'розмарин в',
          'рудбекия тайгер','салат рукола', 'сальвия рассада', 'сантолина d-9','седум (очиток)',
          'седум почвопокровный', 'сельдерей листовой','синнингия (глоксиния)', 'скиммия японская',
          'смолевка звездный', 'соланум d-10', 'солидаго желтый', 'спатифиллум d-7', 'спатифиллум свит', 
          'спатифиллум шопен','суккулент микс','сциндапсус в', 'табак бордовый', 'табак душистый', 
          'табак курительный', 'тагетис крупноцветковый','тимьян d-9', 'тимьян в', 'тимьян крымский',
          'тимьян овощной','томат балконное', 'томат государь', 'томат детерминантный', 'томата (помидор)', 
          'тыква крупноплодная', 'тюльпан louvre','укроп обильнолистный','фаленопсис желтый', 'фаленопсис королевский',
          'фаленопсис люкс','фатсия d-17', 'фатсия японская','фиалка d-11', 'фиалка d-9', 'фиалка карнавал',
          'фиалка махровая', 'фиалка микс', 'фиалка химера', 'физостегия вергинская','фикус каучуконосный', 
          'фиттония скелетон', 'флокс друммонда', 'флокс метельчатый', 'флокс растопыренный','фуксия bella', 
          'фуксия blue', 'фуксия dark', 'фуксия e4', 'фуксия swingtime', 'фуксия ампельная', 'фуксия ампельная,',
          'фуксия прямостоячая', 'хамедорея d-12','хоста микс','хризантема белая', 'хризантема корейская',
          'хризантема космо', 'хризантема красная', 'хризантема кустовая', 'хризантема сиреневая',
          'хризолидокарпус лутесценс','цветущее комнатное', 'целозия гребенчатая', 'цикламен d-12', 
          'цикламен d-13', 'цикламен d-15', 'цикламен комнатный', 'цикламен розовый', 'цикламен, цвет', 
          'цинерания рассада', 'цинерария серебряная', 'циния рассада', 'цинния ацтек','цинния коралловая', 
          'цинния оранжевый', 'цинния хаага', 'циперус зумула', 'цитрофортунелла кумкват', 'чабер bolero',
          'шалфей овощной','шеффлера голд', 'шеффлера лузеана', 'эвкалипт гунни', 'эвкалипт сильвердроп',
          'электроштопор qwerty', 'энотера миссурийская', 'эпипремнум ауреум', 'эхеверия лила', 'эхеверия микс',
          'эхеверия перл', 'эхинацея микс', 'эхинокактус грузони', 'эшшольция карминный', 'юкка нитчатая', 
          'ясколка войлочная']

# хранение / мебель
storage = ['бак для','банка из', 'банка рондо', 'банка с', 'банка со','банка стеклянная','бидон пластмассовый',
           'вакуумный пакет','вешалка -', 'вешалка valiant', 'вешалка гардеробная', 'вешалка деревянная', 
           'вешалка для', 'вешалка металлическая', 'вешалка надверная', 'вешалка напольная','вешалка настенная',
           'вешалка ника', 'вешалка с', 'вешалка самоклеющая', 'вешалка-перекладина valiant',  'вешалка-плечики 3',
           'вешалка-плечики без', 'вешалка-стойка сакура', 'вешалка-стойка №', 'вешалка-сушилка gimi', 
           'вешалки мягкие','вкладыши для', 'гладильная доска', 'гладильная доска-стремянка', 'доска гладильная', 
           'емкость для','жестяная банка', 'комод эльфпласт', 'контейнер герметичный', 'контейнер для',
           'корзина city', 'корзина для', 'корзина мягкая', 'корзина на', 'корзина пластиковая', 'корзинка с',
           'короб стеллажный', 'коробка infinity', 'коробка для', 'коробка прямоугольная', 'корыто оцинкованное',
           'кофр для', 'кофр малый','модульная стеклянная','мусорный контейнер','набор вешалок', 'набор прищепок',
           'настенная сушилка', 'настольная гладильная','обувница-3 квадро','плечики пластмассовые','полка для',
           'полки qwerty', 'прищепки для', 'ручка мебельная','ручка-скоба рс-100','сиденье для',
           'складная картонная','складной детский','стеллаж для', 'сумка для', 'сумка хозяйственная',
           'сумка-тележка 2-х', 'сумка-тележка 3-х', 'сумка-тележка brava', 'сумка-тележка delta', 
           'сумка-тележка gimi', 'сумка-тележка twin', 'сумка-тележка хозяйственная', 'сушилка meliconi', 
           'сушилка для', 'сушилка мульти', 'сушилка уличная','урна уличная', 'урна-пепельница из', 'этажерка 2',
           'этажерка для','этажерка цветочная',  'ящик для', 'ящик почтовый']

In [None]:
#с помощью функции распределим товары по обозначенным выше категориям
def category_func(row):
    product_split = row['product_split']
    for x in cleaning:
        if x in product_split:
            row['category'] = 'бытовая химия, товары для уборки'
        else:
            continue
    for x in bathroom:
        if x in product_split:
            row['category'] = 'ванная'
        else:
            continue
    for x in decoration:
        if x in product_split:
            row['category'] = 'декор / текстиль'
        else:
            continue
    for x in tools:
        if x in product_split:
            row['category'] = 'инструменты / товары для ремонта'
        else:
            continue
    for x in kitchen:
        if x in product_split:
            row['category'] = 'кухня'
        else:
            continue
    for x in garden:
        if x in product_split:
            row['category'] = 'товары для сада / растения'
        else:
            continue
    for x in storage:
        if x in product_split:
            row['category'] = 'хранение / мебель'
        else:
            continue
    return row

In [None]:
#для товаров не попавших в список, создадим столбец `category` и запишем в него значение 'другое' 
df['category'] = 'другое'

In [None]:
# применим функцию
df = df.apply(category_func, axis=1)
df.head(1)

### Анализ заказанных товаров по категориям

In [None]:
#выведем список полученных категорий и их соотношение
categoryzer_df = df.groupby('category').agg({'product':'count'}).reset_index()
# categoryzer_df.columns = ['category', 'rows']
categoryzer_df['percent_of_product'] = (categoryzer_df['product'] / len(df)).round(3)
categoryzer_df['category'] = categoryzer_df['category'].replace(0, 'Без категории')
categoryzer_df = categoryzer_df.sort_values(by='percent_of_product', ascending = False)
categoryzer_df['percent_of_product'] = (categoryzer_df['percent_of_product'] * 100).round(2).astype(str) + '%'
# categoryzer_df['percent_of_product'] = categoryzer_df['percent_of_product'].map('{:.2%}'.format)
print(categoryzer_df)
print('Строк без категории:', len(df[df['category'] == 0]))

Получили категории товаров - их получилсь 8 штук. 

В первой тройке категории:

'товары для сада / растения'- 49.8%, 

'хранение / мебель' - 18.3%,

декор / текстиль - 12.4%.

Клиенты магазина чаще всего покупают товары для сада / растенияи, а также  хранение / мебель. Меньше всего заказов в категории бытовая химия, товары для уборки инструменты / товары для ремонта.
Посмотрим на выручку и средний чек в разрезе товарных категорий.

In [None]:
revenue_cat = df.groupby('category').agg({'revenue': 'sum', 'customer_id': 'nunique', 'order_id': 'nunique'}) \
                        .sort_values(by='revenue', ascending=False)
revenue_cat['avg_check_customer'] = (revenue_cat.revenue / revenue_cat.customer_id).round(2)
revenue_cat['avg_check_order'] = (revenue_cat.revenue / revenue_cat.order_id).round(2)
revenue_cat.columns = ['revenue', 'unique_customers', 'unique_orders', 'avg_check_customer', 'avg_check_order']

revenue_cat

Наибольшую выручку принесли товары из категории хранение / мебель - 1 823 088 у.е. и товары для сада / растения - 5 715 903 у.е. В этих двух категориях также наибольшее количество уникальных покупателей и заказов.
Средний чек больше всего по покупателям и заказам хранение / мебель - 2250.73 и 1856.51 у.е.На втором месте инструменты / товары для ремонта - 1495.63 и 1388.80. Товары для сада / растения по среднему чеку заняли последнее место среди категорий товаров (648.80 и 546.98) хотя по выручке они на 2 месте. А по количеству проданых товаров на 1 месте. Можно сделать вывод что товары из категории для сада / растения наболее популярный товар возможно в том числе из-за конкурентных цен.

### Изменение выручки по месяцам в разрезе товарных категорий

In [None]:
#создадим сводную таблицу в которой отразим выручку по месяцам в разрезе категорий товаров
revenue_cat_month=df.pivot_table(
    index='month_year', 
    columns='category', 
    values='revenue',  
    aggfunc='sum',  
)
revenue_cat_month

In [None]:
#построим график по сводной таблице
revenue_cat_month.plot(figsize=(12, 7), grid=True, linestyle='-', linewidth=2)
plt.title('Изменение выручки по месяцам')
plt.xlabel('')
plt.ylabel('Выручка')
plt.legend(loc='upper right')
plt.show()

Самую большую прибыль приносят категории:

    1.хранение / мебель
    
    2.товары для сада / растения
    
    3.декор / текстиль и кухня

### ТОП-10 товаров по сумме продаж в разрезе товарных категорий


In [None]:
#сгруппируем количество единиц проданного товара, цену и сумма продаж для каждой категории товара
category = df.groupby(['date', 'product', 'category','price','revenue']).agg({'quantity': ['sum']}).reset_index()
category.columns = ['date','product', 'category','price','revenue', 'quantity']
category.head()

In [None]:
# выделим самые прибыльные 10 товаров с привязкой к категориям
top10_product = category.groupby(['category','product']).agg({'revenue':sum}
                                                  ).sort_values(by='revenue', ascending=False
                                                               ).head(10).reset_index()

top10_product

В списке много товаров типа простынь, вешалки, сумка-тележка и прочих подобных товаров хозяйственного назначения.В 10 самых популярных товаров превалируют товары из категории хранение / мебель . 

### ТОП-10 по количеству покупаемых товаров в разрезе товарных категорий

In [None]:
# выделим самые прибыльные 10 товаров с привязкой к категориям
top10_product = category.groupby(['category','product']).agg({'revenue':sum}
                                                  ).sort_values(by='revenue', ascending=False
                                                               ).head(10).reset_index()

top10_product

In [None]:
#сгруппируем количество единиц проданного товара для каждой категории товара и отсортируем по убыванию
top10_cat_count = category.groupby(['category','product']
                ).agg({'quantity':sum}
                     ).sort_values(by='quantity', ascending=False).head(10).reset_index()

top10_cat_count


Количество Муляжей лидирует в нашем списке (причем с большим отрывом от предыдущих позиций). Тогда как товары бытовая химия, товары для уборки покупаются значительно реже.

### Цена продукта

In [None]:
df['price'].describe()

Средняя цена на продукт (531 рублей) и его медиана (150 рублей) не так высоки: значит большинство приобретаемых позиций в магазине находятся в доступной ценовой категории.
Оценим распределение визуальными методами:

In [None]:
fig = px.box(df, y="price")
fig.show()

Подтверждаем выводы: приобретаемые товары в нашем магазине в большинстве своем попадают в диапазон до тысячи рублей. Остальное является достаточно скромной категорией товаров в диапазоне до 9000 рублей. Одно исключение - позиция продукта за 14 тысяч.

Построим гистограмму с распределением цены в диапазоне до 1000 рублей (по верхней границе нашего боксплота):

In [None]:
fig = px.histogram(df.query('price < 1000'), x="price", nbins=5)
fig.show()

Внушительные 60% реализуемого ассортимента - это товары в ценовом диапазоне до 200 рублей. А в диапазоне до 1000 рублей продолжает присутствовать 85% всех купленных позиций.

### Анализ количества заказов для уникального клиента

In [None]:
#сумма уникальных заказов для каждого клиента
n_orders = df.groupby(['customer_id']).agg({'order_id': ['nunique']}).reset_index()
n_orders.columns = ['customer_id', 'orders_count']
n_orders

In [None]:
n_orders['orders_count'].describe()

Постоянных покупателей у нас немного. Медиана и среднее сосредоточены вокруг единицы - это значит, что чаще всего люди делают в магазине один единственный заказ и больше не возвращаются. Однако, мы видим, что есть и случаи уникальные - 126 заказов в максимуме.

In [None]:
# отфильтруем кольичество заказов менее 5
filtered_orders = n_orders[n_orders["orders_count"] <= 50]

In [None]:
# построим график
fig = px.box(filtered_orders, y="orders_count", orientation='v', title='Количество уникальных заказов по клиентам')
fig.show()

Боксплот подтверждает выводы и указывает на "выбросы", где клиенты делают достаточно большое количество повторных заказов: 17, 35, 126.

Посмотрим на гистограмму распределения количества заказов на каждого клиента, предусмотрительно сократив диапазон повторных заказов до 8:

In [None]:
fig = px.histogram(n_orders.query('orders_count < 8'), x="orders_count", title='Количество уникальных заказов по клиентам')
fig.show()

Большая часть клиентов заказывали только один раз, около 5% возвращались за второй покупкой, а возвраты чаще трёх раз сосчитать ещё легче. Лояльных клиентов немного, но они есть и за них можно удержаться. Главное тщательно проанализировать их привычки.

### Анализ распределение категорий товара относительно количества заказов

In [None]:
#распределение категорий товаров у клиентов с единственным заказом
top_categories=df[(df['customer_id'
          ].isin(n_orders.query('orders_count == 1')['customer_id']))
    ]['category'].value_counts(ascending=False).head(10)
top_categories

Так как только один раз заказывали 93% наших клиентов такие клиенты боьше всего любят заказывать товары из категории товары для сада / растения.Остальное распределение повторяет Топ-10 по количеству товаров и выручке.

In [None]:
#распределение категорий товаров у клиентов с двумя заказами

df[(df['customer_id'
      ].isin(n_orders.query('orders_count == 2')['customer_id']))
    ]['category'].value_counts(ascending=False).head(10)

Клиенты вернувшиеся второй раз, любят покупать из тех же категорий, что и покупающие 1 единственный раз.Распределение похожее.

In [None]:
#распределение категорий товаров у клиентов с более, чем 2 заказами

df[(df['customer_id'
          ].isin(n_orders.query('orders_count > 2 and orders_count < 8')['customer_id']))
    ]['category'].value_counts(ascending=False).head(10)

Распределения мало отличаются друг от друга, категории товара иногда меняются местами, но первые позиции практически всегда одни и те же:товары для сада / растения 

In [None]:
# посмотрим на распределение в "аномальных" повторных заказах:
df[(df['customer_id'
          ].isin(n_orders.query('orders_count > 8')['customer_id']))
    ]['category'].value_counts(ascending=False).head(10)

Клиенты, которые делают частые заказы, имеют тенденцию покупать предметы домашнего обихода, такие как сушилки, тележки и тазы, а не саженцы и растения.Это указывает на другой потребительский профиль по сравнению с большинством клиентов.

### Вывод :


Мы провели категоризацию 2340 уникальных товаров. В результате чего получили 8 категорий:

1.товары для сада / растения  

2. хранение / мебель   

3. декор / текстиль  

4. кухня  

5. ванная     

6. бытовая химия, товары для уборки 

7. инструменты / товары для ремонта 

8. другое                         

Анализ заказаных товаров по категориям показал что больше всего популярны товары для сада / растения  2764  (49.8%), хранение / мебель  1017  (18.3%), декор / текстиль 688  (12.4%)

Наименее популярны бытовая химия, товары для уборки 142   (2.6%), инструменты / товары для ремонта 135   (2.4%)

Самую большую выручку приносят категории:

    - хранение / мебель
    
    - товары для сада / растения
    
    - декор / текстиль и кухня
    
В списке Топ-10 товаров по сумме продаж много товаров хозяйственного назначения (простынь, вешалки, сумка-тележка и прочих подобных товаров).В 10 самых популярных товаров превалируют товары из категории хранение / мебель . 

 В списке Топ-10 по количеству покупаемых товаров лидирует количество Муляжей (причем с большим отрывом от предыдущих позиций). Тогда как товары бытовая химия, товары для уборки покупаются значительно реже.   
 
 Средняя цена на продукт (531 рублей) и его медиана (150 рублей). 
 
Постоянных покупателей немного. Чаще всего люди делают в магазине один единственный заказ (93% покупателей) и больше не возвращаются.Заказывая при этом и категории товары для сада / растения.

Клиенты вернувшиеся второй раз, любят покупать из тех же категорий, что и покупающие 1 единственный раз.Распределение похожее.

Клиенты, которые делают частые заказы, имеют тенденцию покупать из категории предметы домашнего обихода из категории хранение / мебель, такие как сушилки, тележки и тазы, а не саженцы и растения.

## Определение профилей потребителей. RFM анализ.

Чтобы получить RFM-таблицу, нам необходимо сгруппировать данные по идентификаторам клиента и рассчитать следующие агрегированные характеристики:

Recency (давность) для каждого клиента рассчитывается как разница между датой и временем его последнего заказа (точкой отсчета)переведнная в дни.

В качестве точки отсчёта берём дату на один день «старше», чем все наши данные. Это будет 01 февраля 2020 года (в формате datetime — '2020-02-01 00:00:00').

Frequency (частота) рассчитывается как общее количество уникальных заказов, которые совершил клиент.

Monetary Value (деньги) рассчитывается как общая сумма денег, которую клиент потратил на наши товары.
В итоге мы получим профили клиентов которые характеризуют покупательское поведение.

In [None]:
# определим мах дату
df.date.max()

Как писала выше возьмем дату на день больше это будет 2020-02-01

In [None]:
#сохраним дату в переменной t0
t0 = pd.to_datetime('2020-02-01 00:00:00')

In [None]:
# cгруппируем данные по идентификатору клиента и возьмем по каждому последнее значение даты покупки
recency = df.groupby('customer_id', as_index=False)['date'].last()
# вычтем из крайней даты покупки последнюю дату и создадим 
# столбец с результатом вычислений по каждому клиенту
recency['date'] = (t0 - recency['date']).dt.days
recency.head()

In [None]:
#сгруппируем по id клиента, по дате и посчитаем сколько раз 
# клиент покупал у нас в магазине (частота покупок)
frequency = df.groupby('customer_id', as_index=False)['date'].count()
frequency.head()

In [None]:
# сгруппируем id клиента по выручке
monetary_value = df.groupby('customer_id', as_index=False)['revenue'].sum()
monetary_value.head()

In [None]:
# переименуем столбец data чтоб не путаться
RFM_data = recency.rename(columns={'date': 'Recency'})
RFM_data.head()

In [None]:
# соединеним получившиеся таблицы в одну сначала присоединим fregrency
RFM_data = RFM_data.merge(frequency, 
                          on='customer_id',
                          how='left').rename(columns={'date': 'Frequency'})


In [None]:
# также присоединим monetary
RFM_data = RFM_data.merge(monetary_value, 
                          on='customer_id', 
                          how='left').rename(columns={'revenue': 'MonetaryValue'})


In [None]:
RFM_data.head()

Мы получили таблицу в которой указаны данные клиентов по давности совершения покупки, частоте совершения покупки и выручке полученной от данного клиента (ltv).

Присваивание меток 3, 2 и 1 при проведении RFM-анализа имеет следующий смысл:

Метка 3 обозначает высокий показатель для данного параметра, то есть пользователь относится к верхней группе по данному показателю.

Метка 2 обозначает средний показатель, то есть пользователь относится к средней группе по данному показателю.

Метка 1 обозначает низкий показатель, то есть пользователь относится к нижней группе по данному показателю.

Сегменты пользователей, на которые мы разделяем их с помощью RFM-анализа, основаны на комбинациях этих меток для каждого из параметров Recency, Frequency и Monetary.

Например, пользователь с RFM-кодом 333 относится к самому ценному кластеру, так как этот пользователь имеет недавнюю активность (высокий Recency), высокую частоту активности (Frequency) и высокий объем денежных трат или доходов (Monetary).

Пользователь с RFM-кодом 111, наоборот, будет являться менее ценным для бизнеса, так как он имеет давнюю активность, низкую частоту активности и низкий объем трат или доходов.

Для показателя Recency метки идут в обратном порядке, потому что этот параметр оценивает время с последней активности пользователя, и меньшее значение Recency означает более недавнюю активность, что является положительным показателем.

В случае с Frequency и Monetary, большие значения означают высокую частоту активности и большие денежные траты, что также положительно, и поэтому метки идут в прямом порядке (1 — низкий, 2 — средний, 3 — высокий).

In [None]:
#разделим пользователей на сегменты присвоив ранг в зависимости от заданных параметров 1,2,3 с помощью функции cut
RFM_data['R'] = pd.cut(RFM_data['Recency'], bins=3, labels=['3', '2', '1'])
RFM_data['F'] = pd.cut(RFM_data['Frequency'], bins=3, labels=['1', '2', '3'])
RFM_data['M'] = pd.cut(RFM_data['MonetaryValue'], bins=3, labels=['1', '2', '3'])
RFM_data

In [None]:
# создадим новый столбец с профилями пользователей
RFM_data['RFM'] = RFM_data['R'].astype(str) + RFM_data['F'].astype(str) + RFM_data['M'].astype(str) 
RFM_data

In [None]:
#посчитаем клиентов по получившимся профилям
RFM_count_profile = RFM_data.groupby('RFM')['RFM'].agg({'count'}).reset_index()
RFM_count_profile

In [None]:
# для наглядности отобразим на графике
px.treemap(RFM_count_profile, path=['RFM'], values='count')

Визуально мы можем оценить, что Лояльных(311) покупателей больше. Распределение Угасающих(111) и Новых покупателей с потенциалом(211) распределение примерно одинаково.

In [None]:
# напишем функцию для определения профиля сегмента пользователя понятными словами
def assign_segment(row): 
    rfm = row['RFM']
    if rfm == '311':
        return 'Лояльные' 
    elif rfm[0] == '2' and rfm[2] == '1':
        return 'Новые пользователи с потенциалом' 
    elif rfm == '111':
        return 'Угасающие пользователи' 
    else:
        return 'Другие'

In [None]:
RFM_data['segment'] = RFM_data.apply(assign_segment, axis=1) 
RFM_data.head()

In [None]:
#посчитаем клиентов по получившимся профилям
RFM_count_segment = RFM_data.groupby('segment')['segment'].agg({'count'}).reset_index()
RFM_count_segment

Наши выводы подтвердились самая большая группа по количеству - Лояльные клиенты.И 2 группы (Новые с потенциалом и Угасающие) примерно одинакового размера.В группу Другие попали всего 3 клиента.

###  Анализ комерческих показателей в разрезе сегментов потребителей и категорий товаров

In [None]:
# удалим мешающие нам столбцы 
df.drop (columns = ['product', 'product_split'], axis = 1).head(2)

In [None]:
#соединим две таблицы с основными данными с профилями покупателей
result_merge=RFM_data.merge(df, on='customer_id', how='inner')
result_merge.head(2)

In [None]:
# удалим еще немного столбцов
result_merge = result_merge.drop(columns = ['R','F','M'], axis = 1)
result_merge.head(2)

### Средний чек по сегментам пользователей

In [None]:
#cгруппируем по сегментам и посчитаем средний чек в разрезе по сегментам
avg_check_segment=result_merge.groupby(['segment']).agg({'revenue':'sum','order_id':'nunique'},as_index=False).reset_index()
# добавим столбец средний чек, разделив суман=рную выручку по сегментам на количество уникальных заказов
avg_check_segment['avg_check'] = avg_check_segment['revenue'] /avg_check_segment['order_id']
avg_check_segment['share%']=avg_check_segment['avg_check']/avg_check_segment['revenue']*100
avg_check_segment=avg_check_segment.sort_values (by = 'avg_check', ascending =False)

Больше всего выручки приносят Лояльные покупатели, при этом средний чек у них ниже чем у Новых и Угасающих.Это значит они покупают товары по низкому прайсу но в большем количестве.Угасающие и Новые напротив покупают по более высокому прайсу но в меньших количествах.Других пользователей совсем мало, поэтому на них ориентироваться не будем.
Далее в исследовании проверим эти предположения.

In [None]:
# cоздание графика показателя среднего чека по сегментам пользователей за все время 
plt.figure(figsize=(10, 6))
sns.barplot(x='avg_check', y='segment', palette = 'BrBG', data=avg_check_segment)
plt.title('Средний чек по сегментам')
plt.xlabel('Средний чек')
plt.ylabel(' ')
plt.xticks(rotation=45)  # Поворот меток по оси x для лучшей читаемости
plt.tight_layout()  # Для более компактного размещения элементов
plt.show()

На графике видим что у Лояльных средний чек самый маленький. Необходимо продумать маркетинговую стратегию по его повышению.

### Средний чек по каждому сегменту пользователя в разрезе сезонов

In [None]:
#посчитаем средний чек по каждому сегменту пользователя в разрезе сезонов
rev_segment_season=result_merge.groupby(['segment','season_name']).agg({'revenue':'mean','order_id':'nunique'})\
.reset_index().rename(columns={'revenue': 'avg_check'}).sort_values(by='avg_check', ascending=False)

rev_segment_season.head()

In [None]:
# cоздадим график среднего чека по сезонам в разрезе по сегментам
plt.figure (figsize = (12, 6))
sns.barplot (data = rev_segment_season, x = 'segment', y = 'avg_check',palette = 'CMRmap', hue = 'season_name')
plt.title ('Средняя выручка по сезонам в разрезе по сегментам')
plt.xlabel (' ')
plt.ylabel ('Средняя выручка')
# повернем метки оси x для лучшей читаемости
plt.xticks (rotation = 45)
plt.show ()

По графику мы видим, что 'Лояльные' покупают охотнее весной и летом, чем зимой и осенью.'Угасающие' любят делать покупки зимой и осенью при том, что летний периоз заказы этого сегмента отсутствуют. 'Новые покупатели' напротив предпочитают покупать летом, а осенью совсем не покупают.Категория 'Другие' из всех сезонов выбирают зимний ассортимент товаров.Этот сезон у Других резко выделяется на графике среди остальных сегментов и сезонов.

### Количество товаров в заказе по категории в разрезе сегментов пользователей

Посмотрим какие категории товаров популярны в различных сегментах. Проще говоря, какие товары берут наши покупатели из различных сегментов. 

In [None]:
#посчитаем количество товаров в заказе по категории в разрезе сегментов пользователей
count_prod_order_segment=result_merge.groupby(['segment','category']).agg({'product':'count','order_id':'nunique'})\
.reset_index().sort_values(by='segment', ascending=False)
count_prod_order_segment['count_product_mean']=count_prod_order_segment['product']\
/count_prod_order_segment['order_id']
count_prod_order_segment.head()

In [None]:
# cоздать график количества товаров на заказ по категориям разрезе по сегментам
plt.figure (figsize = (12, 6))
sns.barplot (data = count_prod_order_segment, x = 'segment', y = 'count_product_mean', hue = 'category')
plt.title ('Количество товара по категориям в разрезе по сегментам')
plt.xlabel (' ')
plt.ylabel ('Количество товара в заказе')
# повернем метки оси x для лучшей читаемости
plt.xticks (rotation = 45)
plt.show ()

Товары для сада наиболее популярны у Новых покупателей и угасающих пользователей и чуть более чем другие категории популярны у Лояльных.Угасающим пользователям интерересны также категории -декор/текстиль и кухня.

### Средняя выручка по категорям в разрезе по сегментам

In [None]:
#посчитаем редняя выручка по категорям в разрезе по сегментам
avg_revenue_seg=result_merge.groupby(['segment','category']).agg({'revenue':'mean','order_id':'nunique'})\
.reset_index().rename(columns={'revenue': 'avg_revenue'}).sort_values(by='avg_revenue', ascending=False)
avg_revenue_seg.head()

In [None]:
# cоздать график средней выручки по категориям в разрезе по сегментам
plt.figure (figsize = (10, 5))
sns.barplot (data = avg_revenue_seg, x = 'segment', y = 'avg_revenue', hue ='category' )

# обавить этикетки и заголовок
plt.title ('Средняя выручка по категорям в разрезе по сегментам')
plt.xlabel (' ')
plt.ylabel ('Средняя выручка')

# Поверните метки оси x для лучшей читаемости
plt.xticks (rotation = 45)

# Показать сюжет
plt.show ()

Наибольший показатель средней выручки в сегменте:
    
"Новые пользователи" в категориях:

    -хранение/мебель
    
    - инструменты/товары для ремонта
    
    -ванная
    
"Лояльные":

    -хранение/мебель
    
    -инструменты/товары для ремонта
    
    -бытовая химия, товары для уборки
    
"Угасающие":

    -хранение/мебель
    
    -кухня
    
    -бытовая химия, товары для уборки
    
Наименьший показатель средней выручки во всех сегментах по категории - товары для сада/растения. 

На растениях наш магазин не зарабатывает, несмотря на то, что прокупаестя большое количество товаров из этой категории по всем сегментам.Из этого можно сделать вывод, что товары категории 'товары для сада/растения' имеют небольшую стоимость.
        

### Анализ распределения количества заказов по товарным категориям в разрезе сезонов

Чтобы дать рекомендации по рассылке рекламных акций (когда, кому и по каким категориям товаров) изучим распределение количества заказов по товарным категориям в разрезе сезонов.

In [None]:
# сгруппируем категории товаров по сезонам, сегментам и посчитаем количество в каждом сезоне по сегментам
count_ord_season = (result_merge.groupby(['season_name', 'category','segment'])
                 .agg(count_orders=('order_id', 'count'))
                .sort_values(by='count_orders', ascending=False)
                .reset_index()
                )
count_ord_season.head()

Чтобы не перебирать сегменты, напишем функцию, которая переберет каждый сегмент потребителя и построит визуализацию распределения количества заказов по товарным категориям в разрезе сезонов.

In [None]:
# напишем функцию для перебора сегментов 
for segment in count_ord_season['segment'].unique():
    plt.figure(figsize=(12, 7))
    
    # перебор уникальных категорий для каждого профиля
    for category in count_ord_season[count_ord_season['segment'] == segment]['category'].unique():
        data = count_ord_season[(count_ord_season['segment'] == segment) & (count_ord_season['category'] == category)]
        
        sns.lineplot(data=data, x='season_name', y='count_orders', marker='s', label=category)
    
    plt.xlabel(' ')
    plt.ylabel('Количество заказов')
    plt.title(f'Распределение количества заказов по товарным категориям в разрезе сезонов "{segment}"', size=15)
    plt.legend() 
    plt.grid(True)
    plt.show()

   Анализ распредеделения количества заказов показал, что в сегменте "Новые пользователи с потенциалом" самый пик покупательской активности происходит весной. Самая популярная категория - товары для сада/растения весной, зимой и летом.Что скорее всего связано с садово огородными весенними работами. Осенью же этот сегмент совсем не покупает товары в нашем магазине.
То есть этот сегмент покупателя похож на типичного дачника-огородника. Остальные товары, можно сказать, совсем не популярны.

В cегменте "Лояльных" покупателей всплеск покупательской активности наблюдается зимой и осенью, в эти периоды попупулярны товары в категории сад\растения и хранение\мебель на третьем месте-кухня, декор\текстиль. На протяжении всего года тенденции популярности категорий практически одинаковы. За исключением, того, что летом и весной покупают меньше и в эти периоды категория сад\растения уступает свое лидируещее место категории хранение\мебель.

В сегменте "Угасающие пользователи" пик покупательской активности приходиться на осень.Самые популярные товары из категорий сад\растения, декор\текстиль, хранение\мебель, кухня. в течение года тенденции покупательского поведения практически не изменны. Летом покупатели этого сегмента совсем не активны.

 В малочисленном, но потенциально интересном для развития магазина, сегменте 'Другие' можем увидеть следующую картину:
самое популярное для закупок время года - зима и осень. В этот период закупаються товары категории - хранение\мебель, декор\текстиль, кухня, товары для сада\растения. Летом покупатели также как и в вышеперечисленных категориях неактивны.ВВесной покупаются все те же товары для сада и огорода. 

Судя по вышеперечисленному можем сделать вывод, что наш типичный потребитель это дачник\огородник имеющий приусадебный участок, сажающий растения весной, осенью собирает урожай и делает заготовки на зиму. Летом не находящий подходящего ассортимента в нашем магазине. Возможно, следует пересмотреть сам ассортимент и включить в него новые позиции, например, такие как шланги и системы полива, надувные бассейны, качели, фонари на солнечной батарее и тд. Все что может понадобиться в летнее время на приусадебном участке. Исключив, невостребованные позиции непопулярных категорий товаров инструменты\товары для ремонта, бытовая химия, ванна. Остатки товаров из непопулярных категорий возможно реализовать путем проведения промоакций по типу продажи сопутствующих товаров(например, купив растение для посадки или семена, получи лопату по цене -20% от стоимости.)



### Анализ распределения суммарной выручки по товарным категориям в разрезе сезонов

In [None]:
#сгруппируем cуммарную выручку по сезонам, сегментам и посчитаем количество в каждом сезоне по сегментам
total_rev_season = (result_merge.groupby(['season_name', 'category','segment'])
                 .agg(revenue=('revenue', 'sum'))
                .sort_values(by='revenue', ascending=False)
                .reset_index()
                )
total_rev_season.head()

Чтобы не перебирать сегменты, напишем функцию, которая переберет каждый сегмент потребителя и построит визуализацию распределения суммарной выручки по товарным категориям в разрезе сезонов.

In [None]:
# напишем функцию для перебора выручки по сегментам и 
for segment in total_rev_season['segment'].unique():
    plt.figure(figsize=(12, 7))
    
    data = total_rev_season[total_rev_season['segment'] == segment]
    data = data.sort_values(by='revenue', ascending=False)  # cортировка данных по убыванию выручки
    palette = ['blue']
    sns.barplot(x='revenue', y='season_name', hue='category', data=data,  alpha=0.7, ci=None)
    
        
    plt.xlabel('Cуммарная выручка')
    plt.ylabel(' ')
    plt.title(f'Выручка по категориям товаров для сегмента в разрезе сезонов "{segment}"', size=15)
    
        
    plt.grid(True)
    
    plt.show()

Наибольшую выручку среди всех сегменов приносят 'Лояльные' пользователи в зимнее время года по категории хранение\мебель

Выручка в сегменте 'Лояльные', в принципе, сохраняет общую тенденцию в течение всего года. Самую большую выручку приносят товары из категории хранение\мебель, чуть меньше декор\текстиль и кухня. Затем идут товары для сада\растения.

В сегменте Угасающие пользователи по выручке по категориям картина идентичная. Наибольшая выручка в категорих хранение\мебель, кухня, декор/текстиль на 4 месте товары для сада\растения.
самая высокая выручка осенью. А вот в летний период клиенты этого сегмента не покупают.


В сегменте 'Новые пользователи с потенциалом' предпочитают покупать в основном весной и летом. На первом месте по выручке товары из категорий товары для сада\растения, на 2 месте - хранение\мебель в весенний период. В летний период эти категории меняються местами. Чуть меньше выручки этот сегмент приносит по категориям декор\текстиль в осенний и зимний период соответственно. Зимой и осенью этот сегмент практически ничего не покупает.

Сегмент 'Другие' летом и весной не приносит магазину выручки. Наибольший поток выручки приносят категории декор\текстиль, хранение\мебель зимой и осенью. Осенью к вышеперечисленным категориям добавляется категория бытовая химия,товары для уборки.

Из всего вышеперечисленного можно сделать вывод, о том, что большую долю прибыли по всем сегментам приносят товары из категории хранение\мебель и лишь на втором месте по выручке товары категории  сад\растения. Самым прибыльными сезонами оказались зима и осень так как именно в эти сезоны (как мы узнали из выше проведенного анализа) продается наибольшее количество товаров из категории хранение\мебель.Товары из категории сад\растения несмотря на бОльшие обьемы продаж приносит намного меньше прибыли. Вероятно это связано с тем, что стоимость товаров из категории хранение\мебель значительно превышает стоимость товаров из категории сад\растения.

### Вывод:

Мы разделили профили пользователей на 4 сегмента:
- Другие, 
- Лояльные (311)те, кто недавно покупали но нечасто и не много по выручке
- Новые пользователи с потенциалом (211) те кто покупали относительно недавно и нечасто, немного и их возможно еще вернуть.
- Угасающие пользователи (111), кто покупали давно, нечасто и немного.
По количеству у нас лояльных больше всего. И это хорошо, так как имено на этот сегмент нужно ориентироваться при выборе маркетинговой стратегии. Угасающие и Новые с потенциалом примерно одинаковое количество.Угасающих вряд ли можно вернуть. А вот с недавно купившими клиентами можно и нужно работать. 
Других совсем мало. 

**Средний чек по сегментам пользователей**

Больше всего выручки приносят 'Лояльные' покупатели, при этом средний чек у них ниже чем у 'Новых' и 'Угасающих'.Это значит они покупают товары по низкому прайсу, но в большем количестве.
Угасающие и Новые напротив покупают по более высокому прайсу, но в меньших количествах.
Визуализация показала, что у 'Лояльных' средний чек самый маленький. Необходимо продумать маркетинговую стратегию по его повышению.


**Наибольший средний чек по каждому сегменту пользователя в разрезе сезонов:**

'Лояльные'- лето, зима

'Новые' - лето

'Угасающие' - зима, осень

'Другие' - зима


**Наибольшее количество товаров в заказе по категории в разрезе сегментов пользователей**

'Лояльные'- товары для сада/растения

'Новые' - товары для сада/растения

'Угасающие' - товары для сада/растения, декор/текстиль

'Другие' - товары для сада/растения, кухня


**Наименьшее количество товаров в заказе по категории в разрезе сегментов пользователей**

'Новые' - хранение/мебель

'Угасающие' - хранение/мебель

'Другие' - инструменты/товары для ремонта


**Наибольший показатель средней выручки по категорям в разрезе по сегментам**

"Новые пользователи":

    -хранение/мебель
    
    - инструменты/товары для ремонта
    
    -ванная
      
"Лояльные":

    -хранение/мебель
    
    -инструменты/товары для ремонта
    
    -бытовая химия, товары для уборки
    
"Угасающие":

    -хранение/мебель
    
    -кухня
    
    -бытовая химия, товары для уборки

"Другие":

     - декор/текстиль
 
    - хранение/мебель
 
    - бытовая химия, товары для уборки
    
Наименьший показатель средней выручки во всех сегментах по категории - товары для сада/растения. 


На растениях магазин не зарабатывает, несмотря на то, что прокупаестя большое количество товаров из этой категории по всем сегментам.Из этого можно сделать вывод, что товары категории 'товары для сада/растения' имеют небольшую стоимость.

**Распределения количества заказов по товарным категориям в разрезе сезонов**

Анализ распредеделения количества заказов показал, что в сегменте "Новые пользователи с потенциалом" самый пик покупательской активности происходит весной. Самая популярная категория - товары для сада/растения весной, зимой и летом.Что скорее всего связано с садово огородными весенними работами. Осенью же этот сегмент совсем не покупает товары в нашем магазине.
То есть этот сегмент покупателя похож на типичного дачника-огородника. Остальные товары, можно сказать, совсем не популярны.

В cегменте "Лояльных" покупателей всплеск покупательской активности наблюдается зимой и осенью, в эти периоды попупулярны товары в категории сад\растения и хранение\мебель на третьем месте-кухня, декор\текстиль. На протяжении всего года тенденции популярности категорий практически одинаковы. За исключением, того, что летом и весной покупают меньше и в эти периоды категория сад\растения уступает свое лидируещее место категории хранение\мебель.

В сегменте "Угасающие пользователи" пик покупательской активности приходиться на осень.Самые популярные товары из категорий сад\растения, декор\текстиль, хранение\мебель, кухня. в течение года тенденции покупательского поведения практически не изменны. Летом покупатели этого сегмента совсем не активны.

 В малочисленном, но потенциально интересном для развития магазина, сегменте 'Другие' можем увидеть следующую картину:
самое популярное для закупок время года - зима и осень. В этот период закупаються товары категории - хранение\мебель, декор\текстиль, кухня, товары для сада\растения. Летом покупатели также как и в вышеперечисленных категориях неактивны.ВВесной покупаются все те же товары для сада и огорода. 

Судя по вышеперечисленному можем сделать вывод, что наш типичный потребитель это дачник\огородник имеющий приусадебный участок, сажающий растения весной, осенью собирает урожай и делает заготовки на зиму. Летом не находящий подходящего ассортимента в нашем магазине. Возможно, следует пересмотреть сам ассортимент и включить в него новые позиции, например, такие как шланги и системы полива, надувные бассейны, качели, фонари на солнечной батарее и тд. Все что может понадобиться в летнее время на приусадебном участке. Исключив, невостребованные позиции непопулярных категорий товаров инструменты\товары для ремонта, бытовая химия, ванна. Остатки товаров из непопулярных категорий возможно реализовать путем проведения промоакций по типу продажи сопутствующих товаров(например, купив растение для посадки или семена, получи лопату по цене -20% от стоимости.)
        
**Распределения суммарной выручки по товарным категориям в разрезе сезонов** 
 
 Наибольшую выручку среди всех сегменов приносят 'Лояльные' пользователи в зимнее время года по категории хранение\мебель

Выручка в сегменте 'Лояльные', в принципе, сохраняет общую тенденцию в течение всего года. Самую большую выручку приносят товары из категории хранение\мебель, чуть меньше декор\текстиль и кухня. Затем идут товары для сада\растения.

В сегменте Угасающие пользователи по выручке по категориям картина идентичная. Наибольшая выручка в категорих хранение\мебель, кухня, декор/текстиль на 4 месте товары для сада\растения.
самая высокая выручка осенью. А вот в летний период клиенты этого сегмента не покупают.


В сегменте 'Новые пользователи с потенциалом' предпочитают покупать в основном весной и летом. На первом месте по выручке товары из категорий товары для сада\растения, на 2 месте - хранение\мебель в весенний период. В летний период эти категории меняються местами. Чуть меньше выручки этот сегмент приносит по категориям декор\текстиль в осенний и зимний период соответственно. Зимой и осенью этот сегмент практически ничего не покупает.

Сегмент 'Другие' летом и весной не приносит магазину выручки. Наибольший поток выручки приносят категории декор\текстиль, хранение\мебель зимой и осенью. Осенью к вышеперечисленным категориям добавляется категория бытовая химия,товары для уборки.

Из всего вышеперечисленного можно сделать вывод, о том, что большую долю прибыли по всем сегментам приносят товары из категории хранение\мебель и лишь на втором месте по выручке товары категории  сад\растения. Самым прибыльными сезонами оказались зима и осень так как именно в эти сезоны (как мы узнали из выше проведенного анализа) продается наибольшее количество товаров из категории хранение\мебель.Товары из категории сад\растения несмотря на бОльшие обьемы продаж приносит намного меньше прибыли. Вероятно это связано с тем, что стоимость товаров из категории хранение\мебель значительно превышает стоимость товаров из категории сад\растения.

## Проверка гипотез

Сформируем гипотезы и проверим их.

1.Нулевая гипотеза:
    
    Нет различий в среднем количестве товара в заказе по сегментам.
    

1.Альтернативная гипотеза:
    
    Есть различия в среднем количестве товара в заказе по сегментам.

2.Нулевая гипотеза: 

Нет различий в среднем чеке по сегментам.


2.Альтернативная гипотеза:


Есть различия в среднем чеке по сегментам.

3.Нулевая гипотеза: 

Нет различий в суммарной выручке по сегментам.


3.Альтернативная гипотеза:

Есть различия в суммарной выручке по сегментам.

Различия признаются статистически значимыми на уровне р < 0,05. Так как у нас множественный тест применим поправку Бонферони.Уровень alpha разделим на количество проверок.Так как с каждой проверкой вероятность сделать ошибку повышается.

### Подготовка данных для статистической проверки на корректность деления по группам

In [None]:
# сгруппируем создадим сводную таблицу в которой отразим по продуктам и выручке добавим столбец среднего чека
avg_checksegment = result_merge.pivot_table(
    index=['order_id','segment'], values=['product', 'revenue'], aggfunc={'product':'nunique', 'revenue':'sum'}).reset_index()
avg_checksegment['avg_check'] = avg_checksegment['revenue'] / avg_checksegment['product']
# так же добавим столбец со средним количеством товара в заказе для каждого сегмента 

avg_checksegment

In [None]:
# создадим массивы данных по среднему чеку по каждому сегменту
avg_check_1 = avg_checksegment[avg_checksegment['segment'] == 'Новые пользователи с потенциалом']['avg_check']

avg_check_2 = avg_checksegment[avg_checksegment['segment'] == 'Лояльные']['avg_check']

avg_check_3 = avg_checksegment[avg_checksegment['segment'] == 'Угасающие пользователи']['avg_check']

avg_check_4 = avg_checksegment[avg_checksegment['segment'] == 'Другие']['avg_check']


In [None]:
#посчитаем количество товаров в заказе по категории в разрезе сегментов пользователей
count_prod_order_segment=result_merge.groupby(['segment','category']).agg({'product':'count','order_id':'nunique'})\
.reset_index().sort_values(by='segment', ascending=False)
count_prod_order_segment['count_product_mean']=count_prod_order_segment['product']\
/count_prod_order_segment['order_id']
count_prod_order_segment.head()

In [None]:
# создадим массивы данных по среднему чеку по каждому сегменту
count_prod_1 = count_prod_order_segment[count_prod_order_segment['segment'] == 'Новые пользователи с потенциалом']['count_product_mean']

count_prod_2 = count_prod_order_segment[count_prod_order_segment['segment'] == 'Лояльные']['count_product_mean']

count_prod_3 = count_prod_order_segment[count_prod_order_segment['segment'] == 'Угасающие пользователи']['count_product_mean']

count_prod_4 = count_prod_order_segment[count_prod_order_segment['segment'] == 'Другие']['count_product_mean']


In [None]:
#посчитаем суммарная выручка по категорям в разрезе по сегментам
avg_revenue_seg=result_merge.groupby(['segment','category']).agg({'revenue':'sum','order_id':'nunique'})\
.reset_index().rename(columns={'revenue': 'sum_revenue'}).sort_values(by='sum_revenue', ascending=False)
avg_revenue_seg.head()

In [None]:
# создадим массивы данных сумарной выручке по каждому сегменту
sum_segment_1= avg_revenue_seg[avg_revenue_seg['segment'] == 'Новые пользователи с потенциалом']['sum_revenue']

sum_segment_2 = avg_revenue_seg[avg_revenue_seg['segment'] == 'Лояльные']['sum_revenue']

sum_segment_3 = avg_revenue_seg[avg_revenue_seg['segment'] == 'Угасающие пользователи']['sum_revenue']

sum_segment_4 = avg_revenue_seg[avg_revenue_seg['segment'] == 'Другие']['sum_revenue']


### Проверка данных на нормальность распределения

Для того чтобы выбрать статистический метод проверки правильности деления на сегменты покупателей, нам нужно узнать какое распределение в наших данных (нормальное или нет).Выберем для проверки нормальности распределения критерий Шапиро-Уилка. Его плюс в том, что при фиксированном уровне значимости он обладает бóльшей мощностью, чем хи-квадрат: чаще обнаруживает различия между распределениями, если они и правда есть. Если распределение нормальное то для проверки гипотез применим tt-test. Если распределение в данных окажется далеким от нормального тогда применим Манна-Уитни.Так как U-критерий Манна-Уитни — это непараметрическая версия t-критерия для независимых выборок. 

Сформулируем наши гопотезы для проверки данных на нормальность. 

Нулевая гипотеза: 

    "Распределение среднего чека по сегментам нормально."
    
Альтернативная гипотеза:  

    "Распределение среднего чека по сегментам не нормально."

Нулевая гипотеза:

    "Распределение количества товаров по сегментам нормально."

Альтернативная гипотеза:

    "Распределение количества товаров по сегментам не нормально."

Нулевая гипотеза:
  
    "Распределение суммарной выручки по сегментам нормально."

Альтернативная гипотеза:

    "Распределение суммарной выручки по сегментам не нормально."

In [None]:
def check_normality(x, alpha = 0.05):
    result = st.shapiro(x)
    p_value = result[1]
    print ('p-значение:', p_value)
    if p_value < alpha:
        print('Oтклонить нулевую гипотезу: распределение не нормально')
    else:
        print('Не удалось отклонить нулевую гипотезу: распределение нормально')
        

In [None]:
#проверим распределение среднего чека на нормальность по сегментам
check_normality(avg_check_1)
check_normality(avg_check_2)
check_normality(avg_check_3)
check_normality(avg_check_4)

In [None]:
#проверим распределение количество товаров в заказах по категориям на нормальность в различных сегментах
check_normality(count_prod_1)
check_normality(count_prod_2)
check_normality(count_prod_3)
check_normality(count_prod_4)

In [None]:
#проверим распределение суммарной выручки на нормальность
check_normality(sum_segment_1)
check_normality(sum_segment_2)
check_normality(sum_segment_3)
check_normality(sum_segment_4)

Наши предположения подтвердились распределение в данных по количеству товара, суммарной выручке и среднему чеку в большинстве своем не нормально. Для проверки наших гипотез применим тест Манна-Уитни.

In [None]:
# создадим функцию для проверки наших гипотез с помощью метода MannWhitneyu
alpha = 0.05
def check_mannwhitneyu(data_x, data_y, alternative='two-sided'):
    result = st.mannwhitneyu(data_x, data_y, alternative=alternative)
    if result.pvalue < 1/18: #применим поправку Бонферони разделим уровень статистической значимости на количество экспериментов
        print('Oтклонить нулевую гипотезу: между группами нет разницы')
    else:
        print('Не удалось отклонить нулевую гипотезу: между группами есть разница')

Нулевая гипотеза: 
    
    Нет различий в среднем чеке по сегментам.

Альтернативная гипотеза:
    
    Есть различия в среднем чеке по сегментам.

In [None]:
#проверим корректноость деления на сегменты по среднему чеку 
check_mannwhitneyu(avg_check_1,avg_check_2)
check_mannwhitneyu(avg_check_1,avg_check_3)
check_mannwhitneyu(avg_check_1,avg_check_4)
check_mannwhitneyu(avg_check_2,avg_check_3)
check_mannwhitneyu(avg_check_2,avg_check_4)
check_mannwhitneyu(avg_check_3,avg_check_4)

Нулевая гипотеза:
    
    Нет различий в среднем количестве товара в заказе по сегментам.
    

Альтернативная гипотеза:
    
    Есть различия в среднем количестве товара в заказе по сегментам.


In [None]:
#проверим корректноость деления на сегменты по  среднему количеству товара в заказе
check_mannwhitneyu(count_prod_1,count_prod_2)
check_mannwhitneyu(count_prod_1,count_prod_3)
check_mannwhitneyu(count_prod_1,count_prod_4)
check_mannwhitneyu(count_prod_2,count_prod_3)
check_mannwhitneyu(count_prod_2,count_prod_4)
check_mannwhitneyu(count_prod_3,count_prod_4)

Нулевая гипотеза:
    
    Нет различий в суммарной выручке по сегментам.

Альтернативная гипотеза:
    
    Есть различия в суммарной выручке по сегментам.

In [None]:
#проверим корректноость деления на сегменты по суммарной выручке заказов
check_mannwhitneyu(sum_segment_1,sum_segment_2)
check_mannwhitneyu(sum_segment_1,sum_segment_3)
check_mannwhitneyu(sum_segment_1,sum_segment_4)
check_mannwhitneyu(sum_segment_2,sum_segment_3)
check_mannwhitneyu(sum_segment_2,sum_segment_4)
check_mannwhitneyu(sum_segment_3,sum_segment_4)

Статистический анализ показывает, что между сегментами есть весомая разница как в показателях средней выручки и заказа, так и среднего чека. Значит мы верно поделили покупателей на сегменты.

### Вывод: 

Статистический анализ показывает, что между сегментами есть статистически значимые различия в показателях средний чек, суммарная выручка и количество товаров.

Мы отвегаем нулевую гипотезу и приходим к выводу, что различия между группами есть.А это значит, что деление на сегменты мы провели корректно.

## Выводы

Мы располагаем данными за период с '2018-10-01' по '2020-01-31'. 

В результате исселедовательского анализа были удалены неявные дубликаты и аномалиии.
Анализ распределения заказов по дате показал всплеск активности покупателей в декабре 2018 и 2019 скорее связан с Новогодними праздниками.В январе 2019 количество заказов сошло на спад. Март-апрель 2019 снова подъем скорее связан с садово-огородными работами.
Анализ распределения выручки в разрезе месяц/год выявил общуюю тенденцию на снижение выручки.
Также мы выяснили, что наиболее часто заказывают товары в магазине в период с 8 до 17 часов.
Больше всего выручку приносят осенне-зимний сезон.



Мы провели категоризацию 2340 уникальных товаров. В результате чего получили 8 категорий:

1.товары для сада / растения  

2. хранение / мебель   

3. декор / текстиль  

4. кухня  

5. ванная     

6. бытовая химия, товары для уборки 

7. инструменты / товары для ремонта 

8. другое                         

Анализ заказаных товаров по категориям показал что больше всего популярны товары для сада / растения  2764  (49.8%), хранение / мебель  1017  (18.3%), декор / текстиль 688  (12.4%)

Наименее популярны бытовая химия, товары для уборки 142   (2.6%), инструменты / товары для ремонта 135   (2.4%)

Самую большую выручку приносят категории:

    - хранение / мебель
    
    - товары для сада / растения
    
    - декор / текстиль и кухня
    
В списке Топ-10 товаров по сумме продаж много товаров хозяйственного назначения (простынь, вешалки, сумка-тележка и прочих подобных товаров).В 10 самых популярных товаров превалируют товары из категории хранение / мебель . 

 В списке Топ-10 по количеству покупаемых товаров лидирует количество Муляжей (причем с большим отрывом от предыдущих позиций). Тогда как товары бытовая химия, товары для уборки покупаются значительно реже.   
 
 Средняя цена на продукт (531 рублей) и его медиана (150 рублей). 
 
Постоянных покупателей немного. Чаще всего люди делают в магазине один единственный заказ (93% покупателей) и больше не возвращаются.Заказывая при этом и категории товары для сада / растения.

Клиенты вернувшиеся второй раз, любят покупать из тех же категорий, что и покупающие 1 единственный раз.

Клиенты, которые делают частые заказы, имеют тенденцию покупать из категории предметы домашнего обихода из категории хранение / мебель, такие как сушилки, тележки и тазы, а не саженцы и растения.

Мы разделили профили пользователей на 4 сегмента:
- Другие, 
- Лояльные (311)те, кто недавно покупали но нечасто и не много по выручке
- Новые пользователи с потенциалом (211) те кто покупали относительно недавно и нечасто, немного и их возможно еще вернуть.
- Угасающие пользователи (111), кто покупали давно, нечасто и немного.
По количеству у нас лояльных больше всего. И это хорошо, так как имено на этот сегмент нужно ориентироваться при выборе маркетинговой стратегии. Угасающие и Новые с потенциалом примерно одинаковое количество.Угасающих вряд ли можно вернуть. А вот с недавно купившими клиентами можно и нужно работать. 
Других совсем мало. 


**Средний чек по сегментам пользователей**

Больше всего выручки приносят 'Лояльные' покупатели, при этом средний чек у них ниже чем у 'Новых' и 'Угасающих'.Это значит они покупают товары по низкому прайсу, но в большем количестве.
Угасающие и Новые напротив покупают по более высокому прайсу, но в меньших количествах.
Визуализация показала, что у 'Лояльных' средний чек самый маленький. Необходимо продумать маркетинговую стратегию по его повышению.


**Наибольший средний чек по каждому сегменту пользователя в разрезе сезонов:**

'Лояльные'- лето, зима

'Новые' - лето

'Угасающие' - зима, осень

'Другие' - зима


**Наибольшее количество товаров в заказе по категории в разрезе сегментов пользователей**

'Лояльные'- товары для сада/растения

'Новые' - товары для сада/растения

'Угасающие' - товары для сада/растения, декор/текстиль

'Другие' - товары для сада/растения, кухня


**Наименьшее количество товаров в заказе по категории в разрезе сегментов пользователей**

'Новые' - хранение/мебель

'Угасающие' - хранение/мебель

'Другие' - инструменты/товары для ремонта


**Наибольший показатель средней выручке по категорям в разрезе по сегментам**

'Новые пользователи':

    -хранение/мебель
    
    - инструменты/товары для ремонта
    
    -ванная
      
'Лояльные':

    -хранение/мебель
    
    -инструменты/товары для ремонта
    
    -бытовая химия, товары для уборки
    
'Угасающие': 

    -хранение/мебель
    
    -кухня
    
    -бытовая химия, товары для уборки

'Другие':

     - декор/текстиль
 
    - хранение/мебель
 
    - бытовая химия, товары для уборки
    
Наименьший показатель средней выручки во всех сегментах по категории - товары для сада/растения. 

На растениях магазин не зарабатывает, несмотря на то, что прокупается большое количество товаров из этой категории, по всем сегментам.Из этого можно сделать вывод, что товары категории 'товары для сада/растения' имеют большой спрос и  небольшую стоимость.

**Распределения количества заказов по товарным категориям в разрезе сезонов**

Анализ распредеделения количества заказов показал, что в сегменте "Новые пользователи с потенциалом" самый пик покупательской активности происходит весной. Самая популярная категория - товары для сада/растения весной, зимой и летом. Что скорее всего связано с садово огородными весенними работами. Осенью же этот сегмент совсем не покупает товары в нашем магазине.
То есть этот сегмент покупателя похож на типичного дачника-огородника. Остальные товары, можно сказать, совсем не популярны.

В cегменте "Лояльных" покупателей всплеск покупательской активности наблюдается зимой и осенью, в эти периоды попупулярны товары в категории сад\растения и хранение\мебель на третьем месте-кухня, декор\текстиль. На протяжении всего года тенденции популярности категорий практически одинаковы. За исключением, того, что летом и весной покупают меньше и в эти периоды категория сад\растения уступает свое лидируещее место категории хранение\мебель.

В сегменте "Угасающие пользователи" пик покупательской активности приходиться на осень.Самые популярные товары из категорий сад\растения, декор\текстиль, хранение\мебель, кухня. в течение года тенденции покупательского поведения практически не изменны. Летом покупатели этого сегмента совсем не активны.

 В малочисленном, но потенциально интересном для развития магазина, сегменте "Другие" можем увидеть следующую картину:
самое популярное для закупок время года - зима и осень. В этот период закупаються товары категории - хранение\мебель, декор\текстиль, кухня, товары для сада\растения. Летом покупатели также как и в вышеперечисленных категориях неактивны.ВВесной покупаются все те же товары для сада и огорода. 

Судя по вышеперечисленному можем сделать вывод, что наш типичный потребитель это дачник\огородник имеющий приусадебный участок, сажающий растения весной, осенью собирает урожай и делает заготовки на зиму. Летом не находящий подходящего ассортимента в нашем магазине. Возможно, следует пересмотреть сам ассортимент и включить в него новые позиции, например, такие как шланги и системы полива, надувные бассейны, качели, фонари на солнечной батарее и тд. Все что может понадобиться в летнее время на приусадебном участке. Исключив, невостребованные позиции непопулярных категорий товаров инструменты\товары для ремонта, бытовая химия, ванна. Остатки товаров из непопулярных категорий возможно реализовать путем проведения промоакций по типу продажи сопутствующих товаров(например, купив растение для посадки или семена, получи лопату по цене -20% от стоимости.)
        
**Распределения суммарной выручки по товарным категориям в разрезе сезонов** 
 
 Наибольшую выручку среди всех сегменов приносят 'Лояльные' пользователи в зимнее время года по категории хранение\мебель

Выручка в сегменте 'Лояльные', в принципе, сохраняет общую тенденцию в течение всего года. Самую большую выручку приносят товары из категории хранение\мебель, чуть меньше декор\текстиль и кухня. Затем идут товары для сада\растения.

В сегменте 'Угасающие пользователи' по выручке по категориям картина идентичная. Наибольшая выручка в категорих хранение\мебель, кухня, декор/текстиль на 4 месте товары для сада\растения.
самая высокая выручка осенью. А вот в летний период клиенты этого сегмента не покупают.


В сегменте 'Новые пользователи с потенциалом' предпочитают покупать в основном весной и летом. На первом месте по выручке товары из категорий товары для сада\растения, на 2 месте - хранение\мебель в весенний период. В летний период эти категории меняються местами. Чуть меньше выручки этот сегмент приносит по категориям декор\текстиль в осенний и зимний период соответственно. Зимой и осенью этот сегмент практически ничего не покупает.

Сегмент 'Другие' летом и весной не приносит магазину выручки. Наибольший поток выручки приносят категории декор\текстиль, хранение\мебель зимой и осенью. Осенью к вышеперечисленным категориям добавляется категория бытовая химия,товары для уборки.

Из всего вышеперечисленного можно сделать вывод, о том, что большую долю прибыли по всем сегментам приносят товары из категории хранение\мебель и лишь на втором месте по выручке товары категории  сад\растения. Самым прибыльными сезонами оказались зима и осень так как именно в эти сезоны (как мы узнали из выше проведенного анализа) продается наибольшее количество товаров из категории хранение\мебель.Товары из категории сад\растения несмотря на бОльшие обьемы продаж приносят намного меньше прибыли. Вероятно это связано с тем, что стоимость товаров из категории хранение\мебель значительно превышает стоимость товаров из категории сад\растения.
Статистический анализ показывает, что между сегментами есть статистически значимые различия в показателях средний чек, суммарная выручка и количество товаров.

Мы отвегаем нулевую гипотезу и приходим к выводу, что различия между группами есть.А это означает, что сегментацию мы провели корректно.



## Рекомендации

Внимание аудитории к магазину, как и показатели прибыльности за год снизились. Ключевая задача - повысить пользовательские метрики.
Необходимо выстраивать гибкую маркетинговую стратегию, основанную на сезонности пользовательских предпочтений.
Кроме того, необходимо повысить средний чек заказа.

Наш типичный потребитель это дачник\огородник имеющий приусадебный участок, сажает растения весной, осенью собирает урожай и делает заготовки на зиму. Летом не находящий подходящего ассортимента в нашем магазине. Возможно, следует пересмотреть сам ассортимент и включить в него новые позиции, например, такие как шланги и системы полива, надувные бассейны, качели, фонари на солнечной батарее и тд. Все что может понадобиться в летнее время на приусадебном участке. Исключив, невостребованные позиции непопулярных категорий товаров инструменты\товары для ремонта, бытовая химия, ванна. Остатки товаров из непопулярных категорий возможно реализовать путем проведения промоакций по типу продажи сопутствующих товаров(например, купив растение для посадки или семена, получи лопату по цене -20% от стоимости.)

Большую долю прибыли по всем сегментам приносят товары из категории хранение\мебель и лишь на втором месте по выручке товары категории сад\растения. Самым прибыльными сезонами оказались зима и осень так как именно в эти сезоны (как мы узнали из выше проведенного анализа) продается наибольшее количество товаров из категории хранение\мебель.Товары из категории сад\растения несмотря на бОльшие обьемы продаж приносят намного меньше прибыли. Вероятно это связано с тем, что стоимость товаров из категории хранение\мебель значительно превышает стоимость товаров из категории сад\растения.

Профилям клиентов можно дать следующие характеристики:

По сегменту "Лояльные" 
Чтобы не потерять лояльность данного сегмента можно попробовать расширить границы сотрудничества путем включения в программу лояльности, приглашая на специальные мероприятия или же проводя анкетирование на предмет пожеланий для развития интернет-магазина.

Предпочтительные категории товаров: "товары для сада/растения", "хранение\мебель", "кухня", "декор\текстиль".

Ориентируясь на ативный спрос в зимний и осенний сезон на товары категории "хранение\мебель", а летом и весной в категории "сад\растения" проводить рассылку с предложением промокодов, скидок на предпочтительные категории товаров  в эти периоды.

По сегменту "Новые пользователи с потенциалом" 
Чтобы стимулировать возврат покупателя данного сегмента за повторными покупками можно предложить, например, карту лояльности с накоплением баллов и возможностью оплатить ими часть следующей покупки.Также для повышения среднего чека предлагать акции на предпочтительные категори товаров по типу 1+1=3

Предпочтительные категории товаров: "товары для сада/растения".

Учитывая скачкообразный спрос каждые 2-3 месяца проводить рассылку с предложением промокодов, скидок на предпочтительные категории товаров + предлагать скидку при заказу сопутствующего товара (как вариант, по категории "товары для сада/растения", как одной из самой покупаемой категории по сегменту).

По сегменту "Угасающие пользователи" 
Чтобы стимулировать возврат покупателя данного сегмента за повторными покупками также можно предложить, карту лояльности с накоплением баллов и возможностью оплатить ими часть следующей покупки.

Предпочтительные категории товаров: сад\растения, декор\текстиль, хранение\мебель, кухня.

Исходя того что пик покупательской активности приходиться на осень, делать рассылку с акциями на товары категории сад\растения, декор\текстиль, хранение\мебель, кухня в этот период.

'Другие':следует накопить больше данных и внимательно отдельно изучить этот сегмент.Так как этот сегмент может оказаться 'точкой роста' для привлечения нового сегмента потребителей в магазин и расширения а также пересмотра асортимента продаваемых товаров.