### Задача 3. Определить 5 основных метрик, на которых продакт может сконцентрироваться, чтобы максимизировать прибыль компании.

Вы разобрались с наличием product/market fit. Теперь вас просят сформулировать продуктовые метрики маркетплейса, чтобы компания могла на них ориентироваться.

В первую очередь необходимо:

Определить 5 основных метрик, на которых продакт может сконцентрироваться, чтобы максимизировать прибыль компании.

Первая - метрика должна отражать рост объёма продаж маркетплейса.

Вторая — показывать объем аудитории, которой продукт доставляет ценность.

Третья — отражать заинтересованность новых клиентов в продукте (даже если вы не можете посчитать ее на имеющихся у вас данных).

Четвёртая — отражать вовлеченность клиента в продолжение использования продукта.

Пятая — отражать денежное выражение вовлеченности клиента.

Визуализируйте первую, вторую, четвёртую и пятую метрики. Используйте месячную гранулярность и окно в 1 месяц, если это нужно.

In [1]:
import pandas as pd 
import numpy as np
import seaborn as sns 
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

from operator import attrgetter
from plotly.subplots import make_subplots

In [2]:
# Импортируем все датасеты. Сразу приводим ячейки с датами к формату datetime.

olist_customers_dataset   = pd.read_csv('olist_customers_dataset.csv',
                                        encoding='windows-1252', sep=',')

olist_order_items_dataset = pd.read_csv('olist_order_items_dataset.csv',
                                        encoding='windows-1252', sep=',',
                                        parse_dates=['shipping_limit_date'])

olist_orders_dataset      = pd.read_csv('olist_orders_dataset.csv',
                                        encoding='windows-1252', sep=',',
                                        parse_dates=['order_purchase_timestamp',
                                                     'order_approved_at',
                                                     'order_delivered_carrier_date',
                                                     'order_delivered_customer_date',
                                                     'order_estimated_delivery_date'])

In [3]:
# Первая - метрика должна отражать рост объёма продаж маркетплейса.
# Данная метрика будет отображать общий доход маркетплейса за каждый месяц.

# Формируем df с информацией по всех доставленным заказам..
delivered_orders = olist_orders_dataset[olist_orders_dataset.order_status == 'delivered'] \
        [['order_id', 'order_delivered_customer_date']].dropna()
delivered_orders['delivered_month'] = delivered_orders['order_delivered_customer_date'].dt.strftime('%Y-%m')


In [28]:
# Создаём df с номером заказа, датой заказа и стоимостью каждого юнита в заказе.
price_df = delivered_orders.merge(olist_order_items_dataset[['order_id', 'price']])

# Расчитываем месячную сумму выручки и кол-во заказов.
income_df = price_df.groupby('delivered_month', as_index=False) \
        .agg(income_sum=('price', 'sum'),
             order_count=('order_id', 'count'))

# Строим два линейных графика.
fig = make_subplots(
    rows=2, cols=1,
    shared_xaxes=True,
    vertical_spacing=0.1
)

fig_upper = px.line(
    data_frame=income_df,
    x='delivered_month',
    y='income_sum',
    title='income')

fig.add_trace(
    go.Scatter(
        x=fig_upper.data[0].x,
        y=fig_upper.data[0].y,
        mode='lines',
        name='income_sum'),
    row=1, col=1
)


fig_lower = px.line(
    data_frame=income_df,
    x='delivered_month',
    y='order_count',
    title='order count')

fig.add_trace(
    go.Scatter(
        x=fig_lower.data[0].x,
        y=fig_lower.data[0].y,
        mode='lines',
        name='order_count'),
    row=2, col=1
)

fig.update_layout(
    height=700,
    title='Сумма дохода и кол-во заказов'
)

fig.show()

In [5]:
# Вторая — показывать объем аудитории, которой продукт доставляет ценность.

# В Данном случае мы будем использовать метрику MAU(monthly active users)
# которая позволит нам сравнить кол-во пользователей

# создаём df со всеми заказами, которые мы считаем валидными
valid_orders = olist_orders_dataset[olist_orders_dataset.order_status.isin(['approved',
                                                                           'invoiced',
                                                                           'processing',
                                                                           'shipped',
                                                                           'delivered'])].copy()
# Создаём колонку с месяцем создания заказа для подсчета кол-ва заказов
valid_orders['created_date'] = valid_orders.order_purchase_timestamp.dt.strftime('%Y-%m')

In [6]:
# Создаём df уникальных ежемесячных пользователей и строим lineplot
mau_df = valid_orders.merge(olist_customers_dataset) \
        .groupby('created_date', as_index=False) \
        .agg(user_count=('customer_unique_id', 'nunique'))

px.line(data_frame=mau_df, x='created_date', y='user_count')

In [7]:
# Третья — отражать заинтересованность новых клиентов в продукте 
# (даже если вы не можете посчитать ее на имеющихся у вас данных).

# Для определения на сколько пользователи заинтересованны в продукте
# можно использовать метрику "Активности пользователя"
# которая будет отображать активности, например кол-во поисковых запросов 
# или кол-во посещенных клиентом карточек

In [8]:
# Четвёртая — отражать вовлеченность клиента в продолжение использования продукта.

# Тут, лучеше всего подойдет метрика CSAT (Customer Satisfaction Score) 
# так-как отобразит удовлетворение пользователей после взаимодействия с маркетплейсом

# Поскольку на данный момент, подходящей информации нет, необходимо ввести 
# систему оценки и опрашивать пользователей после первой покупки. 

# Так же можно расчитать соотношение кол-ва людей, кто сделал только одни заказ
# и тех, кто сделал более одного заказа

In [46]:
#  Возмём все валидные заказы и 
orders_per_customer_df = valid_orders.merge(olist_customers_dataset[['customer_unique_id', 'customer_id']]) \
        [['customer_unique_id', 'order_id']] \
        .groupby('customer_unique_id', as_index=False) \
        .agg(order_count=('order_id', 'count'))

status_df = orders_per_customer_df.assign(status=lambda x: np.where(x.order_count == 1, 'only_one', 'more_then_one'))

In [52]:
px.histogram(data_frame=status_df, x='status', color='status',
             title='Соотношение клиентов, которые сделали только одни заказ или более')

In [10]:
# Пятая — отражать денежное выражение вовлеченности клиента.

# Тут можно отобразить средний чек за каждый месяц
# или, если же мы оцениваем каждого конкретного клиента, то увеличение сумму последующих заказов

In [26]:
# Подсчитываем стоимость каждого заказа
order_costs = olist_order_items_dataset[['order_id', 'price']] \
        .groupby('order_id', as_index=False) \
        .agg(order_cost=('price', 'sum'))

# Расчитываем средний размер чека по каждому месяцу
mean_checks_df = order_costs.merge(valid_orders[['order_id', 'created_date']]) \
        .groupby('created_date', as_index=False) \
        .agg(mean_check=('order_cost', 'mean'))

px.line(data_frame=mean_checks_df, x='created_date',
        y='mean_check', title='Срудний чек по месяцу')

### Вы — аналитик данных, и сейчас идёте в стартап, который создает новый маркетплейс. Он недавно появился на рынке и занимается продажей новых товаров из Бразилии, которые только начинают поступать в продажу.

Продакт-менеджер Петя переживает за свой продукт, так как выручка маркетплейса стоит на месте уже несколько месяцев. Он предложил вам полную свободу действий. Главное — чтобы метрики росли, а мы не причиняли неудобства клиентам, ведь Петя заботится об их опыте.

Задачи
Вы поразмышляли и сформулировали список задач:

Задача 1: Оценить месячный retention в оформление заказа с помощью когортного анализа.
Задача 2: Определить, существует ли product/market fit у этого маркетплейса.
Задача 3: Определить 5 основных метрик, на которых продакту можно сконцентрироваться, чтобы максимизировать прибыль компании.
Задача 4: Выбрать одну из 3 основных гипотез с помощью фреймворка ICE.
Задача 5: Сформулировать нужные метрики, на которые ваша гипотеза должна повлиять.
Задача 6: Сформулировать выводы о проделанной работе и составить отчет.
Датасет
Файлы:

#### olist_customers_dataset.csv — таблица с уникальными идентификаторами пользователей
customer_id — позаказный идентификатор пользователя

customer_unique_id — уникальный идентификатор пользователя (аналог номера паспорта)

customer_zip_code_prefix — почтовый индекс пользователя

customer_city — город доставки пользователя

customer_state — штат доставки пользователя

#### olist_orders_dataset.csv —  таблица заказов
order_id — уникальный идентификатор заказа (номер чека)

customer_id — позаказный идентификатор пользователя

order_status — статус заказа

order_purchase_timestamp — время создания заказа

order_approved_at — время подтверждения оплаты заказа

order_delivered_carrier_date — время передачи заказа в логистическую службу

order_delivered_customer_date — время доставки заказа

order_estimated_delivery_date — обещанная дата доставки

#### olist_order_items_dataset.csv — товарные позиции, входящие в заказы
order_id — уникальный идентификатор заказа (номер чека)

order_item_id — идентификатор товара внутри одного заказа

product_id — ид товара (аналог штрихкода)

seller_id — ид производителя товара

shipping_limit_date — максимальная дата доставки продавцом для передачи заказа партнеру по логистике

price — цена за единицу товара

freight_value — вес товара 

Пример структуры данных можно визуализировать по order_id == 00143d0f86d6fbd9f9b38ab440ac16f5

Уникальные статусы заказов в таблице olist_orders_dataset:

created — создан;
approved — подтверждён;
invoiced — выставлен счёт;
processing — в процессе сборки заказа;
shipped — отгружён со склада;
delivered — доставлен пользователю;
unavailable — заказ отменён по причине недоступности товара;;
canceled — отменён.