### Задача 4. Выбрать одну из 3 основных гипотез с помощью фреймворка ICE.

Посмотрев с продактом на когортный анализ и метрики, вы решили, что нужно изменить продукт. Метрики необходимо срочно повышать. Вместе с командой вы сформулировали 3 гипотезы, в которые вы верите. По каждой гипотезе команда заполнила показатели по Ease, Confidence. Вам нужно заполнить самый важный показатель — Impact. Для этого вам требуется:

Выбрать одну из трёх основных гипотез с помощью фреймворка ICE, которые были сформированы продактом и, кажется, должны улучшить пользовательский опыт в маркетплейсе.

Для расчёта Impact возьмите данные с июня 2017 года. Считайте, что конверсия в повторный заказ равна величине медианного retention 1-го месяца (см. пункт 1 проекта).

In [197]:
import pandas as pd 
import numpy as np
import seaborn as sns 
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

from operator import attrgetter
from plotly.subplots import make_subplots

In [198]:
# Импортируем все датасеты. Сразу приводим ячейки с датами к формату datetime.

olist_customers_dataset   = pd.read_csv('olist_customers_dataset.csv',
                                        encoding='windows-1252', sep=',')

olist_order_items_dataset = pd.read_csv('olist_order_items_dataset.csv',
                                        encoding='windows-1252', sep=',',
                                        parse_dates=['shipping_limit_date'])

olist_orders_dataset      = pd.read_csv('olist_orders_dataset.csv',
                                        encoding='windows-1252', sep=',',
                                        parse_dates=['order_purchase_timestamp',
                                                     'order_approved_at',
                                                     'order_delivered_carrier_date',
                                                     'order_delivered_customer_date',
                                                     'order_estimated_delivery_date'])

In [199]:
hypotheses_df = pd.DataFrame({
    'hypotheses': [1, 2, 3],
    'impact': [None, None, None],
    'comfidence': [8, 10, 5],
    'ease': [6, 4, 9]
}, index=[1, 2, 3])

In [200]:
# Гипотеза 1 - Если исправим баг в системе процессинга заказов, то клиентам не придётся сталкиваться с
# проблемой отмены заказа, вследствие чего количество доставленных заказов увеличится.
# Считаем, что мы таким образом избавимся от всех отмен.

# Для измерения impact нам нужно просто посчитать все заказы со статусом "canceled".
# Таким образом мы получим кол-во потенциальных заказов

In [201]:
first_hypothesis_df = olist_orders_dataset[olist_orders_dataset.order_status == 'canceled']

In [202]:
# Так как отмененных заказов всего 625, сделовательно 
# impact данного нововведения будет равен - 4

hypotheses_df.loc[hypotheses_df['hypotheses'] == 1, 'impact'] = 4

In [203]:
hypotheses_df

Unnamed: 0,hypotheses,impact,comfidence,ease
1,1,4.0,8,6
2,2,,10,4
3,3,,5,9


In [204]:
# Гипотеза 2 - Если сократим время до отгрузки заказа, то клиенты перестанут получать свой заказ с запаздыванием,
# вследствие чего количество заказов увеличится за счёт повторных заказов.

# Для того, чтобы нам измерить impact для данной метрики, 
# необходимо посчитать кол-во клиентов, которые получили заказ с опозданием 
# и, после чего перестали ползоваться сервисом.

In [205]:
# Берем все доставленные заказы с июня 2017 года и с датой доставки. 
second_hypothesis_df = olist_orders_dataset[olist_orders_dataset.order_status == 'delivered'] \
                    [['order_id', 'customer_id', 'order_purchase_timestamp',
                      'order_delivered_customer_date', 'order_estimated_delivery_date']] \
                    .dropna().query('order_purchase_timestamp > "2017-07-01"')

# Притягиваем уникальное id ползователя
second_hypothesis_df = second_hypothesis_df.merge(olist_customers_dataset[['customer_id', 'customer_unique_id']],
                                                  on='customer_id')

# Добавляем дату доставки и оценочную дату доставки, чтобы высчитать разницы
second_hypothesis_df['delivery_day'] = second_hypothesis_df.order_delivered_customer_date.dt.to_period('D')
second_hypothesis_df['estimate_day'] = second_hypothesis_df.order_estimated_delivery_date.dt.to_period('D')

In [206]:
# Создаём поле order_at_time, которое показывает пришел ли заказ вовремя
second_hypothesis_df['order_at_time'] = (second_hypothesis_df.estimate_day - second_hypothesis_df.delivery_day) \
        .apply(lambda x: 'yes' if x.n > 0 else 'no')

# Ранжируем каждый заказ по каждому клиенту от раннего к позднему
second_hypothesis_df['rank'] = second_hypothesis_df.groupby('customer_unique_id')['order_purchase_timestamp'] \
        .cumcount()

# Создаём поле с самым большим рангом для кадого пользователя.
second_hypothesis_df['max_rank'] = second_hypothesis_df.groupby('customer_unique_id')['rank'].transform('max')

In [207]:
# Получаем DF со всеми последними заказами, всех клиентов, которые пришли с опозданием. 
last_order_df = second_hypothesis_df.query('order_at_time == "no" & rank == max_rank') \
        .sort_values(by='rank', ascending=False)

In [208]:
# Итого, получается 6977 клиентов, чьи единсвенный или последний заказ прибыл с опозданием
# Следовательно, если мы пофиксим скорость доставки и заказы будут приходить вовремя
# impact данного нововведения будет 6977, то-есть - 8|

hypotheses_df.loc[hypotheses_df['hypotheses'] == 2, 'impact'] = 8
hypotheses_df

Unnamed: 0,hypotheses,impact,comfidence,ease
1,1,4.0,8,6
2,2,8.0,10,4
3,3,,5,9


In [209]:
last_order_df

Unnamed: 0,order_id,customer_id,order_purchase_timestamp,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,delivery_day,estimate_day,order_at_time,rank,max_rank
71411,ee84d18908ccf2b4c57008c552b98d1c,fc709ab645b71acd6046aeb03b590aa5,2017-10-09 12:34:39,2017-11-07 00:26:48,2017-11-03,ca77025e7201e3b30c44b472ff346268,2017-11-07,2017-11-03,no,6,6
79323,4351879fb74d0a37b9c8dad7ba7e59de,ba57463d587cb70d3871b2ebc91c6284,2017-09-29 09:44:34,2017-11-03 21:05:31,2017-10-27,5e8f38a9a1c023f3db718edcf926a2db,2017-11-03,2017-10-27,no,4,4
33155,59b4abe1af7c9b48dcc8330a65a2be81,7e630d15d865b2701e663c2a6dec9079,2018-05-11 23:49:18,2018-06-05 15:49:07,2018-06-05,738ffcf1017b584e9d2684b36e07469c,2018-06-05,2018-06-05,no,3,3
42705,88cad47df9afd71af2c4a4098aca44ae,d6d663ce0537715bec2020af3d3c9045,2018-02-21 08:39:03,2018-03-16 19:52:02,2018-03-16,ba87a137c5191264841e0be40e53f4ed,2018-03-16,2018-03-16,no,2,2
68099,1b82cfd1e6a6d682ee254b2ff4cf387f,afb805d873cb119ec114720c630dc6d0,2018-03-11 22:52:36,2018-04-02 14:59:50,2018-03-29,fd8ccc89be43894d2553494c71a61fd8,2018-04-02,2018-03-29,no,2,2
...,...,...,...,...,...,...,...,...,...,...,...
28162,8559fd18b5af843c5ee613c3b4b1bb95,a44fcd351dc016bdf79484e2eabf9392,2018-04-13 17:38:50,2018-05-08 16:27:40,2018-05-08,13c5b9a714192b1f388722f8d994e6d0,2018-05-08,2018-05-08,no,0,0
28158,4065c0062f606b943e2fef1d5454ce80,df94163aaf41dc29d2051c88b9b6aa17,2018-03-01 10:18:57,2018-03-28 01:36:40,2018-03-19,99749d7ee01657cc0faeee7de4fea874,2018-03-28,2018-03-19,no,0,0
28154,5c673b6f0d8e4e50fabaf4428fd2f944,e0d3183e8ff8cac00ec77df643595074,2017-12-06 13:05:37,2018-01-09 12:04:56,2017-12-29,8b9ee57383e4edd6ecc5731a65a69978,2018-01-09,2017-12-29,no,0,0
28152,c86653fc19a4c3bf738d4d94e59008b3,a8b8f3c610495ac2e75f9089d8b477e0,2017-07-25 16:09:26,2017-08-07 17:07:56,2017-08-07,2e94556d001d5f752df9b5be1e8af4aa,2017-08-07,2017-08-07,no,0,0


In [210]:
# Гипотеза 3 - Если создадим новый способ оплаты, который будет конвертировать клиентов в повторный заказ,
# то клиенты не будут испытывать трудности при оформлении заказа, вследствие чего количество заказов
# увеличится за счёт повторных заказов тех, кто раньше не делал повторный заказ.

# Для расчета impact для данной теории, необходимо взять df из клиентов
# которые сделали только одни заказ и, возможно, стоит взять те заказы, которые пришли вовремя.
# Но, мы не можем наверняка говорить о том, что данные клиенты не сделали заказ повторно,
# потому что их первый заказ пришел с опозданием. Так что будут рассморены все покупатели. 

In [211]:
# Оперделяем показатель конверсии как медианное значение retention 1-го месяца 
retention_2017_07 = 0.0036

In [212]:
# Определяем кол-во клиентов, которые совершили одни заказ.
one_order_customers_df = olist_orders_dataset[olist_orders_dataset.order_status == 'delivered'] \
        .merge(olist_customers_dataset[['customer_id', 'customer_unique_id']]) \
        .groupby('customer_unique_id', as_index=False) \
        .agg(order_count=('order_id', 'count')) \
        .query('order_count == 1')['customer_unique_id'].count()

In [213]:
# Расчитываем impact согласно конверсии в платящего клиента и получается 326
# следовательно, теория получает занчение impact - 3
one_order_customers_df * retention_2017_07

326.0052

In [214]:
hypotheses_df.loc[hypotheses_df['hypotheses'] == 3, 'impact'] = 3
hypotheses_df

Unnamed: 0,hypotheses,impact,comfidence,ease
1,1,4,8,6
2,2,8,10,4
3,3,3,5,9


In [225]:
# Расчитываем значение ICE

hypotheses_df['CTE'] = hypotheses_df.impact * hypotheses_df.comfidence * hypotheses_df.ease

In [228]:
# Получившиеся данные указывают на то, что первым делом стоит релизовать гипотезу номер 2,
# затем гипотезу номер 1 и в последную очередь гипотезу номер 3

hypotheses_df.sort_values(by='CTE', ascending=False)

Unnamed: 0,hypotheses,impact,comfidence,ease,CTE
2,2,8,10,4,320
1,1,4,8,6,192
3,3,3,5,9,135


### Вы — аналитик данных, и сейчас идёте в стартап, который создает новый маркетплейс. Он недавно появился на рынке и занимается продажей новых товаров из Бразилии, которые только начинают поступать в продажу.

Продакт-менеджер Петя переживает за свой продукт, так как выручка маркетплейса стоит на месте уже несколько месяцев. Он предложил вам полную свободу действий. Главное — чтобы метрики росли, а мы не причиняли неудобства клиентам, ведь Петя заботится об их опыте.

Задачи
Вы поразмышляли и сформулировали список задач:

Задача 1: Оценить месячный retention в оформление заказа с помощью когортного анализа.
Задача 2: Определить, существует ли product/market fit у этого маркетплейса.
Задача 3: Определить 5 основных метрик, на которых продакту можно сконцентрироваться, чтобы максимизировать прибыль компании.
Задача 4: Выбрать одну из 3 основных гипотез с помощью фреймворка ICE.
Задача 5: Сформулировать нужные метрики, на которые ваша гипотеза должна повлиять.
Задача 6: Сформулировать выводы о проделанной работе и составить отчет.
Датасет
Файлы:

#### olist_customers_dataset.csv — таблица с уникальными идентификаторами пользователей
customer_id — позаказный идентификатор пользователя

customer_unique_id — уникальный идентификатор пользователя (аналог номера паспорта)

customer_zip_code_prefix — почтовый индекс пользователя

customer_city — город доставки пользователя

customer_state — штат доставки пользователя

#### olist_orders_dataset.csv —  таблица заказов
order_id — уникальный идентификатор заказа (номер чека)

customer_id — позаказный идентификатор пользователя

order_status — статус заказа

order_purchase_timestamp — время создания заказа

order_approved_at — время подтверждения оплаты заказа

order_delivered_carrier_date — время передачи заказа в логистическую службу

order_delivered_customer_date — время доставки заказа

order_estimated_delivery_date — обещанная дата доставки

#### olist_order_items_dataset.csv — товарные позиции, входящие в заказы
order_id — уникальный идентификатор заказа (номер чека)

order_item_id — идентификатор товара внутри одного заказа

product_id — ид товара (аналог штрихкода)

seller_id — ид производителя товара

shipping_limit_date — максимальная дата доставки продавцом для передачи заказа партнеру по логистике

price — цена за единицу товара

freight_value — вес товара 

Пример структуры данных можно визуализировать по order_id == 00143d0f86d6fbd9f9b38ab440ac16f5

Уникальные статусы заказов в таблице olist_orders_dataset:

created — создан;
approved — подтверждён;
invoiced — выставлен счёт;
processing — в процессе сборки заказа;
shipped — отгружён со склада;
delivered — доставлен пользователю;
unavailable — заказ отменён по причине недоступности товара;;
canceled — отменён.