In [10]:
import pandas as pd
import numpy as np
import requests 
from urllib.parse import urlencode 
from datetime import timedelta
import matplotlib.pyplot as plt
import seaborn as sns

Прежде чем приступать к решению проекта, проверим имеющиеся данные

In [20]:
customers = pd.read_csv('./olist_customers_dataset.csv')
orders = pd.read_csv('./olist_orders_dataset.csv')
items = pd.read_csv('./olist_order_items_dataset.csv')

### 1. customers — таблица с уникальными идентификаторами пользователей
* customer_id — позаказный идентификатор пользователя

* customer_unique_id —  уникальный идентификатор пользователя  (аналог номера паспорта)

* customer_zip_code_prefix —  почтовый индекс пользователя

* customer_city —  город доставки пользователя

* customer_state —  штат доставки пользователя

In [21]:
customers.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


In [22]:
customers.isnull().any()

customer_id                 False
customer_unique_id          False
customer_zip_code_prefix    False
customer_city               False
customer_state              False
dtype: bool

In [23]:
customers.dtypes

customer_id                 object
customer_unique_id          object
customer_zip_code_prefix     int64
customer_city               object
customer_state              object
dtype: object

In [24]:
customers.nunique()

customer_id                 99441
customer_unique_id          96096
customer_zip_code_prefix    14994
customer_city                4119
customer_state                 27
dtype: int64

### 2. orders —  таблица заказов
* order_id —  уникальный идентификатор заказа (номер чека)

* customer_id —  позаказный идентификатор пользователя

* order_status —  статус заказа

* order_purchase_timestamp —  время создания заказа

* order_approved_at —  время подтверждения оплаты заказа

* order_delivered_carrier_date —  время передачи заказа в логистическую службу

* order_delivered_customer_date —  время доставки заказа

* order_estimated_delivery_date —  обещанная дата доставки

**Уникальные статусы заказов в таблице olist_orders_dataset:**
* created —  создан
* approved —  подтверждён
* invoiced —  выставлен счёт
* processing —  в процессе сборки заказа
* shipped —  отгружен со склада
* delivered —  доставлен пользователю
* unavailable —  недоступен
* canceled —  отменён

In [25]:
orders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


In [26]:
orders.isnull().any()

order_id                         False
customer_id                      False
order_status                     False
order_purchase_timestamp         False
order_approved_at                 True
order_delivered_carrier_date      True
order_delivered_customer_date     True
order_estimated_delivery_date    False
dtype: bool

Видим, что есть три колонки, связанные с доставкой, в которых значения отсутствуют. Из контекста можно предположить, что это заказы, которые были оформлены, но ещё не были доставлены, либо, например, были отменены.

Проверим это через фильтр по одному из этих полей, затем посмотрим на уникальные значения в колонке со статуом заказа:

In [27]:
orders.query('order_approved_at.isnull()').head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
1130,00b1cb0320190ca0daa2c88b35206009,3532ba38a3fd242259a514ac2b6ae6b6,canceled,2018-08-28 15:26:39,,,,2018-09-12 00:00:00
1801,ed3efbd3a87bea76c2812c66a0b32219,191984a8ba4cbb2145acb4fe35b69664,canceled,2018-09-20 13:54:16,,,,2018-10-17 00:00:00
1868,df8282afe61008dc26c6c31011474d02,aa797b187b5466bc6925aaaa4bb3bed1,canceled,2017-03-04 12:14:30,,,,2017-04-10 00:00:00
2029,8d4c637f1accf7a88a4555f02741e606,b1dd715db389a2077f43174e7a675d07,canceled,2018-08-29 16:27:49,,,,2018-09-13 00:00:00
2161,7a9d4c7f9b068337875b95465330f2fc,7f71ae48074c0cfec9195f88fcbfac55,canceled,2017-05-01 16:12:39,,,,2017-05-30 00:00:00


In [28]:
orders.query('order_approved_at.isnull()').order_status.unique()

array(['canceled', 'delivered', 'created'], dtype=object)

Действительно, с такой фильтрацией есть заказы, которые были созданы, а затем отменены. Но при этом есть и заказы в статусе "доставлено", у которых при этом отсутствует информация о доставке. Стоит взглянуть на такие заказы.

In [29]:
orders.query('order_approved_at.isnull() and order_status == "delivered"')

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
5323,e04abd8149ef81b95221e88f6ed9ab6a,2127dc6603ac33544953ef05ec155771,delivered,2017-02-18 14:40:00,,2017-02-23 12:04:47,2017-03-01 13:25:33,2017-03-17 00:00:00
16567,8a9adc69528e1001fc68dd0aaebbb54a,4c1ccc74e00993733742a3c786dc3c1f,delivered,2017-02-18 12:45:31,,2017-02-23 09:01:52,2017-03-02 10:05:06,2017-03-21 00:00:00
19031,7013bcfc1c97fe719a7b5e05e61c12db,2941af76d38100e0f8740a374f1a5dc3,delivered,2017-02-18 13:29:47,,2017-02-22 16:25:25,2017-03-01 08:07:38,2017-03-17 00:00:00
22663,5cf925b116421afa85ee25e99b4c34fb,29c35fc91fc13fb5073c8f30505d860d,delivered,2017-02-18 16:48:35,,2017-02-22 11:23:10,2017-03-09 07:28:47,2017-03-31 00:00:00
23156,12a95a3c06dbaec84bcfb0e2da5d228a,1e101e0daffaddce8159d25a8e53f2b2,delivered,2017-02-17 13:05:55,,2017-02-22 11:23:11,2017-03-02 11:09:19,2017-03-20 00:00:00
26800,c1d4211b3dae76144deccd6c74144a88,684cb238dc5b5d6366244e0e0776b450,delivered,2017-01-19 12:48:08,,2017-01-25 14:56:50,2017-01-30 18:16:01,2017-03-01 00:00:00
38290,d69e5d356402adc8cf17e08b5033acfb,68d081753ad4fe22fc4d410a9eb1ca01,delivered,2017-02-19 01:28:47,,2017-02-23 03:11:48,2017-03-02 03:41:58,2017-03-27 00:00:00
39334,d77031d6a3c8a52f019764e68f211c69,0bf35cac6cc7327065da879e2d90fae8,delivered,2017-02-18 11:04:19,,2017-02-23 07:23:36,2017-03-02 16:15:23,2017-03-22 00:00:00
48401,7002a78c79c519ac54022d4f8a65e6e8,d5de688c321096d15508faae67a27051,delivered,2017-01-19 22:26:59,,2017-01-27 11:08:05,2017-02-06 14:22:19,2017-03-16 00:00:00
61743,2eecb0d85f281280f79fa00f9cec1a95,a3d3c38e58b9d2dfb9207cab690b6310,delivered,2017-02-17 17:21:55,,2017-02-22 11:42:51,2017-03-03 12:16:03,2017-03-20 00:00:00


Итак, у таких заказов в статусе "Доставлено" отсутствуют значения не во всех колонках, а только в колонке order_approved_at (время подтверждения оплаты заказа). Это может быть ошибкой, либо оплата ещё не была подтверждена по каким-то причинам. Однако я больше склоняюсь к мысли об ошибке, потому что даже на глаз можно увидеть, что между датой доставки и датой оплаты прошло достаточно существуенное количество времени (1-2 недели).

Посмотрим отдельно на те заказы, у которых могут пустовать колонки с датой передачи в курьерскую службу и с датой доставки.

In [30]:
orders.query('order_delivered_carrier_date.isnull()').head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
6,136cce7faa42fdb2cefd53fdc79a6098,ed0271e0b7da060a393796590e7b737a,invoiced,2017-04-11 12:22:08,2017-04-13 13:25:17,,,2017-05-09 00:00:00
103,0760a852e4e9d89eb77bf631eaaf1c84,d2a79636084590b7465af8ab374a8cf5,invoiced,2018-08-03 17:44:42,2018-08-07 06:15:14,,,2018-08-21 00:00:00
128,15bed8e2fec7fdbadb186b57c46c92f2,f3f0e613e0bdb9c7cee75504f0f90679,processing,2017-09-03 14:22:03,2017-09-03 14:30:09,,,2017-10-03 00:00:00
266,8e24261a7e58791d10cb1bf9da94df5c,64a254d30eed42cd0e6c36dddb88adf0,unavailable,2017-11-16 15:09:28,2017-11-16 15:26:57,,,2017-12-05 00:00:00
324,d3c8851a6651eeff2f73b0e011ac45d0,957f8e082185574de25992dc659ebbc0,processing,2016-10-05 22:44:13,2016-10-06 15:51:05,,,2016-12-09 00:00:00


In [31]:
orders.query('order_delivered_customer_date.isnull()').head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
6,136cce7faa42fdb2cefd53fdc79a6098,ed0271e0b7da060a393796590e7b737a,invoiced,2017-04-11 12:22:08,2017-04-13 13:25:17,,,2017-05-09 00:00:00
44,ee64d42b8cf066f35eac1cf57de1aa85,caded193e8e47b8362864762a83db3c5,shipped,2018-06-04 16:44:48,2018-06-05 04:31:18,2018-06-05 14:32:00,,2018-06-28 00:00:00
103,0760a852e4e9d89eb77bf631eaaf1c84,d2a79636084590b7465af8ab374a8cf5,invoiced,2018-08-03 17:44:42,2018-08-07 06:15:14,,,2018-08-21 00:00:00
128,15bed8e2fec7fdbadb186b57c46c92f2,f3f0e613e0bdb9c7cee75504f0f90679,processing,2017-09-03 14:22:03,2017-09-03 14:30:09,,,2017-10-03 00:00:00
154,6942b8da583c2f9957e990d028607019,52006a9383bf149a4fb24226b173106f,shipped,2018-01-10 11:33:07,2018-01-11 02:32:30,2018-01-11 19:39:23,,2018-02-07 00:00:00


In [32]:
orders.query('order_delivered_carrier_date.isnull()').order_status.unique()

array(['invoiced', 'processing', 'unavailable', 'canceled', 'created',
       'approved', 'delivered'], dtype=object)

In [33]:
orders.query('order_delivered_customer_date.isnull()').order_status.unique()

array(['invoiced', 'shipped', 'processing', 'unavailable', 'canceled',
       'delivered', 'created', 'approved'], dtype=object)

Опять же видим, что существуют заказы в статусе "Доставлено", у которых при этом отсутствует дата передачи заказа в курьерскую службу либо дата передачи покупателю.

Снова отфильтруем только такие заказы, чтобы повнимательнее их изучить:

In [34]:
orders.query('order_delivered_carrier_date.isnull() and order_status == "delivered"')

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
73222,2aa91108853cecb43c84a5dc5b277475,afeb16c7f46396c0ed54acb45ccaaa40,delivered,2017-09-29 08:52:58,2017-09-29 09:07:16,,2017-11-20 19:44:47,2017-11-14 00:00:00
92643,2d858f451373b04fb5c984a1cc2defaf,e08caf668d499a6d643dafd7c5cc498a,delivered,2017-05-25 23:22:43,2017-05-25 23:30:16,,,2017-06-23 00:00:00


In [35]:
orders.query('order_delivered_customer_date.isnull() and order_status == "delivered"')

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
3002,2d1e2d5bf4dc7227b3bfebb81328c15f,ec05a6d8558c6455f0cbbd8a420ad34f,delivered,2017-11-28 17:44:07,2017-11-28 17:56:40,2017-11-30 18:12:23,,2017-12-18 00:00:00
20618,f5dd62b788049ad9fc0526e3ad11a097,5e89028e024b381dc84a13a3570decb4,delivered,2018-06-20 06:58:43,2018-06-20 07:19:05,2018-06-25 08:05:00,,2018-07-16 00:00:00
43834,2ebdfc4f15f23b91474edf87475f108e,29f0540231702fda0cfdee0a310f11aa,delivered,2018-07-01 17:05:11,2018-07-01 17:15:12,2018-07-03 13:57:00,,2018-07-30 00:00:00
79263,e69f75a717d64fc5ecdfae42b2e8e086,cfda40ca8dd0a5d486a9635b611b398a,delivered,2018-07-01 22:05:55,2018-07-01 22:15:14,2018-07-03 13:57:00,,2018-07-30 00:00:00
82868,0d3268bad9b086af767785e3f0fc0133,4f1d63d35fb7c8999853b2699f5c7649,delivered,2018-07-01 21:14:02,2018-07-01 21:29:54,2018-07-03 09:28:00,,2018-07-24 00:00:00
92643,2d858f451373b04fb5c984a1cc2defaf,e08caf668d499a6d643dafd7c5cc498a,delivered,2017-05-25 23:22:43,2017-05-25 23:30:16,,,2017-06-23 00:00:00
97647,ab7c89dc1bf4a1ead9d6ec1ec8968a84,dd1b84a7286eb4524d52af4256c0ba24,delivered,2018-06-08 12:09:39,2018-06-08 12:36:39,2018-06-12 14:10:00,,2018-06-26 00:00:00
98038,20edc82cf5400ce95e1afacc25798b31,28c37425f1127d887d7337f284080a0f,delivered,2018-06-27 16:09:12,2018-06-27 16:29:30,2018-07-03 19:26:00,,2018-07-19 00:00:00


Также можем предположить, что дело именно в ошибке при формировании данных. Думаю, данные заказы действительно были доставлены, однако по ним выгрузились не все данные. Будем иметь это в виду при дальнейшей работе.

Отдельно проверим заказы в статусе unavailable, чтобы понять, какие есть записи об этих заказах:

In [36]:
orders.query('order_status == "unavailable"').head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
266,8e24261a7e58791d10cb1bf9da94df5c,64a254d30eed42cd0e6c36dddb88adf0,unavailable,2017-11-16 15:09:28,2017-11-16 15:26:57,,,2017-12-05 00:00:00
586,c272bcd21c287498b4883c7512019702,9582c5bbecc65eb568e2c1d839b5cba1,unavailable,2018-01-31 11:31:37,2018-01-31 14:23:50,,,2018-02-16 00:00:00
687,37553832a3a89c9b2db59701c357ca67,7607cd563696c27ede287e515812d528,unavailable,2017-08-14 17:38:02,2017-08-17 00:15:18,,,2017-09-05 00:00:00
737,d57e15fb07fd180f06ab3926b39edcd2,470b93b3f1cde85550fc74cd3a476c78,unavailable,2018-01-08 19:39:03,2018-01-09 07:26:08,,,2018-02-06 00:00:00
1160,2f634e2cebf8c0283e7ef0989f77d217,7353b0fb8e8d9675e3a704c60ca44ebe,unavailable,2017-09-27 20:55:33,2017-09-28 01:32:50,,,2017-10-27 00:00:00


Видим, что заказы в этом статусе не имеют данных в колонках, связанных с доставкой (в частности не имеют даты передачи в курьерскую службу и даты доставки, соответственно, скорее всего, доставлены не были).
При этом название статуса говорит само за себя - либо покупатель оказался недоступен, либо сам сервис не смог по каким-то причинам сформировать/отгрузить заказ. 

In [37]:
orders.dtypes

order_id                         object
customer_id                      object
order_status                     object
order_purchase_timestamp         object
order_approved_at                object
order_delivered_carrier_date     object
order_delivered_customer_date    object
order_estimated_delivery_date    object
dtype: object

Видим, что в этом фрейме у колонок с датой тип определяется как "объект" (или строка). Заранее исправим тип таких колонок на корректный:

In [38]:
orders.order_purchase_timestamp = pd.to_datetime(orders.order_purchase_timestamp)
orders.order_approved_at = pd.to_datetime(orders.order_approved_at)
orders.order_delivered_carrier_date = pd.to_datetime(orders.order_delivered_carrier_date)
orders.order_delivered_customer_date = pd.to_datetime(orders.order_delivered_customer_date)
orders.order_estimated_delivery_date = pd.to_datetime(orders.order_estimated_delivery_date)

In [39]:
orders.nunique()

order_id                         99441
customer_id                      99441
order_status                         8
order_purchase_timestamp         98875
order_approved_at                90733
order_delivered_carrier_date     81018
order_delivered_customer_date    95664
order_estimated_delivery_date      459
dtype: int64

Также видим, что количество уникальных идентификаторов заказов равно количеству уникальных идентификаторов пользователей.
Однако в таблице customers у каждого пользователя есть уникальный идентификатор, об этом необходимо помнить.

### 3. items —  товарные позиции, входящие в заказы
* order_id —  уникальный идентификатор заказа (номер чека)

* order_item_id —  идентификатор товара внутри одного заказа

* product_id —  ид товара (аналог штрихкода)

* seller_id — ид производителя товара

* shipping_limit_date —  максимальная дата доставки продавцом для передачи заказа партнеру по логистике

* price —  цена за единицу товара

* freight_value —  вес товара

In [40]:
items.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [41]:
items.isnull().any()

order_id               False
order_item_id          False
product_id             False
seller_id              False
shipping_limit_date    False
price                  False
freight_value          False
dtype: bool

In [42]:
items.dtypes

order_id                object
order_item_id            int64
product_id              object
seller_id               object
shipping_limit_date     object
price                  float64
freight_value          float64
dtype: object

In [43]:
items.shipping_limit_date = pd.to_datetime(items.shipping_limit_date)

In [44]:
items.nunique()

order_id               98666
order_item_id             21
product_id             32951
seller_id               3095
shipping_limit_date    93318
price                   5968
freight_value           6999
dtype: int64

Итак, мы исследовали данные, посмотрели на их структуру, узнали, что в таблице с заказами существуют записи, в которых могут отсутствовать те или иные данные.

Приступаем к решению задач.

# 1. Сколько у нас пользователей, которые совершили покупку только один раз? 

Итак, мы помним, что в колонке order_approved_at содержится информация о времени подтверждения оплаты заказа. Следовательно, достаточно просто отфильтровать заказы, у которых эта колонка пустует.

Заказы в статусе "доставлено", но у которых пустует колонка order_approved_at (и другие колонки с информацией о доставке) будем считать реальными покупками.
При этом зказы в статусе unavailable считать не будем: считаю, что статус таких заказов до конца не прояснён, и существует большая вероятность оформления возврата.

Таким образом, нам нужно отфильтровать orders по колонке order_approved_at и при этом оставить все заказы в статусе delivered:

In [45]:
orders = orders.assign(not_payed = orders.order_approved_at.isna())

In [46]:
payed_orders = orders.query('not_payed == True or order_status == "delivered"')
payed_orders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,not_payed
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18,False
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13,False
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04,False
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15,False
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26,False


Вспомним про уникальные значения в таблице orders:

In [47]:
orders.nunique()

order_id                         99441
customer_id                      99441
order_status                         8
order_purchase_timestamp         98875
order_approved_at                90733
order_delivered_carrier_date     81018
order_delivered_customer_date    95664
order_estimated_delivery_date      459
not_payed                            2
dtype: int64

Так как количество уникальных order_id и customer_id в этой таблице велико, нужно присоединить к ней таблицу customers, чтобы на основании customer_unique_id посчитать реальное количество пользователей, совершивших только одну покупку.

При этом мы уже заранее отфильтровали только нужные нам заказы, следовательно таблицу customers объединим с новой таблицей payed_orders.

In [48]:
customer_payed_orders = customers.merge(payed_orders, on='customer_id')
customer_payed_orders.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,order_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,not_payed
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,00e7ee1b050b8499577073aeb2a297a1,delivered,2017-05-16 15:05:35,2017-05-16 15:22:12,2017-05-23 10:47:57,2017-05-25 10:35:35,2017-06-05,False
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,29150127e6685892b6eab3eec79f59c7,delivered,2018-01-12 20:48:24,2018-01-12 20:58:32,2018-01-15 17:14:59,2018-01-29 12:41:19,2018-02-06,False
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,b2059ed67ce144a36e2aa97d2c9e9ad2,delivered,2018-05-19 16:07:45,2018-05-20 16:19:10,2018-06-11 14:31:00,2018-06-14 17:58:51,2018-06-13,False
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,951670f92359f4fe4a63112aa7306eba,delivered,2018-03-13 16:06:38,2018-03-13 17:29:19,2018-03-27 23:22:42,2018-03-28 16:04:25,2018-04-10,False
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,6b7d50bd145f6fc7f33cebabd7e49d0f,delivered,2018-07-29 09:51:30,2018-07-29 10:10:09,2018-07-30 15:16:00,2018-08-09 20:55:48,2018-08-15,False


Далее сгруппируем получившийся датафрейм по customer_unique_id с подсчётом order_id, чтобы понять, сколько заказов совершил тот или иной уникальный покупатель.

Следующим шагом оставим только тех пользователей, у которых количество заказов равно 1, и выведем уникальное количество customer_unique_id:

In [49]:
customer_payed_orders = customer_payed_orders.groupby(['customer_unique_id'], as_index=False).agg({'order_id': 'count'})

only_one_purchase = customer_payed_orders.query('order_id == 1').nunique()

only_one_purchase

customer_unique_id    90598
order_id                  1
dtype: int64

Таким образом, мы видим, что 90 598 пользователей совершили только 1 заказ. Это и будет решением первой задачи.

Напоследок посмотрим на тех пользователей, которые оформили более одной покупки:

In [50]:
customer_payed_orders.query('order_id > 1').sort_values('order_id', ascending = False)

Unnamed: 0,customer_unique_id,order_id
51474,8d50f5eadf50201ccdcedfb9e2ac8455,15
22801,3e43e6105506432c953e165fb2acf44c,9
36738,6469f99c1f9dfae7733b25662e7f1782,7
73989,ca77025e7201e3b30c44b472ff346268,7
10070,1b6c7548a2a1f9037c1fd3ddfed95f33,7
...,...,...
32874,59bba92de9b8f6be0808e4d9d64b4b43,2
32912,59d66d72939bc9497e19d89c61a96d5f,2
32919,59d8d1ea35c02a6a070ee29944b0ea86,2
33020,5a21363c92f912e70cb482c96bc03af3,2


In [51]:
customer_payed_orders.query('order_id > 1').nunique()

customer_unique_id    2848
order_id                 8
dtype: int64

# 2. Сколько заказов в месяц в среднем не доставляется по разным причинам (вывести детализацию по причинам)?

Ещё раз посмотрим на список наших статусов заказов:

* created —  создан
* approved —  подтверждён
* invoiced —  выставлен счёт
* processing —  в процессе сборки заказа
* shipped —  отгружен со склада
* delivered —  доставлен пользователю
* unavailable —  недоступен
* canceled —  отменён

Если заказ всё ещё находится в одном из статусов до delivered, то такой заказ нельзя считать не доставленным потому, что он просто ещё не дошёл в воронке до момента доставки. Заказы в статусе delivered, соответственно, уже были доставлены.

Следовательно нужно посчитать среднее количество в месяц заказов в статусах unavailable и canceled.

Так как у нас нет информации о дате и времени перехода заказа в тот или иной статус, я считаю логичным использовать колонку order_purchase_timestamp (то есть дату и время создания заказа) в качестве основы для расчёта.

Посмотрим, за какие годы и месяцы у нас есть данные по заказам в статусе canceled и unavailable и каким было количество заказов.\
Для начала создадим отдельный датафрейм, в котором оставим только заказы в нужных нам статусах.

In [52]:
not_delivered_orders = orders.query('order_status == "unavailable" or order_status == "canceled"')

Добавим колонки с месяцем и годом.

In [53]:
not_delivered_orders = not_delivered_orders.assign(month = not_delivered_orders.order_purchase_timestamp.dt.month)
not_delivered_orders = not_delivered_orders.assign(year = not_delivered_orders.order_purchase_timestamp.dt.year)

Посмотрим на данные:

In [54]:
not_delivered_orders.groupby(['year', 'month', 'order_status']) \
    .agg({'order_id': 'nunique'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,order_id
year,month,order_status,Unnamed: 3_level_1
2016,9,canceled,2
2016,10,canceled,24
2016,10,unavailable,7
2017,1,canceled,3
2017,1,unavailable,10
2017,2,canceled,17
2017,2,unavailable,45
2017,3,canceled,33
2017,3,unavailable,32
2017,4,canceled,18


Теперь считаем среднее в месяц:

In [55]:
not_delivered_orders.groupby(['month', 'order_status']).agg({'order_id': 'nunique'}) \
    .groupby(['order_status']).agg({'order_id': 'mean'})

Unnamed: 0_level_0,order_id
order_status,Unnamed: 1_level_1
canceled,52.083333
unavailable,50.75


# 3. По каждому товару определить, в какой день недели товар чаще всего покупается.

In [56]:
items.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


Чтобы понять, по каким дням недели товар чаще всего покупается, нам нужна колонка с датой и временем оформления заказа из orders.

Также дополнительно сделаем колонку с номером дня недели, где понедельник будет 0

In [57]:
ordered_items = items.merge(orders[['order_id', 'order_purchase_timestamp']], on='order_id')

ordered_items = ordered_items.assign(weekday = ordered_items.order_purchase_timestamp.dt.dayofweek)
ordered_items = ordered_items.rename(columns={'order_purchase_timestamp': 'purchase_date'})

Проверим количество уникальных товаров в получившемся датафрейме:

In [58]:
ordered_items.product_id.nunique()

32951

Посмотрим на получившийся датафрейм на примере какого-нибудь продукта:

In [59]:
ordered_items.query('product_id == "4244733e06e7ecb4970a6e2683c13e61"')

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,purchase_date,weekday
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29,2017-09-13 08:59:02,2
8346,130898c0987d1801452a8ed92a670612,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-07-05 02:44:11,55.9,17.96,2017-06-28 11:52:20,2
36646,532ed5e14e24ae1f0d735b91524b98b9,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2018-05-23 10:56:25,64.9,18.33,2018-05-18 10:25:53,4
49108,6f8c31653edb8c83e1a739408b5ff750,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-07 18:55:08,58.9,16.17,2017-08-01 18:38:42,1
55021,7d19f4ef4d04461989632411b7e588b9,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-16 22:05:11,58.9,13.29,2017-08-10 21:48:40,3
70534,a0f9acf0b6294ed8561e32cde1a966bc,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-03 15:23:46,55.9,26.93,2017-07-27 15:11:51,3
82756,bbf796534aaf9c59f8da8c7982db56e0,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2018-03-26 03:28:44,64.9,38.5,2018-03-18 21:00:44,6
88891,c9ef97d2854afe64a3b4488bc2836af6,2,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-08-14 04:25:34,58.9,18.12,2017-08-05 16:59:05,5
98401,df2d910b8b5e5f461f67043489f9569d,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-06-09 14:31:21,55.9,35.71,2017-06-05 12:22:19,0


Далее сгруппируем датафрейм по товару и дню недели с подсчётом количества:

In [60]:
ordered_items = ordered_items.groupby(['product_id', 'weekday'], as_index=False) \
    .agg({'purchase_date': 'count'})

Посмотрим на получившийся датафрейм с сортировкой по количеству покупок и идентификатору товара:

In [61]:
ordered_items = ordered_items.sort_values(['purchase_date', 'product_id'], ascending=False)
ordered_items

Unnamed: 0,product_id,weekday,purchase_date
15898,422879e10f46682990de24d770e7f83d,2,93
36512,99a4788cb24856965c36a24e339b6058,0,92
41044,aca2eb7d00ea1a7b8ebd4e68314663af,3,89
41045,aca2eb7d00ea1a7b8ebd4e68314663af,4,87
41042,aca2eb7d00ea1a7b8ebd4e68314663af,1,85
...,...,...,...
3,000b8f95fcb9e0096488278317764d19,2,1
4,000b8f95fcb9e0096488278317764d19,4,1
2,0009406fd7479715e4bef61dd91f2462,3,1
1,00088930e925c41fd95ebfe695fd2655,1,1


Теперь уберём все дубликаты по product_id:

In [62]:
ordered_items.drop_duplicates(['product_id'])

Unnamed: 0,product_id,weekday,purchase_date
15898,422879e10f46682990de24d770e7f83d,2,93
36512,99a4788cb24856965c36a24e339b6058,0,92
41044,aca2eb7d00ea1a7b8ebd4e68314663af,3,89
20123,53b36df67ebb7c41585e8d54d6772e08,1,76
13536,389d119b48cf3043d311335e499d9c6b,3,67
...,...,...,...
5,000d9be29b5207b54e86aa1b1ac54872,1,1
3,000b8f95fcb9e0096488278317764d19,2,1
2,0009406fd7479715e4bef61dd91f2462,3,1
1,00088930e925c41fd95ebfe695fd2655,1,1


# 4. Сколько у каждого из пользователей в среднем покупок в неделю (по месяцам)? Не стоит забывать, что внутри месяца может быть не целое количество недель. Например, в ноябре 2021 года 4,28 недели. И внутри метрики это нужно учесть.

Объединим датасеты customers и orders т.к. в orders у всех customer_id только одна покупка:

In [63]:
customer_orders = customers.merge(orders, on='customer_id')

customer_orders.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,order_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,not_payed
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,00e7ee1b050b8499577073aeb2a297a1,delivered,2017-05-16 15:05:35,2017-05-16 15:22:12,2017-05-23 10:47:57,2017-05-25 10:35:35,2017-06-05,False
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,29150127e6685892b6eab3eec79f59c7,delivered,2018-01-12 20:48:24,2018-01-12 20:58:32,2018-01-15 17:14:59,2018-01-29 12:41:19,2018-02-06,False
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,b2059ed67ce144a36e2aa97d2c9e9ad2,delivered,2018-05-19 16:07:45,2018-05-20 16:19:10,2018-06-11 14:31:00,2018-06-14 17:58:51,2018-06-13,False
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,951670f92359f4fe4a63112aa7306eba,delivered,2018-03-13 16:06:38,2018-03-13 17:29:19,2018-03-27 23:22:42,2018-03-28 16:04:25,2018-04-10,False
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,6b7d50bd145f6fc7f33cebabd7e49d0f,delivered,2018-07-29 09:51:30,2018-07-29 10:10:09,2018-07-30 15:16:00,2018-08-09 20:55:48,2018-08-15,False


Далее уберём заказы в статусах "отменён" и "недоступен", так как их нельзя считать покупками.

In [64]:
customer_orders = customer_orders.query('order_status != "canceled" and order_status != "unavailable"')

Добавим колонки с информацией о месяце покупки и с информацией о количестве дней в месяце:

In [65]:
customer_orders = customer_orders.assign(month_of_purchase = customer_orders.order_purchase_timestamp.dt.month)
customer_orders = customer_orders.assign(days_in_month = customer_orders.order_purchase_timestamp.dt.days_in_month)

In [66]:
customer_orders.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,order_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,not_payed,month_of_purchase,days_in_month
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,00e7ee1b050b8499577073aeb2a297a1,delivered,2017-05-16 15:05:35,2017-05-16 15:22:12,2017-05-23 10:47:57,2017-05-25 10:35:35,2017-06-05,False,5,31
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,29150127e6685892b6eab3eec79f59c7,delivered,2018-01-12 20:48:24,2018-01-12 20:58:32,2018-01-15 17:14:59,2018-01-29 12:41:19,2018-02-06,False,1,31
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,b2059ed67ce144a36e2aa97d2c9e9ad2,delivered,2018-05-19 16:07:45,2018-05-20 16:19:10,2018-06-11 14:31:00,2018-06-14 17:58:51,2018-06-13,False,5,31
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,951670f92359f4fe4a63112aa7306eba,delivered,2018-03-13 16:06:38,2018-03-13 17:29:19,2018-03-27 23:22:42,2018-03-28 16:04:25,2018-04-10,False,3,31
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,6b7d50bd145f6fc7f33cebabd7e49d0f,delivered,2018-07-29 09:51:30,2018-07-29 10:10:09,2018-07-30 15:16:00,2018-08-09 20:55:48,2018-08-15,False,7,31


Создадим датафрейм, который сгруппируем по идентификатору пользователя и месяцу покупки с подсчётом количества заказов и среднего количества дней в месяце:

In [67]:
weekly_orders = customer_orders.groupby(['customer_unique_id', 'month_of_purchase'], as_index=False) \
    .agg(purchases = ('order_id', 'count'), days_in_month = ('days_in_month', 'mean'))

Посмотрим что получилось:

In [68]:
weekly_orders.query('customer_unique_id == "12f5d6e1cbf93dafd9dcc19095df0b3d"')

Unnamed: 0,customer_unique_id,month_of_purchase,purchases,days_in_month
7229,12f5d6e1cbf93dafd9dcc19095df0b3d,1,6,31.0


Дополним получившийся датафрейм колонками с количеством недель в месяце и количеством покупок в неделю. Затем посмотрим на то, что получилось:

In [69]:
weekly_orders = weekly_orders.assign(weeks_per_month = weekly_orders.days_in_month / 7)

weekly_orders = weekly_orders.assign(purchases_per_week = weekly_orders.purchases / weekly_orders.weeks_per_month) \
    .sort_values('customer_unique_id')

weekly_orders

Unnamed: 0,customer_unique_id,month_of_purchase,purchases,days_in_month,weeks_per_month,purchases_per_week
0,0000366f3b9a7992bf8c76cfdf3221e2,5,1,31.0,4.428571,0.225806
1,0000b849f77a49e4a4ce2b2a4ca5be3f,5,1,31.0,4.428571,0.225806
2,0000f46a3911fa3c0805444483337064,3,1,31.0,4.428571,0.225806
3,0000f6ccb0745a6a4b88665a16c9f078,10,1,31.0,4.428571,0.225806
4,0004aac84e0df4da2b147fca70cf8255,11,1,30.0,4.285714,0.233333
...,...,...,...,...,...,...
96821,fffcf5a5ff07b0908bd4e2dbc735a684,6,1,30.0,4.285714,0.233333
96822,fffea47cd6d3cc0a88bd621562a9d061,12,1,31.0,4.428571,0.225806
96823,ffff371b4d645b6ecea244b27531430a,2,1,28.0,4.000000,0.250000
96824,ffff5962728ec6157033ef9805bacc48,5,1,31.0,4.428571,0.225806


# 5. Используя pandas, проведи когортный анализ пользователей. В период с января по декабрь выяви когорту с самым высоким retention на 3й месяц.

Снова объединим фреймы orders и customers, добавим колонку с месяцем и годом оформления заказа:

In [70]:
customer_orders = orders.query('order_status != ["canceled", "unavailable"]').merge(customers, on = 'customer_id')[['customer_unique_id', 'order_id', 'order_purchase_timestamp']]

customer_orders['purchase_year_month'] = customer_orders.order_purchase_timestamp.dt.strftime('%Y-%m')
customer_orders['purchase_year_month'] = pd.to_datetime(customer_orders.purchase_year_month, format='%Y-%m')

customer_orders

Unnamed: 0,customer_unique_id,order_id,order_purchase_timestamp,purchase_year_month
0,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,2017-10-02 10:56:33,2017-10-01
1,af07308b275d755c9edb36a90c618231,53cdb2fc8bc7dce0b6741e2150273451,2018-07-24 20:41:37,2018-07-01
2,3a653a41f6f9fc3d2a113cf8398680e8,47770eb9100c2d0c44946d9cf07ec65d,2018-08-08 08:38:49,2018-08-01
3,7c142cf63193a1473d2e66489a9ae977,949d5b44dbf5de918fe9c16f97b45f8a,2017-11-18 19:28:06,2017-11-01
4,72632f0f9dd73dfee390c9b22eb56dd6,ad21c59c0840e6cb83a9ceb5573f8159,2018-02-13 21:18:39,2018-02-01
...,...,...,...,...
98202,6359f309b166b0196dbf7ad2ac62bb5a,9c5dedf39a927c1b2549525ed64a053c,2017-03-09 09:54:05,2017-03-01
98203,da62f9e57a76d978d02ab5362c509660,63943bddc261676b46f01ca7ac2f7bd8,2018-02-06 12:58:58,2018-02-01
98204,737520a9aad80b3fbbdad19b66b37b30,83c1379a015df1e13d02aae0204711ab,2017-08-27 14:46:43,2017-08-01
98205,5097a5312c8b157bb7be58ae360ef43c,11c177c8e97725db2631073c19f07b62,2018-01-08 21:28:27,2018-01-01


В отдельный датафрейм запишем информацию о месяце и годе первой покупки каждого пользователя:

In [71]:
first_purchases = customer_orders.groupby('customer_unique_id', as_index=False) \
    .agg(first_purchase_year_month = ('purchase_year_month', 'min'))

first_purchases

Unnamed: 0,customer_unique_id,first_purchase_year_month
0,0000366f3b9a7992bf8c76cfdf3221e2,2018-05-01
1,0000b849f77a49e4a4ce2b2a4ca5be3f,2018-05-01
2,0000f46a3911fa3c0805444483337064,2017-03-01
3,0000f6ccb0745a6a4b88665a16c9f078,2017-10-01
4,0004aac84e0df4da2b147fca70cf8255,2017-11-01
...,...,...
94985,fffcf5a5ff07b0908bd4e2dbc735a684,2017-06-01
94986,fffea47cd6d3cc0a88bd621562a9d061,2017-12-01
94987,ffff371b4d645b6ecea244b27531430a,2017-02-01
94988,ffff5962728ec6157033ef9805bacc48,2018-05-01


В задании указано посчитать ретеншн в период с января по декабрь, то есть взять полный год. Полный год в данных только 2017. Следовательно ретеншн будем считать в рамках 2017 года + 3 первых месяца 2018, чтобы посчитать ретеншн по декабрь включительно.

In [72]:
customer_orders.groupby('purchase_year_month', as_index = False).agg({'order_id': 'count'}).sort_values('purchase_year_month')

Unnamed: 0,purchase_year_month,order_id
0,2016-09-01,2
1,2016-10-01,293
2,2016-12-01,1
3,2017-01-01,787
4,2017-02-01,1718
5,2017-03-01,2617
6,2017-04-01,2377
7,2017-05-01,3640
8,2017-06-01,3205
9,2017-07-01,3946


Объединим датафрейм с месяцем первой покупки пользователей с основным датафреймом:

In [73]:
combined_data = customer_orders.merge(first_purchases, on="customer_unique_id")
combined_data = combined_data.query('first_purchase_year_month >= "2017-01" and first_purchase_year_month < "2018-04"')

Посчитаем индекс, чтобы данные по ретеншену декабря 2017 года можно было видеть с соблюдением порядка. Для этого добавим колонки с годом и месяцем. Затем посчитаем индексы:

In [74]:
combined_data['purchase_year'] = combined_data.purchase_year_month.dt.year
combined_data['purchase_month'] = combined_data.purchase_year_month.dt.month

combined_data['first_purchase_year'] = combined_data.first_purchase_year_month.dt.year
combined_data['first_purchase_month'] = combined_data.first_purchase_year_month.dt.month

combined_data

Unnamed: 0,customer_unique_id,order_id,order_purchase_timestamp,purchase_year_month,first_purchase_year_month,purchase_year,purchase_month,first_purchase_year,first_purchase_month
0,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,2017-10-02 10:56:33,2017-10-01,2017-09-01,2017,10,2017,9
3,7c142cf63193a1473d2e66489a9ae977,949d5b44dbf5de918fe9c16f97b45f8a,2017-11-18 19:28:06,2017-11-01,2017-11-01,2017,11,2017,11
4,72632f0f9dd73dfee390c9b22eb56dd6,ad21c59c0840e6cb83a9ceb5573f8159,2018-02-13 21:18:39,2018-02-01,2018-02-01,2018,2,2018,2
5,80bb27c7c16e8f973207a5086ab329e2,a4591c265e18cb1dcee52889e2d8acc3,2017-07-09 21:57:05,2017-07-01,2017-07-01,2017,7,2017,7
6,36edbb3fb164b1f16485364b6fb04c73,136cce7faa42fdb2cefd53fdc79a6098,2017-04-11 12:22:08,2017-04-01,2017-04-01,2017,4,2017,4
...,...,...,...,...,...,...,...,...,...
98202,6359f309b166b0196dbf7ad2ac62bb5a,9c5dedf39a927c1b2549525ed64a053c,2017-03-09 09:54:05,2017-03-01,2017-03-01,2017,3,2017,3
98203,da62f9e57a76d978d02ab5362c509660,63943bddc261676b46f01ca7ac2f7bd8,2018-02-06 12:58:58,2018-02-01,2018-02-01,2018,2,2018,2
98204,737520a9aad80b3fbbdad19b66b37b30,83c1379a015df1e13d02aae0204711ab,2017-08-27 14:46:43,2017-08-01,2017-08-01,2017,8,2017,8
98205,5097a5312c8b157bb7be58ae360ef43c,11c177c8e97725db2631073c19f07b62,2018-01-08 21:28:27,2018-01-01,2018-01-01,2018,1,2018,1


In [75]:
combined_data['year_diff'] = combined_data['purchase_year'] - combined_data['first_purchase_year']
combined_data['month_diff'] = combined_data['purchase_month'] - combined_data['first_purchase_month']
combined_data['сohort_index'] = combined_data['year_diff'] * 12 + combined_data['month_diff'] + 1

combined_data

Unnamed: 0,customer_unique_id,order_id,order_purchase_timestamp,purchase_year_month,first_purchase_year_month,purchase_year,purchase_month,first_purchase_year,first_purchase_month,year_diff,month_diff,сohort_index
0,7c396fd4830fd04220f754e42b4e5bff,e481f51cbdc54678b7cc49136f2d6af7,2017-10-02 10:56:33,2017-10-01,2017-09-01,2017,10,2017,9,0,1,2
3,7c142cf63193a1473d2e66489a9ae977,949d5b44dbf5de918fe9c16f97b45f8a,2017-11-18 19:28:06,2017-11-01,2017-11-01,2017,11,2017,11,0,0,1
4,72632f0f9dd73dfee390c9b22eb56dd6,ad21c59c0840e6cb83a9ceb5573f8159,2018-02-13 21:18:39,2018-02-01,2018-02-01,2018,2,2018,2,0,0,1
5,80bb27c7c16e8f973207a5086ab329e2,a4591c265e18cb1dcee52889e2d8acc3,2017-07-09 21:57:05,2017-07-01,2017-07-01,2017,7,2017,7,0,0,1
6,36edbb3fb164b1f16485364b6fb04c73,136cce7faa42fdb2cefd53fdc79a6098,2017-04-11 12:22:08,2017-04-01,2017-04-01,2017,4,2017,4,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...
98202,6359f309b166b0196dbf7ad2ac62bb5a,9c5dedf39a927c1b2549525ed64a053c,2017-03-09 09:54:05,2017-03-01,2017-03-01,2017,3,2017,3,0,0,1
98203,da62f9e57a76d978d02ab5362c509660,63943bddc261676b46f01ca7ac2f7bd8,2018-02-06 12:58:58,2018-02-01,2018-02-01,2018,2,2018,2,0,0,1
98204,737520a9aad80b3fbbdad19b66b37b30,83c1379a015df1e13d02aae0204711ab,2017-08-27 14:46:43,2017-08-01,2017-08-01,2017,8,2017,8,0,0,1
98205,5097a5312c8b157bb7be58ae360ef43c,11c177c8e97725db2631073c19f07b62,2018-01-08 21:28:27,2018-01-01,2018-01-01,2018,1,2018,1,0,0,1


Сгруппируем полученный датафрейм по году и месяцу первой покупки и когортному индексу чтобы посчитать уникальные идентификаторы пользователей:

In [76]:
unique_users_cohort = combined_data.groupby(['first_purchase_year_month','сohort_index'], as_index=False)\
    .agg({'customer_unique_id':'nunique'})

unique_users_cohort.head()

Unnamed: 0,first_purchase_year_month,сohort_index,customer_unique_id
0,2017-01-01,1,752
1,2017-01-01,2,3
2,2017-01-01,3,2
3,2017-01-01,4,1
4,2017-01-01,5,3


Создадим сводную таблицу из получившегося датафрейма, в процентах. В качестве индекса будем использовать месяц и год первой покупки, в колонку пойдёт индекс когорты, а в значения - количество уникальных юзеров.

In [77]:
retention_pivot = unique_users_cohort.pivot(index='first_purchase_year_month', columns='сohort_index', values='customer_unique_id')
retention_pivot = retention_pivot.divide(retention_pivot.iloc[:,0], axis=0)

retention_pivot

сohort_index,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,20
first_purchase_year_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
2017-01-01,1.0,0.003989,0.00266,0.00133,0.003989,0.00133,0.003989,0.00133,0.00133,,0.003989,0.00133,0.006649,0.003989,0.00133,0.00133,0.00266,0.003989,0.00133
2017-02-01,1.0,0.002367,0.002959,0.001183,0.004142,0.001183,0.002367,0.001775,0.001183,0.001775,0.001183,0.002959,0.001183,0.001775,0.001183,0.000592,0.000592,0.002367,
2017-03-01,1.0,0.005056,0.003501,0.00389,0.003501,0.001556,0.001556,0.003112,0.003501,0.000778,0.00389,0.001167,0.002334,0.001167,0.001556,0.002334,0.000778,0.001556,
2017-04-01,1.0,0.006022,0.002151,0.00172,0.003011,0.002581,0.003441,0.003011,0.003011,0.00172,0.002581,0.00086,0.00086,0.00043,0.00086,0.00086,0.00129,,
2017-05-01,1.0,0.004801,0.004801,0.003954,0.003106,0.003389,0.004236,0.001412,0.002542,0.002542,0.002542,0.003389,0.002542,0.000282,0.001977,0.002259,,,
2017-06-01,1.0,0.004513,0.003546,0.003868,0.002579,0.003868,0.003546,0.002257,0.001289,0.002257,0.003224,0.003224,0.001612,0.001289,0.001934,,,,
2017-07-01,1.0,0.005233,0.003401,0.002355,0.002878,0.002093,0.00314,0.001047,0.001832,0.002616,0.002093,0.002878,0.001308,0.002616,,,,,
2017-08-01,1.0,0.00678,0.00339,0.002663,0.003632,0.005327,0.002906,0.002663,0.001453,0.001453,0.002421,0.001937,0.001211,,,,,,
2017-09-01,1.0,0.006871,0.005399,0.002945,0.004417,0.002209,0.002209,0.002454,0.002945,0.001718,0.002699,0.000736,,,,,,,
2017-10-01,1.0,0.007058,0.002505,0.000911,0.002277,0.002049,0.002049,0.003643,0.002732,0.002049,0.002049,,,,,,,,


Нарисуем тепловую карту для получившейся сводной таблицы:

In [78]:
retention_hitmap = (retention_pivot
            .style
            .set_caption('User retention by cohort')
            .background_gradient(cmap='viridis')
            .highlight_null('white')
            .format("{:.2%}", na_rep=""))

retention_hitmap

сohort_index,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,20
first_purchase_year_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
2017-01-01 00:00:00,100.00%,0.40%,0.27%,0.13%,0.40%,0.13%,0.40%,0.13%,0.13%,,0.40%,0.13%,0.66%,0.40%,0.13%,0.13%,0.27%,0.40%,0.13%
2017-02-01 00:00:00,100.00%,0.24%,0.30%,0.12%,0.41%,0.12%,0.24%,0.18%,0.12%,0.18%,0.12%,0.30%,0.12%,0.18%,0.12%,0.06%,0.06%,0.24%,
2017-03-01 00:00:00,100.00%,0.51%,0.35%,0.39%,0.35%,0.16%,0.16%,0.31%,0.35%,0.08%,0.39%,0.12%,0.23%,0.12%,0.16%,0.23%,0.08%,0.16%,
2017-04-01 00:00:00,100.00%,0.60%,0.22%,0.17%,0.30%,0.26%,0.34%,0.30%,0.30%,0.17%,0.26%,0.09%,0.09%,0.04%,0.09%,0.09%,0.13%,,
2017-05-01 00:00:00,100.00%,0.48%,0.48%,0.40%,0.31%,0.34%,0.42%,0.14%,0.25%,0.25%,0.25%,0.34%,0.25%,0.03%,0.20%,0.23%,,,
2017-06-01 00:00:00,100.00%,0.45%,0.35%,0.39%,0.26%,0.39%,0.35%,0.23%,0.13%,0.23%,0.32%,0.32%,0.16%,0.13%,0.19%,,,,
2017-07-01 00:00:00,100.00%,0.52%,0.34%,0.24%,0.29%,0.21%,0.31%,0.10%,0.18%,0.26%,0.21%,0.29%,0.13%,0.26%,,,,,
2017-08-01 00:00:00,100.00%,0.68%,0.34%,0.27%,0.36%,0.53%,0.29%,0.27%,0.15%,0.15%,0.24%,0.19%,0.12%,,,,,,
2017-09-01 00:00:00,100.00%,0.69%,0.54%,0.29%,0.44%,0.22%,0.22%,0.25%,0.29%,0.17%,0.27%,0.07%,,,,,,,
2017-10-01 00:00:00,100.00%,0.71%,0.25%,0.09%,0.23%,0.20%,0.20%,0.36%,0.27%,0.20%,0.20%,,,,,,,,


Посмотрим на получившиеся данные. Значения в столбце 1 (где cohort_index = 1) являются самым первым месяцем. По заданию ретеншн надо посчитать на третий. Следовательно, требуется смотреть на значения в колонке 4 (3 месяца спустя).

**Таким образом, видим, что самый большой ретеншн на 3-й месяц пришёлся на когорту пользоваетелей, которые совершили первую покупку в мае 2017-го года (2017-05-01) - 0.4%.**

# 6. Часто для качественного анализа аудитории использую подходы, основанные на сегментации. Используя python, построй RFM-сегментацию пользователей, чтобы качественно оценить свою аудиторию. 
В кластеризации можешь выбрать следующие метрики: R - время от последней покупки пользователя до текущей даты, F - суммарное количество покупок у пользователя за всё время, M - сумма покупок за всё время. Подробно опиши, как ты создавал кластеры.

Для каждого RFM-сегмента построй границы метрик recency, frequency и monetary для интерпретации этих кластеров. 

Пример такого описания: RFM-сегмент 132 (recency=1, frequency=3, monetary=2) имеет границы метрик recency от 130 до 500 дней, frequency от 2 до 5 заказов в неделю, monetary от 1780 до 3560 рублей в неделю.

Для начала снова объединим датафрейм с информацией о покупателях с датафреймом с заказами. Также отфильтруем заказы в статусе "отменён" или "недоступен".

In [65]:
orders_data = customers.merge(orders.query('order_status != ["canceled", "unavailable"]'), on='customer_id', how='inner')
orders_data = orders_data.merge(items, on='order_id', how='inner')
orders_data = orders_data.assign(order_date = orders_data.order_purchase_timestamp.dt.date)

orders_data.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,order_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,not_payed,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value,order_date
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,00e7ee1b050b8499577073aeb2a297a1,delivered,2017-05-16 15:05:35,2017-05-16 15:22:12,2017-05-23 10:47:57,2017-05-25 10:35:35,2017-06-05,False,1,a9516a079e37a9c9c36b9b78b10169e8,7c67e1448b00f6e969d365cea6b010ab,2017-05-22 15:22:12,124.99,21.88,2017-05-16
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,29150127e6685892b6eab3eec79f59c7,delivered,2018-01-12 20:48:24,2018-01-12 20:58:32,2018-01-15 17:14:59,2018-01-29 12:41:19,2018-02-06,False,1,4aa6014eceb682077f9dc4bffebc05b0,b8bc237ba3788b23da09c0f1f3a3288c,2018-01-18 20:58:32,289.0,46.48,2018-01-12
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,b2059ed67ce144a36e2aa97d2c9e9ad2,delivered,2018-05-19 16:07:45,2018-05-20 16:19:10,2018-06-11 14:31:00,2018-06-14 17:58:51,2018-06-13,False,1,bd07b66896d6f1494f5b86251848ced7,7c67e1448b00f6e969d365cea6b010ab,2018-06-05 16:19:10,139.94,17.79,2018-05-19
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,951670f92359f4fe4a63112aa7306eba,delivered,2018-03-13 16:06:38,2018-03-13 17:29:19,2018-03-27 23:22:42,2018-03-28 16:04:25,2018-04-10,False,1,a5647c44af977b148e0a3a4751a09e2e,7c67e1448b00f6e969d365cea6b010ab,2018-03-27 16:31:16,149.94,23.36,2018-03-13
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,6b7d50bd145f6fc7f33cebabd7e49d0f,delivered,2018-07-29 09:51:30,2018-07-29 10:10:09,2018-07-30 15:16:00,2018-08-09 20:55:48,2018-08-15,False,1,9391a573abe00141c56e38d84d7d5b3b,4a3ca9315b744ce9f8e9374361493884,2018-07-31 10:10:09,230.0,22.25,2018-07-29


Сгруппируем данные по идентификатору пользователя, дате заказа и номеру заказа с подсчётом суммы заказа.

In [66]:
orders_data_grouped = orders_data.groupby(['customer_unique_id', 'order_date', 'order_id'], as_index=False) \
    .agg({'price': 'sum'})

orders_data_grouped.head()

Unnamed: 0,customer_unique_id,order_date,order_id,price
0,0000366f3b9a7992bf8c76cfdf3221e2,2018-05-10,e22acc9c116caa3f2b7121bbb380d08e,129.9
1,0000b849f77a49e4a4ce2b2a4ca5be3f,2018-05-07,3594e05a005ac4d06a72673270ef9ec9,18.9
2,0000f46a3911fa3c0805444483337064,2017-03-10,b33ec3b699337181488304f362a6b734,69.0
3,0000f6ccb0745a6a4b88665a16c9f078,2017-10-12,41272756ecddd9a9ed0180413cc22fb6,25.99
4,0004aac84e0df4da2b147fca70cf8255,2017-11-14,d957021f1127559cd947b62533f484f7,180.0


Возьмём дату создания последнего заказа в качестве финальной даты:

In [68]:
NOW = orders_data_grouped['order_date'].max() + timedelta(days=1)
NOW

datetime.date(2018, 9, 4)

Создадим таблицу с информацией о каждом покупателе для RFM-анализа:

In [101]:
rfm_table = orders_data_grouped.groupby('customer_unique_id').agg({'order_date': lambda x: (NOW - x.max()).days, # Recency
                                                'order_id': lambda x: len(x.unique()), # Frequency
                                                'price': lambda x: x.sum()})    # Monetary 

rfm_table['order_date'] = rfm_table['order_date'].astype(int)

rfm_table.rename(columns={'order_date': 'recency', 
                         'order_id': 'frequency',
                         'price': 'monetary'}, inplace=True)
rfm_table.head()

Unnamed: 0_level_0,recency,frequency,monetary
customer_unique_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0000366f3b9a7992bf8c76cfdf3221e2,117,1,129.9
0000b849f77a49e4a4ce2b2a4ca5be3f,120,1,18.9
0000f46a3911fa3c0805444483337064,543,1,69.0
0000f6ccb0745a6a4b88665a16c9f078,327,1,25.99
0004aac84e0df4da2b147fca70cf8255,294,1,180.0


Показатели RFM будем рассчитывать с помощью квартилей, то есть каждый из показателей может принимать значение от 1 до 4.
Получим значения границ квинтилей для каждой из трёх метрик:

In [102]:
quartiles = rfm_table.quantile([.25,.5,.75]).to_dict()
quartiles

{'recency': {0.25: 120.0, 0.5: 225.0, 0.75: 353.0},
 'frequency': {0.25: 1.0, 0.5: 1.0, 0.75: 1.0},
 'monetary': {0.25: 47.9, 0.5: 89.88999999999999, 0.75: 155.0}}

Опишем функции, которые будут присваивать ранжирование в зависимости от значения метрик текущего клиента:

In [103]:
def r_score(x):
    if x <= quartiles['recency'][.25]:
        return 4
    elif x <= quartiles['recency'][.5]:
        return 3
    elif x <= quartiles['recency'][.75]:
        return 2
    else:
        return 1

def fm_score(x, c):
    if x <= quartiles[c][.25]:
        return 1
    elif x <= quartiles[c][.5]:
        return 2
    elif x <= quartiles[c][.75]:
        return 3
    else:
        return 4   

Применим получившиеся функции к соответствующим метрикам чтобы получить значения ранжирования, затем склеим получившиеся столбцы в метрику rfm_score:

In [104]:
rfm_table['r_quartile'] = rfm_table['recency'].apply(lambda x: r_score(x))
rfm_table['f_quartile'] = rfm_table['frequency'].apply(lambda x: fm_score(x, 'frequency'))
rfm_table['m_quartile'] = rfm_table['monetary'].apply(lambda x: fm_score(x, 'monetary'))

In [105]:
rfm_table['rfm_score'] = rfm_table['r_quartile'].map(str) + rfm_table['f_quartile'].map(str) + rfm_table['m_quartile'].map(str)

Посмотрим на получившиеся данные:

In [106]:
rfm_table.head(15)

Unnamed: 0_level_0,recency,frequency,monetary,r_quartile,f_quartile,m_quartile,rfm_score
customer_unique_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0000366f3b9a7992bf8c76cfdf3221e2,117,1,129.9,4,1,3,413
0000b849f77a49e4a4ce2b2a4ca5be3f,120,1,18.9,4,1,1,411
0000f46a3911fa3c0805444483337064,543,1,69.0,1,1,2,112
0000f6ccb0745a6a4b88665a16c9f078,327,1,25.99,2,1,1,211
0004aac84e0df4da2b147fca70cf8255,294,1,180.0,2,1,4,214
0004bd2a26a76fe21f786e4fbd80607f,152,1,154.0,3,1,3,313
00050ab1314c0e55a6ca13cf7181fecf,137,1,27.99,3,1,1,311
00053a61a98854899e70ed204dd4bafe,188,1,382.0,3,1,4,314
0005e1862207bf6ccc02e4228effd9a0,549,1,135.0,1,1,3,113
0005ef4cd20d2893f0d9fbd94d3c0d97,176,1,104.9,3,1,3,313


Посмотрим на самых лучших клиентов:

In [107]:
rfm_table[rfm_table['rfm_score']=='444'].sort_values('monetary', ascending=False).head()

Unnamed: 0_level_0,recency,frequency,monetary,r_quartile,f_quartile,m_quartile,rfm_score
customer_unique_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
c8460e4251689ba205045f3ea17884a1,27,4,4080.0,4,4,4,444
7b0eaf68a16e4808e5388c67345033c9,108,2,2238.42,4,4,4,444
906a8a4ec9f3d4c3e64fa6d1c4fe6009,46,2,1835.0,4,4,4,444
0341bbd5c969923a0f801b9e2d10a7b8,97,2,1828.44,4,4,4,444
4facc2e6fbc2bffab2fea92d2b4aa7e4,22,4,1686.9,4,4,4,444


Вот эти клиенты находятся на пороге оттока:

In [109]:
rfm_table[rfm_table['r_quartile'] <= 2 ].sort_values('monetary', ascending=False).head()

Unnamed: 0_level_0,recency,frequency,monetary,r_quartile,f_quartile,m_quartile,rfm_score
customer_unique_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0a0a92112bd4c708ca5fde585afaa872,340,1,13440.0,2,1,4,214
da122df9eeddfedc1dc1f5349a1a690c,521,2,7388.0,1,4,4,144
dc4802a71eae9be1dd28f5d788ceb526,569,1,6735.0,1,1,4,114
ff4159b92c40ebe40454e3e6a7c35ed6,468,1,6499.0,1,1,4,114
4007669dec559734d6f53e029e360987,284,1,5934.6,2,1,4,214


Это потерянные клиенты:

In [111]:
rfm_table[rfm_table['rfm_score']=='111'].sort_values('recency',ascending=False).head()

Unnamed: 0_level_0,recency,frequency,monetary,r_quartile,f_quartile,m_quartile,rfm_score
customer_unique_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
61db744d2f835035a5625b59350c6b63,701,1,36.49,1,1,1,111
2f64e403852e6893ae37485d5fcacdaf,701,1,21.9,1,1,1,111
87776adb449c551e74c13fc34f036105,701,1,29.99,1,1,1,111
3f4f614c632af7fc7508462a7cb55ac2,700,1,9.9,1,1,1,111
14359ea0c7a105749c0a56478825b015,700,1,32.49,1,1,1,111


А это лояльные:

In [113]:
rfm_table[rfm_table['f_quartile'] >= 3 ].sort_values('monetary', ascending=False).head()

Unnamed: 0_level_0,recency,frequency,monetary,r_quartile,f_quartile,m_quartile,rfm_score
customer_unique_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
da122df9eeddfedc1dc1f5349a1a690c,521,2,7388.0,1,4,4,144
c8460e4251689ba205045f3ea17884a1,27,4,4080.0,4,4,4,444
59d66d72939bc9497e19d89c61a96d5f,390,2,3459.0,1,4,4,144
58c1b085b54c03a1f1ab5f13d64c2b1c,352,2,2999.98,2,4,4,244
d77aa95864ae5b42160937615628723a,371,2,2400.0,1,4,4,144
