# Проект e-commerce: вариант 1 

### Подготовительный этап

Провожу предварительный анализ данных.  
Импортирую библиотеки

In [2]:
import pandas as pd
import numpy as np
from datetime import date,timedelta
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

Считываю данные

In [3]:
df_customers = pd.read_csv('olist_customers_dataset.csv')
df_orders= pd.read_csv('olist_orders_dataset.csv', parse_dates = ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date'])
df_items = pd.read_csv('olist_order_items_dataset.csv', parse_dates = ['shipping_limit_date'])

Просматриваем краткую информацию датафрейма `df_customers`

In [4]:
df_customers.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   customer_id               99441 non-null  object
 1   customer_unique_id        99441 non-null  object
 2   customer_zip_code_prefix  99441 non-null  int64 
 3   customer_city             99441 non-null  object
 4   customer_state            99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


Ознакомимся с данными, выведем первые пять строк

In [5]:
df_customers.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP


Используем функцию `describe` чтобы просмотреть верхнеуровневую статистику в датафрейме

In [6]:
df_customers.describe(include='all')

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
count,99441,99441,99441.0,99441,99441
unique,99441,96096,,4119,27
top,b8f48f9883fa05a9e6fa06367fce7e87,8d50f5eadf50201ccdcedfb9e2ac8455,,sao paulo,SP
freq,1,17,,15540,41746
mean,,,35137.474583,,
std,,,29797.938996,,
min,,,1003.0,,
25%,,,11347.0,,
50%,,,24416.0,,
75%,,,58900.0,,


Производим те же действия с остальными датафреймами

In [7]:
df_orders.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   order_id                       99441 non-null  object        
 1   customer_id                    99441 non-null  object        
 2   order_status                   99441 non-null  object        
 3   order_purchase_timestamp       99441 non-null  datetime64[ns]
 4   order_approved_at              99281 non-null  datetime64[ns]
 5   order_delivered_carrier_date   97658 non-null  datetime64[ns]
 6   order_delivered_customer_date  96476 non-null  datetime64[ns]
 7   order_estimated_delivery_date  99441 non-null  datetime64[ns]
dtypes: datetime64[ns](5), object(3)
memory usage: 6.1+ MB


In [8]:
df_orders.isna().sum() #кол-во пропусков

order_id                            0
customer_id                         0
order_status                        0
order_purchase_timestamp            0
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
order_estimated_delivery_date       0
dtype: int64

In [9]:
df_orders.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26


In [10]:
df_orders.describe(include='all', datetime_is_numeric=True)

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
count,99441,99441,99441,99441,99281,97658,96476,99441
unique,99441,99441,8,,,,,
top,3683eb727daa8e1c605aeabd87b02445,0ae7de017434df230971260a258ed061,delivered,,,,,
freq,1,1,96478,,,,,
mean,,,,2017-12-31 08:43:12.776581120,2017-12-31 18:35:24.098800384,2018-01-04 21:49:48.138278656,2018-01-14 12:09:19.035542784,2018-01-24 03:08:37.730111232
min,,,,2016-09-04 21:15:19,2016-09-15 12:16:38,2016-10-08 10:34:01,2016-10-11 13:46:32,2016-09-30 00:00:00
25%,,,,2017-09-12 14:46:19,2017-09-12 23:24:16,2017-09-15 22:28:50.249999872,2017-09-25 22:07:22.249999872,2017-10-03 00:00:00
50%,,,,2018-01-18 23:04:36,2018-01-19 11:36:13,2018-01-24 16:10:58,2018-02-02 19:28:10.500000,2018-02-15 00:00:00
75%,,,,2018-05-04 15:42:16,2018-05-04 20:35:10,2018-05-08 13:37:45,2018-05-15 22:48:52.249999872,2018-05-25 00:00:00
max,,,,2018-10-17 17:30:18,2018-09-03 17:40:06,2018-09-11 19:48:28,2018-10-17 13:22:46,2018-11-12 00:00:00


In [11]:
df_items.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   order_id             112650 non-null  object        
 1   order_item_id        112650 non-null  int64         
 2   product_id           112650 non-null  object        
 3   seller_id            112650 non-null  object        
 4   shipping_limit_date  112650 non-null  datetime64[ns]
 5   price                112650 non-null  float64       
 6   freight_value        112650 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 6.0+ MB


In [12]:
df_items.head()

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


In [13]:
df_items.describe(include='all', datetime_is_numeric=True)

Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
count,112650,112650.0,112650,112650,112650,112650.0,112650.0
unique,98666,,32951,3095,,,
top,8272b63d03f5f79c56e9e4120aec44ef,,aca2eb7d00ea1a7b8ebd4e68314663af,6560211a19b47992c3666cc44a7e94c0,,,
freq,21,,527,2033,,,
mean,,1.197834,,,2018-01-07 15:36:52.192685312,120.653739,19.99032
min,,1.0,,,2016-09-19 00:15:34,0.85,0.0
25%,,1.0,,,2017-09-20 20:57:27.500000,39.9,13.08
50%,,1.0,,,2018-01-26 13:59:35,74.99,16.26
75%,,1.0,,,2018-05-10 14:34:00.750000128,134.9,21.15
max,,21.0,,,2020-04-09 22:35:08,6735.0,409.68


### Совершенной покупкой будем считать заказы удовлетворящие следующим факторам:  
1. Заказ находится не в статусе **"canceled"**. Это значит, что заказ не отменен  
2. Заказ находится не в статусе **"unavailable"**. Это значит, что заказ доступен  
3. У заказа проставлена дата подтверждения оплаты (**order_approved_at**)


In [14]:
# query для заказов в состоянии "совершена покупка"
query_purchased = 'order_approved_at.notna() and order_status != "canceled" and order_status != "unavailable"'

 --- 
  
## 1 задание. Сколько у нас пользователей, которые совершили покупку только один раз? 
  
  

Для выполнения этого задания нам нужно объединить таблицы пользователей и заказов

In [15]:
df_customers_orders = pd.merge(df_customers, df_orders, how = 'left', on = 'customer_id')
df_customers_orders.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,order_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,00e7ee1b050b8499577073aeb2a297a1,delivered,2017-05-16 15:05:35,2017-05-16 15:22:12,2017-05-23 10:47:57,2017-05-25 10:35:35,2017-06-05
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,29150127e6685892b6eab3eec79f59c7,delivered,2018-01-12 20:48:24,2018-01-12 20:58:32,2018-01-15 17:14:59,2018-01-29 12:41:19,2018-02-06
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,b2059ed67ce144a36e2aa97d2c9e9ad2,delivered,2018-05-19 16:07:45,2018-05-20 16:19:10,2018-06-11 14:31:00,2018-06-14 17:58:51,2018-06-13
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,951670f92359f4fe4a63112aa7306eba,delivered,2018-03-13 16:06:38,2018-03-13 17:29:19,2018-03-27 23:22:42,2018-03-28 16:04:25,2018-04-10
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,6b7d50bd145f6fc7f33cebabd7e49d0f,delivered,2018-07-29 09:51:30,2018-07-29 10:10:09,2018-07-30 15:16:00,2018-08-09 20:55:48,2018-08-15


Производим фильтрацию по выше упомянутым факторам совершенной покупки.  
Группируем по `customer_unique_id`, чтобы затем использовать функцию `size()` для нахождения количества покупок для каждого клиента.  
После чего производим фильтрацию, оставляя только пользователей с одной покупкой и выводим их количество

In [16]:
df_customers_orders.query(query_purchased)\
                    .groupby('customer_unique_id')\
                    .size()\
                    .reset_index(name='counts')\
                    .query('counts == 1')\
                    .shape[0]


92087

В итоге имеем 92087 уникальных клиентов с одной покупкой

---
## 2 задание. Сколько заказов в месяц в среднем не доставляется по разным причинам (вывести детализацию по причинам)?

In [17]:
df_orders_by_month = df_orders

Так как нам надо проанализировать информацию по месяцам, введем новый столбец с месяцами, будем использовать в качестве изначальной информации `order_purchase_timestamp`

In [18]:
df_orders_by_month['month'] = df_orders_by_month['order_purchase_timestamp'].dt.to_period('M')

In [19]:
# Выведем количество месяцев за которые у нас есть данные
df_orders_by_month.agg({'month':'nunique'})

month    25
dtype: int64

Проведем краткий анализ заказов по их состоянию относительно дат различных событий

In [20]:
# недоставлено по причине отмены перед оплаты
# есть заказы которое были доставлены, но не оплачены (видимо ошибка в данных)
# и есть 5 просто только созданных заказов
df_orders_by_month.query('order_purchase_timestamp.notna() and order_approved_at.isna()').value_counts('order_status')

order_status
canceled     141
delivered     14
created        5
dtype: int64

In [21]:
# Получается все эти заказы были доставлены без оплаты (благотворительность???), 
# так как таких ошибок мало они не повлияют на результаты
df_orders_by_month.query('order_purchase_timestamp.notna() and order_approved_at.isna() and order_status=="delivered"')

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,month
5323,e04abd8149ef81b95221e88f6ed9ab6a,2127dc6603ac33544953ef05ec155771,delivered,2017-02-18 14:40:00,NaT,2017-02-23 12:04:47,2017-03-01 13:25:33,2017-03-17,2017-02
16567,8a9adc69528e1001fc68dd0aaebbb54a,4c1ccc74e00993733742a3c786dc3c1f,delivered,2017-02-18 12:45:31,NaT,2017-02-23 09:01:52,2017-03-02 10:05:06,2017-03-21,2017-02
19031,7013bcfc1c97fe719a7b5e05e61c12db,2941af76d38100e0f8740a374f1a5dc3,delivered,2017-02-18 13:29:47,NaT,2017-02-22 16:25:25,2017-03-01 08:07:38,2017-03-17,2017-02
22663,5cf925b116421afa85ee25e99b4c34fb,29c35fc91fc13fb5073c8f30505d860d,delivered,2017-02-18 16:48:35,NaT,2017-02-22 11:23:10,2017-03-09 07:28:47,2017-03-31,2017-02
23156,12a95a3c06dbaec84bcfb0e2da5d228a,1e101e0daffaddce8159d25a8e53f2b2,delivered,2017-02-17 13:05:55,NaT,2017-02-22 11:23:11,2017-03-02 11:09:19,2017-03-20,2017-02
26800,c1d4211b3dae76144deccd6c74144a88,684cb238dc5b5d6366244e0e0776b450,delivered,2017-01-19 12:48:08,NaT,2017-01-25 14:56:50,2017-01-30 18:16:01,2017-03-01,2017-01
38290,d69e5d356402adc8cf17e08b5033acfb,68d081753ad4fe22fc4d410a9eb1ca01,delivered,2017-02-19 01:28:47,NaT,2017-02-23 03:11:48,2017-03-02 03:41:58,2017-03-27,2017-02
39334,d77031d6a3c8a52f019764e68f211c69,0bf35cac6cc7327065da879e2d90fae8,delivered,2017-02-18 11:04:19,NaT,2017-02-23 07:23:36,2017-03-02 16:15:23,2017-03-22,2017-02
48401,7002a78c79c519ac54022d4f8a65e6e8,d5de688c321096d15508faae67a27051,delivered,2017-01-19 22:26:59,NaT,2017-01-27 11:08:05,2017-02-06 14:22:19,2017-03-16,2017-01
61743,2eecb0d85f281280f79fa00f9cec1a95,a3d3c38e58b9d2dfb9207cab690b6310,delivered,2017-02-17 17:21:55,NaT,2017-02-22 11:42:51,2017-03-03 12:16:03,2017-03-20,2017-02


In [22]:
df_orders_by_month.query('order_purchase_timestamp.notna() and order_approved_at.isna() and order_status=="created"')

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,month
7434,b5359909123fa03c50bdb0cfed07f098,438449d4af8980d107bf04571413a8e7,created,2017-12-05 01:07:52,NaT,NaT,NaT,2018-01-11,2017-12
9238,dba5062fbda3af4fb6c33b1e040ca38f,964a6df3d9bdf60fe3e7b8bb69ed893a,created,2018-02-09 17:21:04,NaT,NaT,NaT,2018-03-07,2018-02
21441,7a4df5d8cff4090e541401a20a22bb80,725e9c75605414b21fd8c8d5a1c2f1d6,created,2017-11-25 11:10:33,NaT,NaT,NaT,2017-12-12,2017-11
55086,35de4050331c6c644cddc86f4f2d0d64,4ee64f4bfc542546f422da0aeb462853,created,2017-12-05 01:07:58,NaT,NaT,NaT,2018-01-08,2017-12
58958,90ab3e7d52544ec7bc3363c82689965f,7d61b9f4f216052ba664f22e9c504ef1,created,2017-11-06 13:12:34,NaT,NaT,NaT,2017-12-01,2017-11


In [23]:
# 409 заказов были отменены после оплаты, но перед началом доставки
# 609 заказов в статусе недоступно, хотя при этом они оплачены, возможно по причине отсуствия товара на складе
# В остальном данные выглядят обычными, кроме опять странных выбросов 2 заказа, которые доставлены, но курьер их не забирал со склада
df_orders_by_month.query('order_purchase_timestamp.notna() and order_approved_at.notna() and order_delivered_carrier_date.isna()').value_counts('order_status')

order_status
unavailable    609
canceled       409
invoiced       314
processing     301
delivered        2
approved         2
dtype: int64

In [24]:
# Видимо товара нет, поэтому по своей сути это можно приравнивать к отмененным заказам
df_orders_by_month.query('order_purchase_timestamp.notna() and order_delivered_carrier_date.isna() and order_status=="unavailable"')

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,month
266,8e24261a7e58791d10cb1bf9da94df5c,64a254d30eed42cd0e6c36dddb88adf0,unavailable,2017-11-16 15:09:28,2017-11-16 15:26:57,NaT,NaT,2017-12-05,2017-11
586,c272bcd21c287498b4883c7512019702,9582c5bbecc65eb568e2c1d839b5cba1,unavailable,2018-01-31 11:31:37,2018-01-31 14:23:50,NaT,NaT,2018-02-16,2018-01
687,37553832a3a89c9b2db59701c357ca67,7607cd563696c27ede287e515812d528,unavailable,2017-08-14 17:38:02,2017-08-17 00:15:18,NaT,NaT,2017-09-05,2017-08
737,d57e15fb07fd180f06ab3926b39edcd2,470b93b3f1cde85550fc74cd3a476c78,unavailable,2018-01-08 19:39:03,2018-01-09 07:26:08,NaT,NaT,2018-02-06,2018-01
1160,2f634e2cebf8c0283e7ef0989f77d217,7353b0fb8e8d9675e3a704c60ca44ebe,unavailable,2017-09-27 20:55:33,2017-09-28 01:32:50,NaT,NaT,2017-10-27,2017-09
...,...,...,...,...,...,...,...,...,...
99147,6cf5c427fb11bc5fe8abefa86aa7ba0b,91ac14a1e50bc022eeecf0c2ba37006a,unavailable,2017-10-17 10:53:48,2017-10-19 03:12:43,NaT,NaT,2017-10-27,2017-10
99233,1c7c8ab324927f5b6e52338bd110bef4,95b1767df51d6fa09402267d8de314df,unavailable,2017-12-23 18:48:09,2017-12-23 18:54:22,NaT,NaT,2018-01-19,2017-12
99252,aaab15da689073f8f9aa978a390a69d1,df20748206e4b865b2f14a5eabbfcf34,unavailable,2018-01-16 14:27:59,2018-01-17 03:37:34,NaT,NaT,2018-02-06,2018-01
99348,a69ba794cc7deb415c3e15a0a3877e69,726f0894b5becdf952ea537d5266e543,unavailable,2017-08-23 16:28:04,2017-08-28 15:44:47,NaT,NaT,2017-09-15,2017-08


In [25]:
# 69 заказов было отменено в момент доставки 
# опять выброс в виде нет времени доставки, но статус доставлен, видимо какая-то внутренняя ошибка
df_orders_by_month.query('order_purchase_timestamp.notna() and order_approved_at.notna() and order_delivered_carrier_date.notna() and order_delivered_customer_date.isna()').value_counts('order_status')

order_status
shipped      1107
canceled       69
delivered       7
dtype: int64

In [26]:
# Прогнозируемый срок доставки у всех заказов проставляется, с этим нет проблем
df_orders_by_month.query('order_estimated_delivery_date.isna()').value_counts('order_status')

Series([], dtype: int64)

In [27]:
# 6 заказов было отменено после доставки
df_orders_by_month.query('order_delivered_customer_date.notna()').value_counts('order_status')

order_status
delivered    96470
canceled         6
dtype: int64

In [28]:
# Видно что много заказов доставляются позже прогноза
df_orders_by_month.query('order_estimated_delivery_date < order_delivered_customer_date').value_counts('order_status')

order_status
delivered    7826
canceled        1
dtype: int64

Создадим функцию, которая будет преобразовывать статус заказа в причину того, почему заказ не был доставлен

In [29]:
def create_reason(order):
    if (order['order_status'] == "unavailable"):
        return "Заказ в состоянии недоступен"
    elif (order['order_status'] == "canceled"):
        return "Заказ отменен"
    elif (order['order_status'] == "delivered"):
        return ""
    else:
        return "Заказ в процессе работы"
        

In [30]:
df_orders_by_month['nondelivered_reason'] = df_orders_by_month.apply(create_reason, axis = 1)

In [31]:
df_orders_by_month.query('nondelivered_reason != ""')\
         .groupby(['nondelivered_reason', 'month'], as_index = False)\
         .agg({'order_id' : 'count'})\
         .groupby('nondelivered_reason', as_index = False)\
         .agg({'order_id': 'mean'})\
         .rename(columns = {'order_id':'mean_count'})

Unnamed: 0,nondelivered_reason,mean_count
0,Заказ в процессе работы,75.173913
1,Заказ в состоянии недоступен,29.0
2,Заказ отменен,26.041667


В результате видим, что среди недоставленных заказов в месяц большинство находится в процессе доставки и примерно равное количество отменены или были недоступны после оплаты (то есть отменил сам магазин по причине отсуствия товара на складе (возможная причина))

---
## 3 задание. По каждому товару определить, в какой день недели товар чаще всего покупается.

Для выполнения этого задания нам необходимо объединить таблицы заказов и товаров.

In [32]:
df_deliv_orders_items = pd.merge(df_orders.query(query_purchased), df_items, on = 'order_id')\
[['order_id', 'order_purchase_timestamp', 'product_id']]

In [33]:
df_deliv_orders_items.head()

Unnamed: 0,order_id,order_purchase_timestamp,product_id
0,e481f51cbdc54678b7cc49136f2d6af7,2017-10-02 10:56:33,87285b34884572647811a353c7ac498a
1,53cdb2fc8bc7dce0b6741e2150273451,2018-07-24 20:41:37,595fac2a385ac33a80bd5114aec74eb8
2,47770eb9100c2d0c44946d9cf07ec65d,2018-08-08 08:38:49,aa4383b373c6aca5d8797843e5594415
3,949d5b44dbf5de918fe9c16f97b45f8a,2017-11-18 19:28:06,d0b61bfb1de832b15ba9d266ca96e5b0
4,ad21c59c0840e6cb83a9ceb5573f8159,2018-02-13 21:18:39,65266b2da20d04dbe00c5c2d3bb7859e


In [34]:
# Создаем колонку с информацией в какой день недели была совершена покупка
df_deliv_orders_items['purchase_day_of_week'] = df_deliv_orders_items['order_purchase_timestamp'].dt.day_name()
df_deliv_orders_items.head()

Unnamed: 0,order_id,order_purchase_timestamp,product_id,purchase_day_of_week
0,e481f51cbdc54678b7cc49136f2d6af7,2017-10-02 10:56:33,87285b34884572647811a353c7ac498a,Monday
1,53cdb2fc8bc7dce0b6741e2150273451,2018-07-24 20:41:37,595fac2a385ac33a80bd5114aec74eb8,Tuesday
2,47770eb9100c2d0c44946d9cf07ec65d,2018-08-08 08:38:49,aa4383b373c6aca5d8797843e5594415,Wednesday
3,949d5b44dbf5de918fe9c16f97b45f8a,2017-11-18 19:28:06,d0b61bfb1de832b15ba9d266ca96e5b0,Saturday
4,ad21c59c0840e6cb83a9ceb5573f8159,2018-02-13 21:18:39,65266b2da20d04dbe00c5c2d3bb7859e,Tuesday


Группируем товары по дням недели и считаем количество покупок, после этого сортируем по количеству покупок и   удаляем дубликаты товаров, так мы получим максимальное количество покупок и день недели, в который они совершены, для каждого товара.

In [35]:
df_deliv_orders_items.groupby(['product_id','purchase_day_of_week'], as_index = False)\
                     .agg({'order_id' : 'count'})\
                     .rename(columns = {'order_id':'counts'})\
                     .sort_values('counts', ascending = False)\
                     .drop_duplicates('product_id').head(10)

Unnamed: 0,product_id,purchase_day_of_week,counts
15812,422879e10f46682990de24d770e7f83d,Wednesday,93
36305,99a4788cb24856965c36a24e339b6058,Monday,92
40819,aca2eb7d00ea1a7b8ebd4e68314663af,Thursday,89
20009,53b36df67ebb7c41585e8d54d6772e08,Tuesday,76
13459,389d119b48cf3043d311335e499d9c6b,Thursday,67
12929,368c6c730842d78016ad823897a372db,Friday,67
19960,53759a2ecddad2bb87a079a1f1519f73,Wednesday,66
49923,d1c427060a0f73f6b889a5c7c61f2ac4,Monday,64
14750,3dd2a17168ec895c781a9191c1e95ad7,Wednesday,54
39298,a62e25e09e05e6faf31d90c6ec1aa3d1,Thursday,49


Видим, что товар 422879e10f46682990de24d770e7f83d чаще всего покупают в среду, в данном случае 93 покупки.

---
## 4 задание. Сколько у каждого из пользователей в среднем покупок в неделю (по месяцам)? Не стоит забывать, что внутри месяца может быть не целое количество недель. Например, в ноябре 2021 года 4,28 недели. И внутри метрики это нужно учесть.

Для выполнения данного задания необходимо объединить таблицы клиентов и заказов по месяцам

In [36]:
df_orders_customers = pd.merge(df_customers, df_orders_by_month.query(query_purchased), on = 'customer_id')\
                            [['customer_id', 'customer_unique_id', 'order_id', 'order_purchase_timestamp', 'month']]

In [37]:
# вводим колонку количество недель в месяце чтобы обрабатывать варианты с неполной неделей в месяце
df_orders_customers['weeks_in_month'] = df_orders_customers['month'].apply(lambda x: x.days_in_month / 7 )
df_orders_customers.head()

Unnamed: 0,customer_id,customer_unique_id,order_id,order_purchase_timestamp,month,weeks_in_month
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,00e7ee1b050b8499577073aeb2a297a1,2017-05-16 15:05:35,2017-05,4.428571
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,29150127e6685892b6eab3eec79f59c7,2018-01-12 20:48:24,2018-01,4.428571
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,b2059ed67ce144a36e2aa97d2c9e9ad2,2018-05-19 16:07:45,2018-05,4.428571
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,951670f92359f4fe4a63112aa7306eba,2018-03-13 16:06:38,2018-03,4.428571
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,6b7d50bd145f6fc7f33cebabd7e49d0f,2018-07-29 09:51:30,2018-07,4.428571


In [38]:
# Сгруппируем по клиентам, месяцам и количеству недель в месяце, посчитаем количество заказов 
df_orders_customers = df_orders_customers.groupby(['customer_unique_id','month','weeks_in_month'], as_index = False)\
                   .agg({'order_id': 'count'})\
                   .rename(columns = {'order_id':'counts'})
df_orders_customers.head()

Unnamed: 0,customer_unique_id,month,weeks_in_month,counts
0,0000366f3b9a7992bf8c76cfdf3221e2,2018-05,4.428571,1
1,0000b849f77a49e4a4ce2b2a4ca5be3f,2018-05,4.428571,1
2,0000f46a3911fa3c0805444483337064,2017-03,4.428571,1
3,0000f6ccb0745a6a4b88665a16c9f078,2017-10,4.428571,1
4,0004aac84e0df4da2b147fca70cf8255,2017-11,4.285714,1


In [39]:
# Создадим колонку mean_count чтобы вывести в ней среднее количество заказов клиента в месяц по неделям
df_orders_customers['mean_count'] = df_orders_customers.counts / df_orders_customers.weeks_in_month

In [40]:
df_orders_customers.head()

Unnamed: 0,customer_unique_id,month,weeks_in_month,counts,mean_count
0,0000366f3b9a7992bf8c76cfdf3221e2,2018-05,4.428571,1,0.225806
1,0000b849f77a49e4a4ce2b2a4ca5be3f,2018-05,4.428571,1,0.225806
2,0000f46a3911fa3c0805444483337064,2017-03,4.428571,1,0.225806
3,0000f6ccb0745a6a4b88665a16c9f078,2017-10,4.428571,1,0.225806
4,0004aac84e0df4da2b147fca70cf8255,2017-11,4.285714,1,0.233333


---
## 5 задание. Выполните когортный анализ пользователей. В период с января по декабрь выявите когорту с самым высоким retention на 3-й месяц.

Для выполнения когортного анализа нам потребуется объединить таблицы клиентов и заказов. 

In [41]:
customers_orders_cohort = pd.merge(df_orders.query(query_purchased), df_customers, on = 'customer_id')\
[['order_approved_at', 'customer_unique_id']]

In [42]:
# Выделяем когорты клиентов по дате первой покупки, период берем в виде месяца
customers_orders_cohort['cohort'] = customers_orders_cohort\
                                             .groupby('customer_unique_id')['order_approved_at'].transform('min')\
                                             .dt.to_period('M')
customers_orders_cohort.head()

Unnamed: 0,order_approved_at,customer_unique_id,cohort
0,2017-10-02 11:07:15,7c396fd4830fd04220f754e42b4e5bff,2017-09
1,2018-07-26 03:24:27,af07308b275d755c9edb36a90c618231,2018-07
2,2018-08-08 08:55:23,3a653a41f6f9fc3d2a113cf8398680e8,2018-08
3,2017-11-18 19:45:59,7c142cf63193a1473d2e66489a9ae977,2017-11
4,2018-02-13 22:20:29,72632f0f9dd73dfee390c9b22eb56dd6,2018-02


In [43]:
# Данные с сентября 2016 по октябрь 2018.
# Для задания необходимо взять период с января по декабрь , следовательно берем 2017 год
customers_orders_cohort.agg({'order_approved_at':['min','max']})

Unnamed: 0,order_approved_at
min,2016-09-15 12:16:38
max,2018-09-03 17:40:06


In [44]:
# Вводим колонку approved_month, которая указывает на месяц подтверждения оплаты(то есть совершения покупки)
customers_orders_cohort['approved_month'] = customers_orders_cohort['order_approved_at'].dt.to_period('M')
customers_orders_cohort.head()

Unnamed: 0,order_approved_at,customer_unique_id,cohort,approved_month
0,2017-10-02 11:07:15,7c396fd4830fd04220f754e42b4e5bff,2017-09,2017-10
1,2018-07-26 03:24:27,af07308b275d755c9edb36a90c618231,2018-07,2018-07
2,2018-08-08 08:55:23,3a653a41f6f9fc3d2a113cf8398680e8,2018-08,2018-08
3,2017-11-18 19:45:59,7c142cf63193a1473d2e66489a9ae977,2017-11,2017-11
4,2018-02-13 22:20:29,72632f0f9dd73dfee390c9b22eb56dd6,2018-02,2018-02


In [45]:
# Теперь создаем новый датафрейм только для 2017 года
customers_orders_cohort_2017 = customers_orders_cohort.query('cohort >= "2017-01-01" and cohort < "2018-01-01"')
customers_orders_cohort_2017.head()

Unnamed: 0,order_approved_at,customer_unique_id,cohort,approved_month
0,2017-10-02 11:07:15,7c396fd4830fd04220f754e42b4e5bff,2017-09,2017-10
3,2017-11-18 19:45:59,7c142cf63193a1473d2e66489a9ae977,2017-11,2017-11
5,2017-07-09 22:10:13,80bb27c7c16e8f973207a5086ab329e2,2017-07,2017-07
6,2017-04-13 13:25:17,36edbb3fb164b1f16485364b6fb04c73,2017-04,2017-04
7,2017-05-16 13:22:11,932afa1e708222e5821dac9cd5db4cae,2017-05,2017-05


In [46]:
# Вводим колонку num, которая будет хранить разницу между месяцем покупки и когортой данного клиента(то есть месяцем первой покупки)
customers_orders_cohort_2017['num'] = (customers_orders_cohort_2017['approved_month'] - customers_orders_cohort_2017['cohort']).apply(lambda x : x.n)
customers_orders_cohort_2017.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


Unnamed: 0,order_approved_at,customer_unique_id,cohort,approved_month,num
0,2017-10-02 11:07:15,7c396fd4830fd04220f754e42b4e5bff,2017-09,2017-10,1
3,2017-11-18 19:45:59,7c142cf63193a1473d2e66489a9ae977,2017-11,2017-11,0
5,2017-07-09 22:10:13,80bb27c7c16e8f973207a5086ab329e2,2017-07,2017-07,0
6,2017-04-13 13:25:17,36edbb3fb164b1f16485364b6fb04c73,2017-04,2017-04,0
7,2017-05-16 13:22:11,932afa1e708222e5821dac9cd5db4cae,2017-05,2017-05,0


In [47]:
# посчитаем количество уникальных пользователей когорт с месяцем последующих покупок
customers_orders_cohort_2017 = customers_orders_cohort_2017.groupby(['cohort', 'approved_month', 'num'], as_index = False)\
.agg({'customer_unique_id': 'nunique'})\
.rename(columns = {'customer_unique_id':'customer_cnt'})

In [48]:
customers_orders_cohort_2017

Unnamed: 0,cohort,approved_month,num,customer_cnt
0,2017-01,2017-01,0,716
1,2017-01,2017-02,1,4
2,2017-01,2017-03,2,2
3,2017-01,2017-04,3,1
4,2017-01,2017-05,4,3
...,...,...,...,...
166,2017-12,2018-04,4,13
167,2017-12,2018-05,5,11
168,2017-12,2018-06,6,9
169,2017-12,2018-07,7,1


In [49]:
# Создаем pivot таблицу с когортным анализом по месяцам за 2017 год
customers_orders_cohort_2017_p = customers_orders_cohort_2017.pivot_table(index = 'cohort', columns = 'num', values = 'customer_cnt', aggfunc = 'sum')

In [50]:
customers_orders_cohort_2017_p

num,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19
cohort,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
2017-01,716.0,4.0,2.0,1.0,3.0,1.0,3.0,1.0,1.0,,2.0,2.0,5.0,3.0,1.0,1.0,2.0,3.0,1.0
2017-02,1674.0,4.0,4.0,3.0,7.0,2.0,4.0,3.0,1.0,3.0,2.0,5.0,2.0,3.0,2.0,1.0,1.0,4.0,
2017-03,2580.0,13.0,9.0,9.0,9.0,4.0,4.0,8.0,8.0,3.0,10.0,3.0,6.0,3.0,4.0,6.0,2.0,4.0,
2017-04,2301.0,14.0,5.0,4.0,6.0,6.0,8.0,6.0,8.0,4.0,5.0,2.0,2.0,1.0,2.0,2.0,3.0,,
2017-05,3543.0,19.0,17.0,14.0,11.0,12.0,15.0,5.0,9.0,9.0,10.0,12.0,7.0,2.0,7.0,8.0,,,
2017-06,3110.0,14.0,11.0,12.0,8.0,11.0,11.0,7.0,4.0,7.0,10.0,11.0,5.0,4.0,6.0,,,,
2017-07,3776.0,20.0,12.0,7.0,13.0,7.0,12.0,4.0,7.0,9.0,8.0,11.0,5.0,10.0,,,,,
2017-08,4154.0,28.0,15.0,11.0,16.0,22.0,11.0,11.0,5.0,7.0,10.0,7.0,6.0,,,,,,
2017-09,4097.0,27.0,20.0,14.0,17.0,11.0,9.0,9.0,13.0,7.0,11.0,3.0,,,,,,,
2017-10,4360.0,30.0,13.0,4.0,10.0,8.0,11.0,16.0,12.0,9.0,9.0,,,,,,,,


In [63]:
ur_style  = (customers_orders_cohort_2017_p
            .style
            .set_caption('User retention by cohort')  # добавляем подпись
            .background_gradient(cmap='viridis')  # раскрашиваем ячейки по столбцам
            .highlight_null('white')  # делаем белый фон для значений NaN
            .format("{:0.1f}", na_rep=""))  # NaN заменяем на пустоту

In [64]:
ur_style 

num,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19
cohort,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1
2017-01,716.0,4.0,2.0,1.0,3.0,1.0,3.0,1.0,1.0,,2.0,2.0,5.0,3.0,1.0,1.0,2.0,3.0,1.0
2017-02,1674.0,4.0,4.0,3.0,7.0,2.0,4.0,3.0,1.0,3.0,2.0,5.0,2.0,3.0,2.0,1.0,1.0,4.0,
2017-03,2580.0,13.0,9.0,9.0,9.0,4.0,4.0,8.0,8.0,3.0,10.0,3.0,6.0,3.0,4.0,6.0,2.0,4.0,
2017-04,2301.0,14.0,5.0,4.0,6.0,6.0,8.0,6.0,8.0,4.0,5.0,2.0,2.0,1.0,2.0,2.0,3.0,,
2017-05,3543.0,19.0,17.0,14.0,11.0,12.0,15.0,5.0,9.0,9.0,10.0,12.0,7.0,2.0,7.0,8.0,,,
2017-06,3110.0,14.0,11.0,12.0,8.0,11.0,11.0,7.0,4.0,7.0,10.0,11.0,5.0,4.0,6.0,,,,
2017-07,3776.0,20.0,12.0,7.0,13.0,7.0,12.0,4.0,7.0,9.0,8.0,11.0,5.0,10.0,,,,,
2017-08,4154.0,28.0,15.0,11.0,16.0,22.0,11.0,11.0,5.0,7.0,10.0,7.0,6.0,,,,,,
2017-09,4097.0,27.0,20.0,14.0,17.0,11.0,9.0,9.0,13.0,7.0,11.0,3.0,,,,,,,
2017-10,4360.0,30.0,13.0,4.0,10.0,8.0,11.0,16.0,12.0,9.0,9.0,,,,,,,,


**Когорта с самым высоким retention на 3-й месяц в 2017 году - 2017-09.**

---
## 6 задание. Часто для качественного анализа аудитории использую подходы, основанные на сегментации. Используя python, построй RFM-сегментацию пользователей, чтобы качественно оценить свою аудиторию. В кластеризации можешь выбрать следующие метрики: R - время от последней покупки пользователя до текущей даты, F - суммарное количество покупок у пользователя за всё время, M - сумма покупок за всё время. Подробно опиши, как ты создавал кластеры. Для каждого RFM-сегмента построй границы метрик recency, frequency и monetary для интерпретации этих кластеров. Пример такого описания: RFM-сегмент 132 (recency=1, frequency=3, monetary=2) имеет границы метрик recency от 130 до 500 дней, frequency от 2 до 5 заказов в неделю, monetary от 1780 до 3560 рублей в неделю.

In [53]:
# Для выполнения этого задания нам нужно объединить все три таблицы
full_df = df_orders.query(query_purchased)\
.merge(df_customers, on = 'customer_id')\
.merge(df_items, on = 'order_id')\
[['order_id', 'customer_unique_id', 'order_purchase_timestamp', 'price']]
full_df.head()

Unnamed: 0,order_id,customer_unique_id,order_purchase_timestamp,price
0,e481f51cbdc54678b7cc49136f2d6af7,7c396fd4830fd04220f754e42b4e5bff,2017-10-02 10:56:33,29.99
1,53cdb2fc8bc7dce0b6741e2150273451,af07308b275d755c9edb36a90c618231,2018-07-24 20:41:37,118.7
2,47770eb9100c2d0c44946d9cf07ec65d,3a653a41f6f9fc3d2a113cf8398680e8,2018-08-08 08:38:49,159.9
3,949d5b44dbf5de918fe9c16f97b45f8a,7c142cf63193a1473d2e66489a9ae977,2017-11-18 19:28:06,45.0
4,ad21c59c0840e6cb83a9ceb5573f8159,72632f0f9dd73dfee390c9b22eb56dd6,2018-02-13 21:18:39,19.9


In [54]:
current_day = full_df.order_purchase_timestamp.max() + timedelta(days = 1)
current_day

Timestamp('2018-09-04 09:06:57')

In [55]:
# Сгруппируем данные по клиентам и введем метрики R - количество дней с последнего заказа клиента, 
# F - количество заказов клиента и M - общая сумма заказов клиента
rfm = full_df.groupby('customer_unique_id', as_index = False)\
.agg({'order_purchase_timestamp' : lambda x: (current_day - x.max()).days, 'order_id' : 'nunique', 'price':'sum'})\
.rename(columns = {'order_purchase_timestamp' : 'R', 'order_id' : 'F', 'price': 'M'})
rfm.head()

Unnamed: 0,customer_unique_id,R,F,M
0,0000366f3b9a7992bf8c76cfdf3221e2,116,1,129.9
1,0000b849f77a49e4a4ce2b2a4ca5be3f,119,1,18.9
2,0000f46a3911fa3c0805444483337064,542,1,69.0
3,0000f6ccb0745a6a4b88665a16c9f078,326,1,25.99
4,0004aac84e0df4da2b147fca70cf8255,293,1,180.0


In [56]:
# Сегментируем данные по квантилям: 20, 40, 60, 80
rfm_segment = rfm.quantile(q=[0.2, 0.4, 0.6, 0.8]).to_dict()
rfm_segment

{'R': {0.2: 98.0, 0.4: 182.0, 0.6: 273.0, 0.8: 388.0},
 'F': {0.2: 1.0, 0.4: 1.0, 0.6: 1.0, 0.8: 1.0},
 'M': {0.2: 39.9, 0.4: 69.9, 0.6: 109.9, 0.8: 179.9}}

In [57]:
# Конвертируем сегменты в баллы по квантилям
def convert_seg_to_score(value, quantiles):
    if value <= quantiles[0.2]:
        return 1
    elif value <= quantiles[0.4]:
        return 2
    elif value <= quantiles[0.6]:
        return 3
    elif value <= quantiles[0.8]:
        return 4
    else:
        return 5

In [58]:
# Выполняем конвертацию, добавляем колонки для каждой метрики и для общей метрики RFM
rfm['R_score'] = rfm['R'].apply(lambda r: convert_seg_to_score(r, rfm_segment['R']))
rfm['F_score'] = rfm['F'].apply(lambda f: convert_seg_to_score(f, rfm_segment['F']))
rfm['M_score'] = rfm['M'].apply(lambda m: convert_seg_to_score(m, rfm_segment['M']))
rfm['RFM_score'] = rfm['R_score'].apply(lambda x: str(x)) + rfm['F_score'].apply(lambda x: str(x)) + rfm['M_score'].apply(lambda x: str(x))

In [59]:
rfm.sort_values('RFM_score', ascending = False)

Unnamed: 0,customer_unique_id,R,F,M,R_score,F_score,M_score,RFM_score
53559,9077449283dc1319d5e51fb3159b28e2,396,3,227.24,5,5,5,555
72823,c40b4a21d854ab194280dadc8998061f,431,2,219.80,5,5,5,555
63410,aaad6d68de5490cba508e4203ddc87de,432,2,316.90,5,5,5,555
75743,cbebce165db72a2bfba9e81a3411bdf7,482,2,316.40,5,5,5,555
42348,71d2dbb6d2f52d568ca9d69c815a4331,443,2,367.90,5,5,5,555
...,...,...,...,...,...,...,...,...
19613,349fbf20165c462b20049d6d8551d2d6,70,1,30.00,1,1,1,111
40369,6c6ff848f6f705ca1235ac80c414f709,27,1,29.00,1,1,1,111
11889,1fd4f857b3f68f5622ebde22e2b328a6,80,1,12.99,1,1,1,111
27482,49dfc82e98da68298ca09bd394c08e7f,66,1,29.60,1,1,1,111


Покупатели с рейтингом 555 самые лояльные и активные покупатели (покупали недавно, покупают часто и много платят).  
Покупатели с рейтингом 111 потерянные (покупали давно, покупают редко и мало платят).  
У кого F, M высокие, а R низкий - это лояльные, но неактивные.   
У кого R высокий , а F - это новые клиенты.  