# Добро пожаловать на работу в Olist Store!

**Olist Store** является крупнейшим универмагом на рынках Бразилии. Поздравляем, вы приняты на работу на должность **Data Scientist**. Поверьте, это лучшее, что могло случиться с вашей карьерой.

Ваш руководитель – наш **Chief Product Officer**. У него большой опыт, и именно он будет давать вам задания. Надеемся, вы у него многому научитесь.

## Ваша первая задача

Ваша первая задача - выполнить **RFM-анализ**. Этот анализ делит пользователей на сегменты в зависимости от давности (Recency), частоты (Frequency) и общей суммы платежей (Monetary). Давайте подробнее разберем эти показатели:

- **Recency** - разница между текущей датой и датой последнего платежа
- **Frequency** - количество транзакций
- **Monetary** - сумма покупок

Эти три показателя нужно рассчитать отдельно для каждого покупателя. После этого поставить оценки от 1 до 3 или от 1 до 5. Чем шире диапазон, тем более узкие сегменты мы получим.

Рекомендуем выставить баллы с использованием **квантилей**. Сортируйте данные по одному из критериев и делите на равные группы.

Для выполнения этой задачи используйте публичный датасет, доступный по ссылке: [Brazilian E-commerce Public Dataset by Olist](https://www.kaggle.com/olistbr/brazilian-ecommerce). Используйте файлы `olist_orders_dataset.csv` и `olist_order_payments_dataset.csv`. Соединить их можно по `order_id`.

### Подсказки по коду:

```python
# Вместо текущей даты будем использовать max+1
last_date = order_payment['order_delivered_carrier_date'].max() + timedelta(days=1)

# Разбить на квантили
quantiles = df.quantile(q=[0.20, 0.40, 0.60, 0.80])

Не забудьте написать выводы по результатам выполненной работы.

Полезные материалы для изучения:
Главное об RFM-анализе: как сегментировать клиентов, чтобы они покупали больше и чаще
RFM-анализ


In [1]:
import pandas as pd
from datetime import timedelta



In [2]:
orders = pd.read_csv('../data/task1/olist_orders_dataset.csv')
payments = pd.read_csv('../data/task1/olist_order_payments_dataset.csv')

In [3]:
df=pd.merge(orders,payments, on = 'order_id')

In [4]:
df.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,payment_sequential,payment_type,payment_installments,payment_value
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,1,credit_card,1,18.12
1,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,3,voucher,1,2.0
2,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,2,voucher,1,18.59
3,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00,1,boleto,1,141.46
4,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00,1,credit_card,3,179.12


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 103886 entries, 0 to 103885
Data columns (total 12 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   order_id                       103886 non-null  object 
 1   customer_id                    103886 non-null  object 
 2   order_status                   103886 non-null  object 
 3   order_purchase_timestamp       103886 non-null  object 
 4   order_approved_at              103711 non-null  object 
 5   order_delivered_carrier_date   101998 non-null  object 
 6   order_delivered_customer_date  100754 non-null  object 
 7   order_estimated_delivery_date  103886 non-null  object 
 8   payment_sequential             103886 non-null  int64  
 9   payment_type                   103886 non-null  object 
 10  payment_installments           103886 non-null  int64  
 11  payment_value                  103886 non-null  float64
dtypes: float64(1), int64(2), objec

In [6]:
df.describe()

Unnamed: 0,payment_sequential,payment_installments,payment_value
count,103886.0,103886.0,103886.0
mean,1.092679,2.853349,154.10038
std,0.706584,2.687051,217.494064
min,1.0,0.0,0.0
25%,1.0,1.0,56.79
50%,1.0,1.0,100.0
75%,1.0,4.0,171.8375
max,29.0,24.0,13664.08


In [7]:
df['order_delivered_carrier_date'] = pd.to_datetime(df['order_delivered_carrier_date'])

In [8]:
last_date = df['order_delivered_carrier_date'].max() + timedelta(days=1)

In [9]:
rfm = df.groupby('customer_id').agg({
    'order_delivered_carrier_date': lambda x: (last_date - x.max()).days,
    'order_id': 'count',
    'payment_value': 'sum'
})
rfm.columns = ['Recency', 'Frequency', 'Monetary']

In [10]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
00012a2ce6f8dcda20d059ce98491703,299.0,1,114.74
000161a058600d5901f007fab4c27140,420.0,1,67.41
0001fd6190edaaf884bcaf3d49edf079,560.0,1,195.42
0002414f95344307404f0ace7a26f1d5,389.0,1,179.35
000379cdec625522490c315e70c7a9fb,161.0,1,107.01


In [11]:
rfm_quantiles = rfm.quantile(q=[0.20, 0.40, 0.60, 0.80])
rfm['R'] = pd.qcut(rfm['Recency'], q=5, labels=[5, 4, 3, 2, 1])
rfm['F'] = pd.cut(rfm['Frequency'], bins=5, labels=[1, 2, 3, 4, 5])
rfm['M'] = pd.qcut(rfm['Monetary'], q=5, labels=[1, 2, 3, 4, 5])

rfm['RFM_Score'] = rfm[['R', 'F', 'M']].sum(axis=1)

print(rfm.head())

                                  Recency  Frequency  Monetary  R  F  M  \
customer_id                                                               
00012a2ce6f8dcda20d059ce98491703    299.0          1    114.74  2  1  3   
000161a058600d5901f007fab4c27140    420.0          1     67.41  1  1  2   
0001fd6190edaaf884bcaf3d49edf079    560.0          1    195.42  1  1  4   
0002414f95344307404f0ace7a26f1d5    389.0          1    179.35  2  1  4   
000379cdec625522490c315e70c7a9fb    161.0          1    107.01  4  1  3   

                                  RFM_Score  
customer_id                                  
00012a2ce6f8dcda20d059ce98491703          6  
000161a058600d5901f007fab4c27140          4  
0001fd6190edaaf884bcaf3d49edf079          6  
0002414f95344307404f0ace7a26f1d5          7  
000379cdec625522490c315e70c7a9fb          8  


## Қорытынды
1. Сонымен, мен бұл тапсырмада клиенттерді сегменттерге бөлу үшін RFM анализ жасадым.
    Recency: Бұл параметр клиенттің соңғы сатып алуының қанша уақыт бұрын болғанын көрсетеді.
    Frequency: Бұл параметр клиенттің қаншалықты жиі сатып алатынын көрсетеді
    Monetary: Бұл параметр клиенттің сатып алу суммасын көрсетеді.
2. RFM датафреймін құру үшін мен 
    Recency: Соңғы күннен соңғы сатып алу бол,ан күнді алып тастаймыз 'order_delivered_carrier_date': lambda x: (last_date - x.max()).days,
    Frequency: Мен order_id санын алдым 'order_id': 'count', 
    Monetary: 'payment_value': 'sum' 
3. Әр параметрге Recency, Frequency и Monetary квантилдері есептелді. Және әр клиентке 1 ден 5 ке дейін баға қойылды:
    Recency: ең жоғарғы баға жақында сатып алған клиентке қойылады  
    Frequency және Monetary үшін ең жиі сатып алған және ең көп суммаға алған клиентке қойылады
    Осы бағалырдың суммасы арқылы біз RFM_Score аламыз. RFM_Score жоғары болған сайын біз үшін бағалы клиент болып саналады. 
    
## Выводы
1.Итак, в этой задаче я провел анализ RFM, чтобы разделить клиентов на сегменты.
    Recency: этот параметр показывает, как давно произошла последняя покупка клиента.
    Frequency: этот параметр показывает, как часто клиент совершает покупки
    Monetary: этот параметр показывает сумму покупки клиента.
2. Чтобы создать RFM DataFrame,
    Recency:  'order_delivered_carrier_date': lambda x: (last_date - x.max()).days,
    Frequency: 'order_id': 'count', 
    Monetary: 'payment_value': 'sum' 
3. Для каждого параметра были рассчитаны квантили Recency, Frequency и Monetary. И каждому клиенту была выставлена оценка от 1 до 5:
    Recency: максимальная цена выставляется клиенту, который недавно купил  
    Для Frequency и Monetary выставляется клиенту, который купил чаще всего и потратил больше всего суммы денег
    С суммой этих параметров мы получаем RFM_Score. Когда выше RFM_Score клиент считается более ценным для нас.