# RFM ile Müşteri Segmentasyonu (Customer Segmentation with RFM)

### İş Problemi (Business Problem)
Flo, müşterilerini segmentlere ayırıp bu segmentlere göre pazarlama stratejileri belirlemek istiyor. Buna yönelik olarak müşterilerin davranışları tanımlanacak ve bu davranışlardaki öbeklenmelere göre gruplar oluşturulacak.

### Veri Seti Hikayesi 
Veri seti Flo’dan son alışverişlerini 2020-2021 yıllarında OmniChannel (hem online hem offline alışveriş yapan) olarak yapan müşterilerin geçmiş alışveriş davranışlarından elde edilen bilgilerden oluşmaktadır.
- master_id: Eşsiz müşteri numarası
- order_channel: Alışveriş yapılan platforma ait hangi kanalın kullanıldığı(Android, ios, Desktop, Mobile) \
- last_order_channel: En son alışverişin yapıldığı kanal
- first_order_date: Müşterinin yaptığı ilk alışveriş tarihi
- last_order_date: Müşterinin yaptığı son alışveriş tarihi
- last_order_date_online: Müşterinin online platformda yaptığı son alışveriş tarihi
- last_order_date_offline: Müşterinin offline platformda yaptığı son alışveriş tarihi
- order_num_total_ever_online: Müşterinin online platformda yaptığı toplam alışveriş sayısı 
- order_num_total_ever_offline: Müşterinin offline'da yaptığı toplam alışveriş sayısı 
- customer_value_total_ever_offline: Müşterinin offline alışverişlerinde ödediği toplam ücret
- customer_value_total_ever_online: Müşterinin online alışverişlerinde ödediği toplam ücret
- interested_in_categories_12: Müşterinin son 12 ayda alışveriş yaptığı kategorilerin listesi


### Veriyi Anlama (Data Understanding) ve Hazırlama

In [1]:
import datetime as dt
import pandas as pd

In [2]:
df_ = pd.read_csv("D:\\FLOMusteriSegmentasyonu\\flo_data_20k.csv")
df = df_.copy()
#veri setini okuyoruz ve bir kopyasını alıyoruz

In [3]:
df.head(10)
#ilk 10 gözlem

Unnamed: 0,master_id,order_channel,last_order_channel,first_order_date,last_order_date,last_order_date_online,last_order_date_offline,order_num_total_ever_online,order_num_total_ever_offline,customer_value_total_ever_offline,customer_value_total_ever_online,interested_in_categories_12
0,cc294636-19f0-11eb-8d74-000d3a38a36f,Android App,Offline,2020-10-30,2021-02-26,2021-02-21,2021-02-26,4.0,1.0,139.99,799.38,[KADIN]
1,f431bd5a-ab7b-11e9-a2fc-000d3a38a36f,Android App,Mobile,2017-02-08,2021-02-16,2021-02-16,2020-01-10,19.0,2.0,159.97,1853.58,"[ERKEK, COCUK, KADIN, AKTIFSPOR]"
2,69b69676-1a40-11ea-941b-000d3a38a36f,Android App,Android App,2019-11-27,2020-11-27,2020-11-27,2019-12-01,3.0,2.0,189.97,395.35,"[ERKEK, KADIN]"
3,1854e56c-491f-11eb-806e-000d3a38a36f,Android App,Android App,2021-01-06,2021-01-17,2021-01-17,2021-01-06,1.0,1.0,39.99,81.98,"[AKTIFCOCUK, COCUK]"
4,d6ea1074-f1f5-11e9-9346-000d3a38a36f,Desktop,Desktop,2019-08-03,2021-03-07,2021-03-07,2019-08-03,1.0,1.0,49.99,159.99,[AKTIFSPOR]
5,e585280e-aae1-11e9-a2fc-000d3a38a36f,Desktop,Offline,2018-11-18,2021-03-13,2018-11-18,2021-03-13,1.0,2.0,150.87,49.99,[KADIN]
6,c445e4ee-6242-11ea-9d1a-000d3a38a36f,Android App,Android App,2020-03-04,2020-10-18,2020-10-18,2020-03-04,3.0,1.0,59.99,315.94,[AKTIFSPOR]
7,3f1b4dc8-8a7d-11ea-8ec0-000d3a38a36f,Mobile,Offline,2020-05-15,2020-08-12,2020-05-15,2020-08-12,1.0,1.0,49.99,113.64,[COCUK]
8,cfbda69e-5b4f-11ea-aca7-000d3a38a36f,Android App,Android App,2020-01-23,2021-03-07,2021-03-07,2020-01-25,3.0,2.0,120.48,934.21,"[ERKEK, COCUK, KADIN]"
9,1143f032-440d-11ea-8b43-000d3a38a36f,Mobile,Mobile,2019-07-30,2020-10-04,2020-10-04,2019-07-30,1.0,1.0,69.98,95.98,"[KADIN, AKTIFSPOR]"


In [4]:
df.columns
#değişken isimleri

Index(['master_id', 'order_channel', 'last_order_channel', 'first_order_date',
       'last_order_date', 'last_order_date_online', 'last_order_date_offline',
       'order_num_total_ever_online', 'order_num_total_ever_offline',
       'customer_value_total_ever_offline', 'customer_value_total_ever_online',
       'interested_in_categories_12'],
      dtype='object')

In [5]:
df.shape
#boyut

(19945, 12)

In [6]:
df.describe().T
#betimsel istatistik

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
order_num_total_ever_online,19945.0,3.110855,4.225647,1.0,1.0,2.0,4.0,200.0
order_num_total_ever_offline,19945.0,1.913913,2.06288,1.0,1.0,1.0,2.0,109.0
customer_value_total_ever_offline,19945.0,253.922597,301.532853,10.0,99.99,179.98,319.97,18119.14
customer_value_total_ever_online,19945.0,497.32169,832.601886,12.99,149.98,286.46,578.44,45220.13


In [7]:
df.isnull().sum()
#boş değer

master_id                            0
order_channel                        0
last_order_channel                   0
first_order_date                     0
last_order_date                      0
last_order_date_online               0
last_order_date_offline              0
order_num_total_ever_online          0
order_num_total_ever_offline         0
customer_value_total_ever_offline    0
customer_value_total_ever_online     0
interested_in_categories_12          0
dtype: int64

In [8]:
df.info()
#değişken tipleri

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19945 entries, 0 to 19944
Data columns (total 12 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   master_id                          19945 non-null  object 
 1   order_channel                      19945 non-null  object 
 2   last_order_channel                 19945 non-null  object 
 3   first_order_date                   19945 non-null  object 
 4   last_order_date                    19945 non-null  object 
 5   last_order_date_online             19945 non-null  object 
 6   last_order_date_offline            19945 non-null  object 
 7   order_num_total_ever_online        19945 non-null  float64
 8   order_num_total_ever_offline       19945 non-null  float64
 9   customer_value_total_ever_offline  19945 non-null  float64
 10  customer_value_total_ever_online   19945 non-null  float64
 11  interested_in_categories_12        19945 non-null  obj

Toplam alışveriş sayıları ve harcamaları için yeni değişkenler oluşturuyoruz. 

In [9]:
df["total_order"] = df["order_num_total_ever_online"] + df["order_num_total_ever_offline"]
df["total_spend"] = df["customer_value_total_ever_online"] + df["customer_value_total_ever_offline"]

In [10]:
df.loc[:,["total_order","total_spend"]]

Unnamed: 0,total_order,total_spend
0,5.0,939.37
1,21.0,2013.55
2,5.0,585.32
3,2.0,121.97
4,2.0,209.98
...,...,...
19940,3.0,401.96
19941,2.0,390.47
19942,3.0,632.94
19943,6.0,1009.77


Tarihle ilgili değişkenlerimizin tipini date'e çeviriyoruz.

In [11]:
df_date = df.loc[:, df.columns.str.contains("date")]
df[df_date.columns] = df_date.apply(pd.to_datetime)

In [12]:
df.dtypes

master_id                                    object
order_channel                                object
last_order_channel                           object
first_order_date                     datetime64[ns]
last_order_date                      datetime64[ns]
last_order_date_online               datetime64[ns]
last_order_date_offline              datetime64[ns]
order_num_total_ever_online                 float64
order_num_total_ever_offline                float64
customer_value_total_ever_offline           float64
customer_value_total_ever_online            float64
interested_in_categories_12                  object
total_order                                 float64
total_spend                                 float64
dtype: object

Alışveriş kanallarındaki müşteri sayısının, toplam alınan ürün sayısının ve toplam harcamaların dağılımına bakıyoruz.

In [13]:
df.groupby("order_channel").agg({"master_id" : "count",
                                 "total_order" : "sum",
                                 "total_spend" : "sum"})

Unnamed: 0_level_0,master_id,total_order,total_spend
order_channel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Android App,9495,52269.0,7819062.76
Desktop,2735,10920.0,1610321.46
Ios App,2833,15351.0,2525999.93
Mobile,4882,21679.0,3028183.16


En fazla kazanç getiren ilk 10 müşteriyi inceleyelim.

In [14]:
df.sort_values("total_spend", ascending=False).head(10)

Unnamed: 0,master_id,order_channel,last_order_channel,first_order_date,last_order_date,last_order_date_online,last_order_date_offline,order_num_total_ever_online,order_num_total_ever_offline,customer_value_total_ever_offline,customer_value_total_ever_online,interested_in_categories_12,total_order,total_spend
11150,5d1c466a-9cfd-11e9-9897-000d3a38a36f,Android App,Desktop,2013-10-11,2021-04-30,2021-04-30,2020-12-24,200.0,2.0,684.97,45220.13,"[AKTIFCOCUK, ERKEK, COCUK, KADIN, AKTIFSPOR]",202.0,45905.1
4315,d5ef8058-a5c6-11e9-a2fc-000d3a38a36f,Android App,Android App,2018-08-06,2021-02-23,2021-02-23,2020-07-06,67.0,1.0,130.49,36687.8,"[AKTIFCOCUK, ERKEK, KADIN, AKTIFSPOR]",68.0,36818.29
7613,73fd19aa-9e37-11e9-9897-000d3a38a36f,Ios App,Offline,2014-01-14,2021-05-18,2021-01-30,2021-05-18,81.0,1.0,1263.76,32654.34,"[ERKEK, COCUK, KADIN, AKTIFSPOR]",82.0,33918.1
13880,7137a5c0-7aad-11ea-8f20-000d3a38a36f,Ios App,Offline,2021-03-01,2021-04-13,2021-03-18,2021-04-13,10.0,1.0,538.94,30688.47,"[ERKEK, KADIN, AKTIFSPOR]",11.0,31227.41
9055,47a642fe-975b-11eb-8c2a-000d3a38a36f,Android App,Offline,2021-04-07,2021-04-27,2021-04-07,2021-04-27,1.0,3.0,18119.14,2587.2,[AKTIFSPOR],4.0,20706.34
7330,a4d534a2-5b1b-11eb-8dbd-000d3a38a36f,Desktop,Desktop,2020-02-16,2021-04-30,2021-04-30,2020-12-18,66.0,4.0,843.68,17599.89,"[ERKEK, KADIN, AKTIFSPOR]",70.0,18443.57
8068,d696c654-2633-11ea-8e1c-000d3a38a36f,Ios App,Ios App,2017-05-10,2021-04-13,2021-04-13,2019-08-15,69.0,1.0,82.48,16836.09,"[AKTIFCOCUK, ERKEK, COCUK, KADIN, AKTIFSPOR]",70.0,16918.57
163,fef57ffa-aae6-11e9-a2fc-000d3a38a36f,Mobile,Desktop,2016-11-08,2021-05-12,2021-05-12,2020-07-09,36.0,1.0,180.73,12545.37,"[ERKEK, AKTIFSPOR]",37.0,12726.1
7223,cba59206-9dd1-11e9-9897-000d3a38a36f,Android App,Android App,2013-02-21,2021-05-09,2021-05-09,2020-01-25,130.0,1.0,49.99,12232.25,"[AKTIFCOCUK, ERKEK, KADIN, AKTIFSPOR]",131.0,12282.24
18767,fc0ce7a4-9d87-11e9-9897-000d3a38a36f,Desktop,Desktop,2018-11-24,2020-11-11,2020-11-11,2019-12-06,18.0,2.0,64.97,12038.18,"[ERKEK, KADIN]",20.0,12103.15


En fazla sipariş veren ilk 10 müşteriyi inceleyelim.

In [15]:
df.sort_values("total_order", ascending=False).head(10)

Unnamed: 0,master_id,order_channel,last_order_channel,first_order_date,last_order_date,last_order_date_online,last_order_date_offline,order_num_total_ever_online,order_num_total_ever_offline,customer_value_total_ever_offline,customer_value_total_ever_online,interested_in_categories_12,total_order,total_spend
11150,5d1c466a-9cfd-11e9-9897-000d3a38a36f,Android App,Desktop,2013-10-11,2021-04-30,2021-04-30,2020-12-24,200.0,2.0,684.97,45220.13,"[AKTIFCOCUK, ERKEK, COCUK, KADIN, AKTIFSPOR]",202.0,45905.1
7223,cba59206-9dd1-11e9-9897-000d3a38a36f,Android App,Android App,2013-02-21,2021-05-09,2021-05-09,2020-01-25,130.0,1.0,49.99,12232.25,"[AKTIFCOCUK, ERKEK, KADIN, AKTIFSPOR]",131.0,12282.24
8783,a57f4302-b1a8-11e9-89fa-000d3a38a36f,Android App,Offline,2019-08-07,2020-11-04,2020-09-07,2020-11-04,2.0,109.0,10239.46,143.98,"[AKTIFCOCUK, ERKEK, COCUK, KADIN, AKTIFSPOR]",111.0,10383.44
2619,fdbe8304-a7ab-11e9-a2fc-000d3a38a36f,Android App,Offline,2018-10-18,2020-06-30,2018-10-18,2020-06-30,1.0,87.0,8432.25,139.98,[ERKEK],88.0,8572.23
6322,329968c6-a0e2-11e9-a2fc-000d3a38a36f,Ios App,Ios App,2019-02-14,2021-04-05,2021-04-05,2020-02-17,2.0,81.0,3997.55,242.81,[ERKEK],83.0,4240.36
7613,73fd19aa-9e37-11e9-9897-000d3a38a36f,Ios App,Offline,2014-01-14,2021-05-18,2021-01-30,2021-05-18,81.0,1.0,1263.76,32654.34,"[ERKEK, COCUK, KADIN, AKTIFSPOR]",82.0,33918.1
9347,44d032ee-a0d4-11e9-a2fc-000d3a38a36f,Mobile,Mobile,2019-02-11,2021-02-11,2021-02-11,2020-12-24,3.0,74.0,4640.77,543.28,"[KADIN, AKTIFSPOR]",77.0,5184.05
10954,b27e241a-a901-11e9-a2fc-000d3a38a36f,Mobile,Mobile,2015-09-12,2021-04-01,2021-04-01,2019-10-08,72.0,3.0,292.93,5004.95,"[AKTIFCOCUK, ERKEK, KADIN, AKTIFSPOR]",75.0,5297.88
8068,d696c654-2633-11ea-8e1c-000d3a38a36f,Ios App,Ios App,2017-05-10,2021-04-13,2021-04-13,2019-08-15,69.0,1.0,82.48,16836.09,"[AKTIFCOCUK, ERKEK, COCUK, KADIN, AKTIFSPOR]",70.0,16918.57
7330,a4d534a2-5b1b-11eb-8dbd-000d3a38a36f,Desktop,Desktop,2020-02-16,2021-04-30,2021-04-30,2020-12-18,66.0,4.0,843.68,17599.89,"[ERKEK, KADIN, AKTIFSPOR]",70.0,18443.57


### RFM Metriklerinin Oluşturulması 

Recency, Frequency ve Monetary değerlerinin tanımlamalarını yapıyoruz.

In [16]:
df["last_order_date"].max()
#recency değerini hesaplayabilmek için bugünün tarihini bulmaya çalışıyoruz

Timestamp('2021-05-30 00:00:00')

In [17]:
today_date = dt.datetime(2021,6,2)

In [18]:
rfm_df = pd.DataFrame()

In [19]:
#rfm metriklerinin oluşturulması
rfm_df["customer_id"] = df["master_id"]
rfm_df["recency"] = (today_date - df["last_order_date"]).astype("timedelta64[D]")
rfm_df["frequency"] = df["total_order"]
rfm_df["monetary"] = df["total_spend"]

### RF Skorunun Hesaplanması

Recency, Frequency ve Monetary değerlerini, qcut fonksiyonu ile 1-5 arasındaki skorlara çeviriyoruz.

In [20]:
rfm_df["recency_score"] = pd.qcut(rfm_df["recency"], 5, labels=[5, 4, 3, 2, 1])
#recency değerinin düşük olması iyi olduğundan puanlama ters sırada verildi
rfm_df["frequency_score"] = pd.qcut(rfm_df["frequency"].rank(method="first"), 5, labels=[1, 2, 3, 4, 5])
rfm_df["monetary_score"] = pd.qcut(rfm_df["monetary"], 5, labels=[1, 2, 3, 4, 5])

In [21]:
rfm_df.head()

Unnamed: 0,customer_id,recency,frequency,monetary,recency_score,frequency_score,monetary_score
0,cc294636-19f0-11eb-8d74-000d3a38a36f,96.0,5.0,939.37,3,4,4
1,f431bd5a-ab7b-11e9-a2fc-000d3a38a36f,106.0,21.0,2013.55,3,5,5
2,69b69676-1a40-11ea-941b-000d3a38a36f,187.0,5.0,585.32,2,4,3
3,1854e56c-491f-11eb-806e-000d3a38a36f,136.0,2.0,121.97,3,1,1
4,d6ea1074-f1f5-11e9-9346-000d3a38a36f,87.0,2.0,209.98,3,1,1


Şimdi Recency ve Frequency değerlerini tek bir skor olarak ifade ediyoruz.

In [22]:
rfm_df["RF_SCORE"] = rfm_df["recency_score"].astype(str) + rfm_df["frequency_score"].astype(str)

### RF Skorlarının Segment Olarak Tanımlanması 

Segment tanımlama yapıyoruz ve skorları segmentlere çeviriyoruz.

In [23]:
seg_map = { r'[1-2][1-2]': 'hibernating', 
           r'[1-2][3-4]': 'at_Risk', 
           r'[1-2]5': 'cant_loose', 
           r'3[1-2]': 'about_to_sleep', 
           r'33': 'need_attention', 
           r'[3-4][4-5]': 'loyal_customers', 
           r'41': 'promising', r'51': 'new_customers', 
           r'[4-5][2-3]': 'potential_loyalists', 
           r'5[4-5]': 'champions' }

In [24]:
rfm_df['segment'] = rfm_df['RF_SCORE'].replace(seg_map, regex=True)

In [25]:
rfm_df.head()

Unnamed: 0,customer_id,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RF_SCORE,segment
0,cc294636-19f0-11eb-8d74-000d3a38a36f,96.0,5.0,939.37,3,4,4,34,loyal_customers
1,f431bd5a-ab7b-11e9-a2fc-000d3a38a36f,106.0,21.0,2013.55,3,5,5,35,loyal_customers
2,69b69676-1a40-11ea-941b-000d3a38a36f,187.0,5.0,585.32,2,4,3,24,at_Risk
3,1854e56c-491f-11eb-806e-000d3a38a36f,136.0,2.0,121.97,3,1,1,31,about_to_sleep
4,d6ea1074-f1f5-11e9-9346-000d3a38a36f,87.0,2.0,209.98,3,1,1,31,about_to_sleep


### İnceleme

Oluşturduğumuz segmentlerin recency, frequency ve monetary ortalamalarına bakalım.

In [26]:
rfm_df.groupby("segment").agg({"recency" : "mean",
                           "frequency" : "mean",
                           "monetary" : "mean"})

Unnamed: 0_level_0,recency,frequency,monetary
segment,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
about_to_sleep,114.785144,2.401473,359.008963
at_Risk,242.606835,4.472373,646.610236
cant_loose,236.444167,10.698333,1474.468217
champions,18.106625,8.934265,1406.625109
hibernating,248.949501,2.394007,366.267062
loyal_customers,83.594763,8.374591,1216.818616
need_attention,114.828676,3.727825,562.142965
new_customers,18.917647,2.0,339.955544
potential_loyalists,38.155888,3.304289,533.184466
promising,59.921175,2.0,335.672705


Case 1 : FLO bünyesine yeni bir kadın ayakkabı markası dahil ediyor.Dahil ettiği markanın ürün fiyatları genel müşteri tercihlerinin  üstünde. Bu nedenle markanın tanıtımı ve ürün satışları için ilgilenecek profildeki müşterilerle özel olarak iletişime geçmek isteniliyor. Sadık müşterilerinden (champions,loyal_customers) ve kadın kategorisinden alışveriş yapan kişiler özel olarak iletişim kurulacak müşteriler. Bu müşterilerin id numaralarını csv dosyasına kaydediniz.

In [27]:
rfm_ids = rfm_df[rfm_df["segment"].isin(["champions","loyal_customers"])]["customer_id"]

In [28]:
target_ids = rfm_df[(df["master_id"].isin(rfm_ids)) & (df["interested_in_categories_12"].str.contains("KADIN"))]["customer_id"]

In [29]:
target_ids

0        cc294636-19f0-11eb-8d74-000d3a38a36f
1        f431bd5a-ab7b-11e9-a2fc-000d3a38a36f
8        cfbda69e-5b4f-11ea-aca7-000d3a38a36f
11       c2e15af2-9eed-11e9-9897-000d3a38a36f
33       fb840306-1219-11ea-a001-000d3a38a36f
                         ...                 
19912    f63aba0e-41d8-11ea-96d9-000d3a38a36f
19913    81d0da04-a53e-11e9-a2fc-000d3a38a36f
19914    825e6b00-ab40-11e9-a2fc-000d3a38a36f
19917    f8c471c8-2596-11eb-81e9-000d3a38a36f
19926    7e1c15be-6298-11ea-9861-000d3a38a36f
Name: customer_id, Length: 2497, dtype: object

In [30]:
target_ids.to_csv("yeni_marka_hedef_müsteriler_id.csv",index=False)

Case 2 :Erkek ve Çocuk ürünlerinde %40'a yakın indirim planlanmaktadır. Bu indirimle ilgili kategorilerle ilgilenen geçmişte iyi müşteri olan ama uzun süredir alışveriş yapmayan kaybedilmemesi gereken müşteriler, uykuda olanlar ve yeni gelen müşteriler özel olarak hedef alınmak isteniyor. Uygun profildeki müşterilerin id'lerini csv dosyasına kaydediniz.


In [31]:
rfm_ids = rfm_df[rfm_df["segment"].isin(["cant_loose","hibernating","new_customers"])]["customer_id"]

In [32]:
target_ids = rfm_df[(df["master_id"].isin(rfm_ids)) & (df["interested_in_categories_12"].str.contains("ERKEK"))|(df["interested_in_categories_12"].str.contains("COCUK"))]["customer_id"]

In [33]:
target_ids

1        f431bd5a-ab7b-11e9-a2fc-000d3a38a36f
3        1854e56c-491f-11eb-806e-000d3a38a36f
7        3f1b4dc8-8a7d-11ea-8ec0-000d3a38a36f
8        cfbda69e-5b4f-11ea-aca7-000d3a38a36f
10       ae608ece-c9d8-11ea-a31e-000d3a38a36f
                         ...                 
19931    c81bac06-b1f4-11e9-89fa-000d3a38a36f
19932    13a5e98c-a824-11e9-a2fc-000d3a38a36f
19933    6d285c64-5e73-11ea-be5b-000d3a38a36f
19936    1982ac0e-9f4c-11e9-9897-000d3a38a36f
19937    515ca2d8-afdc-11e9-9757-000d3a38a36f
Name: customer_id, Length: 7489, dtype: object

In [34]:
target_ids.to_csv("indirim_hedef_müsteriler_id.csv",index=False)