In [1]:
import datetime as dt
import pandas as pd
import warnings
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', lambda x: '%.5f' % x)
warnings.simplefilter(action='ignore', category=Warning)

### Görev 1 Veriyi Anlama ve Hazırlama

In [2]:
df_ = pd.read_excel("online_retail_II-230817-120704.xlsx", sheet_name="Year 2010-2011")
df = df_.copy()

In [3]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [4]:
df.shape

(541910, 8)

In [5]:
df.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Quantity,541910.0,9.55223,-80995.00000,1.00000,3.00000,10.00000,80995.00000,218.08096
InvoiceDate,541910.0,2011-07-04 13:35:22.342307584,2010-12-01 08:26:00,2011-03-28 11:34:00,2011-07-19 17:17:00,2011-10-19 11:27:00,2011-12-09 12:50:00,
Price,541910.0,4.61114,-11062.06000,1.25000,2.08000,4.13000,38970.00000,96.75977
Customer ID,406830.0,15287.68416,12346.00000,13953.00000,15152.00000,16791.00000,18287.00000,1713.60307


In [6]:
df.isnull().sum()

Invoice             0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
Price               0
Customer ID    135080
Country             0
dtype: int64

In [7]:
df.dropna(inplace=True)
df.shape

(406830, 8)

In [8]:
# Eşsiz ürün sayısı kaç
df["StockCode"].nunique()

3684

In [9]:
# Hangi üründen kaçar tane var
df["StockCode"].value_counts()

StockCode
85123A          2077
22423           1905
85099B          1662
84879           1418
47566           1416
20725           1359
22720           1232
POST            1197
20727           1126
22197           1118
23203           1115
22383           1103
21212           1080
23209           1040
23298           1036
22086           1029
22382           1021
20728           1012
22457            997
22469            996
22384            977
22960            974
21034            955
22727            932
23206            907
82482            905
22386            903
22993            902
22138            894
22666            890
22961            888
20726            861
23084            857
22699            854
22139            849
22178            849
82494L           836
22470            835
22726            831
20914            818
22411            814
21931            800
23202            788
23301            779
23201            775
20724            767
23245            764
226

In [10]:
df.groupby("StockCode").agg({"Quantity":"sum"}).sort_values(by="Quantity",ascending=False).head(5)

Unnamed: 0_level_0,Quantity
StockCode,Unnamed: 1_level_1
84077,53215
22197,48712
85099B,45066
84879,35314
85123A,34204


In [11]:
# Faturalardaki ‘C’ iptal edilen işlemleri göstermektedir. İptal edilen işlemleri veri setinden çıkarmamız lazım
df = df[~df["Invoice"].str.contains("C", na=False)]

In [12]:
df["TotalPrice"] = df["Quantity"] * df["Price"]

## Görev 2 RFM Metriklerinin Hesaplanması
* Recency, Frequency ve Monetary tanımlarını yapınız.
* Müşteri özelinde Recency, Frequency ve Monetary metriklerini groupby, agg ve lambda ile hesaplayınız.
* Hesapladığınız metrikleri rfmisimli bir değişkene atayınız.
* Oluşturduğunuz metriklerin isimlerini recency, frequency ve monetary olarak değiştiriniz.

* Not 1: recency değeri için bugünün tarihini (2011, 12, 11) olarak kabul ediniz.
* Not 2: rfm dataframe’ini oluşturduktan sonra veri setini "monetary>0" olacak şekilde filtreleyiniz.

In [13]:
df["InvoiceDate"].max()

Timestamp('2011-12-09 12:50:00')

In [14]:
today_date = dt.datetime(2011, 12, 11)
rfm = df.groupby('Customer ID').agg({'InvoiceDate': lambda date: (today_date - date.max()).days,'Invoice': lambda num: num.nunique(),'TotalPrice': lambda TotalPrice: TotalPrice.sum()})
rfm

Unnamed: 0_level_0,InvoiceDate,Invoice,TotalPrice
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,326,1,77183.6
12347.0,3,7,4310.0
12348.0,76,4,1797.24
12349.0,19,1,1757.55
12350.0,311,1,334.4
12352.0,37,8,2506.04
12353.0,205,1,89.0
12354.0,233,1,1079.4
12355.0,215,1,459.4
12356.0,23,3,2811.43


In [15]:
rfm.columns = ['recency', 'frequency', 'monetary']
rfm = rfm[rfm["monetary"] > 0]
rfm

Unnamed: 0_level_0,recency,frequency,monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,326,1,77183.6
12347.0,3,7,4310.0
12348.0,76,4,1797.24
12349.0,19,1,1757.55
12350.0,311,1,334.4
12352.0,37,8,2506.04
12353.0,205,1,89.0
12354.0,233,1,1079.4
12355.0,215,1,459.4
12356.0,23,3,2811.43


In [16]:
rfm.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
recency,4338.0,93.05947,100.01226,1.0,18.0,51.0,142.75,374.0
frequency,4338.0,4.27271,7.70622,1.0,1.0,2.0,5.0,210.0
monetary,4338.0,2054.27061,8989.2299,3.75,307.415,674.485,1661.74,280206.02


### Görev 3: RFM skorlarının oluşturulması ve tek bir değişkene çevrilmesi
* Recency, Frequency ve Monetary metriklerini qcut yardımı ile 1-5 arasında skorlara çeviriniz.
* Bu skorları recency_score, frequency_score ve monetary_score olarak kaydediniz.
* Oluşan 3 farklı değişkenin değerini tek bir değişken olarak ifade ediniz ve RFM_SCORE olarak kaydediniz.
* Örneğin; Ayrı ayrı değişkenlerde sırasıyla 5, 2, 1 olan recency_score, frequency_score ve monetary_score skorlarını RFM_SCORE değişkeni isimlendirmesi ile 521 olarak oluşturunuz.

In [17]:
rfm["recency_score"] = pd.qcut(rfm['recency'], 5, labels=[5, 4, 3, 2, 1])
rfm["frequency_score"] = pd.qcut(rfm['frequency'].rank(method="first"), 5, labels=[1, 2, 3, 4, 5])
rfm["monetary_score"] = pd.qcut(rfm['monetary'], 5, labels=[1, 2, 3, 4, 5])
rfm

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
12346.0,326,1,77183.6,1,1,5
12347.0,3,7,4310.0,5,5,5
12348.0,76,4,1797.24,2,4,4
12349.0,19,1,1757.55,4,1,4
12350.0,311,1,334.4,1,1,2
12352.0,37,8,2506.04,3,5,5
12353.0,205,1,89.0,1,1,1
12354.0,233,1,1079.4,1,1,4
12355.0,215,1,459.4,1,1,2
12356.0,23,3,2811.43,4,3,5


In [18]:
rfm["RFM_SCORE"] = (rfm['recency_score'].astype(str) +
                    rfm['frequency_score'].astype(str))
rfm

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346.0,326,1,77183.6,1,1,5,11
12347.0,3,7,4310.0,5,5,5,55
12348.0,76,4,1797.24,2,4,4,24
12349.0,19,1,1757.55,4,1,4,41
12350.0,311,1,334.4,1,1,2,11
12352.0,37,8,2506.04,3,5,5,35
12353.0,205,1,89.0,1,1,1,11
12354.0,233,1,1079.4,1,1,4,11
12355.0,215,1,459.4,1,1,2,11
12356.0,23,3,2811.43,4,3,5,43


In [19]:
rfm.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
recency,4338.0,93.05947,100.01226,1.0,18.0,51.0,142.75,374.0
frequency,4338.0,4.27271,7.70622,1.0,1.0,2.0,5.0,210.0
monetary,4338.0,2054.27061,8989.2299,3.75,307.415,674.485,1661.74,280206.02


In [20]:
rfm[rfm["RFM_SCORE"] == "55"].head()  # champions

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12347.0,3,7,4310.0,5,5,5,55
12362.0,4,10,5226.23,5,5,5,55
12417.0,4,9,3649.1,5,5,5,55
12423.0,1,8,1859.31,5,5,4,55
12433.0,1,7,13375.87,5,5,5,55


In [21]:
rfm[rfm["RFM_SCORE"] == "11"].head()  # hibernating

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346.0,326,1,77183.6,1,1,5,11
12350.0,311,1,334.4,1,1,2,11
12353.0,205,1,89.0,1,1,1,11
12354.0,233,1,1079.4,1,1,4,11
12355.0,215,1,459.4,1,1,2,11


### Görev 4:
* RFM skorlarının segment olarak tanımlanması
* Oluşturulan RFM skorların daha açıklanabilir olması için segment tanımlamaları yapınız.
* Aşağıdaki seg_map yardımı ile skorları segmentlere çeviriniz.

In [23]:
seg_map = {
    r'[1-2][1-2]': 'hibernating',
    r'[1-2][3-4]': 'at_Risk',
    r'[1-2]5': 'cant_loose',
    r'3[1-2]': 'about_to_sleep',
    r'33': 'need_attention',
    r'[3-4][4-5]': 'loyal_customers',
    r'41': 'promising',
    r'51': 'new_customers',
    r'[4-5][2-3]': 'potential_loyalists',
    r'5[4-5]': 'champions'
}

In [24]:
rfm['segment'] = rfm['RFM_SCORE'].replace(seg_map, regex=True)
rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346.0,326,1,77183.6,1,1,5,11,hibernating
12347.0,3,7,4310.0,5,5,5,55,champions
12348.0,76,4,1797.24,2,4,4,24,at_Risk
12349.0,19,1,1757.55,4,1,4,41,promising
12350.0,311,1,334.4,1,1,2,11,hibernating


### Görev 5:
Önemli bulduğunuz 3 segmenti seçiniz. Bu üç segmenti;
* Hem aksiyon kararları açısından,
* Hem de segmentlerin yapısı açısından (ortalama RFM değerleri) yorumlayınız.
  
"Loyal Customers" sınıfına ait customer ID'leri seçerek excel çıktısını alınız.

In [25]:
rfm["Country"] = df["Country"]

In [26]:
rfm[["segment", "recency", "frequency", "monetary"]].groupby(["segment"]).agg(["mean","count"])

Unnamed: 0_level_0,recency,recency,frequency,frequency,monetary,monetary
Unnamed: 0_level_1,mean,count,mean,count,mean,count
segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
about_to_sleep,53.3125,352,1.16193,352,471.99437,352
at_Risk,153.78583,593,2.87858,593,1084.5353,593
cant_loose,132.96825,63,8.38095,63,2796.15587,63
champions,6.36177,633,12.41706,633,6857.96392,633
hibernating,217.60504,1071,1.10177,1071,488.64331,1071
loyal_customers,33.60806,819,6.47985,819,2864.24779,819
need_attention,52.42781,187,2.3262,187,897.62786,187
new_customers,7.42857,42,1.0,42,388.21286,42
potential_loyalists,17.39876,484,2.01033,484,1041.222,484
promising,23.51064,94,1.0,94,294.00798,94


In [27]:
rfm.groupby(['segment',"Country"]).agg({"segment":"count"})

Unnamed: 0_level_0,Unnamed: 1_level_0,segment
segment,Country,Unnamed: 2_level_1
about_to_sleep,EIRE,2
about_to_sleep,France,2
about_to_sleep,Iceland,1
about_to_sleep,United Kingdom,167
at_Risk,France,13
at_Risk,Germany,5
at_Risk,Iceland,3
at_Risk,United Kingdom,302
cant_loose,Germany,1
cant_loose,United Kingdom,36


In [28]:
rfm[rfm["segment"] == "at_Risk"].head()

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment,Country
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
12348.0,76,4,1797.24,2,4,4,24,at_Risk,United Kingdom
12383.0,185,5,1850.56,1,4,4,14,at_Risk,United Kingdom
12393.0,73,4,1582.6,2,4,4,24,at_Risk,United Kingdom
12399.0,120,4,1108.65,2,4,4,24,at_Risk,United Kingdom
12409.0,79,3,11072.67,2,3,5,23,at_Risk,United Kingdom


In [29]:
rfm[rfm["segment"] == "new_customers"].head()

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment,Country
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
12367.0,5,1,168.9,5,1,1,51,new_customers,United Kingdom
12442.0,4,1,172.06,5,1,1,51,new_customers,EIRE
12478.0,4,1,680.99,5,1,3,51,new_customers,United Kingdom
12479.0,12,1,527.2,5,1,3,51,new_customers,United Kingdom
12558.0,8,1,269.96,5,1,2,51,new_customers,United Kingdom


In [30]:
rfm[rfm["segment"] == "potential_loyalists"].head()

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment,Country
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
12356.0,23,3,2811.43,4,3,5,43,potential_loyalists,United Kingdom
12358.0,2,2,1168.06,5,2,4,52,potential_loyalists,United Kingdom
12375.0,11,2,457.5,5,2,2,52,potential_loyalists,United Kingdom
12384.0,29,2,585.27,4,2,3,42,potential_loyalists,United Kingdom
12406.0,23,2,3415.3,4,2,5,42,potential_loyalists,United Kingdom


In [31]:
new_df = pd.DataFrame()
new_df["loyal_customers"] = rfm[rfm["segment"] == "loyal_customers"].index
new_df.head()

Unnamed: 0,loyal_customers
0,12352.0
1,12359.0
2,12370.0
3,12380.0
4,12388.0


In [32]:
new_df.to_excel("loyal_customers.xlsx")

### Aksiyon Planları:
* İlk seçtiğim segment At Risk olanlar. Bu grubu tekrar işlem yaptırabilirsek Loyal Customer segmentine geçiş yapacaklardır. Bu segmentin parası var, işlem sıklığı da recency değerine bağlı olarak artacaktır. Örneğin 6 ay ve üzeri süredir müşterimiz olan ve 1000 birim para harcamış kişilere  konsol, bilgisayar, müzik sistemleri ve TV gibi fiyatı görece yüksek ve eğlenceye hizmet eden çeşitli teknolojik ürünlerde yapacağımız kampanyalarla bu kesimi yakalama şansımız bir hayli yüksektir.

* İkinci seçtiğim segment Potential Loyalists. Bu grubu da Loyal Customer segmentine yükseltebilmemiz için işlem sıklığı çok önemli. Bu grubun da günlük ev ihtiyaçları ve market alışverişi gibi ürünleri buradan satın almasını sağlamak için bu ürünlerde belli bir sayı bazında indirim yapılabilir. Örneğin; 3 paket makarna %15 indirimli ve kargo bedava gibi. Bu şekilde birim fiyatı düşük ama birden fazla adet satın alım yaptırarak artık günlük ihitiyaçları buradan satın aldırma alışkanlığını da kazandırırsak bu grubun işlem sıklığı artarak devam eder.

* Üçüncü seçtiğim segment New Customers. Bu müşteriler yeni müşteriler, bir şekilde burayı tercih etmeye başlamışlar. Bu grubun burada iyi hizmet almaya devam etmesi gerekir. Yeni müşteri memnun kaldığı yeri Word-of-Mouth Marketing prensibiyle yeni müşteri kazandıracak kişiler olarak görmek gerekir. Aldığı tatmin edici hizmet yeni müşterileri de buraya çekecektir ve kendisi de sadık müşteri olma yolunda ilerleyecektir. Bu müşteri türünü yakalamanın ve elde tutmanın yollarından birisi çeşitli hobi, kıyafet ya da ev tekstili gibi ürünleri avantajlı bir fiyata burada bulmasını sağlamaktır. Bu müşterilerin Monetary ortalaması 388, yani görece ucuz ürünü almışlar ve müşteri olmuşlar. Örneğin; kutu oyunları, halı, ya da kışlık ceket gibi bu segmentin giriş-orta düzey ürünleriyle bunlara bir alışkanlık kazandırmak bu müşterileri elde tutar.
