## __RFM Analysis__

## __Abouth the Data__
__Source:__

Dr. Daqing Chen, Course Director: MSc Data Science. chend '@' lsbu.ac.uk, School of Engineering, London South Bank University, London SE1 0AA, UK.


__Data Set Information:__

This Online Retail II data set contains all the transactions occurring for a UK-based and registered, non-store online retail between 01/12/2009 and 09/12/2011.The company mainly sells unique all-occasion gift-ware. Many customers of the company are wholesalers.


__Attribute Information:__

InvoiceNo: Invoice number. Nominal. A 6-digit integral number uniquely assigned to each transaction. If this code starts with the letter 'c', it indicates a cancellation.
StockCode: Product (item) code. Nominal. A 5-digit integral number uniquely assigned to each distinct product.
Description: Product (item) name. Nominal.
Quantity: The quantities of each product (item) per transaction. Numeric.
InvoiceDate: Invice date and time. Numeric. The day and time when a transaction was generated.
UnitPrice: Unit price. Numeric. Product price per unit in sterling (Â£).
CustomerID: Customer number. Nominal. A 5-digit integral number uniquely assigned to each customer.
Country: Country name. Nominal. The name of the country where a customer resides.

Source : 
- https://archive.ics.uci.edu/ml/datasets/Online+Retail+II
- https://archive.cs.uci.edu/ml/machine-learning-databases/00502/


__in Turkish__
__Değişkenler:__

InvoiceNo: Fatura numarası. Her işleme yani faturaya ait eşsiz numara. Eğer bu kod C ile başlıyorsa işlemin iptal edildiğini ifade eder.
StockCode: Ürün kodu. Her bir ürün için eşsiz numara.
Description: Ürün ismi
Quantity: Ürün adedi. Faturalardaki ürünlerden kaçar tane satıldığını ifade etmektedir.
InvoiceDate: Fatura tarihi ve zamanı.
UnitPrice: Ürün fiyatı (Sterlin cinsinden)
CustomerID: Eşsiz müşteri numarası
Country: Ülke ismi. Müşterinin yaşadığı ülke.

In [2]:
import pandas as pd
import numpy as py
import seaborn as sns
import matplotlib.pyplot as plt

# tüm  sütün ve satırları görebilmek için:
pd.set_option('display.max_columns', None);
pd.set_option('display.max_rows', None);

# Virgülden sonra gösterilecek olan rakam sayısı düzenlemek için:
pd.set_option('display.float_format', lambda x: '%.2f' % x)


In [1]:
# You can use the data by downloading or online 

#pwd

In [3]:
df_2010_2011 = pd.read_excel("online_retail_II.xlsx", sheet_name = "Year 2010-2011")

In [4]:
df = df_2010_2011.copy() 

In [5]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [6]:
df.tail() # Veri setinin sonlarından bir tail alalım

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.1,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France
541909,581587,POST,POSTAGE,1,2011-12-09 12:50:00,18.0,12680.0,France


In [7]:
df.info() 

# Veri seti hakkında genel bilgi edinelim
# InvoiceDate değeri tarih olarak verilmiş. 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541910 entries, 0 to 541909
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   Invoice      541910 non-null  object        
 1   StockCode    541910 non-null  object        
 2   Description  540456 non-null  object        
 3   Quantity     541910 non-null  int64         
 4   InvoiceDate  541910 non-null  datetime64[ns]
 5   Price        541910 non-null  float64       
 6   Customer ID  406830 non-null  float64       
 7   Country      541910 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


In [8]:
df.isnull().values.any()
# Veri seti içerisinde valuelarda herhangi bir null var ise bunu sorgulatalım.

True

In [9]:
df.isnull().head()
# Veri setinde null olan değerlerden head olanları bir görelim
# Ek olarak isnull fonksiyonunun boolen sonunç döndüğünü unutmayalım


Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False


In [10]:
df.isnull().sum()
# Null olan değerlerin değişkenlere göre toplamını bir alalım. 
# Desciption değişkenin de 1454 adet boş değer var. Bu durum normal görünüyor.
# Ürün tanıtım değerlerinde bazı boşluklar sözkonusu.
# Customer ID lerde ise 13.5080 adet boş değer var. Bu durum ise şüpheli acaba neden?

Invoice             0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
Price               0
Customer ID    135080
Country             0
dtype: int64

In [11]:
df["Description"].nunique()
# Essiz olarak tarif edilebilecek Description sayısı

4223

In [12]:
df["Description"].value_counts().head()

# En çok 

WHITE HANGING HEART T-LIGHT HOLDER    2369
REGENCY CAKESTAND 3 TIER              2200
JUMBO BAG RED RETROSPOT               2159
PARTY BUNTING                         1727
LUNCH BAG RED RETROSPOT               1638
Name: Description, dtype: int64

In [13]:
df.groupby("Description").agg({"Quantity" : "sum"}).head()
# Description değişkeni baz alınarak, her bir değerin toplam 
# sayısını bulalım. 

# Not: Gördüğümüz gibi desription kısmında buluanan bazı tanımlaramalar
# numerik ifadelerden oluşmaktadır. Adet olarak da negatif sayılardan 
# oluşmaktadır. Bu durum, iadelerden kaynaklanmaktadır. 

Unnamed: 0_level_0,Quantity
Description,Unnamed: 1_level_1
20713,-400
4 PURPLE FLOCK DINNER CANDLES,144
50'S CHRISTMAS GIFT BAG LARGE,1913
DOLLY GIRL BEAKER,2448
I LOVE LONDON MINI BACKPACK,389


In [14]:
df.groupby("Description").agg({"Quantity" : "sum"}).sort_values("Quantity", ascending = False).head()

# En fazla satan ürünü adetini görmek için:

Unnamed: 0_level_0,Quantity
Description,Unnamed: 1_level_1
WORLD WAR 2 GLIDERS ASSTD DESIGNS,53847
JUMBO BAG RED RETROSPOT,47363
ASSORTED COLOUR BIRD ORNAMENT,36381
POPCORN HOLDER,36334
PACK OF 72 RETROSPOT CAKE CASES,36039


In [15]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [16]:
# Her bir ürüne ödenen toplam fiyatı bulmak için: 
#  Yeni bir değişken tanımlayarak
# Bu değişkeni, price ve sayı adeti ile çarparak buluyoruz. 

df["TotalPrice"] = df["Quantity"] * df["Price"]

In [17]:
df.head()
# Çıktıda görüldüğü gibi ürün bazında 
# toplam yapılan harcama miktarı ortaya çıkmıtır.

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [18]:
df.tail()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.1,12680.0,France,12.6
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France,16.6
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France,16.6
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France,14.85
541909,581587,POST,POSTAGE,1,2011-12-09 12:50:00,18.0,12680.0,France,18.0


__NOT: Listede önemli bir sorun bulunmakadır. 
    İade olan ürünler C harfi ile kodlanmıştır. 
    Bu ürünleri listeden çıkartarak listemizi 
    temizlemeye devam edelim.__
    

In [19]:
df[df["Invoice"].str.contains("C", na = False)].head()

# Şu an C harfi ile başlayan, yani iade edilmiş tüm faturaları bulmuş olduk. 

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
141,C536379,D,Discount,-1,2010-12-01 09:41:00,27.5,14527.0,United Kingdom,-27.5
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,2010-12-01 09:49:00,4.65,15311.0,United Kingdom,-4.65
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,2010-12-01 10:24:00,1.65,17548.0,United Kingdom,-19.8
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548.0,United Kingdom,-6.96
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548.0,United Kingdom,-6.96


In [20]:
df[df["Invoice"].str.contains("C", na = False)].tail()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
540449,C581490,23144,ZINC T-LIGHT HOLDER STARS SMALL,-11,2011-12-09 09:57:00,0.83,14397.0,United Kingdom,-9.13
541541,C581499,M,Manual,-1,2011-12-09 10:28:00,224.69,15498.0,United Kingdom,-224.69
541715,C581568,21258,VICTORIAN SEWING BOX LARGE,-5,2011-12-09 11:57:00,10.95,15311.0,United Kingdom,-54.75
541716,C581569,84978,HANGING HEART JAR T-LIGHT HOLDER,-1,2011-12-09 11:58:00,1.25,17315.0,United Kingdom,-1.25
541717,C581569,20979,36 PENCILS TUBE RED RETROSPOT,-5,2011-12-09 11:58:00,1.25,17315.0,United Kingdom,-6.25


In [21]:
df[~ df["Invoice"].str.contains("C", na = False)].head()

# İade edilen tüm faturaları ""~"" kulalnarak tüm veri setinden hariç bırakıyoruz. 
# İade edilen tüm faturlar hariç bir liste

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [22]:
df = df[~ df["Invoice"].str.contains("C", na = False)]


# Veri setindeki tüm bozukluklardan bu şekilde kurtulmuş olduk. 

In [23]:
df.tail()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.1,12680.0,France,12.6
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France,16.6
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France,16.6
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France,14.85
541909,581587,POST,POSTAGE,1,2011-12-09 12:50:00,18.0,12680.0,France,18.0


In [25]:
df.groupby("Invoice").agg({"TotalPrice": "sum"}).head()

Unnamed: 0_level_0,TotalPrice
Invoice,Unnamed: 1_level_1
536365,139.12
536366,22.2
536367,278.73
536368,70.05
536369,17.85


In [29]:
df.groupby("Country").agg({"TotalPrice": "sum"}).sort_values("TotalPrice", ascending = False ).head()

# Ülkerli yapmış oldukları toplam işlem ücretine göre büyükten kücüge sırlamak için bu işlemi yaptık

Unnamed: 0_level_0,TotalPrice
Country,Unnamed: 1_level_1
United Kingdom,9003097.96
Netherlands,285446.34
EIRE,283453.96
Germany,228867.14
France,209733.11


__NOT: AKLIMIZA BİR SORU GELDİ :
        EN FAZLA İADE ALAN ÜRÜNLER HANGİSİDİR?__
        

In [30]:
# Verii setini daha önce kopyaladığımı için bunu yeniden farklı farklı kullanabiliriz. 

df1= df_2010_2011.copy() 

# veri setimizi yeniden df1 olarak çağırdık.  

In [31]:
df1[df1["Invoice"].str.contains("C", na = False)].head()

#Veri seti içerisinde iade alan ürünleri yeniden çağırdık. 

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
141,C536379,D,Discount,-1,2010-12-01 09:41:00,27.5,14527.0,United Kingdom
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,2010-12-01 09:49:00,4.65,15311.0,United Kingdom
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,2010-12-01 10:24:00,1.65,17548.0,United Kingdom
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548.0,United Kingdom
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548.0,United Kingdom


In [38]:
df2= df1[df1["Invoice"].str.contains("C", na = False)]

In [39]:
df2["Description"].value_counts().head()

Manual                      244
REGENCY CAKESTAND 3 TIER    181
POSTAGE                     126
JAM MAKING SET WITH JARS     87
Discount                     77
Name: Description, dtype: int64

In [43]:
# İptal edilen faturalar ile ilgili merakımızı giderdik. Sonrasında ise kendi veri setimize geri döndük

df.tail()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.1,12680.0,France,12.6
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France,16.6
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France,16.6
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France,14.85
541909,581587,POST,POSTAGE,1,2011-12-09 12:50:00,18.0,12680.0,France,18.0


In [44]:
df.isnull().sum()

# Veri seti içerisinde bulunan null verileri önce hesap ediyor ardından da dropna ile siliyoruz. 

Invoice             0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
Price               0
Customer ID    134697
Country             0
TotalPrice          0
dtype: int64

In [45]:
df.dropna(inplace = True)

# Veri seti içerisinde bulunan null verileri önce hesap ediyor ardından da dropna ile siliyoruz. 

In [46]:
df.isnull().sum()

# Veri seti içerisinde bulunan null verileri önce hesap ediyor ardından da dropna ile siliyoruz. 
# Silinmiş durumda olan veriler, aşağıdadır. 

Invoice        0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
Price          0
Customer ID    0
Country        0
TotalPrice     0
dtype: int64

In [47]:
df.describe([0.01,0.05,0.10,0.25,0.50,0.75,0.90,0.95, 0.99]).T

# Veri seti ile ilgili bazı değerleri kendimiz hazıraldığımız dilimler ile inceleyelim. 
# Aykırı gözlemleri ilgilenmedik. Bu nedenle onlardan kurtulmak şuan istemiyoruz. 

Unnamed: 0,count,mean,std,min,1%,5%,10%,25%,50%,75%,90%,95%,99%,max
Quantity,397925.0,13.02,180.42,1.0,1.0,1.0,1.0,2.0,6.0,12.0,24.0,36.0,120.0,80995.0
Price,397925.0,3.12,22.1,0.0,0.21,0.42,0.55,1.25,1.95,3.75,6.35,8.5,14.95,8142.75
Customer ID,397925.0,15294.31,1713.17,12346.0,12415.0,12627.0,12883.0,13969.0,15159.0,16795.0,17725.0,17912.0,18211.0,18287.0
TotalPrice,397925.0,22.39,309.06,0.0,0.55,1.25,1.95,4.68,11.8,19.8,35.4,67.5,202.5,168469.6


In [48]:
# Aykırı değerlerin toplam sayılarını tespit edebilmek için 

for feature in ["Quantity","Price","TotalPrice"]:

    Q1 = df[feature].quantile(0.01)
    Q3 = df[feature].quantile(0.99)
    IQR = Q3-Q1
    upper = Q3 + 1.5*IQR
    lower = Q1 - 1.5*IQR

    if df[(df[feature] > upper) | (df[feature] < lower)].any(axis=None):
        print(feature,"yes")
        print(df[(df[feature] > upper) | (df[feature] < lower)].shape[0])
    else:
        print(feature, "no")




Quantity yes
963
Price yes
661
TotalPrice yes
903


# __RFM SKORLARINI İLE MÜŞTERİ SEGMENTASYONU__

Recency, Frequency, Monetary ifadelerinin baş harflerinden oluşur.

Müşterilerin satın alma alışkanlıkları üzerinden pazarlama ve satış stratejileri belirlemeye yardımcı olan bir tekniktir.

Recency (yenilik): Müşterinin son satın almasından bugüne kadar geçen süre

- Diğer bir ifadesiyle “Müşterinin son temasından bugüne kadar geçen süre” dir.

- Bugünün tarihi - Son satın alma

- Örnek verecek olursak bugün bu analizi yapıyorsak bugünün tarihi - son ürün satın alma tarihi.

- Bu örneğin 20 olabilir 100 olabilir. Biliriz ki 20 olan müşteri daha sıcaktır. Daha son zamanlarda bizimle teması olmuştur.

Frequency (Sıklık): Toplam satın alma sayısı.

Monetary (Parasal Değer): Müşterinin yaptığı toplam harcama.

In [50]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


## __RECENCY DEĞERLERİNİN HESAPLANMASI__

In [52]:
# İLK FATURA TARİHİNE ULAŞMAK İÇİN, Alışveriş tarihini min olarak alalım:

df["InvoiceDate"].min()

Timestamp('2010-12-01 08:26:00')

In [54]:
# Son fatura tarihi

df["InvoiceDate"].max()

Timestamp('2011-12-09 12:50:00')

In [56]:
import datetime as dt

# datetime fonksiyonunu tarih hesaplaması için indiyoruz. 

# Note: Max tarihi kendimize bugün tarihi olarak alıyoruz. Bu şu anlama gelyor.
# Dün alışveriş yapılmış bugün işlem yapıyoruz

In [65]:
today_date = dt.datetime(2011, 12, 9)

In [66]:
today_date


datetime.datetime(2011, 12, 9, 0, 0)

In [67]:
df.groupby("Customer ID").agg({"InvoiceDate":"max"}).head()

Unnamed: 0_level_0,InvoiceDate
Customer ID,Unnamed: 1_level_1
12346,2011-01-18 10:01:00
12347,2011-12-07 15:52:00
12348,2011-09-25 13:13:00
12349,2011-11-21 09:51:00
12350,2011-02-02 16:01:00


In [68]:
df["Customer ID"] = df["Customer ID"].astype(int)

In [69]:
 df.groupby("Customer ID").agg({"InvoiceDate": "max"}).head()

Unnamed: 0_level_0,InvoiceDate
Customer ID,Unnamed: 1_level_1
12346,2011-01-18 10:01:00
12347,2011-12-07 15:52:00
12348,2011-09-25 13:13:00
12349,2011-11-21 09:51:00
12350,2011-02-02 16:01:00


In [70]:
(today_date -  df.groupby("Customer ID").agg({"InvoiceDate": "max"}).head())

# Harika bişi bu, bugünun tarihinden bütün değeler çıkartıldı. 

Unnamed: 0_level_0,InvoiceDate
Customer ID,Unnamed: 1_level_1
12346,324 days 13:59:00
12347,1 days 08:08:00
12348,74 days 10:47:00
12349,17 days 14:09:00
12350,309 days 07:59:00


In [152]:
temp_df = (today_date -  df.groupby("Customer ID").agg({"InvoiceDate": "max"}))

# Geçiçi bir değere tarihleri atadık. 

In [155]:
temp_df.head()

# Veri setine baktığımızda aradaki fark değerlerini görebiliyruz.

Unnamed: 0_level_0,InvoiceDate
Customer ID,Unnamed: 1_level_1
12346,324 days 13:59:00
12347,1 days 08:08:00
12348,74 days 10:47:00
12349,17 days 14:09:00
12350,309 days 07:59:00


In [156]:
temp_df.rename(columns = {"InvoiceDate": "Recency"}, inplace = True)

In [157]:
temp_df.head()

Unnamed: 0_level_0,Recency
Customer ID,Unnamed: 1_level_1
12346,324 days 13:59:00
12347,1 days 08:08:00
12348,74 days 10:47:00
12349,17 days 14:09:00
12350,309 days 07:59:00


In [158]:
temp_df.iloc[0,0].days

# yazdığımız kod ile gün sayısını buluyoruz. 


324

In [159]:
# Bu fonksiyonu tüm verisetine genellemek için

recency_df = temp_df["Recency"].apply(lambda x : x.days)

# Bu önemli: 
    # apply fonksiyonu ile her bir x değerini days fonsiyonuna uygularak satır satır 
    # tüm dataframei dolaşacak
    
# Bu sayede her bir müşterinin en son kaç gün önce alışveriş yaptığı bilgisi geldi.

In [160]:
recency_df.head()

Customer ID
12346    324
12347      1
12348     74
12349     17
12350    309
Name: Recency, dtype: int64


#__Aynı fonksiyonu__ ile de yapabiliriz: 


df.groupby("Customer ID").agg({"InvoiceDate": lambda x: (today_date - x.max()).days}).head()


In [161]:
df.groupby("Customer ID").agg({"InvoiceDate": lambda x: (today_date - x.max()).days}).head()

Unnamed: 0_level_0,InvoiceDate
Customer ID,Unnamed: 1_level_1
12346,324
12347,1
12348,74
12349,17
12350,309


## __FREQUENCY DEĞERLERİNİN HESAPLANMASI :__

In [85]:
# Her bir müşterinin toplam alışveriş sayının hesaplanması :

In [88]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34


In [91]:
df.groupby(["Customer ID","Invoice"]).agg({"Invoice":"nunique"}).head()

# Her bir müşterinin kaç faturaya sahip olduğu bilgisine ulaşmak amacıyla. 

Unnamed: 0_level_0,Unnamed: 1_level_0,Invoice
Customer ID,Invoice,Unnamed: 2_level_1
12346,541431,1
12347,537626,1
12347,542237,1
12347,549222,1
12347,556201,1


In [92]:
freq_df = df.groupby("Customer ID").agg({"InvoiceDate":"nunique"})

In [94]:
freq_df.head()

# Bu sayede her bir customerin kaç satın alma işlemi yaptığını bulacağız. 

Unnamed: 0_level_0,InvoiceDate
Customer ID,Unnamed: 1_level_1
12346,1
12347,7
12348,4
12349,1
12350,1


In [98]:
freq_df.rename(columns ={"InvoiceDate":"Frequency"}, inplace = True)

# YENİDEN ADLANDIRDIK

## __MONETARY DEĞERLERİNİN HESAPLANMASI :__

In [99]:
# KULLANMIYORUZ AMA 
# NE kadar para harcıyolar

In [100]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom,20.34


In [101]:
monetary_df = df.groupby("Customer ID").agg({"TotalPrice": "sum"})

In [102]:
monetary_df.head()

Unnamed: 0_level_0,TotalPrice
Customer ID,Unnamed: 1_level_1
12346,77183.6
12347,4310.0
12348,1797.24
12349,1757.55
12350,334.4


In [103]:
monetary_df.rename(columns = {"TotalPrice": "Monetary"}, inplace = True)

In [104]:
monetary_df.head()

# Her bir müşsterinin toplam harcamasını bulduk

Unnamed: 0_level_0,Monetary
Customer ID,Unnamed: 1_level_1
12346,77183.6
12347,4310.0
12348,1797.24
12349,1757.55
12350,334.4


In [162]:
print(recency_df.shape, freq_df.shape, monetary_df.shape)

# Boyutlarını bulmuş olduk. Korkulcak bi şey yok :)

(4339,) (4339, 1) (4339, 1)


In [166]:
rfm = pd.concat([recency_df, freq_df, monetary_df], axis = 1)

In [167]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346,324,1,77183.6
12347,1,7,4310.0
12348,74,4,1797.24
12349,17,1,1757.55
12350,309,1,334.4


In [109]:
# skorlar oluşturalacak ardından genellemelere gidilecek:
# qcut fonsiyonu kullanarak 5 tane label a bölünecek
# veri küçükten büyüge doğru sıralanacak ve küçük olan değerler 5 büyük olan değerler ise 1 e doğru numaralandırılacak

In [168]:
rfm["RecencyScore"] = pd.qcut(rfm["Recency"], 5, labels = [5, 4 , 3, 2, 1])

In [169]:
rfm["RecencyScore"].head()

Customer ID
12346    1
12347    5
12348    2
12349    4
12350    1
Name: RecencyScore, dtype: category
Categories (5, int64): [5 < 4 < 3 < 2 < 1]

In [170]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
12346,324,1,77183.6,1
12347,1,7,4310.0,5
12348,74,4,1797.24,2
12349,17,1,1757.55,4
12350,309,1,334.4,1


In [117]:
#rfm["FrequencyScore"] = pd.qcut(rfm["Frequency"], 5, labels = [1, 2 , 3, 4, 5])

# recency den farklı olarak frekanslarda büyük olanolar büyük kücük olanlar kücük olarak kodlanacak

In [171]:
rfm["FrequencyScore"]= pd.qcut(rfm["Frequency"].rank(method="first"),5, labels=[1,2,3,4,5])

# kalansız olarak bölünme hatası verildiğinde rank metodunu kullanabilirz.


In [172]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
12346,324,1,77183.6,1,1
12347,1,7,4310.0,5,5
12348,74,4,1797.24,2,4
12349,17,1,1757.55,4,1
12350,309,1,334.4,1,1


In [173]:
rfm["FrequencyScore"].head()

Customer ID
12346    1
12347    5
12348    4
12349    1
12350    1
Name: FrequencyScore, dtype: category
Categories (5, int64): [1 < 2 < 3 < 4 < 5]

In [174]:
rfm["MonetaryScore"] = pd.qcut(rfm["Monetary"], 5, labels = [1, 2 , 3, 4, 5])

In [175]:
rfm["MonetaryScore"].head()

Customer ID
12346    5
12347    5
12348    4
12349    4
12350    2
Name: MonetaryScore, dtype: category
Categories (5, int64): [1 < 2 < 3 < 4 < 5]

In [177]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
12346,324,1,77183.6,1,1,5
12347,1,7,4310.0,5,5,5
12348,74,4,1797.24,2,4,4
12349,17,1,1757.55,4,1,4
12350,309,1,334.4,1,1,2


In [192]:
(rfm['RecencyScore'].astype(str) + rfm['FrequencyScore'].astype(str) + rfm['MonetaryScore'].astype(str)).head()

Customer ID
12346    115
12347    555
12348    244
12349    414
12350    112
dtype: object

In [205]:
rfm["RFM_SCORE"] = (rfm['RecencyScore'].astype(str) + rfm['FrequencyScore'].astype(str) + rfm['MonetaryScore'].astype(str))

In [207]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE,Segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346,324,1,77183.6,1,1,5,115,Hibernating
12347,1,7,4310.0,5,5,5,555,Champions
12348,74,4,1797.24,2,4,4,244,At Risk
12349,17,1,1757.55,4,1,4,414,Promising
12350,309,1,334.4,1,1,2,112,Hibernating


In [208]:
rfm["RFM_SCORE"].head()

Customer ID
12346    115
12347    555
12348    244
12349    414
12350    112
Name: RFM_SCORE, dtype: object

In [209]:
# Dananın kuyruğunun koptuğu yerdeyiz
# Elde ettiğimiz RFM kodları ile müşterileri 
# sınıflarına ayırmak için aşağıdaki sınıflandırmayı kullanıyoruz

In [210]:
# Regular Expressions (Düzenli İfadeler) kullanılarak RFM haritası çıkarıldı
seg_map = {
    r'[1-2][1-2]': 'Hibernating',
    r'[1-2][3-4]': 'At Risk',
    r'[1-2]5': 'Can\'t Loose',
    r'3[1-2]': 'About to Sleep',
    r'33': 'Need Attention',
    r'[3-4][4-5]': 'Loyal Customers',
    r'41': 'Promising',
    r'51': 'New Customers',
    r'[4-5][2-3]': 'Potential Loyalists',
    r'5[4-5]': 'Champions'
}

In [211]:
rfm['Segment'] = rfm['RecencyScore'].astype(str) + rfm['FrequencyScore'].astype(str)

In [212]:
rfm['Segment'] = rfm['Segment'].replace(seg_map, regex=True)

In [213]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE,Segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346,324,1,77183.6,1,1,5,115,Hibernating
12347,1,7,4310.0,5,5,5,555,Champions
12348,74,4,1797.24,2,4,4,244,At Risk
12349,17,1,1757.55,4,1,4,414,Promising
12350,309,1,334.4,1,1,2,112,Hibernating


# __RFM ANALİZ SKORLARININ İNCELENMESİ__

__Elde edilen "Recency","Frequency", "Monetary" değerlerinin
"mean","median","count" değerlerinin ortalamaları alınarak
Segmentlere göre çapraz tabloda incelenmiştir.__

In [214]:
rfm[["Segment","Recency","Frequency", "Monetary"]].groupby("Segment").agg(["mean","median","count"])

Unnamed: 0_level_0,Recency,Recency,Recency,Frequency,Frequency,Frequency,Monetary,Monetary,Monetary
Unnamed: 0_level_1,mean,median,count,mean,median,count,mean,median,count
Segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
About to Sleep,51.37,51,353,1.16,1,353,472.55,331.95,353
At Risk,152.04,137,594,2.87,3,594,1079.81,675.16,594
Can't Loose,130.05,105,64,8.31,7,64,2791.01,2236.74,64
Champions,4.37,3,632,12.34,8,632,6866.78,2613.85,632
Hibernating,215.66,217,1069,1.1,1,1069,488.86,293.0,1069
Loyal Customers,31.69,28,820,6.44,5,820,2862.89,1737.83,820
Need Attention,50.27,50,184,2.32,2,184,894.49,637.78,184
New Customers,5.43,6,42,1.0,1,42,388.21,274.5,42
Potential Loyalists,15.37,16,486,2.01,2,486,1041.34,524.0,486
Promising,21.42,21,95,1.0,1,95,290.91,219.0,95


In [None]:
__At Risk__:
    - Risk grubundakiler ortalama olarak 152 gündür, sisteme giriş yapmıyorlar. 
    - Edlde edilen süre uzun bir zaman dilimini ifade etmktedir.
    - Harcama oranlarının ortalaması yüksek olan 4'uncu grup.
    - Potansiyel olarak kazanma ve kaybedilme riski var.
    - Alışveriş sepetleri incelerenek genel olarak rağbet gören ürünler konusunda kampanya oluştutulabilir.
    - Kendilerini sistemin bir parcası olarak hissedebilmeleri için, klüp kartı sistemi kurularak bronz sisteme kayıt edilebilir.
    - Gold ve platin kartlardaki indirim seviyesine ulaşmaları için desteklenebililer. 
    
__Champions__:
    - Şampiyolar grubunun üyeleri ortalama 4.37 gün önce sisteme giriş yapmışladır.
    - Alışveriş miktarı baz alındığında elde edilen toplam alışveriş ortalamaları en yüksek olan gruptakilerdir. 
    - mean= 6866.78, mean= 2613 bu durum, yapılan alışveriş miktarının 2600 seviyelerinde olduğunu gösermektedir. Bu nedenle şampiyonlar ile özel ilgi sunulabilir.
    - Şampiyolara hak ettikleri değer hissetirilmelidir.
    - Onların aracılığı ile kendi düzeylerinde müşteri çekebilmeleri teşvik edecek bir sistem kurulabilir. 
    - Sisteme kazandırdıkları kişiler üzerinden indirim sunulabilir. 
    - Platin kart ile ödüllendirilebilir. 
    - Vodafon 10 yıllık müşterilerine özgü hediyeler sunarak onları sistemde onure etmeye çalıştığı gibi.
__Can t Loose __:
    - Kaybedilmek istenmeyen grupdadırar çünkü, yüksek düzeyde alışveriş ortlamasına  (mean = 2791) sahip olan bir gruptur.
    - Ancak sık sık alışveriş yapmamaktadırlar. 
    - Alışveriş medyanları incelendiğinde median = 2236 ile ortalmaya  yakın ve diğer gruplara kıyasla 2 inci en yüksek meydan değeridir.
    - Düzenli alış veriş yapmaktadırlar ancak temsişi olarak  64 kişilik küçük bir grupdur
    - Uyumak üzere olan bu grupp teşfikler ile reklamlar ile sisteme çekilmeldir. 
    - Popüler kampanyalar ile ziyaret sıklıkları arttırılabilir. 

In [None]:
# Loyal Customers grubunda bulunan kişilerin segment sonuçlarını görmek için:

In [216]:
rfm[rfm["Segment"] == "Loyal Customers"].head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE,Segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12352,35,8,2506.04,3,5,5,355,Loyal Customers
12359,56,4,6372.58,3,4,5,345,Loyal Customers
12370,50,4,3545.69,3,4,5,345,Loyal Customers
12380,20,4,2724.81,4,4,5,445,Loyal Customers
12388,14,6,2780.66,4,4,5,445,Loyal Customers


In [219]:
rfm[rfm["Segment"] =="Loyal Customers"].index 

# yeni müşterilerin müşteri numaralarını listele

Int64Index([12352, 12359, 12370, 12380, 12388, 12395, 12407, 12408, 12415,
            12421,
            ...
            18204, 18211, 18221, 18226, 18235, 18236, 18257, 18259, 18263,
            18287],
           dtype='int64', name='Customer ID', length=820)

In [218]:
new_df = pd.DataFrame()

In [220]:
new_df["LoyalCustomersID"] = rfm[rfm["Segment"] == "Loyal Customers"].index 

In [221]:
new_df.head()

Unnamed: 0,LoyalCustomersID
0,12352
1,12359
2,12370
3,12380
4,12388


In [223]:
new_df.to_csv("LoyalCustomersID.csv")

                                                                         
                                                                         
                                                                         The End.... 
                                                                       
                                                                       by Zafer UZUN
                                                                            