# # RFM ile Müşteri Segmentasyonu (Customer Segmentation with RFM)

1. İş Problemi (Business Problem)
2. Veriyi Anlama (Data Understanding)
3. Veri Hazırlama (Data Preparation)
4. RFM Metriklerinin Hesaplanması (Calculating RFM Metrics)
5. RFM Skorlarının Hesaplanması (Calculating RFM Scores)
6. RFM Segmentlerinin Oluşturulması ve Analiz Edilmesi (Creating & Analysing RFM Segments)
7. Tüm Sürecin Fonksiyonlaştırılması


1. İş Problemi (Business Problem) :
Bir e-ticaret şirketi müşterilerini segmentlere ayırıp bu segmentlere göre
pazarlama stratejileri belirlemek istiyor.

Veri Seti Hikayesi
https://archive.ics.uci.edu/ml/datasets/Online+Retail+II

Online Retail II isimli veri seti İngiltere merkezli online bir satış mağazasının
01/12/2009 - 09/12/2011 tarihleri arasındaki satışlarını içeriyor.
Bu çalışmamda 2009-2010 tarihleri arasındaki satışların verilerini inceleyeceğim.

Değişkenler

InvoiceNo:    Fatura numarası. Her işleme yani faturaya ait eşsiz numara. C ile başlıyorsa iptal edilen işlem.

StockCode:    Ürün kodu. Her bir ürün için eşsiz numara.

Description:  Ürün ismi

Quantity:     Ürün adedi. Faturalardaki ürünlerden kaçar tane satıldığını ifade etmektedir.

InvoiceDate:  Fatura tarihi ve zamanı.

UnitPrice:    Ürün fiyatı (Sterlin cinsinden)

CustomerID:   Eşsiz müşteri numarası

Country:      Ülke ismi. Müşterinin yaşadığı ülke.




#  2. Veriyi Anlama (Data Understanding)

In [9]:
import datetime as dt
import pandas as pd
pd.set_option('display.max_columns', None) 
#yazdırma işleminde bütün sutunlar gözüksün

# pd.set_option('display.max_rows', None) #bütün satırları gör

pd.set_option('display.float_format', lambda x: '%.3f' % x) 
#sayısal değişkenlerin virgülden sonra kaç basamağını göstermeliyim.

df_ = pd.read_excel("online_retail_II.xlsx", sheet_name="Year 2009-2010") 
#sheet name: veriseti 2 syafa biz ilk syafayı oku dedik.

df = df_.copy()
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085.0,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085.0,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085.0,United Kingdom


In [10]:
df.shape
#boyut bilgisi

(525461, 8)

In [15]:
df.isnull().sum() 
#Eksik değerlere baktık,var olan eksik değerler müşteri özelinde segmentasyon çalışması yapacağımız için 
#bu ölçülebilirlik değeri taşımadığından  bunları sonra sileceğiz.
#Description da ki eksik veriler gözardı edilebilir, fakat customer ıd için bunu söylemeyiz çünkü eksik verilerin 
#çok olması sonuçlarıda saptıracaktır.


Invoice             0
StockCode           0
Description      2928
Quantity            0
InvoiceDate         0
Price               0
Customer ID    107927
Country             0
dtype: int64

# 3. Veri Hazırlama (Data Preparation)

In [17]:
df.dropna(inplace=True)
#dropna ifadesi eksik değerleri silmek için kullanılır.
#inplace argümanı yeniden atama işlemine gerek kalmaksızın değişikliğin kalıcı olmasını sağlar.

In [32]:
df.shape
#yaklaşık 100 bin gözlem verisetimizin eksek değerler açısından temizlenmiş oldu.

(407695, 9)

In [33]:
#invoice da başında C olan ifadeler vardı iade işlemleri temsil ediyordu bu iadeler veri setini özetlediğimizde
#bize negatif değerler gösterecektir. Describe ile sayısal değerlerin dağılımına bakalım.

df.describe().T

# Describe,NaN değerleri hariç olmak üzere bir veri kümesinin dağılımının merkezi eğilimini, 
# dağılımını ve şeklini özetleyen tanımlayıcı istatistikler oluşturmak için kullanılır.
# count - Boş olmayan değerlerin sayısı.
# mean - Ortalama (ortalama) değer.
# std - Standart sapma.
# min - minimum değer.
# %25 - %25 yüzdelik dilimi.
# %50 - %50 yüzdelik dilim.
# %75 - %75 yüzdelik dilimi.
# maks - maksimum değer.
# >>Sonuç olarak;
# Oluşan tabloda sayısal değerlere  baktığımızda Quantity’de negatif değer görmememiz gerekir. 
# Price negatif değerleri ise iade olan işlemler olabilir. 
# İade olan işlemlerin faturaları C ile başlıyordu. Bu yüzden C harfini içeren faturaları siliyoruz.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Quantity,407695.0,13.587,96.842,1.0,2.0,5.0,12.0,19152.0
Price,407695.0,3.294,34.757,0.0,1.25,1.95,3.75,10953.5
Customer ID,407695.0,15368.504,1679.796,12346.0,13997.0,15321.0,16812.0,18287.0
Total_Price,407695.0,21.663,77.147,0.0,4.95,11.9,19.5,15818.4


In [34]:
df = df[~df["Invoice"].apply(str).str.contains("C", na=False)] 
#iade edilmiş değerler eksi(-) sonuç getiriyordu bu değerler veri setinin yapısını bozmakta
#bunun için C haric diğer verileri getir dedik.

# 4. RFM Metriklerinin Hesaplanması (Calculating RFM Metrics)
RFM Analizi Müşteri Segmentasyonu İçin Kullanılan Bir Tekniktir.
Müşterilerin Satın Alma Alışkanlıkları Üzerinden Gruplara Ayrılması Ve 
Bu Gruplar Özelinde Stratejiler Geliştirilebilmesini Sağlar.
CRM Çalışmaları İçin Birçok Başlıkta Veriye Dayalı Aksiyon Alma İmkanı Sağlar.

Rfm Metrikleri

-Recency(Yenilik):Müşterinin Yenilik Yada Bizden En Son Ne Zaman Alışveriş Yaptığı Durumunu İfade Etmektedir.
Örneğin Bir Müşterinin Recency 1 Diğerinin 10 İse 1 Olan Bizim İçin Daha İyidir.
Henüz 1 Gün Önce Alışveriş Yapmış Demektir.Günlük Bazda Değerlendirme Yaptık.
Recency Müşterinin Sıcaklığını Yeniliğini İfade Eder.

-Frequency(Sıklık):Müşterinin Yaptığı Toplam Alışveriş Sayısıdır.
Diğer İfadeyle İşlem Sıklığıdır.

-Monetary(Parasal Değer):Müşterilerin Bize Bıraktığı Parasal Değeri İfade Eder.

!!CRM ve RFM ile ilgili detaylı açıklamaları klasör içerisinde pdf dosyasını paylaşmış olacağım. 
Şimdi çalışmamıza geri dönelim.



In [40]:
df["InvoiceDate"].max()
#veriseti içerisindeki en son tarih
#biz o yıllarda yaşamadığımız için ilgili hesaplamaların yapılması için şöyle bir yol izlememiz gerekmektedir.
#analizin yapıldığı günü tanımlamamız gerekmektedir. Data içerisindeki en son tarihten 2 gün sonra
#bu analizi yaptığımızı varsayalaım. Çalışmanın başında import ettiğimiz datetime kütüphanesinden
#today_date adlı tarih değişkeni oluşturmak için yardım istiyoruz.


Timestamp('2010-12-09 20:01:00')

In [36]:
today_date = dt.datetime(2010, 12, 11) 
#analizin yapıldığı varsaydığımız tarihi  oluşturduk.
#zaman formunda bir değişken
today_date

datetime.datetime(2010, 12, 11, 0, 0)

In [37]:
type(today_date)

datetime.datetime

In [39]:
#veri seti içerinde ürün ve fiyat bilgi mevcut fakat toplam fiyat değişkenimiz yok bunu biz veri setimize ekleyelim.
df['Total_Price']=df['Quantity']*df['Price']
df['Total_Price']

0         83.400
1         81.000
2         81.000
3        100.800
4         30.000
           ...  
525456     5.900
525457     3.750
525458     3.750
525459     7.500
525460     3.900
Name: Total_Price, Length: 407695, dtype: float64

In [43]:
rfm = df.groupby('Customer ID').agg({'InvoiceDate': lambda InvoiceDate: (today_date - InvoiceDate.max()).days,
                                     'Invoice': lambda Invoice: Invoice.nunique(),
                                     'Total_Price': lambda TotalPrice: TotalPrice.sum()})
#foksiyonun okunuşu:
#Dataframe 'Customer ıd' ye göre groupby değişkenine al veri setindeki diğer değişkenlere göre senin çeşitli  aggregation
#yani hesaplamalar yapman lazım.
#aggregation fonksiyonu sözlük yapısıyla, key kısmında değişkenleri ve value kısmında da bu değişkenlere
#uygulamak isteyeceğin fonksiyonu ifade edersen ben bunları ilgili fonksiyonlara uygularım  der.

#müşterilere göre groupby aldıktan sonra  fonksiyon şunun yapılmasını sağlayacak.

#(recency):bugünün tarihinden - müşterinin son satın alma tarihini çıkartacak bunu gün cinsinden verecek.
#(frequency):kullanıcılara göre groupbya aldıktan sonra invoiceların eşsiz değerlerini al, bak bakalım kaç tane fatura var.
#(monetary): müşterrilerin bize bıraktığı toplam para.
rfm.head()

Unnamed: 0_level_0,InvoiceDate,Invoice,Total_Price
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,165,11,372.86
12347.0,3,2,1323.32
12348.0,74,1,222.16
12349.0,43,3,2671.14
12351.0,11,1,300.93


In [47]:
rfm.columns = ['recency', 'frequency', 'monetary'] 
#kolon isimlerini değiştirdik.
rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,165,11,372.86
12347.0,3,2,1323.32
12348.0,74,1,222.16
12349.0,43,3,2671.14
12351.0,11,1,300.93


In [50]:
rfm.describe().T
#monetary değerinde sıfır olması istediğimiz bir durum olmayabilir bunu veri setinden çıkartıyoruz.

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
recency,4314.0,91.27,96.944,1.0,18.0,53.0,136.0,374.0
frequency,4314.0,4.454,8.169,1.0,1.0,2.0,5.0,205.0
monetary,4314.0,2047.289,8912.523,0.0,307.95,705.55,1722.802,349164.35


In [52]:
rfm = rfm[rfm["monetary"] > 0] 
#monetary değeri sıfırdan büyük olanları getirdik.
rfm.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
recency,4312.0,91.173,96.861,1.0,18.0,53.0,136.0,374.0
frequency,4312.0,4.456,8.17,1.0,1.0,2.0,5.0,205.0
monetary,4312.0,2048.238,8914.481,2.95,307.988,706.02,1723.142,349164.35


In [54]:
#müşteri ıd lere göre verimizi tekilleştirmiş olduk artık yeni veri setimizi oluşturduk. Bunlar rfm metrikleri biz bunları
#rfm skorlara dönüştürüp okunabilirliğini artıracağız.
rfm.shape

(4312, 3)

In [56]:
rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,165,11,372.86
12347.0,3,2,1323.32
12348.0,74,1,222.16
12349.0,43,3,2671.14
12351.0,11,1,300.93


# 5. RFM Skorlarının Hesaplanması (Calculating RFM Scores)


In [59]:
rfm["recency_score"] = pd.qcut(rfm['recency'], 5, labels=[5, 4, 3, 2, 1])
#qcut fonk. ile verilen değişkeni kaç parçaya bölmek istediğini söyle ve bölme işlemi sonrasında etiketleri söyle der.
#recency değerini küçükten büyüğe doğru sırala. sıcak müşteriye 5 puan uzak olan müşeriye 1 puan ver. 
#Yukarda receny değerini gün cinsinden hesaplamıştık receny değeri 1 ise yani 1 gün önce alışveriş yapmış 
#bunun recency_skoru 5.
#recency değeri 100 ise 100 gün önce alışveriş yapmış 
#bunun recency_skoru 1   böylece ölçülebilir hale geldi.
# 0-100, 0-20, 20-40, 40-60, 60-80, 80-100

rfm["frequency_score"] = pd.qcut(rfm['frequency'].rank(method="first"), 5, labels=[1, 2, 3, 4, 5])
#ferakns değişkeninde ortaya çıkacak bir problemin çözümü olarakta  rank methodunu fırst olarak kullandık.
#Müşterinin yapmış olduğu alışveriş sıklığını yani işlem sıklığını hesapladık 
#bu değerlere artan şekilde etiket oluşturup atadık.

rfm["monetary_score"] = pd.qcut(rfm['monetary'], 5, labels=[1, 2, 3, 4, 5])
#monetary ile müşterinin yapmış olduğu toplam alışverişin parasal karşılığını 
#monetary_score ile artan şekilde etiket oluşturup atadık.
#küçük olana küçük etiketi ver büyük olana büyük etiketi ver.
#quantile q argümanı burda 5 tir.



In [61]:
rfm["RFM_SCORE"] = (rfm['recency_score'].astype(str) + rfm['frequency_score'].astype(str))
#rfm skorlarına gitmek için r ve f değerleri yeterlidir monetary hesabını gözlemlemek için yaptık.


In [63]:
rfm

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346.000,165,11,372.860,2,5,2,25
12347.000,3,2,1323.320,5,2,4,52
12348.000,74,1,222.160,2,1,1,21
12349.000,43,3,2671.140,3,3,5,33
12351.000,11,1,300.930,5,1,2,51
...,...,...,...,...,...,...,...
18283.000,18,6,641.770,4,5,3,45
18284.000,67,1,461.680,3,2,2,32
18285.000,296,1,427.000,1,2,2,12
18286.000,112,2,1296.430,2,3,4,23


In [65]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Quantity,407695.0,13.587,96.842,1.0,2.0,5.0,12.0,19152.0
Price,407695.0,3.294,34.757,0.0,1.25,1.95,3.75,10953.5
Customer ID,407695.0,15368.504,1679.796,12346.0,13997.0,15321.0,16812.0,18287.0
Total_Price,407695.0,21.663,77.147,0.0,4.95,11.9,19.5,15818.4


In [69]:
#En iyi 5 müşterimizi listeleyelim
rfm[rfm["RFM_SCORE"] == "55"].head()

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12415.0,11,7,19543.84,5,5,5,55
12431.0,9,13,4370.52,5,5,5,55
12471.0,10,49,20139.74,5,5,5,55
12472.0,5,13,11308.48,5,5,5,55
12474.0,14,13,5048.66,5,5,5,55


In [72]:
#En kötü 5 müşterimizi listeleyelim
rfm[rfm["RFM_SCORE"] == "11"].head()

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12355.0,203,1,488.21,1,1,2,11
12362.0,374,1,130.0,1,1,1,11
12366.0,269,1,500.24,1,1,2,11
12368.0,264,1,917.7,1,1,3,11
12378.0,198,1,1407.7,1,1,4,11


# 6. RFM Segmentlerinin Oluşturulması ve Analiz Edilmesi (Creating & Analysing RFM Segments)



In [76]:
# RFM isimlendirmesi
seg_map = {
    r'[1-2][1-2]': 'hibernating',
    r'[1-2][3-4]': 'at_Risk',
    r'[1-2]5': 'cant_loose',
    r'3[1-2]': 'about_to_sleep',
    r'33': 'need_attention',
    r'[3-4][4-5]': 'loyal_customers',
    r'41': 'promising',
    r'51': 'new_customers',
    r'[4-5][2-3]': 'potential_loyalists',
    r'5[4-5]': 'champions'
}
#seg_map regex i ifade etmektedir. Bize şu sorguyu ve yapı yakalamayı sağlar.RFM_SCORE içerisinde 2 tane değerimiz var
#1. elemanında 1 ya da 2 ,2. elemanında 1 yada  2 görürsen yani keylerde ki ifadeleri görürsen eğer
#value lar da ki belirttiğimiz  isimlendirmeyi yap.
#köşeli parantezler bir elemanla ilgili ya da olasılıkları göz önünde bulundurulması gereken durumları ifade etmektedir.

rfm['segment'] = rfm['RFM_SCORE'].replace(seg_map, regex=True) 
#replace ile skorları birleştirdik
#rfm skolarını replace ile yukarıdaki key value değerleriyle değiştir.
rfm['segment'].head()

Customer ID
12346.000             cant_loose
12347.000    potential_loyalists
12348.000            hibernating
12349.000         need_attention
12351.000          new_customers
Name: segment, dtype: object

In [78]:
rfm[["segment", "recency", "frequency", "monetary"]].groupby("segment").agg(["mean", "count"])
#müşterileri segmentlere ayırdık
#metrikleri segmentlere göre groupby  al, ortalama ve toplam sayılarını getir.

Unnamed: 0_level_0,recency,recency,frequency,frequency,monetary,monetary
Unnamed: 0_level_1,mean,count,mean,count,mean,count
segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
about_to_sleep,53.819,343,1.201,343,441.32,343
at_Risk,152.159,611,3.074,611,1188.878,611
cant_loose,124.117,77,9.117,77,4099.45,77
champions,7.119,663,12.554,663,6852.264,663
hibernating,213.886,1015,1.126,1015,403.978,1015
loyal_customers,36.287,742,6.83,742,2746.067,742
need_attention,53.266,207,2.449,207,1060.357,207
new_customers,8.58,50,1.0,50,386.199,50
potential_loyalists,18.793,517,2.017,517,729.511,517
promising,25.747,87,1.0,87,367.087,87


In [80]:
rfm[rfm["segment"] == "cant_loose"].head() 
#kaybedemeyeceğimiz kişilere 
#recency değeri 2 demek ki son zamanlarda bizden biraz uzaklaşmış
#frequency değeri 5 en yüksek frekansa sahip müşterilerimiz.

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346.0,165,11,372.86,2,5,2,25,cant_loose
12380.0,101,7,6951.49,2,5,5,25,cant_loose
12482.0,212,29,23691.4,1,5,5,15,cant_loose
12510.0,95,7,4195.45,2,5,5,25,cant_loose
12891.0,94,8,509.5,2,5,3,25,cant_loose


In [83]:
rfm[rfm["segment"] == "champions"].head() 
#en iyi müşterilerimiz şampiyonlar grubu.

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12360.0,15,5,1590.83,5,4,4,54,champions
12395.0,7,4,2048.64,5,4,4,54,champions
12415.0,11,7,19543.84,5,5,5,55,champions
12429.0,1,5,3735.51,5,4,5,54,champions
12431.0,9,13,4370.52,5,5,5,55,champions


In [85]:
rfm[rfm["segment"] == "about_to_sleep"].head()
#uyumak üzere olan müşterilerimiz uzun zamandır etkileşimde kalamadığımız bu müşteri gruu için
#birşeyler yapmamız gerekebilir bunun içinde maliyet hesaplayıp karar verilmeli.


Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12353.0,44,1,317.76,3,1,2,31,about_to_sleep
12379.0,58,2,767.98,3,2,3,32,about_to_sleep
12387.0,51,1,143.94,3,1,1,31,about_to_sleep
12400.0,50,1,205.25,3,1,1,31,about_to_sleep
12411.0,45,1,346.9,3,1,2,31,about_to_sleep


In [87]:
rfm[rfm["segment"] == "new_customers"].head()
#yeni  müşterilerimiz.

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RFM_SCORE,segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12351.0,11,1,300.93,5,1,2,51,new_customers
12385.0,15,1,1938.4,5,1,4,51,new_customers
12386.0,2,1,258.9,5,1,2,51,new_customers
12427.0,7,1,303.5,5,1,2,51,new_customers
12441.0,2,1,173.55,5,1,1,51,new_customers


In [91]:
rfm[rfm["segment"] == "cant_loose"].index
#kaybedemeyeceğimiz müşterilerin index bilgileri

Float64Index([12346.0, 12380.0, 12482.0, 12510.0, 12891.0, 12932.0, 13044.0,
              13313.0, 13680.0, 13782.0, 13799.0, 13856.0, 14025.0, 14063.0,
              14160.0, 14221.0, 14548.0, 14607.0, 14685.0, 14745.0, 15003.0,
              15013.0, 15015.0, 15125.0, 15141.0, 15222.0, 15306.0, 15321.0,
              15359.0, 15369.0, 15372.0, 15443.0, 15538.0, 15607.0, 15633.0,
              15722.0, 15751.0, 15754.0, 15768.0, 15911.0, 15912.0, 16027.0,
              16032.0, 16158.0, 16177.0, 16197.0, 16335.0, 16467.0, 16631.0,
              16742.0, 16743.0, 16875.0, 16986.0, 17021.0, 17032.0, 17092.0,
              17113.0, 17157.0, 17188.0, 17230.0, 17268.0, 17426.0, 17448.0,
              17454.0, 17512.0, 17578.0, 17602.0, 17651.0, 17940.0, 17969.0,
              17988.0, 18009.0, 18051.0, 18064.0, 18094.0, 18251.0, 18258.0],
             dtype='float64', name='Customer ID')

In [93]:
new_df = pd.DataFrame()
new_df["new_customer_id"] = rfm[rfm["segment"] == "new_customers"].index 
#yeni dataframe içerisine yeni müşterilerin ıd lerini attık.Bu bilgiler csv dosyasına aktarıp 
#ilgili departmana göndereceğiz.
new_df

Unnamed: 0,new_customer_id
0,12351.0
1,12385.0
2,12386.0
3,12427.0
4,12441.0
5,12538.0
6,12686.0
7,12738.0
8,12763.0
9,12767.0


In [96]:
new_df["new_customer_id"] = new_df["new_customer_id"].astype(int) #ondalık değerlerden kurtulduk.

In [98]:
new_df.to_csv("new_customers.csv") 
#istediğimiz verileri csv dosyası olarak dışarı çıkardık.
rfm.to_csv("rfm.csv")


# 7. Tüm Sürecin Fonksiyonlaştırılması

In [100]:

def create_rfm(dataframe, csv=False):

    # VERIYI HAZIRLAMA
    dataframe["TotalPrice"] = dataframe["Quantity"] * dataframe["Price"]
    dataframe.dropna(inplace=True)
    dataframe = dataframe[~dataframe["Invoice"].apply(str).str.contains("C", na=False)]

    # RFM METRIKLERININ HESAPLANMASI
    today_date = dt.datetime(2011, 12, 11)
    rfm = dataframe.groupby('Customer ID').agg({'InvoiceDate': lambda date: (today_date - date.max()).days,
                                                'Invoice': lambda num: num.nunique(),
                                                "TotalPrice": lambda price: price.sum()})
    rfm.columns = ['recency', 'frequency', "monetary"]
    rfm = rfm[(rfm['monetary'] > 0)]

    # RFM SKORLARININ HESAPLANMASI
    rfm["recency_score"] = pd.qcut(rfm['recency'], 5, labels=[5, 4, 3, 2, 1])
    rfm["frequency_score"] = pd.qcut(rfm["frequency"].rank(method="first"), 5, labels=[1, 2, 3, 4, 5])
    rfm["monetary_score"] = pd.qcut(rfm['monetary'], 5, labels=[1, 2, 3, 4, 5])

    # cltv_df skorları kategorik değere dönüştürülüp df'e eklendi
    rfm["RFM_SCORE"] = (rfm['recency_score'].astype(str) +
                        rfm['frequency_score'].astype(str))


    # SEGMENTLERIN ISIMLENDIRILMESI
    seg_map = {
        r'[1-2][1-2]': 'hibernating',
        r'[1-2][3-4]': 'at_risk',
        r'[1-2]5': 'cant_loose',
        r'3[1-2]': 'about_to_sleep',
        r'33': 'need_attention',
        r'[3-4][4-5]': 'loyal_customers',
        r'41': 'promising',
        r'51': 'new_customers',
        r'[4-5][2-3]': 'potential_loyalists',
        r'5[4-5]': 'champions'
    }

    rfm['segment'] = rfm['RFM_SCORE'].replace(seg_map, regex=True)
    rfm = rfm[["recency", "frequency", "monetary", "segment"]]
    rfm.index = rfm.index.astype(int)

    if csv:
        rfm.to_csv("rfm.csv")

    return rfm

df = df_.copy()

rfm_new = create_rfm(df, csv=True)


# Özet: 
#Elimizdde bir veri seti vardı,fatura üzerinde oluşan veri setleri olarak düşünülebilir.
#Burada ki bütün odak satın alma işlemini raporlamaktır.
#Öncelikle bu veri setini kullanıcı özelinde tekilleştirmemiz gerekiyordu fakat bazı ön işlemler yaptık.
#Daha sonra rfm metriklerini hesapladık.Bu metrikleri skorlara çevirdik.
#Skorlar üzerinden segment isimlendirmelerini ve analizlerini gerçekleştirip analiz sonuçlarını bir csv dosyasına yazdık 
#ve bütün süreci fonksiyonlaştırıp işlemlerimizi tamamladık.
