# CRM Analytics (RFM Analysis, CLTV)

![](https://cdn-images-1.medium.com/max/800/1*8kB7crU624Xc4Gksb327mw.png)

1- **Data Understanding** (Veriyi anlama)

2- **Data Preperation** (Veri ön işleme)

3- **Creating RFM Segments** (RFM Analizi ile müşterilerin Recency ve Frequency değerlerini kullanarak müşteri segmentasyonu gerçekleştireceğiz.)

4- **Calculated CLTV** (Bir müşterinin şirket için değerinin hesaplanıp segmentlere ayrılmasını göreceğiz.)

5- **Predicted CLTV** (Bu müşteri değeri hesaplamasının zaman eksenli bir projeksiyonu olmadığı için zaman projeksiyonu getirerek geleceğe yönelik müşteri değeri hesaplamayı ve segmentlere ayırmayı gerçekleştireceğiz.)
 * BG-NBD modeli ile gelceğe yönelik beklenen satışların tahmini,
 * Gamma-Gamma modeli ile geleceğe yönelik beklenen karlılık tahmini gerçekleştireceğiz.
 * BG-NBD ve Gamma-Gamma modelleri ile belirli bir zaman periyodu için CLTV tahmini gerçekleştireceğiz.

6- Tüm çalışmaları tek bir çatı altında toplayarak proje üzerinden önemli yorumlamalar yapacağız.

---

### Veri Seti Hikayesi  👉  https://archive.ics.uci.edu/ml/datasets/Online+Retail+II

Online Retail II, İngiltere merkezli bir e-ticaret şirketinin 01/12/2009 - 09/12/2011 tarihleri arasındaki satışlarını içermektedir. Şirket hediyelik eşya satışı gerçekleştirmekte ve müşterileri de toptancılardır.

### Veri Setindeki Değişkenler

* **Invoice:** Fatura numarası. Her faturaya ait eşsiz numara. Eğer bu kod C ile başlıyorsa işlemin iptal edildiğini ifade eder.
* **StockCode:** Ürün kodu. Her bir ürün için eşsiz numara.
* **Description:** Ürün ismi
* **Quantity:** Ürün adedi. Faturalardaki ürünlerden kaçar tane satıldığını ifade etmektedir.
* **InvoiceDate:** Fatura tarihi ve zamanı.
* **UnitPrice:** Ürün fiyatı
* **CustomerID:** Eşsiz müşteri numarası
* **Country:** Ülke ismi. Müşterinin yaşadığı ülke.


# 1- Data Understanding

In [None]:
!pip install xlrd
!pip install openpyxl
!pip install lifetimes

In [None]:
# Projede gerekli olan kütüphanelerin import işlemini yapıyoruz.
import datetime as dt
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from lifetimes import BetaGeoFitter
from lifetimes import GammaGammaFitter

# Çıktıda tüm sütun ve satırları gözlemlemek için;
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# Çıktıda sütunların alta kaymasını engellemek için sütunları yan yana getireceğimiz kod.
pd.set_option('display.expand_frame_repr', False)

In [None]:
# Veri Setini okuma işlemlerini gerçekleştiriyoruz. Projede 2010-2011 yılına ait verileri kullanacağız.
df_ = pd.read_excel("../input/online-retail-ii-data-set-from-ml-repository/online_retail_II.xlsx", sheet_name="Year 2010-2011")

In [None]:
# Veri setini boyutu fazla olduğundan dolayı veriyi okutma süresi uzun sürmektedir. 
# Herhangi bir sebeple veriyi tekrar okutmamız gerekirse beklememek için veriyi kopyalıyoruz. 
df = df_.copy()

### Veri okuma işlemini gerçekleştirdik.
### Veriyi anlamaya çalışacağız.

In [None]:
# Veri setindeki ilk 5 gözlem değerini inceliyoruz.
df.head()

In [None]:
# Veride kaç satır, kaç sütun vardır?
df.shape

In [None]:
# Kaç eşsiz ürün var? 
df["Description"].nunique()

In [None]:
# Hangi üründen kaçar tane var?
df["Description"].value_counts().head()   

In [None]:
# En çok sipariş edilen ilk 5 ürün hangileridir? 
# Veri setindeki ürün isimlerini(Description) groupby alarak ürün adetlerinin(Quantity) toplamını alıyoruz.
# Ürün adetine(Quantity) göre büyükten küçüğe sıralıyoruz. .head() işlemiyle ilk 5 gözleme bakıyoruz.
df.groupby("Description").agg({"Quantity":"sum"}).sort_values("Quantity", ascending = False).head()

In [None]:
# En pahalı ilk 5 ürün hangileridir?
# Veri setindeki ürün isimlerini(Description) groupby alarak ürün fiyatlarının(Price) maksimum değerini alıyoruz.
# Ürün fiyatına(Price) göre büyükten küçüğe sıralıyoruz. .head() işlemiyle ilk 5 gözleme bakıyoruz.
df.groupby("Description").agg({"Price":"max"}).sort_values("Price", ascending = False).head()

In [None]:
# En çok ürün satın alan müşteriler hangi ülkeden satın alma gerçekleştirmiştir?
df.groupby("Country").agg({"Quantity":"sum"}).sort_values("Quantity", ascending=False).head()

# 2- Data Preperation

In [None]:
# İlk olarak eksik gözlemimiz var mı onu kontrol edelim.
# Kod, değişkenlerdeki toplam eksik gözlem sayısını vermektedir.
df.isnull().sum()

In [None]:
# Eksik gözlemler üzerinde de işlemler yapabilirim ancak veri setimde çok fazla gözlem var. 
# Bu proje özelinde eksik gözlemleri veri setinden direk siliyorum.
# axis=0 satıra göre, axis=1 sütuna göre işlem yapar. İnplace=True ise bu işlemi atama yapmadan kalıcı hale getirir.
df.dropna(axis=0, inplace=True)
# İsnull fonskiyonu ile tekrar eksik gözlem kontrolü yapıyorum. Görüldüğü üzere eksik gözlemleri temizledik.
df.isnull().sum()

In [None]:
# Fatura numaraları(Invoice) değişkeninde "C" ile başlayan değerler iade olan faturaları ifade ediyordu.
# Biz bu çalışmada iade olan faturalarla ilgili bir analiz yapmayacağımız için,
# Invoice değişkeninde C içeren gözlemlerin dışındakileri seçerek tekrar df olarak atama yapıyoruz.
df = df[~df["Invoice"].str.contains("C", na=False)]

In [None]:
# Bu işlemlerden sonra satır ve sütun sayılarımıza bakalım.
df.shape

In [None]:
# Bu bölümde veri setinin betimsel istatistiklerine bakmak önemlidir.
# Eğer bir aykırılık göze çarparsa bu aykırlığı gidermek için işlemler yapmamız gerekir.
# Aşağıda ürün adeti(Quantity) ve ürün fiyatınının(Price) istatistiklerini incelediğimizde ;
# İki değişkenin de %99'luk ve maksimum değerleri arasında ciddi bir aykırılık görülmektedir.
df.describe([0.05,0.10,0.25,0.50,0.80,0.95,0.99]).T

In [None]:
# Analize gözlem aykırlığını gidererek devam etmemiz gerekiyor.
# Aşağıdaki outlier_thresholds fonksiyonu ile aykırı değerler için bir eşik değer belirliyoruz.
# Alt ve Üst sınır olarak bir eşik değer belirliyoruz. Bu aykırı gözlemler eşik değerin dışında kalıyor.
def outlier_thresholds(dataframe, variable):
    quartile1 = dataframe[variable].quantile(0.01)
    quartile3 = dataframe[variable].quantile(0.99)
    interquantile_range = quartile3 - quartile1
    up_limit = quartile3 + 1.5 * interquantile_range
    low_limit = quartile1 - 1.5 * interquantile_range
    return low_limit, up_limit

In [None]:
# replace_with_thresholds fonksiyonunda ise aykırı olan değerleri outlier_thresholds fonksiyonunda saptaığımız eşik değerlerle değiştiriyoruz.
# Yani aykırı değerler artık bizim belirlediğimiz çeyreklikte eşik değerlerle değişmiş oluyor.
def replace_with_thresholds(dataframe, variable):
    low_limit, up_limit = outlier_thresholds(dataframe, variable)
    # dataframe.loc[(dataframe[variable] < low_limit), variable] = low_limit
    dataframe.loc[(dataframe[variable] > up_limit), variable] = up_limit

In [None]:
# Artık hem ürün adeti(Quantity) değişkeninde hem de ürün fiyatı(Price) değişkenindeki aykırlığı giderebiliriz. 
replace_with_thresholds(df, "Quantity")
replace_with_thresholds(df, "Price")

In [None]:
df.describe([0.05,0.10,0.25,0.50,0.80,0.95,0.99]).T

In [None]:
# Quantity ve Price değişkenleri ürün adet ve her bir ürünün birim fiyatını göstermektedir.
# Biz çalışmamızda toplam fatura fiyatını değerlendireceğiz.
# Bunun için ise "Quantity" ve "Price" değişkenlerindeki gözlemleri çarparak yeni bir "Total Price" değişkeni oluşturacağız.
df["TotalPrice"] = df["Quantity"] * df["Price"]

In [None]:
# Tüm veri ön işleme adımlarından sonra artık verimizin son halinden ilk 5 gözlemi görebiliriz.
# Total Price değişkeni de görülmektedir.
df.head()

# 3- Creating RFM Segments

RFM, müşterilerin satın alma alışkanlıkları üzerinden onları segmentlere ayırarak pazarlama ve satış stratejileri belirlemeye yardımcı olur.

3 davranış metriğinin baş harflerinden meydana gelir.

* **Recency :** Müşterinin şirketle son temasından yani müşterinin son satın almasından bugüne kadar geçen süredir.
    * (Recency = Bugünün tarihi - Son satın alma tarihi)
    * Burada dikkat etmemiz gereken nokta Recency değeri olacaktır. Bu değerde Frequency ve Monetary metriklerine göre tersten bir skorlama yapılmaktadır.
    * Recency değeri yani müşterinin en son satın alma gerçekleştirdiği tarih ne kadar yakınsa bizim için bir o kadar değerlidir. Bu yüzden yukarıdaki Recency formülünden gelecek olan sonuç ne kadar küçük olursa bizim için skorlamada o kadar yüksek puan alacaktır.

* **Frequency :** Müşterinin toplam satın alma sayısını gösterir.

* **Monetary :** Müşterinin alışverişlerinde yaptığı toplam harcamadır.

Frequency ve Monetray metriklerinin ise değerleri ne kadar yüksekse skorlamada da o kadar yüksek puan alacaktır.

In [None]:
# Veri setindeki değişkenler ile Receny, Frequency ve Monetary skorlarını oluşturacağız.
df. info()

### Recency Metriğinin Hesaplanması

Recency için referans bir tarih belirleyip müşterilerin son satın alma tarihlerini bu referans tarihten çıkaracağız.

(Recency = Bugünün tarihi - Son satın alma tarihi)

Bunu nasıl yapacağız?
 * Öncelikle bir referans tarih belirleyeceğiz. Bunun sebebi ise recency formülündeki bugünün tarihini belirlemek. Bugünün tarihi dediğimiz durum aslında müşterinin en son kaç gün önce satın alma gerçekleştirdiğini bulmak istiyoruz. Bunun için de bugünün tarihini veri setinin maksimum gününden 1-2 gün sonrası olarak belirleyip bu tarihten her bir müşteri özelinde son satın alma tarihini çıkardığımızda Recency değerimize ulaşabiliriz.
 * 1-2 gün sonrasını belirlememizdeki mantık ise veri setinin en son gününde satın alma gerçekleştiren müşterilerimizin Recency formülündeki çıkarma işleminden dolayı recency değerlerinin "0" gelmesini engellemek.
 * Recency, müşterinin son satın almasını temsil ettiği için fatura tarihi(InvoiceDate) değişkeni kullanacağız. 
 * Müşteriler("CustomerID") bazında groupby alarak lambda fonksiyonu InvoiceDate değişkenini gezerek belirlediğimiz referans tarihi her bir müşterinin son satın alma tarihinden çıkaracağız.
 * `dataframe.groupby('Customer ID').agg({'InvoiceDate': lambda date: (today_date - date.max()).days `
 
### Frequency Metriğinin Hesaplanması

Frequency, müşterinin toplam satın alma sayısını ifade ettiği için fatura değişkenini(Invoice) kullanacağız.

 * Müşteriler("CustomerID") bazında groupby alarak lambda fonksiyonu (Invoice) değişkenini  gezerek her fatura numarasının eşsiz değerini bize saydıracak. Müşterinin kaç farklı satın alma gerçekleştirdiğini göreceğiz.
 * `dataframe.groupby('Customer ID').agg({'Invoice': lambda num: num.nunique()})`
 
### Monetary Metriğinin Hesaplanması 

Monetary, müşterinin alışverişlerinde yaptığı toplam harcamayı ifade ettiği için 20. satırda "Ouantity" ve "Price" değişkenlerinin çarpımlarıyla oluşturduğumuz "TotalPrice" değişkenini kullanacağız.

 * Müşteriler("CustomerID") bazında groupby alarak lambda fonksiyonu (TotalPrice) değişkenini gezerek ilgili müşteriye ait her toplam satın alma tutarını toplamını bize verecektir. Müşterinin yapmış olduğu toplam harcamayı göreceğiz.
 * `dataframe.groupby('Customer ID').agg({"TotalPrice": lambda price: price.sum()})`

In [None]:
# Veri setindeki maksimum tarihi görelim. Ona göre referans bir tarih belirleyeceğiz.
# Maksimum tarihimiz 09.12.2011
df["InvoiceDate"].max()

In [None]:
# Referans tarih belirleyeceğiz. Maksimum tarihten 2 gün sonrasını seçiyorum.
today_date = dt.datetime(2011, 12, 11)

In [None]:
# Artık Recency, Frequency ve Monetary değerlerinden oluşacak RFM Tablomuzu oluşturabiliriz.
rfm = df.groupby('Customer ID').agg({'InvoiceDate': lambda date: (today_date - date.max()).days,
                                                'Invoice': lambda num: num.nunique(),
                                                "TotalPrice": lambda price: price.sum()})

In [None]:
# RFM Tablosunun ilk 5 gözlemini görüyoruz.
# Bu tablo 'InvoiceDate', 'Invoice' ve 'TotalPrice' değişkenlerinden oluşuyor.
rfm.head()

In [None]:
# Yukarıdaki değişkenlerimiz bizim artık Recency, Frequency ve Monetary değerlerimizi ifade ediyor.
# O zaman değişkenlerin isimlerini değiştirebiliriz.rfm.columns'a yeni isimleri atıyorum.
rfm.columns = ['recency', 'frequency', "monetary"]
rfm.head()

In [None]:
# Oluşturduğumuz rfm tablomuzda monetray ve frequency değerlerimizde "0"'dan büyük olmayanlar var mı diye kontrol amaçlı bir bakıyoruz.
# Bu kontrolü yapmamın sebebi ise Frequency ve Monetray değerleri "0" gelmemesi lazım.
# Kontrol sonucunda Müşteri 1 satın alma gerçekleştirmiş ancak müşterinin bıraktığı toplam tutar "0" birim.
# Böyle bir durum gerçekleşmesi mümkün olmayacağı için bunu iki değişken için de 0 dan büyük olanları tekrar rfm olarak atama yapıyoruz.
rfm[~((rfm["monetary"]) > 0 & (rfm["frequency"] > 0))]

In [None]:
rfm = rfm[(rfm['monetary'] > 0)]

In [None]:
rfm.head()

Artık RFM metriklerini hesaplamış bulunmaktayız. Tekrardan hatırlamak için;
 * Recency : Müşterilerimizin son satın alma tarihinden referans tarihe kadar geçen süreyi ifade ediyor.
 * Frequency : Müşterilerimizin toplam satın alma sayılarını ifade ediyor.
 * Monetary : Müşterilerin bu satın almalar sonucunda toplam harcama tutarını ifade ediyor.

Gelin birlikte örnek olarak yukarıdan bir müşteriyi yorumlayalım.
 * 12348 ID'lı müşterimiz, 76 gün önce alışveriş yapmış. 4 satın alma gerçekleştirmiş. Bu satın almalar sonucunda bıraktığı toplam tutar 1770.78 birimdir. 
 
Artık RFM skorlarını hesaplamaya geçebiliriz.

### RFM Skorlarının Hesaplanması

RFM metriklerini daha kolay karşılaştırabilmek açısından 1–5 arasında değerler vererek metrikleri RFM skorlarına çevireceğiz. Bununla beraber 1 çok kötü, 5 çok iyi olacak şekilde müşterileri segmentlere ayırmış olucağız.

Buradaki önemli nokta ise biz müşterilerimizin segmentlerini tanımlarken sadece Recency ve Frequency değerlerini kullanacağız. Çünkü Monetary değeri RFM segmenti tanımlamada kullanılmıyor. Rfm segmenti tanımlamada önemli olan değişkenler müşterimizin en son satın alma yaptığı tarih ve yapmış olduğu satın alma sayısı bunları da bize sırasıyla Recency ve Frequency değişkenleri veriyor.

Peki RFM skorlarını nasıl oluşturacağız ?

* .qcut() fonksiyonu ile değişkeni küçükten büyüğe sıralayıp istediğimiz çeyreklik değere bölmüş oluyoruz.

* Recency değişkenini küçükten büyüğe sıralarken En küçük olana 5 puan verip, en yüksek olana 1 puan vereceğiz.Çünkü en küçük olan sayı en yakın satın alma yapmış olanları ifade ettiğinden dolayı en iyi skoru en küçük sayıya veriyoruz.
    * `pd.qcut(rfm['Recency'], 5, labels=[5, 4, 3, 2, 1])`

* Frequency değişkeninde ise satın alma sayısı en fazla olana 5, en az satın alma sayısına sahip olana 1 skorlarını vereceğiz.
    * `pd.qcut(rfm['Frequency'].rank(method="first"), 5, labels=[1, 2, 3, 4, 5])`

In [None]:
# Yukarıda ifade ettiğimiz şekilde RFM skorlarını hesaplıyoruz.
# recency_score ve frequency_score olarak atama yapıyoruz.
rfm["recency_score"] = pd.qcut(rfm['recency'], 5, labels=[5, 4, 3, 2, 1])
rfm["frequency_score"] = pd.qcut(rfm["frequency"].rank(method="first"), 5, labels=[1, 2, 3, 4, 5])

Artık RFM Metrikleri ve RFM Skorlarını oluşturduk.

Örneğin aşağıdaki tabloyu yorumladığımızda;
* 12347 ID'li müşteri recency değeri 3, Frequecny değeri 7, yani müşteri en son 3 gün önce alışveriş yapmış ve bu benim için önemli bir metrik olduğundan dolayı RFM skoru olarak 5 puanı aldı. Aynı müşterinin satın alma sayısı da 7 olduğu için yine frequecny skoru olarak 5 puanını aldı.

In [None]:
# Artık RFM Metrikleri ve RFM Skorlarını oluşturduk.
rfm.head()

### RFM Segmentlerinin Oluşturulması

RFM skorlarını oluşturduktan sonra aşağıdaki yaygın olarak kullanılan RFM tablosuna göre RFM segmentlerini oluşturacağız. Aşağıdaki tabloda müşteriler segmentlere ayrılmıştır. Bu tabloda Frequecy ve Recency olarak 2 metrik bulunmaktadır. Skorlarımızı biz de bu 2 metrik üzerinden oluşturmuştuk. 2 Metrik için de 1 çok iyi, 5 çok kötü anlamına gelir.

Biz de müşterilerimizi yukarıdaki onların davranışlarından oluşturduğumuz skorlara göre Frequency ve Recency değerleri ile aşağıdaki tablo özelinde segmentlere ayıracağız.

Gelin önce beraber tablodan birkaç sınıfı inceleyelim;
 * Champions sınıfında yer alanlar bizim için en değerli müşterilerdir. Bu sınıfın son satın alma tarihi en erken ve satın alma sayısı en fazla olan sınıftır.
 * Loyal Customer sınıfında yer alanlar bizim sadık müşterilerimizdir. Bu sınıfta bulunanların Recency değeri 3 ve 4, Frequency değeri ise 4 ve 5 skorlarından oluşur.
 * At Risk sınıfında bulunanlar ise riskli sınıfı temsil eder. Bu sınıfta bulunanların Recency değeri 1 ve 2, Frequecny değeri ise 3 ve 4 skorlarından oluşur. Yani En son satın alma tarihi üzerinden uzun bir süre geçmiş ve bu uzun süre önce satın alma sayıları ortalama olan müşterilerdir.
 
Tabloyu bu şekilde yorumlayabiliriz.

![](https://miro.medium.com/max/805/1*TjJt4rUiBtXLAF84--V-Cg.png)

Biz artık RFM skorlarımızı oluşturduk. Şimdi ise bu skorları kullanarak müşterilerimizi yukarıda gördüğümüz tablo özelinde segmentlere ayıracağız. Örneğin Frequency değeri 5 ve Recency değeri 5 olan müşterimize "Champions" sınıfında yer vereceğiz.

In [None]:
# Önce bir segment değişkeni atayalım. Toplamlarını yukarıdaki tabloyu oluştururken kullanacağız.
# Tipi str yapmamın sebebi ise matematiksel olarak toplama işlemi yapmayacağız. Sadece rakamları yan yana getireceğiz.
# Aşağıda tabloda rfm_segment değişkeninde yaptığımız işlem görülmektedir.
rfm['rfm_segment'] = rfm['recency_score'].astype(str) + rfm['frequency_score'].astype(str)
rfm.head()

In [None]:
# Bu tablo bile bize birşeyler anlatmaktadır. 
# Örneğin satın alma davranışı en iyi müşterilerimizi görelim.
rfm[rfm["rfm_segment"] == "55"].head()

In [None]:
# Satın alma davranışı en kötü müşterilerimizi görelim.
rfm[rfm["rfm_segment"] == "11"].head()

In [None]:
# Şimdi ise aşağıdaki Regular Expressions(Regex) yapısıyla müşterilerimizi RFM skorlarına göre yukarıda incelediğimiz renkli tablodaki RFM segmentlerine atayacağız.
# Müşterilerimizin Recency ve Frequency skorlarına göre hangi segmentte yer alacağını aşağıda tek tek belirtiyoruz.
# Örneğin Recency değeri 1-2, Frequency değeri ise 3 veya 4 olan müşteriler At_risk segmentine atanacaktır.
seg_map = {
        r'[1-2][1-2]': 'hibernating',
        r'[1-2][3-4]': 'at_risk',
        r'[1-2]5': 'cant_loose',
        r'3[1-2]': 'about_to_sleep',
        r'33': 'need_attention',
        r'[3-4][4-5]': 'loyal_customers',
        r'41': 'promising',
        r'51': 'new_customers',
        r'[4-5][2-3]': 'potential_loyalists',
        r'5[4-5]': 'champions'
    }

In [None]:
# Bu Regex yapısını, RFM tablomuzdaki rfm_segment isimli değişkenle değiştirip dataframe'e çevirme işlemi yapıyoruz.
# rfm_segment değişkenimizde müşterilerimizin hangi sınıfta/segmentte olduğunu görebiliyoruz.
rfm['rfm_segment'] = rfm['rfm_segment'].replace(seg_map, regex=True)

In [None]:
rfm = rfm[["recency", "frequency", "monetary", "rfm_segment"]]
rfm.head()

In [None]:
# Segmentlerde kaçar müşterimiz var?
# Segmentlerin betimsel istatistiklerini inceleyelim.
rfm[["rfm_segment", "recency", "frequency", "monetary"]].groupby("rfm_segment").agg(["mean","median", "count"])

In [None]:
# Bu satırdaki işlemleri görselleştirme yapabilmek için uyguladım.
# Bu satırdaki işlemler projemiz ile ilgili bir kod içermemektedir.
rfm1 = rfm[["rfm_segment", "recency", "frequency", "monetary"]].groupby("rfm_segment").agg(["mean","median", "count"])
rfm1.columns = rfm1.columns.droplevel(0)
rfm1.reset_index(inplace=True)
rfm1.columns = ["rfm_segment","boş","boş","count","boş","boş","boş","boş","boş","boş"]
rfm1 = rfm1.sort_values(by="count", ascending=False)

In [None]:
# Matplotlib kütüphanesini import ederek bir pie chart oluşturdum.
# Aşağıdaki görselde müşterilerimizin segmentlere göre dağılımını görüyoruz. 

import matplotlib.pyplot as plt

colors = ['#C2C2C2', '#5BADFF', '#33FF99', '#FFAB4B', 
          '#C184FF', '#AD6F33','#FFFF5B','#85BBB2',
          '#FF8484','#33FFFF']

fig1, ax1 = plt.subplots(figsize=(10,7))

ax1.pie(rfm1["count"] ,labels=rfm1["rfm_segment"].unique() ,colors=colors, 
        explode=[0,0.1,0.1,0.1,0,0,0,0,0,0] ,autopct='%1.1f%%');

### RFM Analizi Sonucu Yorumlama ve Aksiyon Kararları

RFM Segmentasyonu oluşturarak RFM analizi sürecini tamamladık.Yukarıdaki görsellerden faydalanarak betimsel istatistik tablolarını daha detaylı bir şekilde analiz ettim. RFM Analizi sonucunda yukarıdaki görselde pasta dilimi olarak ayırdığım 3 farklı segmenti seçerek bu sınıflar genelinde yorumlamalar ve bu sınıfta bulunan müşterilerimizle ilgili alınması gereken aksiyon planlarını aşağıda görebilirsiniz.

#### Kapsam ve Amaç :

 * RFM Analizi sonucunda tablodaki 3 segmentin seçilmesinde segmentlerin müşteri sayılarının dağılımı dikkate alınmıştır. 
 * En çok hangi segmentte müşteri daha fazla ise o segmente aksiyon alabiliriz.
 * Veride 2010-2011 yılları arasındaki tekil müşteri sayısı 4338’dir. 
 * Bu müşterilerin %19’u Loyal_Customers, %15’i Champions, %14’ü At_Risk segmentlerine aittir.
 * Hibernating grubu en çok müşterimizin bulunduğu grup olmasına rağmen ortalama 217 gün ile güncel alışveriş değeri en eski olan gruptur. Müşterilerin bu grupta bulunmasına rağmen Recency değeri ortalamasını göz önünde bulundurduğumuzda şimdilik bu segment aksiyon açısından dikkate alınmamıştır.
 
#### LOYAL CUSTOMERS
 
 * Bu grupta 819 kişi yer alıyor.
 * Ortalama 33 gün önce alışveriş yapmışlar.
 * Bu gruptaki müşterilerin satın alma sayıları ise ortalama 6’dır. Bu veri setinde bulunan müşteriler, tüm segmentlerdeki müşterilere oranla %52 daha fazla alışveriş yapmışlardır. (Genel ortalama satın alma sayısı 4,27)
 * Grubun ortalama harcama tutarı ise 2864,00£. Bu veri setinde harcama yapmış olan tüm müşterilere oranla %39 daha fazla harcama tutarı gerçekleştirmişlerdir.   

*Aksiyon Önerileri :*
 * Bu grupla ilgilenerek Champions segmentine dahil olması sağlanmalıdır. Buna elverişli müşteriler mevcuttur.
 * Champions grubundaki özel içerikleri arttırarak bu grup teşvik edilebilir. 
 * Bu segmentin Recency değeri yani alışveriş sürelerini öne çekebilecek şekilde daha fazla temas halinde olmalıyız.

#### CHAMPİONS

 * Bu grupta 633 kişi yer alıyor.
 * Ortalama 6 gün önce alışveriş yapmışlar.
 * Bu gruptaki müşterilerin satın alma sayıları ise ortalama 12’dır. 
 * Grubun ortalama harcama tutarı ise 6857,96£. 

*Aksiyon Önerileri :*
 * Kalite ve fiyat açısından en tepede olan ürünleri bu segmente önerebiliriz.
 * Piyasaya yeni sürülen ve kullanıcılara tanıtılacak ürünleri bu gruba ücretsiz göndererek deneyimlerinden değer ortaya çıkarabiliriz.
 * Bu segmente özel kartlarla anlaşmalı giyim, aksesuar ve yiyecek, içecek yerlerinden indirim sağlanabilir. Gerçekten ayrıcalıklı olduklarını hissettirmemiz gerekir.
 
#### AT RİSK

 * Bu grupta 593 kişi yer alıyor.
 * Ortalama 153 gün önce alışveriş yapmışlar.
 * Bu gruptaki müşterilerin satın alma sayıları ise ortalama 2,87’dır. Bu veri setinde bulunan müşteriler, tüm segmentlerdeki müşterilere oranla %33 daha **az** alışveriş yapmışlardır. (Genel ortalama alışveriş sayısı 4,27)
 * Grubun ortalama harcama tutarı ise 1084,54£. Bu veri setinde harcama yapmış olan tüm müşterilere oranla %47 daha **az** harcama tutarı gerçekleştirmişlerdir.   

*Aksiyon Önerileri :*
 * Sms yoluyla iletişime geçilebilir.
 * Bu gruptaki müşterilerin uyku grubuna geçme durumları çok yüksek. Bu gruba özel indirimler ve kampanyalar tanımlanabilir.

---

# 4- Calculated CLTV

Şirketimizdeki tüm müşterilerden elde edilen toplam kazanç, toplam sipariş sayısı, toplam müşteri sayısı gibi durumları tüm müşteriler özelinde kıyaslayarak her bir müşterinin şirketimizdeki değerini hesaplayacağız. Sonrasında müşterilerimizi bu yaşam değerine göre segmentlere ayıracağız.

Müşteri değerini hesaplamak için bazı metriklere ihtiyacımız var. Bu metrikler ;

![](https://cdn-images-1.medium.com/max/800/1*qOR8X-PBdKHXXgLIqjc-SA.png)

![](https://cdn-images-1.medium.com/max/800/1*YzP7_bHcQYl6Hss8wp7aoA.png)

Tüm bu adımları gerçekleştirerek müşterimizin bizim şirketimizdeki değerini hesaplayacağız. Bu değere göre onları tekrar segmentlere atayacağız.

In [None]:
# Oluşturduğumuz RFM tablosu üzerinden ilk önce avg_order _value değerini hesaplayacağız.
# Müşterinin her işlemde ortalama ne kadar bıraktığını buluyoruz.
rfm['avg_order_value'] = rfm['monetary'] / rfm['frequency']

In [None]:
# purchase_frequency değerini hesaplıyoruz. Bu işlemle genele göre standartlaştırma yapıyoruz.
# Toplam sipariş sayısı / toplam müşteri sayısı
rfm["purchase_frequency"] = rfm['frequency'] / rfm.shape[0]

In [None]:
# Profit_margin
# Müşterinin toplam harcama tutarından %0.5 kar ettiğimizi varsayıyoruz.
rfm['profit_margin'] = rfm['monetary'] * 0.05

In [None]:
# Repeat_rate ve churn_rate
# Veri setinde en az 1 kere alışveriş yapan müşteri sayısı / tüm müşteri sayısı
repeat_rate = rfm[rfm.frequency > 1].shape[0] / rfm.shape[0]
churn_rate = 1 - repeat_rate

In [None]:
# Customer Value
rfm['cv'] = (rfm['avg_order_value'] * rfm["purchase_frequency"])

In [None]:
# Customer Lifetime Value
rfm['cltv'] = (rfm['cv'] / churn_rate) * rfm['profit_margin']

In [None]:
# Müşteri yaşam boyu değerini artık hesapladık.
rfm.head()

In [None]:
# MinMaxScaler
# Bulduğumuz CLTV değerini daha kolay okumak adına 1-100 arası puanlıyoruz.
# cltv_c adında yeni bir değişkene atıyoruz.Calculate edilmiş cltv değerine erişiyoruz.
scaler = MinMaxScaler(feature_range=(1, 100))
scaler.fit(rfm[["cltv"]])
rfm["cltv_c"] = scaler.transform(rfm[["cltv"]])

In [None]:
# Artık bu hesaplanmış müşteri yaşam değeri üzerinden de müşterilerim arasında bir segment oluşturabilirim.
#.qcut() fonksiyonu ile büyükten küçüğe sıralayıp en düşük segment C, en iyi müşterilerin bulunduğu segment A olacak şekilde grupluyoruz.
rfm["cltv_c_segment"] = pd.qcut(rfm["cltv_c"], 3, labels=["C", "B", "A"])

In [None]:
# İlk oluşturduğum RFM tablosu ile beraber hesaplanan cltv değeri ve bu değere göre oluşturduğum segmenti tek bir dataframe'de topluyorum. 
rfm_cltv = rfm[["recency", "frequency", "monetary", "rfm_segment","cltv_c", "cltv_c_segment"]]

In [None]:
# Hesapladığımız müşteri yaşam boyu değerine göre müşterilerimizi segmentlere ayırdık.
rfm_cltv.sort_values(by="cltv_c", ascending=False).head()

---

# 5- Predicted CLTV

Tüm müşterilerimizin kullanıcı davranışlarını göz önünde bulundurarak belli bir zaman projeksiyonu ile geleceğe yönelik Customer Life Time Value tahmini yapacağız.

Müşteriye ait elimizde ortalama en son ne zaman satın alma yaptığı, bıraktığı gelir ve satın alma frekansı olsa da ileriye dönük tahmin yapamıyor olmamızın sebebi,
 * Şirket açısından tüm müşterilerin davranış dağılımı elimizde yok.
 * Bireyler açısından da bu olasılık dağılımına göre bir tahmin yok.

BG-NBD ve Gamma-Gamma modelleri ile bu sorunu çözerek ileriye dönük tahminleme yapmış olacağız.

CLTV tahmini gerçekleştirirken RFM tablosuna benzer bir tablo oluşturup, ek olarak Tenure değeri ekleyeceğiz. **Tenure**, müşterinin şirket ile ilk kontağından referans belirlediğimiz tarihe kadar geçen zaman olarak tanımlanır. Belirlediğimiz referans tarihten müşterinin ilk satın alma yaptığı tarih çıkarılarak hesaplanabilir. Buna ek olarak Recency değeri hesaplarken referans tarihimizden son satın alma tarihini çıkarıyorduk. Ancak CLTV tahmini yaparken müşterinin satın alma yaptığı son tarihten, satın alma yaptığı ilk tarihi çıkarmamız gerekiyor. Bunun sebebi ise; BGNBD ve Gamma-Gamma modelleri formülleri bizden argümanları bu hesaplama mantığıyla istiyor. 

 * **recency_cltv_p :** `lambda date: (date.max() - date.min()).days`
 * **Tenure :** `lambda date: (today_date - date.min()).days`
 

In [None]:
#Referans seçtğimiz tarihi hatırlayarak başlayalım.
today_date

In [None]:
# RFM tablosuna benzer tablomuzu oluşturuyoruz.
rfm = df.groupby('Customer ID').agg({'InvoiceDate': [lambda date: (date.max() - date.min()).days,
                                                                lambda date: (today_date - date.min()).days],
                                                'Invoice': lambda num: num.nunique(),
                                                'TotalPrice': lambda TotalPrice: TotalPrice.sum()})

In [None]:
#Hiyerarşik index yapısı oluştuğundan dolayı onu ortadan kaldırıyoruz.
rfm.columns = rfm.columns.droplevel(0)

In [None]:
rfm.head()

In [None]:
# Değişkenler lambda olarak geldiği için sütunları tekrar isimlendiriyoruz. 
rfm.columns = ['recency_cltv_p', 'T', 'frequency', 'monetary']

In [None]:
# Gamma gamma modeli klasik monetry değerini değil de ortalama monetray değerini ister.
# Her bir işlemde(Frequency) müşteri ortalama ne kadar bırakmış.
# Her bir müşteri Her bir faturada ortalama ne kadar kazandırmış.
rfm["monetary"] = rfm["monetary"] / rfm["frequency"]

In [None]:
# monetary değeri Gamma-Gamma modeline uygun hale geldi.
rfm.head()

In [None]:
# Gamma-Gamma modeli için yapmış olduğumuz değişikliğin farkedilmesi açısından monetary değerini de monetary_avg olarak değiştiriyoruz. 
rfm.rename(columns={"monetary": "monetary_avg"}, inplace=True)

In [None]:
# BGNB Modeli için haftalık Recency (recency_weekly_p) ve haftalık Tenure (T_weekly) değerlerini hesaplıyoruz.
# Bu değerler kaç hafta önce alışveriş yaptığı ve kaç haftalık müşteri oldupu bilgisini veriyor.
rfm["recency_weekly_cltv_p"] = rfm["recency_cltv_p"] / 7  # kaç hafta önce alışveriş yaptığı
rfm["T_weekly"] = rfm["T"] / 7  # kaç haftalık müşteri olduğu

In [None]:
# Kontrol için monetary_avg değerlerinin "0" dan büyük olanları alıyoruz.
rfm = rfm[rfm["monetary_avg"] > 0]

In [None]:
# Daha sağlıklı bir CLTV hesabı için; 
rfm = rfm[(rfm['frequency'] > 1)]

In [None]:
rfm.head()

In [None]:
# BG-NBD ve Gamma-Gamma modelleri frequency değerini float istemiyor.
# O yüzden kontrol amaçlı yine de frequency tipini int yapıyoruz.
rfm["frequency"] = rfm["frequency"].astype(int)

In [None]:
# BGNBD modelinin fit edilmesi, BG-NBD modelinin fit edilmesi ile beklenen satış adetlerinin tahmini adımına geçebiliriz. 
bgf = BetaGeoFitter(penalizer_coef=0.01)
    
bgf.fit(rfm['frequency'],
        rfm['recency_weekly_cltv_p'],
        rfm['T_weekly'])

In [None]:
# 1 aylık beklenen satışların tahminini veren kod.
# recency_weekly_cltv_p ve T_weekly değerini haftalık değere çevirdiğimiz için modelde 4 yazmamız bize 1 aylık beklenen satışları verir.
rfm["exp_sales_1_month"] = bgf.predict(4,
                                        rfm['frequency'],
                                        rfm['recency_weekly_cltv_p'],
                                        rfm['T_weekly'])

In [None]:
# 3 aylık beklenen satışların tahminini veren kod.
rfm["exp_sales_3_month"] = bgf.predict(12,
                                        rfm['frequency'],
                                        rfm['recency_weekly_cltv_p'],
                                        rfm['T_weekly'])

In [None]:
# Müşterilerin geleceğe yönelik 1 ve 3 aylık periyotta beklenen satışlarını tabloda görüyoruz.
rfm.head()

In [None]:
# Gamma-Gamma modelinin fit edilmesi, Gamma-Gamma modelinin fit edilmesi ile beklenen karlılık tahmini adımına geçebiliriz. 
ggf = GammaGammaFitter(penalizer_coef=0.01)

ggf.fit(rfm['frequency'], rfm['monetary_avg'])

rfm["expected_average_profit"] = ggf.conditional_expected_average_profit(rfm['frequency'],
                                                                         rfm['monetary_avg'])

In [None]:
# Tabloda görünen expacted_average_profit ile müşterilerin beklenen karlılığının tahmin etmiş olduk. 
rfm.head()

In [None]:
# Müşterilerin 6 aylık CLTV_p değerini hesaplıyoruz
cltv = ggf.customer_lifetime_value(bgf,
                                    rfm['frequency'],
                                    rfm['recency_weekly_cltv_p'],
                                    rfm['T_weekly'],
                                    rfm['monetary_avg'],
                                    time=6,
                                    freq="W",
                                    discount_rate=0.01)

In [None]:
rfm["cltv_p"] = cltv

In [None]:
# Her bir müşteri için cltv_p tahminini hesaplamış olduk.
# 1-100 arasında puanlayarak daha iyi okunabilmesini sağlayalım.
scaler = MinMaxScaler(feature_range=(1, 100))
scaler.fit(rfm[["cltv_p"]])
rfm["cltv_p"] = scaler.transform(rfm[["cltv_p"]])

In [None]:
# 1-100 arasındaki cltv_p değerlerini segmentlere ayırıyoruz.
rfm["cltv_p_segment"] = pd.qcut(rfm["cltv_p"], 3, labels=["C", "B", "A"])

In [None]:
#6 aylık CLTV Prediction segmentlerini de oluşturmuş olduk.
rfm.head()

Müşterilerimizle ilgili detaylı kararlar alabilmek için RFM Analizi, CLTV Calculate ve CLTV Prediction çıktılarının hepsini tek bir crm_final olarak oluşturarak gerekli yorumlar ve aksiyon kararlarını gerçekleştirebiliriz. 

In [None]:
# Müşterilerimizle ilgili detaylı kararlar alabilmek için çıktıları birleştiriyoruz.
crm_final = rfm_cltv.merge(rfm, on="Customer ID", how="left")

In [None]:
crm_final.head(10)

Çıktıda boş gelen değerler şu ana kadar 1 satın alma gerçekleştiren müşterilerimizi ifade etmektedir. Hatırlayacak olursak CLTV Prediction hesabında bunları çalışmanın dışında tutmuştuk. En az 1'den fazla satın alma gerçekleştiren müşterilerin ileriye dönük müşteri yaşam boyu değerlerini hesaplamıştık.

CRM çalışmaları özelinde ele alacağımız konuları tamamladık. 

Peki biz özet olarak ne yaptık ? 

 * 1- Mevcut müşterilerimizin  satın alma davranışlarını göz önünde bulundurarak RFM analizi ile müşterilerimizi segmentlere ayırıp onlar için özel kararlar alabildik. (RFM_Segmentation)
     
 * 2- Sonrasında şirketimizdeki tüm müşterilerin davranışlarını kıyaslayarak ve tek bir müşterinin satın alma alışkanlıklarını göz önünde bulundurup onun şirket içindeki değerini bulduk. (CLTV_Calculate)
     
 * 3- En sonunda ise hem uzun süredir bizde olan hem de yeni gelmiş müşterilerin satın alma davranışlarını göz önünde bulundurarak BGNBD ve Gamma-Gamma modellerini kullanıp geleceğe yönelik bir zaman projeksiyonu koyarak müşterimizin şirketimizdeki diğer müşteriler genelinde değerini tahminledik. (CLTV_Prediction)
     
Tüm bu çalışmanın sonunda oluşturmuş olduğumuz CRM_final çıktısını tüm değişkenler özelinde değerlendirdim. Yorumlarıma aşağıda yer verdir. 


### CRM_Final Sonucu Yorumlama ve Aksiyon Kararları

Aşağıda CLTV Calculate’e göre A segmentinde olduğu hesaplanan 3 farklı müşterinin CLTV Prediction’a göre nasıl farklı segmentte yer aldığını değerlendireceğiz. Aşağıdaki yorumlar özelinde A segmenti en iyi müşteriler, C segmenti en kötü müşterileri ifade eder.

 * 1.satırdaki müşterinin Calculate sonucu A segmentinde olacağı değerlendirilirken Prediction sonucu B segmentinde olduğu gözlemleniyor. Bunun sebeplerinden biri "Recency" değeri yani 10 gün önce alışveriş yapmış olmasına rağmen, müşterinin yaptığı 17 alışveriş sonucunda bıraktığı ortalama "monetary_avg" diğer 2 kişiye göre daha az tutardır.
 
 * 2.satırdaki müşteri ise tahmin edilen ortalama harcama tutarı diğer 1. satırdaki müşteriden daha yüksek olmasına karşın Prediction sonucu C segmentinde gözlemleniyor. Bunun sebebi "frequency" değerinin 5 olmasıyla birlikte en son 219 gün önce alışveriş yapmış ve buna karşılık "recency_cltv_p" ise yani son alışveriş ve ilk alışveriş arasındaki gün farkı ise 153 gün hesaplanmış. Yani ben bu müşteriden ilk alışveriş ve son alışveriş tarihi aralığını maksimum 153 gün beklerken müşteri 219 gündür yok. En son 219 gün önce alışveriş yapmış. Artık müşterinin beni terk ettiği yorumu yapabilirim. Bu sebeple Prediction sonucu C segmentinde yer alıyor.
 
 * 3.satırdaki müşteri Calculate segmenti A ve Prediction sonucu segmenti de A olarak hesaplanmış. Bu müşterinin "frequency" değeri düşük olmasına rağmen "monetray_avg" değerinden dolayı yani yapmış olduğu alışverişlerden yüksek para bırakacağından dolayı Prediction sonucu A segmenti olarak tahmin edilmiştir.

![image-2.png](attachment:image-2.png)

Projemi incelediğiniz için teşekkürler.