In [186]:
##############################################################
# BG-NBD ve Gamma-Gamma ile CLTV Prediction
##############################################################

###############################################################
# İş Problemi (Business Problem)
###############################################################
# FLO satış ve pazarlama faaliyetleri için roadmap belirlemek istemektedir.
# Şirketin orta uzun vadeli plan yapabilmesi için var olan müşterilerin gelecekte şirkete sağlayacakları potansiyel değerin tahmin edilmesi gerekmektedir.


###############################################################
# Veri Seti Hikayesi
###############################################################

# Veri seti son alışverişlerini 2020 - 2021 yıllarında OmniChannel(hem online hem offline alışveriş yapan) olarak yapan müşterilerin geçmiş alışveriş davranışlarından
# elde edilen bilgilerden oluşmaktadır.

# master_id: Eşsiz müşteri numarası
# order_channel : Alışveriş yapılan platforma ait hangi kanalın kullanıldığı (Android, ios, Desktop, Mobile, Offline)
# last_order_channel : En son alışverişin yapıldığı kanal
# first_order_date : Müşterinin yaptığı ilk alışveriş tarihi
# last_order_date : Müşterinin yaptığı son alışveriş tarihi
# last_order_date_online : Muşterinin online platformda yaptığı son alışveriş tarihi
# last_order_date_offline : Muşterinin offline platformda yaptığı son alışveriş tarihi
# order_num_total_ever_online : Müşterinin online platformda yaptığı toplam alışveriş sayısı
# order_num_total_ever_offline : Müşterinin offline'da yaptığı toplam alışveriş sayısı
# customer_value_total_ever_offline : Müşterinin offline alışverişlerinde ödediği toplam ücret
# customer_value_total_ever_online : Müşterinin online alışverişlerinde ödediği toplam ücret
# interested_in_categories_12 : Müşterinin son 12 ayda alışveriş yaptığı kategorilerin listesi

In [187]:
import pandas as pd
import datetime as dt
from lifetimes import BetaGeoFitter
from lifetimes import GammaGammaFitter
from sklearn.preprocessing import MinMaxScaler
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)
pd.options.mode.chained_assignment = None


In [188]:
df = pd.read_csv("data/flo_data_20K.csv")

# Aykırı değerler var mı? yok mu? diye kontrol ettik varsa aykırı değerleri  baskılama yöntemi ile ortadan kaldırdık.

In [189]:
def outlier_thresholds(dataframe, variable):
    quartile1 = dataframe[variable].quantile(0.01)
    quartile3 = dataframe[variable].quantile(0.99)
    interquantile_range = quartile3 - quartile1
    up_limit = quartile3 + 1.5 * interquantile_range
    low_limit = quartile1 - 1.5 * interquantile_range
    return low_limit, up_limit

def replace_with_thresholds(dataframe, variable):
    low_limit, up_limit = outlier_thresholds(dataframe, variable)
    dataframe.loc[(dataframe[variable] < low_limit), variable] = round(low_limit,0)
    dataframe.loc[(dataframe[variable] > up_limit), variable] = round(up_limit,0)

def check_outlier(dataframe, col_name):
    low_limit, up_limit = outlier_thresholds(dataframe, col_name)
    if dataframe[(dataframe[col_name] > up_limit) | (dataframe[col_name] < low_limit)].any(axis=None):
        return True
    else:
        return False


In [190]:
outliers_columns=["order_num_total_ever_online", "order_num_total_ever_offline", "customer_value_total_ever_offline",
"customer_value_total_ever_online"]
for col in outliers_columns:
    print(col,check_outlier(df, col))

order_num_total_ever_online True
order_num_total_ever_offline True
customer_value_total_ever_offline True
customer_value_total_ever_online True


In [191]:
for col in outliers_columns:
    replace_with_thresholds(df, col)

# Her müşterinin toplam alışveriş sayısı ve harcaması için yeni değişkenler oluşturduk.

In [192]:
df["total_order"]=df["order_num_total_ever_online"]+df["order_num_total_ever_offline"]
df["total_value"] = df["customer_value_total_ever_offline"] + df["customer_value_total_ever_online"]

# Tarih olan kolonların veri tiplerini “date” yaptık.

In [193]:
date_columns = df.columns[df.columns.str.contains("date")]
date_columns

Index(['first_order_date', 'last_order_date', 'last_order_date_online',
       'last_order_date_offline'],
      dtype='object')

In [194]:
for i in date_columns:
    df[i]=pd.to_datetime(df[i])
    print(i,"=",df[i].dtype)

first_order_date = datetime64[ns]
last_order_date = datetime64[ns]
last_order_date_online = datetime64[ns]
last_order_date_offline = datetime64[ns]


# Analiz tarihini son kayıt edilmiş veriden 2 sonrası olarak seçtik. ( T_weekly değeri için )

In [195]:
df["last_order_date"].max() #2021-05-30
analysis_date = dt.datetime(2021,6,1)

# CLTV Prediction için  cltv_df adında bir dataframe oluşturduk ve  CLTV Prediction için gerekli olan değerleri yeni bir kolon olarak atadık.

In [196]:
cltv_df=pd.DataFrame()
cltv_df["customer_id"]=df["master_id"]
cltv_df["recency_cltv_weekly"]=((df["last_order_date"]-df["first_order_date"]).astype('timedelta64[D]'))/7
cltv_df["T_weekly"]=((analysis_date-df["first_order_date"]).astype('timedelta64[D]'))/7
cltv_df["frequency"]=df["total_order"]
cltv_df["monetary_cltv_avg"]=df["total_value"] / df["total_order"]
cltv_df.head(10)


Unnamed: 0,customer_id,recency_cltv_weekly,T_weekly,frequency,monetary_cltv_avg
0,cc294636-19f0-11eb-8d74-000d3a38a36f,17.0,30.57,5.0,187.87
1,f431bd5a-ab7b-11e9-a2fc-000d3a38a36f,209.86,224.86,21.0,95.88
2,69b69676-1a40-11ea-941b-000d3a38a36f,52.29,78.86,5.0,117.06
3,1854e56c-491f-11eb-806e-000d3a38a36f,1.57,20.86,2.0,60.98
4,d6ea1074-f1f5-11e9-9346-000d3a38a36f,83.14,95.43,2.0,104.99
5,e585280e-aae1-11e9-a2fc-000d3a38a36f,120.86,132.29,3.0,66.95
6,c445e4ee-6242-11ea-9d1a-000d3a38a36f,32.57,64.86,4.0,93.98
7,3f1b4dc8-8a7d-11ea-8ec0-000d3a38a36f,12.71,54.57,2.0,81.81
8,cfbda69e-5b4f-11ea-aca7-000d3a38a36f,58.43,70.71,5.0,210.94
9,1143f032-440d-11ea-8b43-000d3a38a36f,61.71,96.0,2.0,82.98


# BG/NBD modelini kurduk.

In [197]:
bgf = BetaGeoFitter(penalizer_coef=0.001)
bgf.fit(cltv_df['frequency'],
        cltv_df['recency_cltv_weekly'],
        cltv_df['T_weekly'])

<lifetimes.BetaGeoFitter: fitted with 19945 subjects, a: 0.00, alpha: 76.17, b: 0.00, r: 3.66>

# 6 ay içerisinde müşterilerden beklenen satın almaları tahmin ettik  ve exp_sales_6_month olarak cltv_df dataframe'ine ekledik.

In [198]:
cltv_df["exp_sales_6_month"]=bgf.predict(4*6,
                                       cltv_df['frequency'],
                                       cltv_df['recency_cltv_weekly'],
                                       cltv_df['T_weekly'])

# 6.aydaki en çok satın alım gerçekleştirecek 10 kişiyi inceledik.

In [199]:
cltv_df.sort_values("exp_sales_6_month",ascending=False)[:10]


Unnamed: 0,customer_id,recency_cltv_weekly,T_weekly,frequency,monetary_cltv_avg,exp_sales_6_month
7330,a4d534a2-5b1b-11eb-8dbd-000d3a38a36f,62.71,67.29,52.0,166.22,9.31
15611,4a7e875e-e6ce-11ea-8f44-000d3a38a36f,39.71,40.0,29.0,165.3,6.75
8328,1902bf80-0035-11eb-8341-000d3a38a36f,28.86,33.29,25.0,97.44,6.28
19538,55d54d9e-8ac7-11ea-8ec0-000d3a38a36f,52.57,58.71,31.0,228.53,6.17
14373,f00ad516-c4f4-11ea-98f7-000d3a38a36f,38.0,46.43,27.0,141.35,6.0
10489,7af5cd16-b100-11e9-9757-000d3a38a36f,103.14,111.86,43.0,157.11,5.96
4315,d5ef8058-a5c6-11e9-a2fc-000d3a38a36f,133.14,147.14,49.0,161.85,5.66
6756,27310582-6362-11ea-a6dc-000d3a38a36f,62.71,64.14,29.0,168.88,5.59
6666,53fe00d4-7b7a-11eb-960b-000d3a38a36f,9.71,13.0,17.0,259.87,5.56
10536,e143b6fa-d6f8-11e9-93bc-000d3a38a36f,104.57,113.43,40.0,176.2,5.53


# Gamma-Gamma modelini fit ettik. Müşterilerin ortalama bırakacakları değeri tahminleyip exp_average_value olarak cltv_df dataframe'ine ekledik.

In [200]:
ggf = GammaGammaFitter(penalizer_coef=0.01)
ggf.fit(cltv_df['frequency'], cltv_df['monetary_cltv_avg'])
cltv_df["exp_average_value"] = ggf.conditional_expected_average_profit(cltv_df['frequency'],cltv_df['monetary_cltv_avg'])

# 6 aylık CLTV hesapladık ve cltv ismiyle dataframe'e ekledik.

In [201]:
cltv_df["cltv"]= ggf.customer_lifetime_value(bgf,
                                   cltv_df['frequency'],
                                   cltv_df['recency_cltv_weekly'],
                                   cltv_df['T_weekly'],
                                   cltv_df['monetary_cltv_avg'],
                                   time=6,
                                   freq="W",
                                   discount_rate=0.01)

# CLTV değeri en yüksek 10 kişiyi gözlemledik.

In [202]:
cltv_df.sort_values("cltv",ascending=False)[:10]

Unnamed: 0,customer_id,recency_cltv_weekly,T_weekly,frequency,monetary_cltv_avg,exp_sales_6_month,exp_average_value,cltv
9055,47a642fe-975b-11eb-8c2a-000d3a38a36f,2.86,7.86,4.0,1401.8,2.19,1449.06,3327.78
13880,7137a5c0-7aad-11ea-8f20-000d3a38a36f,6.14,13.14,11.0,758.09,3.94,767.36,3172.39
17323,f59053e2-a503-11e9-a2fc-000d3a38a36f,51.71,101.0,7.0,1106.47,1.44,1127.61,1708.98
12438,625f40a2-5bd2-11ea-98b0-000d3a38a36f,74.29,74.57,16.0,501.87,3.13,506.17,1662.61
7330,a4d534a2-5b1b-11eb-8dbd-000d3a38a36f,62.71,67.29,52.0,166.22,9.31,166.71,1628.89
8868,9ce6e520-89b0-11ea-a6e7-000d3a38a36f,3.43,34.43,8.0,601.23,2.53,611.49,1623.81
6402,851de3b4-8f0c-11eb-8cb8-000d3a38a36f,8.29,9.43,2.0,862.69,1.59,923.68,1538.86
6666,53fe00d4-7b7a-11eb-960b-000d3a38a36f,9.71,13.0,17.0,259.87,5.56,262.07,1529.23
19538,55d54d9e-8ac7-11ea-8ec0-000d3a38a36f,52.57,58.71,31.0,228.53,6.17,229.61,1485.82
14858,031b2954-6d28-11eb-99c4-000d3a38a36f,14.86,15.57,3.0,743.59,1.74,778.05,1423.0


# 6 aylık standartlaştırılmış CLTV'ye göre tüm müşterilerinizi 4 segmente ayırdık ve grup isimlerini veri setine ekledik.

In [203]:
cltv_df["cltv_segment"] = pd.qcut(cltv_df["cltv"], 4, labels=["D", "C", "B", "A"])
cltv_df.head()

Unnamed: 0,customer_id,recency_cltv_weekly,T_weekly,frequency,monetary_cltv_avg,exp_sales_6_month,exp_average_value,cltv,cltv_segment
0,cc294636-19f0-11eb-8d74-000d3a38a36f,17.0,30.57,5.0,187.87,1.95,193.63,395.73,A
1,f431bd5a-ab7b-11e9-a2fc-000d3a38a36f,209.86,224.86,21.0,95.88,1.97,96.67,199.43,B
2,69b69676-1a40-11ea-941b-000d3a38a36f,52.29,78.86,5.0,117.06,1.34,120.97,170.22,B
3,1854e56c-491f-11eb-806e-000d3a38a36f,1.57,20.86,2.0,60.98,1.4,67.32,98.95,D
4,d6ea1074-f1f5-11e9-9346-000d3a38a36f,83.14,95.43,2.0,104.99,0.79,114.33,95.01,D


# Segmentlerin cltv değerlerinin bazı istatistik değerlerini inceledik.

In [204]:
cltv_df.groupby("cltv_segment").agg({"cltv":"describe"})

Unnamed: 0_level_0,cltv,cltv,cltv,cltv,cltv,cltv,cltv,cltv
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
cltv_segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
D,4987.0,80.34,21.73,12.11,65.06,83.72,98.52,112.25
C,4986.0,138.31,15.32,112.25,125.09,138.03,151.44,165.47
B,4986.0,199.53,21.21,165.47,181.13,198.1,217.1,240.06
A,4986.0,362.32,158.42,240.09,270.7,312.93,395.16,3327.78


# AKSİYON !!! 
# A segmentindeki müşteriler için yeni çıkan ürünler özel olarak gönderilebilir. Yeni çıkacak ürünlerin galasına davet edilebilir.