# Business Problem 


Bir e-ticaret şirketi müşterilerini segmentlere ayırıp bu segmentlere göre pazarlama stratejileri belirlemek istiyor.

Buna yönelik olarak müşterilerin davranışlarını tanımlayacağız ve bu davranışlarda öbeklenmelere göre gruplar oluşturacağız.

Yani ortak davranışlar sergileyenleri aynı gruplara alacağız ve bu gruplara özel satış ve pazarlama teknikleri geliştirmeye çalışacağız.

**Veri Seti Hikayesi**

https://archive.ics.uci.edu/ml/datasets/Online+Retail+II

Online Retail II isimli veri seti İngiltere merkezli online bir satış mağazasının 01/12/2009 - 09/12/2011 tarihleri arasındaki satışlarını içeriyor.Biz 2010-2011 yılları arasında çalışacağız.

Bu şirket hediyelik eşya satıyor. Promosyon ürünleri gibi düşünebilir.

Müşterilerinin çoğu da toptancı.

**Değişkenler**

- InvoiceNo: Fatura numarası. Her işleme yani faturaya ait eşsiz numara. Eğer bu kod C ile başlıyorsa işlemin iptal edildiğini ifade eder.
- StockCode: Ürün kodu. Her bir ürün için eşsiz numara.
- Description: Ürün ismi
- Quantity: Ürün adedi. Faturalardaki ürünlerden kaçar tane satıldığını ifade etmektedir.
- InvoiceDate: Fatura tarihi ve zamanı. 
- UnitPrice: Ürün fiyatı (Sterlin cinsinden)
- CustomerID: Eşsiz müşteri numarası
- Country: Ülke ismi. Müşterinin yaşadığı ülke.

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns

# to display all columns and rows:
pd.set_option('display.max_columns', None); pd.set_option('display.max_rows', None);

#virgulden sonra gösterilecek olan sayı sayısı
pd.set_option('display.float_format', lambda x: '%.0f' % x)
import matplotlib.pyplot as plt

In [3]:
#Veriyi okuma
df_2010_2011 = pd.read_excel("../input/uci-online-retail-ii-data-set/online_retail_II.xlsx", sheet_name = "Year 2010-2011")

In [86]:
#Verinin kopyasını alma
df = df_2010_2011.copy()

In [87]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,3,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,3,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3,17850,United Kingdom


In [88]:
#Kaç tane eksik değerimiz var?
df.isnull().sum()

Invoice             0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
Price               0
Customer ID    135080
Country             0
dtype: int64

In [89]:
#Yukarıdaki çıktıya göre StockCode u belli olan 1454 ürünün Description ı eksik.
#Bunları düzeltebileceğimizi merak ediyorum ve bulmaya çalışıyorum.

In [90]:
#Öncelikle eksik olan değerlerin Stockcode unu bulmam gerekiyor.
df_eksik_desc = df[df["Description"].isnull()][["StockCode"]]
df_eksik_desc.head()

Unnamed: 0,StockCode
622,22139
1510,21134
1985,37509
1986,22145
2022,20950


In [91]:
df_eksik_desc.size

1454

In [92]:
#Şimdi bulduğumuz bu StockCode ların kaçı eşsiz ona bakalım.
df_eksik_desc.nunique()

StockCode    960
dtype: int64

In [93]:
#Burda tekrarlayan kayıtları siliyorum.
df_eksik_desc.drop_duplicates(inplace=True) 

In [94]:
df_eksik_desc.size

960

In [95]:
df_eksik_desc.head()

Unnamed: 0,StockCode
622,22139
1510,21134
1985,37509
1986,22145
2022,20950


In [96]:
#Yukarıda bulduğumuz sonuç Description ı eksik StockCode u belli 633 değer olduğunu gösteriyor.
#Bu değerlerden birisini ele alalım.
df[df["StockCode"]==22139]

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
106,536381,22139,RETROSPOT TEA SET CERAMIC 11 PC,23,2010-12-01 09:41:00,4,15311.0,United Kingdom
622,536414,22139,,56,2010-12-01 11:52:00,0,,United Kingdom
6392,536942,22139,amazon,15,2010-12-03 12:08:00,0,,United Kingdom
6885,536982,22139,RETROSPOT TEA SET CERAMIC 11 PC,10,2010-12-03 14:27:00,11,,United Kingdom
7202,537011,22139,,-5,2010-12-03 15:38:00,0,,United Kingdom
14908,537624,22139,RETROSPOT TEA SET CERAMIC 11 PC,1,2010-12-07 14:41:00,5,12748.0,United Kingdom
15018,537633,22139,RETROSPOT TEA SET CERAMIC 11 PC,1,2010-12-07 15:14:00,5,,United Kingdom
15033,537634,22139,RETROSPOT TEA SET CERAMIC 11 PC,2,2010-12-07 15:15:00,5,16775.0,United Kingdom
17368,537754,22139,RETROSPOT TEA SET CERAMIC 11 PC,2,2010-12-08 11:16:00,5,16081.0,United Kingdom
19890,537900,22139,RETROSPOT TEA SET CERAMIC 11 PC,1,2010-12-09 10:45:00,5,15983.0,United Kingdom


In [97]:
#Yukarıdaki tablodan çıkardığım  bazı sonuçlar.
#1-Descriptionu bir gözlemde olupta başka bir gözlemde olmayan değerler var.Burada eksik değerler doldurulabilir.
#2-StockCode u aynı olup, descriptionu tamamen farklı olan bir değer var.(3. satırdaki amazon değeri)
#3-Aynı tarihlerde farklı fiyata satılan aynı ürün.İndirim ve ya kampanya olarak değerlendiremeyiz.Aynı ülkelere.
#4-Bazı gözlemlerde price 0.İadelerde bile price yazıyor.
#5-Invoice u C ile başlamayan buna rağmen eksi değerde Quantity var.
#Burada çoğunluğa göre hareket edip eksik olan değerleri Descriptiona göre dolduracağız. 

In [None]:
#Uzun süreli
dongu_uzunlugu = len(df_eksik_desc["StockCode"])
sayac = 0
for i in df_eksik_desc["StockCode"]:
    if(len(df[df["StockCode"]==i]["Description"].value_counts())>0): #Eğer StockCode u ile Descriptionu eşleşiyorsa
        a = df[df["StockCode"]==i]["Description"].value_counts().index[0]  #En çok olan değeri alıyoruz.
        df.loc[(df["StockCode"]==i) & (df["Description"]!=a),"Description"] = a  #eksik verilere atıyoruz.
    print(str(dongu_uzunlugu - sayac - 1 )+" deger kaldi")
    sayac += 1   

In [None]:
#Baslama saati 11.52
#Yarısı        13.22
#Bitis saati   15.04
#Geriye bulamayacağımız kaç eksik değer oldugunu görüyoruz.112 değeri en son silicez.

In [16]:
#Geriye bulamayacağımız kaç eksik değer oldugunu görüyoruz.112 değeri en son silicez.
df.isnull().sum()

Invoice             0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
Price               0
Customer ID    135080
Country             0
dtype: int64

In [98]:
#Şimdi ise CustomerId leri eksik olan Invoice lerini (Fatura no) bulup buna göre belirlemeye çalışagız.
df_eksik_cust = df[df["Customer ID"].isnull()][["Invoice"]]
df_eksik_cust.head()

Unnamed: 0,Invoice
622,536414
1443,536544
1444,536544
1445,536544
1446,536544


In [99]:
df_eksik_cust.size

135080

In [100]:
df_eksik_cust.nunique()

Invoice    3710
dtype: int64

In [101]:
#Burda tekrarlayan kayıtları siliyorum.
df_eksik_cust.drop_duplicates(inplace=True) 

In [102]:
df_eksik_cust.size

3710

In [103]:
df_eksik_cust.head()

Unnamed: 0,Invoice
622,536414
1443,536544
1510,536545
1985,536547
1986,536546


In [62]:
#Uzun süreli
#Burada Customer ID si boş olan Invoice lerde yapısal bozukluk olabilir mi diye kontrol ettim.
toplam = 0
for i in df_eksik_cust["Invoice"]:
    if(len(df[df["Invoice"]==i]["Customer ID"].value_counts())>0): #Eğer Invoice u ile Customer ID ile eşleşiyorsa
        toplam += 1 
print(toplam)

0


In [104]:
#Herhangi bir sorun yok o yüzden Customer ID si eksik olanları silebiliriz.
df.dropna(inplace = True)

In [105]:
df.shape

(406830, 8)

> # Veri ile ilgili bazı bilgiler

In [106]:
#essiz urun sayisi, kac musteri var, vs...
df.nunique()

Invoice        22190
StockCode       3684
Description     3896
Quantity         436
InvoiceDate    20460
Price            620
Customer ID     4372
Country           37
dtype: int64

In [107]:
#hangi urunden kacar tane var?
df["Description"].value_counts().head()

WHITE HANGING HEART T-LIGHT HOLDER    2070
REGENCY CAKESTAND 3 TIER              1905
JUMBO BAG RED RETROSPOT               1662
ASSORTED COLOUR BIRD ORNAMENT         1418
PARTY BUNTING                         1416
Name: Description, dtype: int64

In [108]:
#en cok siparis edilen urun hangisi, sıralama ile birlite?
df.groupby("Description").agg({"Quantity":"sum"}).sort_values("Quantity", ascending = False).head()

Unnamed: 0_level_0,Quantity
Description,Unnamed: 1_level_1
WORLD WAR 2 GLIDERS ASSTD DESIGNS,53215
JUMBO BAG RED RETROSPOT,45066
ASSORTED COLOUR BIRD ORNAMENT,35314
WHITE HANGING HEART T-LIGHT HOLDER,34147
PACK OF 72 RETROSPOT CAKE CASES,33409


In [109]:
#TotalPrice değişkeni oluşturduk
df["TotalPrice"] = df["Quantity"]*df["Price"]

In [110]:
df.groupby("Invoice").agg({"TotalPrice":"sum"}).head()

Unnamed: 0_level_0,TotalPrice
Invoice,Unnamed: 1_level_1
536365,139
536366,22
536367,279
536368,70
536369,18


In [111]:
#hangi ulkeden kac siparis geldi?
df["Country"].value_counts()

United Kingdom          361878
Germany                   9495
France                    8492
EIRE                      7485
Spain                     2533
Netherlands               2371
Belgium                   2069
Switzerland               1877
Portugal                  1480
Australia                 1259
Norway                    1086
Italy                      803
Channel Islands            758
Finland                    695
Cyprus                     622
Sweden                     462
Austria                    401
Denmark                    389
Japan                      358
Poland                     341
USA                        291
Israel                     250
Unspecified                244
Singapore                  229
Iceland                    182
Canada                     151
Greece                     146
Malta                      127
United Arab Emirates        68
European Community          61
RSA                         58
Lebanon                     45
Lithuani

In [112]:
#hangi ulke ne kadar kazandırdı?
df.groupby("Country").agg({"TotalPrice":"sum"}).sort_values("TotalPrice", ascending = False).head()

Unnamed: 0_level_0,TotalPrice
Country,Unnamed: 1_level_1
United Kingdom,6767873
Netherlands,284662
EIRE,250285
Germany,221698
France,196731


# Data Preparation

In [81]:
df.shape

(406830, 9)

In [79]:
df.describe([0.01,0.05,0.10,0.25,0.50,0.75,0.90,0.95, 0.99]).T

Unnamed: 0,count,mean,std,min,1%,5%,10%,25%,50%,75%,90%,95%,99%,max
Quantity,406830,12,249,-80995,-2,1,1,2,5,12,24,36,120,80995
Price,406830,3,69,0,0,0,1,1,2,4,7,8,15,38970
Customer ID,406830,15288,1714,12346,12415,12626,12876,13953,15152,16791,17719,17905,18212,18287
TotalPrice,406830,20,428,-168470,-10,1,2,4,11,20,35,67,200,168470


In [80]:
for feature in ["Quantity","Price","TotalPrice"]:

    Q1 = df[feature].quantile(0.01)
    Q3 = df[feature].quantile(0.99)
    IQR = Q3-Q1
    upper = Q3 + 1.5*IQR
    lower = Q1 - 1.5*IQR

    if df[(df[feature] > upper) | (df[feature] < lower)].any(axis=None):
        print(feature,"yes")
        print(df[(df[feature] > upper) | (df[feature] < lower)].shape[0])
    else:
        print(feature, "no")

Quantity yes
948
Price yes
846
TotalPrice yes
1030


# RFM Skorları ile Müşteri Segmentasyonu

Recency, Frequency, Monetary ifadelerinin baş harflerinden oluşur.

Müşterilerin satın alma alışkanlıkları üzerinden pazarlama ve satış stratejileri belirlemeye yardımcı olan bir tekniktir.

- Recency (yenilik): Müşterinin son satın almasından bugüne kadar geçen süre

    -- Diğer bir ifadesiyle “Müşterinin son temasından bugüne kadar geçen süre” dir.

    -- Bugünün tarihi - Son satın alma

    -- Örnek verecek olursak bugün bu analizi yapıyorsak bugünün tarihi - son 	ürün satın alma tarihi.

    -- Bu örneğin 20 olabilir 100 olabilir. Biliriz ki 20 olan müşteri daha sıcaktır. Daha son zamanlarda bizimle teması olmuştur.

- Frequency (Sıklık): Toplam satın alma sayısı.

- Monetary (Parasal Değer): Müşterinin yaptığı toplam harcama.

In [113]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 406830 entries, 0 to 541909
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   Invoice      406830 non-null  object        
 1   StockCode    406830 non-null  object        
 2   Description  406830 non-null  object        
 3   Quantity     406830 non-null  int64         
 4   InvoiceDate  406830 non-null  datetime64[ns]
 5   Price        406830 non-null  float64       
 6   Customer ID  406830 non-null  float64       
 7   Country      406830 non-null  object        
 8   TotalPrice   406830 non-null  float64       
dtypes: datetime64[ns](1), float64(3), int64(1), object(4)
memory usage: 31.0+ MB


In [114]:
df["InvoiceDate"].min()

Timestamp('2010-12-01 08:26:00')

In [115]:
df["InvoiceDate"].max()

Timestamp('2011-12-09 12:50:00')

In [116]:
import datetime as dt
today_date = dt.datetime(2011,12,10)

In [117]:
df.groupby("Customer ID").agg({"InvoiceDate":"max"}).head()

Unnamed: 0_level_0,InvoiceDate
Customer ID,Unnamed: 1_level_1
12346,2011-01-18 10:17:00
12347,2011-12-07 15:52:00
12348,2011-09-25 13:13:00
12349,2011-11-21 09:51:00
12350,2011-02-02 16:01:00


In [118]:
#Su an her bir müşterinin son alışveriş tarihleri elimizde.
df["Customer ID"] = df["Customer ID"].astype(int)

In [120]:
#Recency değeri için bugunun tarihi ile verimizdeki tarihleri çıkardık.
temp_df = (today_date - df.groupby("Customer ID").agg({"InvoiceDate":"max"}))

In [121]:
temp_df.rename(columns={"InvoiceDate": "Recency"}, inplace = True)

In [122]:
temp_df.head()

Unnamed: 0_level_0,Recency
Customer ID,Unnamed: 1_level_1
12346,325 days 13:43:00
12347,2 days 08:08:00
12348,75 days 10:47:00
12349,18 days 14:09:00
12350,310 days 07:59:00


# Recency

In [123]:
recency_df = temp_df["Recency"].apply(lambda x: x.days)

In [124]:
recency_df.head()

Customer ID
12346    325
12347      2
12348     75
12349     18
12350    310
Name: Recency, dtype: int64

# Frequency

In [125]:
temp_df = df.groupby(["Customer ID","Invoice"]).agg({"Invoice":"count"})

In [126]:
temp_df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Invoice
Customer ID,Invoice,Unnamed: 2_level_1
12346,541431,1
12346,C541433,1
12347,537626,31
12347,542237,29
12347,549222,24


In [127]:
temp_df.groupby("Customer ID").agg({"Invoice":"count"}).head()

Unnamed: 0_level_0,Invoice
Customer ID,Unnamed: 1_level_1
12346,2
12347,7
12348,4
12349,1
12350,1


In [128]:
freq_df = temp_df.groupby("Customer ID").agg({"Invoice":"sum"})
freq_df.rename(columns={"Invoice": "Frequency"}, inplace = True)
freq_df.head()

Unnamed: 0_level_0,Frequency
Customer ID,Unnamed: 1_level_1
12346,2
12347,182
12348,31
12349,73
12350,17


# Monetary

In [129]:
monetary_df = df.groupby("Customer ID").agg({"TotalPrice":"sum"})

In [130]:
monetary_df.head()

Unnamed: 0_level_0,TotalPrice
Customer ID,Unnamed: 1_level_1
12346,0
12347,4310
12348,1797
12349,1758
12350,334


In [131]:
monetary_df.rename(columns={"TotalPrice": "Monetary"}, inplace = True)

In [132]:
print(recency_df.shape,freq_df.shape,monetary_df.shape)

(4372,) (4372, 1) (4372, 1)


In [133]:
rfm = pd.concat([recency_df, freq_df, monetary_df],  axis=1)

In [134]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346,325,2,0
12347,2,182,4310
12348,75,31,1797
12349,18,73,1758
12350,310,17,334


In [135]:
rfm["RecencyScore"] = pd.qcut(rfm['Recency'], 5, labels = [5, 4, 3, 2, 1])

In [137]:
rfm["FrequencyScore"] = pd.qcut(rfm['Frequency'].rank(method="first"), 5, labels = [1, 2, 3, 4, 5])

In [138]:
rfm["MonetaryScore"] = pd.qcut(rfm['Monetary'], 5, labels = [1, 2, 3, 4, 5])

In [139]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
12346,325,2,0,1,1,1
12347,2,182,4310,5,5,5
12348,75,31,1797,2,3,4
12349,18,73,1758,4,4,4
12350,310,17,334,1,2,2


In [140]:
rfm["RFM_SCORE"] = rfm['RecencyScore'].astype(str) + rfm['FrequencyScore'].astype(str) + rfm['MonetaryScore'].astype(str)

In [141]:
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346,325,2,0,1,1,1,111
12347,2,182,4310,5,5,5,555
12348,75,31,1797,2,3,4,234
12349,18,73,1758,4,4,4,444
12350,310,17,334,1,2,2,122


In [142]:
rfm.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Recency,4372,92,101,0,16,50,143,373
Frequency,4372,93,232,1,17,42,102,7983
Monetary,4372,1898,8219,-4288,293,648,1612,279489


In [143]:
seg_map = {
    r'[1-2][1-2]': 'Hibernating',
    r'[1-2][3-4]': 'At Risk',
    r'[1-2]5': 'Can\'t Loose',
    r'3[1-2]': 'About to Sleep',
    r'33': 'Need Attention',
    r'[3-4][4-5]': 'Loyal Customers',
    r'41': 'Promising',
    r'51': 'New Customers',
    r'[4-5][2-3]': 'Potential Loyalists',
    r'5[4-5]': 'Champions'
}

In [144]:
rfm['Segment'] = rfm['RecencyScore'].astype(str) + rfm['FrequencyScore'].astype(str)
rfm['Segment'] = rfm['Segment'].replace(seg_map, regex=True)
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE,Segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346,325,2,0,1,1,1,111,Hibernating
12347,2,182,4310,5,5,5,555,Champions
12348,75,31,1797,2,3,4,234,At Risk
12349,18,73,1758,4,4,4,444,Loyal Customers
12350,310,17,334,1,2,2,122,Hibernating


In [145]:
rfm[["Segment", "Recency","Frequency","Monetary"]].groupby("Segment").agg(["mean","count"])

Unnamed: 0_level_0,Recency,Recency,Frequency,Frequency,Monetary,Monetary
Unnamed: 0_level_1,mean,count,mean,count,mean,count
Segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
About to Sleep,52,328,16,328,412,328
At Risk,166,579,57,579,947,579
Can't Loose,142,83,183,83,2305,83
Champions,5,620,287,620,6788,620
Hibernating,212,1062,13,1062,369,1062
Loyal Customers,32,826,162,826,2578,826
Need Attention,51,208,42,208,833,208
New Customers,6,58,8,58,675,58
Potential Loyalists,15,512,35,512,866,512
Promising,22,96,7,96,418,96
