# Müşteri Segmantasyonu

Bir e-ticaret şirketi müşterilerini segmentlere ayırıp bu segmentlere göre pazarlama stratejileri belirlemek istiyor. Buna yönelik olarak müşterilerin davranışlarını tanımlayacağız ve bu davranışlara göre gruplar oluşturacağız. Bu gruplara özel satış ve pazarlama teknikleri geliştirmeye çalışacağız.


**Değişkenler** <br>
    &emsp;**InvoiceNo**: Fatura numarası. Her işleme yani faturaya ait eşsiz numara. Eğer bu kod C ile başlıyorsa işlemin iptal edildiğini ifade eder <br>
    &emsp;**StockCode**: Ürün kodu. Her bir ürün için eşsiz numara <br>
    &emsp;**Description**: Ürün ismi <br>
    &emsp;**Quantity**: Ürün adedi. Faturalardaki ürünlerden kaçar tane satıldığını ifade etmektedir <br>
    &emsp;**InvoiceDate**: Fatura tarihi ve zamanı <br>
    &emsp;**UnitPrice**: Ürün fiyatı (Sterlin cinsinden)<br>
    &emsp;**CustomerID**: Eşsiz müşteri numarası<br>
    &emsp;**Country**: Müşterinin yaşadığı ülke<br>
    

## Veriyi Anlama ve Hazırlama

In [1]:
#Gerekli importlar
import datetime as dt
import pandas as pd

#Tüm sütunları görmek üzere ayarlandı.
pd.set_option('display.max_columns', None)

#Virgülden sonraki basamak sayısı 2 olarak ayarlandı.
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [2]:
#Veri seti okuma işlemi yapıldı ve bu işlem uzun sürdüğü için kopyası alındı.
df_ = pd.read_excel("/Users/aslihankalyonkat/Desktop/DSMLBC/datasets/online_retail_II.xlsx", sheet_name="Year 2010-2011")
df = df_.copy()

In [3]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [4]:
#Veri setindeki eksik gözlemler
df.isnull().sum()

Invoice             0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
Price               0
Customer ID    135080
Country             0
dtype: int64

In [5]:
#Eksik gözlemler kaldırılıyor
df.dropna(inplace=True)

In [6]:
#Hangi üründen kaçar tane kayıt var
df["Description"].value_counts()

WHITE HANGING HEART T-LIGHT HOLDER     2070
REGENCY CAKESTAND 3 TIER               1905
JUMBO BAG RED RETROSPOT                1662
ASSORTED COLOUR BIRD ORNAMENT          1418
PARTY BUNTING                          1416
                                       ... 
NEW BAROQUE LARGE NECKLACE BLK/WHIT       1
POTTING SHED SOW 'N' GROW SET             1
FOOD COVER WITH BEADS , SET 2 SIZES       1
GLASS BEAD HOOP EARRINGS BLACK            1
EASTER CRAFT IVY WREATH WITH CHICK        1
Name: Description, Length: 3896, dtype: int64

In [7]:
#En çok sipariş edilen 5 ürün
df.groupby('Quantity').sum().sort_values(by='Quantity', ascending=False).head()

Unnamed: 0_level_0,Price,Customer ID
Quantity,Unnamed: 1_level_1,Unnamed: 2_level_1
80995,2.08,16446.0
74215,1.04,12346.0
12540,0.0,13256.0
4800,0.21,12901.0
4300,0.72,13135.0


In [8]:
#Toplam kaç adet fatura kesildiği bilgisi
df["Invoice"].nunique()

22190

In [9]:
#Faturalardaki ‘C’ iptal edilen işlemleri göstermektedir. İptal edilen işlemlerin veri setinden çıkartılması
df = df[~df['Invoice'].str.contains('C', na=False)]
df["Invoice"].nunique()

18536

In [10]:
# Fatura başına elde edilen toplam kazancı ifade eden ‘TotalPrice’ adında bir değişken oluşturulması
df['TotalPrice'] = df['Quantity'] * df['Price']
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [11]:
# Fatura numaralarına göre gruplayarak, faturalardan elde edilen kazanç görülebilir
df.groupby("Invoice").agg({"TotalPrice":"sum"}).head()

Unnamed: 0_level_0,TotalPrice
Invoice,Unnamed: 1_level_1
536365,139.12
536366,22.2
536367,278.73
536368,70.05
536369,17.85


# RFM Metriklerinin Hesaplanması

In [12]:
# Bu veri seti için analizin yapıldığı tarih 11.12.2011 seçilmiştir.
today_date = dt.datetime(2011, 12, 11)

# Recency, Frequency ve Monetary metriklerinin hesaplanması
# Recency: Müşterinin son alışveriş yaptığı tarihin üzerinden geçen gün
# Frequency: Müşterinin alışveriş sayısı
# Monetary: Müşterinin toplam kazandırdığı miktar

rfm = df.groupby('Customer ID').agg({'InvoiceDate': lambda InvoiceDate: (today_date - InvoiceDate.max()).days,
                                     'Invoice': lambda Invoice: Invoice.nunique(),
                                     'TotalPrice': lambda TotalPrice: TotalPrice.sum()})

In [13]:
#Oluşturulan RFM metrikleri için sütun isimlerinin düzenlenmesi
rfm.columns = ['recency', 'frequency', 'monetary']
rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,326,1,77183.6
12347.0,3,7,4310.0
12348.0,76,4,1797.24
12349.0,19,1,1757.55
12350.0,311,1,334.4


In [14]:
# RFM Metriklerinin anlamlı yorumlanabilmesi için 1-5 aralığında skorlara çevirmeliyiz
rfm['receny_score'] = pd.qcut(rfm['recency'], 5, labels=[5, 4, 3, 2, 1])
rfm['frequency_score'] = pd.qcut(rfm['frequency'].rank(method="first"), 5, labels=[1, 2, 3, 4, 5])
rfm['monetary_score'] = pd.qcut(rfm['monetary'], 5, labels=[1, 2, 3, 4, 5])

rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary,receny_score,frequency_score,monetary_score
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
12346.0,326,1,77183.6,1,1,5
12347.0,3,7,4310.0,5,5,5
12348.0,76,4,1797.24,2,4,4
12349.0,19,1,1757.55,4,1,4
12350.0,311,1,334.4,1,1,2


In [15]:
# RFM skorlarından faydalanarak segmentlere ayırmak için RFM_SCORE sütunu oluşturuluyor.
# Bu analizde recency ve frequency skorlarından faydalanılacak.

rfm['RFM_SCORE'] = (rfm['receny_score'].astype(str) +
                    rfm['frequency_score'].astype(str))

rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary,receny_score,frequency_score,monetary_score,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346.0,326,1,77183.6,1,1,5,11
12347.0,3,7,4310.0,5,5,5,55
12348.0,76,4,1797.24,2,4,4,24
12349.0,19,1,1757.55,4,1,4,41
12350.0,311,1,334.4,1,1,2,11


# RFM Segmentasyon Tablosu
<br>
Bu tablodaki değerlerden faydalanarak RFM_SCORE değerlerine göre segmentlere ayıracağız.
<br>

![title](https://guillaume-martin.github.io/images/rfm-segments.png)

In [16]:
# Tablodaki segmentler için map tanımlandı
seg_map = {
    r'[1-2][1-2]': 'hibernating',
    r'[1-2][3-4]': 'at_risk',
    r'[1-2]5': 'cant_loose',
    r'3[1-2]': 'about_to_sleep',
    r'33': 'need_attention',
    r'[3-4][4-5]': 'loyal_customers',
    r'41': 'promising',
    r'51': 'new_customers',
    r'[4-5][2-3]': 'potential_loyalists',
    r'5[4-5]': 'champions'
}

In [17]:
# RFM_SCORE değerleri ve seg_map'den faydalanılarak segment sütunu oluşturulur.
rfm['segment'] = rfm['RFM_SCORE'].replace(seg_map, regex=True)
rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary,receny_score,frequency_score,monetary_score,RFM_SCORE,segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346.0,326,1,77183.6,1,1,5,11,hibernating
12347.0,3,7,4310.0,5,5,5,55,champions
12348.0,76,4,1797.24,2,4,4,24,at_risk
12349.0,19,1,1757.55,4,1,4,41,promising
12350.0,311,1,334.4,1,1,2,11,hibernating


In [18]:
# Segmentler hakkında genel bilgiler
rfm[['segment', 'recency', 'frequency', 'monetary']].groupby('segment').agg(['mean', 'count', 'max', 'sum']).T

Unnamed: 0,segment,about_to_sleep,at_risk,cant_loose,champions,hibernating,loyal_customers,need_attention,new_customers,potential_loyalists,promising
recency,mean,53.31,153.79,132.97,6.36,217.61,33.61,52.43,7.43,17.4,23.42
recency,count,352.0,593.0,63.0,633.0,1071.0,819.0,187.0,42.0,484.0,95.0
recency,max,72.0,374.0,373.0,13.0,374.0,72.0,72.0,13.0,33.0,33.0
recency,sum,18766.0,91195.0,8377.0,4027.0,233055.0,27525.0,9804.0,312.0,8421.0,2225.0
frequency,mean,1.16,2.88,8.38,12.42,1.1,6.48,2.33,1.0,2.01,1.0
frequency,count,352.0,593.0,63.0,633.0,1071.0,819.0,187.0,42.0,484.0,95.0
frequency,max,2.0,6.0,34.0,210.0,2.0,63.0,3.0,1.0,3.0,1.0
frequency,sum,409.0,1707.0,528.0,7860.0,1180.0,5307.0,435.0,42.0,973.0,95.0
monetary,mean,471.99,1084.54,2796.16,6857.96,488.64,2864.25,897.63,388.21,1041.22,290.91
monetary,count,352.0,593.0,63.0,633.0,1071.0,819.0,187.0,42.0,484.0,95.0


# Aksiyon Planı ve Yorumlar

**Champions** <br>
- Bu segmentte 633 kişi bulunmakta, <br>
- Ortalama olarak en son alışverişleri 6 gün önce gerçekleşmiş, <br>
- Alışveriş sıklıkları 12, toplamda 7860 alışverişleri var, <br>
- Bu segmente en fazla harcama yapan müşteri 280206.02 sterlin harcama yapmış ve segmentin toplam 4341091.16 sterlin harcama gerçekleştirmiştir.
<br><br>
-> Bu segmentdeki müşterilerimiz en önemli müşterilerdir. Bundan dolayı onlara kendilerini özel hissetirecek hareketler yapmalıyız. Yeni çıkacak bir ürünü ilk onların beğenisine sunabiliriz. Doğum günü gibi özel günlerinde indirim kuponu yollayabiliriz.
<br><br>

**At_Risk** <br> 
- Bu segmentte 593 kişi bulunmakta, <br>
- Ortalama olarak en son alışverişleri 154 gün önce gerçekleşmiş, <br>
- Alışveriş sıklıkları 3, toplamda 1707 alışverişleri var, <br>
- Bu segmente en fazla harcama yapan müşteri 44534.30 sterlin harcama yapmış ve segmentin toplam 643129.43 sterlin harcama gerçekleştirmiştir.
<br><br>
-> Önem verilmesi gereken segmentlerden birisidir. Çünkü bu segmentte kaybetme riskiyle karşı karşıya olduğumuz 593 kişi bulunmaktadır. Mail veya sms gibi iletişim araçlarını kullanarak onları hareketlendirebiliriz. Örneğin; bu haftaya özel yapacağınız harcamalara şu kadar puan kazanacaksınız.
<br><br>

**Hibernating**<br>
- Bu segmentte 1071 kişi bulunmakta,<br>
- Ortalama olarak en son alışverişleri 218 gün önce gerçekleşmiş,<br>
- Alışveriş sıklıkları 1, toplamda 1180 alışverişleri var,<br>
- Bu segmente en fazla harcama yapan müşteri 77183.60 sterlin harcama yapmış ve segmentin toplam 523336.98 sterlin harcama gerçekleştirmiştir.
<br><br>
-> Bu segmentteki müşterilerimize kampanya mailleri yollayarak veya yeni çıkan ürünlerin haberini vererek dikkatlerini çekip geri kazanmayı amaçlamalıyız.
<br><br>

In [19]:
#İhtiyaç durumunda herhangi bir segmentin excel olarak çıktısının alınması.
#Loyal_customers segmentinin çıktısını alarak sadık müşterilerimizin kim olduğunu görebiliriz.

rfm.reset_index(inplace=True)
rfm[rfm['segment'] == 'loyal_customers']['Customer ID'].to_excel("loyal_customers.xlsx")