# Customer Segmentation With RFM Analysis (RFM Analizi İle Müşteri Segmentasyonu)

- **The UK-based retail company wants to divide its customers into segments and determine marketing strategies according to these segments.** *(İngiltere merkezli perakende şirketi müşterilerini segmentlere ayırıp bu segmentlere göre pazarlama stratejileri belirlemek istemektedir.)*

- **It believes that conducting marketing efforts specific to customer segments exhibiting common behaviors will lead to an increase in revenue.** *Ortak davranışları sergileyen müşteri segmentleri özelinde pazarlama çalışmaları yapmanın gelir artışı sağlayacağını düşünmektedir.*

- **To segment, RFM analysis will be used.** *Segmentlere ayırmak için RFM analizi kullanılacaktır.*

## Data Set Story (Veri Seti Hikayesi)

- **The dataset named "Online Retail II" contains online sales transactions of a UK-based retail company between 01/12/2009 and 09/12/2011. The company's product catalog includes gift items, and it is known that most of its customers are wholesalers.** *Online Retail II isimli veri seti İngiltere merkezli bir perakende şirketinin  01/12/2009 - 09/12/2011 tarihleri arasındaki online satış işlemlerini içeriyor. Şirketin ürün kataloğunda hediyelik eşyalar yer almaktadır ve çoğu müşterisinin toptancı olduğu bilgisi mevcuttur.*

- **InvoiceNO** : *If this code starts with C, it means that the transaction has been cancelled* (Eğer bu kod C ile başlıyorsa işlemin iptal edildiğini ifade eder)

- **StockCode** : *Unique code for each product* (Her bir ürün için eşşiz kod)

- **Description** : *Product Name* (Ürün İsmi)

- **Quantity** : *How many of the products on the invoices were sold* (Faturalardaki ürünlerden kaçar tane satıldığı)

- **InvoiceDate** : (Fatura Tarihi)

- **UnitPrice** : *Invoice price in sterling* (Sterlin Cinsinden Fatura Fiyatı)

- **CustomerID** : *Unique Customer Numbers* (Eşsiz müşteri Numaraları)

- **Country** : (Ülke)

## Project Tasks (Proje Görevleri)

### Task 1 (Görev 1) : Understanding and Preparing Data (Veriyi Anlama ve Hazırlama)

- **Step 1 (Adım 1):** *Read the 2010-2011 data in Online Retail II excel. Create a copy of the dataframe you created.*(Adım 1: Online Retail II excelindeki 2010-2011 verisini okuyunuz. Oluşturduğunuz dataframe’in kopyasını oluşturunuz.)

- **Step 2 (Adım 2):** *Examine the descriptive statistics of the data set.* (Veri setinin betimsel istatistiklerini inceleyiniz.)

- **Step 3 (Adım 3):** *Are there any missing observations in the data set? If so, how many missing observations are there in which variable?* (Veri setinde eksik gözlem var mı? Varsa hangi değişkende kaç tane eksik gözlem vardır?)

- **Step 4 (Adım 4):** *Remove missing observation from the data set. Use the 'inplace=True' parameter in the subtraction process.* (Eksik gözlemleri veri setinden çıkartınız. Çıkarma işleminde ‘inplace=True’ parametresini kullanınız.)

- **Step 5 (Adım 5):** *How many unique products are there?* (Eşsiz ürün sayısı kaçtır?)

- **Step 6 (Adım 6):** *How many of which product are there?* (Hangi üründen kaçar tane vardır?)

- **Step 7 (Adım 7):** *List the 5 most ordered products from mos to least.* (En çok sipariş edilen 5 ürünü çoktan aza doğru sıralayınız.)

- **Step 8 (Adım 8):** *'C' on invoices indicates canceled transactions. Remove canceled transactions from the data set.* (Faturalardaki ‘C’ iptal edilen işlemleri göstermektedir. İptal edilen işlemleri veri setinden çıkartınız.)

- **Step 9 (Adım 9):** *Create a variable called 'TotalPrice' that represents the total earnings per invoice.* ( Fatura başına elde edilen toplam kazancı ifade eden ‘TotalPrice’ adında bir değişken oluşturunuz.)

### Task 2 (Görev 2): Calculation of RFM Metrics (RFM Metriklerinin Hesaplanması)

- **Step 1 (Adım 1):** *Define Recency, Frequency and Monetary.* (Recency, Frequency ve Monetary tanımlarını yapınız.)

- **Step 2 (Adım 2):** *Calculate customer-specific Recency, Frequency and Monetary metrics with gorupby, agg and lambda.* (Müşteri özelinde Recency, Frequency ve Monetary metriklerini groupby, agg ve lambda ile hesaplayınız.)

- **Step 3 (Adım 3):** *Assign the metrics you calculated to a variable named rfm.* (Hesapladığınız metrikleri rfm isimli bir değişkene atayınız.)

- **Step 4 (Adım 4):** *Change the names of the metrics you created to recency, frequency and monetary.* (Oluşturduğunuz metriklerin isimlerini recency, frequency ve monetary olarak değiştiriniz.)

### Task 3 (Görev 3): Creating RFM Scores and Converting them into a Single Variables (RFM Skorlarının Oluşturulması ve Tek bir Değişkene Çevrilmesi)

- **Step 1 (Adım 1):** *Convert Recency, Frequency and Monetary metrics into scores between 1-5 with the help of qcut.* (Recency, Frequency ve Monetary metriklerini qcut yardımı ile 1-5 arasında skorlara çeviriniz.)

- **Step 2 (Adım 2):** *Save these scores as recency score, frequency score and monetary score.* (Bu skorları recency_score, frequency_score ve monetary_score olarak kaydediniz.)

- **Step 3 (Adım 3):** *Express recency_score and frequency_score as a single variable and save as RF_SCORE.* (recency_score ve frequency_score’u tek bir değişken olarak ifade ediniz ve RF_SCORE olarak kaydediniz.)

### Task 4 (Görev 4): Defining RF Score as a Segment (RF Skorunun Segment Olarak Tanımlanması)

- **Step 1 (Adım 1):** *Make segment definitions for the generated RF scores.* *(Oluşturulan RF skorları için segment tanımlamaları yapınız.)*

- **Step 2 (Adım 2):** *Convert the scores into segments with the help of the matching below.* (Aşağıdaki eşleştirme yardımı ile skorları segmentlere çeviriniz.)

![RFM - 7.png](attachment:4fb69057-d677-4a82-ad6a-c5537a2ebc5b.png)

### Task 5 (Görev 5): Action Time! (Aksiyon Zamanı !)

- **Step 1 (Adım 1):** *Choose the 3 segments you think are important. Interpret these three segments both in terms of action decisions and the structure of the segments (average RFM values).* (Önemli gördüğünüz 3 segmenti seçiniz. Bu üç segmenti hem aksiyon kararları açısından hemde segmentlerin yapısı açısından(ortalama RFM değerleri) yorumlayınız.)

- **Step 2 (Adım 2):** *Select the customer IDs belonging to the "Loyal Customers" class and get the excel output.* ("Loyal Customers" sınıfına ait customer ID'leri seçerek excel çıktısını alınız.))

## Solution (Çözüm)

### Task 1 (Görev 1) : Understanding and Preparing Data (Veriyi Anlama ve Hazırlama)

- **Step 1 (Adım 1):** *Read the 2010-2011 data in Online Retail II excel. Create a copy of the dataframe you created.*(Adım 1: Online Retail II excelindeki 2010-2011 verisini okuyunuz. Oluşturduğunuz dataframe’in kopyasını oluşturunuz.)

In [1]:
import pandas as pd
import datetime as dt

In [8]:
pd.set_option('display.max_columns', None)
# pd.set_option('display.max_rows', None)
pd.set_option('display.float_format', lambda x:'%.3f' %x)

In [3]:
df_ = pd.read_excel("C:\\Users\\Ruzgiiiar\\Desktop\\Miuul Makine Ogrenimi\\Miuul CRM - RFM\\RFM\\datasets\\online_retail_II.xlsx", sheet_name='Year 2010-2011')

In [238]:
df = df_.copy()

In [239]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


- **Step 2 (Adım 2):** *Examine the descriptive statistics of the data set.* (Veri setinin betimsel istatistiklerini inceleyiniz.)

In [240]:
def check_df(dataframe, head=5):
    print('############### Shape #################')
    print(dataframe.shape)
    print('############### Types #################')
    print(dataframe.dtypes)
    print('############### Head ##################')
    print(dataframe.head())
    print('############### Tail ###################')
    print(dataframe.tail())
    print('############### NA #####################')
    print(dataframe.isnull().sum())
    print('############## Describe ################')
    keep_columns = [col for col in dataframe.columns if dataframe[col].dtypes in ['int64', 'float64']]
    df_numeric = dataframe[keep_columns]
    print(df_numeric.describe().T)
    print('############## Quantiles ###############')
    print(df_numeric.quantile([0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.99, 1]).T)

In [241]:
check_df(df)

############### Shape #################
(541910, 8)
############### Types #################
Invoice                object
StockCode              object
Description            object
Quantity                int64
InvoiceDate    datetime64[ns]
Price                 float64
Customer ID           float64
Country                object
dtype: object
############### Head ##################
  Invoice StockCode                          Description  Quantity  \
0  536365    85123A   WHITE HANGING HEART T-LIGHT HOLDER         6   
1  536365     71053                  WHITE METAL LANTERN         6   
2  536365    84406B       CREAM CUPID HEARTS COAT HANGER         8   
3  536365    84029G  KNITTED UNION FLAG HOT WATER BOTTLE         6   
4  536365    84029E       RED WOOLLY HOTTIE WHITE HEART.         6   

          InvoiceDate  Price  Customer ID         Country  
0 2010-12-01 08:26:00  2.550    17850.000  United Kingdom  
1 2010-12-01 08:26:00  3.390    17850.000  United Kingdom  
2 2010-12-01 

In [242]:
# Average number of invoices (Ortalama fatura sayısı)
df.shape[0] / df['Invoice'].nunique()

20.923166023166022

- **Step 3 (Adım 3):** *Are there any missing observations in the data set? If so, how many missing observations are there in which variable?* (Veri setinde eksik gözlem var mı? Varsa hangi değişkende kaç tane eksik gözlem vardır?)

In [243]:
df.isnull().sum()

Invoice             0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
Price               0
Customer ID    135080
Country             0
dtype: int64

In [244]:
# Ratio of the number of missing observations in Customer ID to the data set (Müşteri Kimliğindeki eksik gözlem sayısının veri kümesine oranı
df['Customer ID'].isnull().sum() / df.shape[0] * 100

24.92664833643963

- **Step 4 (Adım 4):** *Remove missing observation from the data set. Use the 'inplace=True' parameter in the subtraction process.* (Eksik gözlemleri veri setinden çıkartınız. Çıkarma işleminde ‘inplace=True’ parametresini kullanınız.)

In [245]:
df.dropna(inplace=True)

In [246]:
df.isnull().sum().any()

False

- **Step 5 (Adım 5):** *How many unique products are there?* (Eşsiz ürün sayısı kaçtır?)

In [247]:
df['StockCode'].nunique()

3684

In [248]:
df['Description'].nunique()

3896

In [249]:
df['Description'] = df['Description'].str.replace('[. ; : , -]', ' ', regex=True)

In [250]:
df['StockCode'].nunique()

3684

In [251]:
df['Description'].nunique()

3893

In [252]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,536365,85123A,WHITE HANGING HEART T LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


- **Step 6 (Adım 6):** *How many of which product are there?* (Hangi üründen kaçar tane vardır?)

In [253]:
df['Description'].value_counts()

Description
WHITE HANGING HEART T LIGHT HOLDER    2070
REGENCY CAKESTAND 3 TIER              1905
JUMBO BAG RED RETROSPOT               1662
ASSORTED COLOUR BIRD ORNAMENT         1418
PARTY BUNTING                         1416
                                      ... 
OCEAN STRIPE HAMMOCK                     1
TINY CRYSTAL BRACELET GREEN              1
PURPLE GLASS TASSLE BAG CHARM            1
FIRE POLISHED GLASS BRACELET BLACK       1
 TOADSTOOL BEDSIDE LIGHT                 1
Name: count, Length: 3893, dtype: int64

- **Step 7 (Adım 7):** *List the 5 most ordered products from mos to least.* (En çok sipariş edilen 5 ürünü çoktan aza doğru sıralayınız.)

In [254]:
df.groupby('Description').agg({'Quantity' : 'sum'}).sort_values('Quantity', ascending=False)

Unnamed: 0_level_0,Quantity
Description,Unnamed: 1_level_1
WORLD WAR 2 GLIDERS ASSTD DESIGNS,53215
JUMBO BAG RED RETROSPOT,45066
ASSORTED COLOUR BIRD ORNAMENT,35314
WHITE HANGING HEART T LIGHT HOLDER,34147
PACK OF 72 RETROSPOT CAKE CASES,33409
...,...
PINK POODLE HANGING DECORATION,-12
CRUK Commission,-16
ASSORTED TUTTI FRUTTI ROUND BOX,-24
Discount,-1194


- **Step 8 (Adım 8):** *'C' on invoices indicates canceled transactions. Remove canceled transactions from the data set.* (Faturalardaki ‘C’ iptal edilen işlemleri göstermektedir. İptal edilen işlemleri veri setinden çıkartınız.)

In [255]:
df[df['Invoice'].str.contains("C", na=False)].shape[0]

8905

In [256]:
df['Invoice'] = df['Invoice'].astype(str)

In [257]:
df = df[~df['Invoice'].str.contains("C", na=False)]

In [258]:
df.shape

(397925, 8)

In [259]:
df[df['Invoice'].str.contains("C", na=False)].shape[0]

0

- **Step 9 (Adım 9):** *Create a variable called 'TotalPrice' that represents the total earnings per invoice.* ( Fatura başına elde edilen toplam kazancı ifade eden ‘TotalPrice’ adında bir değişken oluşturunuz.)

In [260]:
df['TotalPrice'] = df['Quantity'] * df['Price']

In [261]:
df.head()

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country,TotalPrice
0,536365,85123A,WHITE HANGING HEART T LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [262]:
df.groupby('Invoice').agg({'TotalPrice': 'sum'}).sort_values('TotalPrice', ascending=False)

Unnamed: 0_level_0,TotalPrice
Invoice,Unnamed: 1_level_1
581483,168469.600
541431,77183.600
556444,38970.000
567423,31698.160
556917,22775.930
...,...
570554,0.380
578841,0.000
564651,0.000
543599,0.000


In [263]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 397925 entries, 0 to 541909
Data columns (total 9 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   Invoice      397925 non-null  object        
 1   StockCode    397925 non-null  object        
 2   Description  397925 non-null  object        
 3   Quantity     397925 non-null  int64         
 4   InvoiceDate  397925 non-null  datetime64[ns]
 5   Price        397925 non-null  float64       
 6   Customer ID  397925 non-null  float64       
 7   Country      397925 non-null  object        
 8   TotalPrice   397925 non-null  float64       
dtypes: datetime64[ns](1), float64(3), int64(1), object(4)
memory usage: 30.4+ MB


In [264]:
df['Customer ID'] = df['Customer ID'].astype(str)

In [265]:
df[[col for col in df.columns if df[col].dtype in ['float64', 'int64']]].describe([0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.99, 1]).T

Unnamed: 0,count,mean,std,min,5%,10%,25%,50%,75%,90%,99%,100%,max
Quantity,397925.0,13.022,180.42,1.0,1.0,1.0,2.0,6.0,12.0,24.0,120.0,80995.0,80995.0
Price,397925.0,3.116,22.097,0.0,0.42,0.55,1.25,1.95,3.75,6.35,14.95,8142.75,8142.75
TotalPrice,397925.0,22.395,309.055,0.0,1.25,1.95,4.68,11.8,19.8,35.4,202.5,168469.6,168469.6


In [266]:
df['Quantity'].sort_values(ascending=False).head(10)

540421    80995
61619     74215
502122    12540
421632     4800
206121     4300
97432      3906
270885     3186
52711      3114
160546     3114
433788     3000
Name: Quantity, dtype: int64

### Task 2 (Görev 2): Calculation of RFM Metrics (RFM Metriklerinin Hesaplanması)¶

- **Step 1 (Adım 1):** *Define Recency, Frequency and Monetary.* (Recency, Frequency ve Monetary tanımlarını yapınız.)

---
- **Recency (Yenilik):** *The customer's last purchase date from the date of analysis.* (Analiz tarihinden itibaren müşterinin son satın alma tarihi.)

- **Frequency (Frekans):** *Customer's shopping frequency.* (Müşterinin alışveriş sıklığı.)

- **Monetary (Parasal):** *The total monetary value left by the customer.* (Müşterinin bıraktığı toplam parasal değer.)
---

- **Step 2 (Adım 2):** *Calculate customer-specific Recency, Frequency and Monetary metrics with gorupby, agg and lambda.* (Müşteri özelinde Recency, Frequency ve Monetary metriklerini groupby, agg ve lambda ile hesaplayınız.)

In [267]:
df['InvoiceDate'].max()

Timestamp('2011-12-09 12:50:00')

- **In order to calculate Recency, the date of analysis must be taken as basis. However, since the maximum date of this data set is 2010, we will take 2 days from the end date as the basis here.** *(Recency hesaplamasında analiz tarihinin esas alınması gerekmektedir. Ancak bu veri setinin maksimum tarihi 2010 olduğundan burada bitiş tarihinden itibaren 2 günü esas alacağız.)*

In [268]:
today_date = dt.datetime(2011, 12, 11)

In [269]:
type(today_date)

datetime.datetime

- **Step 3 (Adım 3):** *Assign the metrics you calculated to a variable named rfm.* (Hesapladığınız metrikleri rfm isimli bir değişkene atayınız.)

In [270]:
rfm = df.groupby('Customer ID').agg({'InvoiceDate': lambda x: (today_date - x.max()).days,
                                     'Invoice' : lambda x: x.nunique(),
                                     'TotalPrice': lambda x: x.sum()})

- **Step 4 (Adım 4):** *Change the names of the metrics you created to recency, frequency and monetary.* (Oluşturduğunuz metriklerin isimlerini recency, frequency ve monetary olarak değiştiriniz.)

In [271]:
rfm.columns = ['recency', 'frequency', 'monetary']

In [272]:
rfm.head()

Unnamed: 0_level_0,recency,frequency,monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346.0,326,1,77183.6
12347.0,3,7,4310.0
12348.0,76,4,1797.24
12349.0,19,1,1757.55
12350.0,311,1,334.4


In [273]:
rfm.describe([0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.99, 1]).T

Unnamed: 0,count,mean,std,min,5%,10%,25%,50%,75%,90%,99%,100%,max
recency,4339.0,93.041,100.008,1.0,3.0,6.0,18.0,51.0,142.5,263.2,369.62,374.0,374.0
frequency,4339.0,4.272,7.705,1.0,1.0,1.0,1.0,2.0,5.0,9.0,30.0,210.0,210.0
monetary,4339.0,2053.797,8988.248,0.0,112.245,156.566,307.245,674.45,1661.64,3646.164,19880.092,280206.02,280206.02


In [274]:
rfm = rfm[rfm['monetary'] > 0]

In [275]:
rfm.describe([0.05, 0.1, 0.25, 0.5, 0.75, 0.9, 0.99, 1]).T

Unnamed: 0,count,mean,std,min,5%,10%,25%,50%,75%,90%,99%,100%,max
recency,4338.0,93.059,100.012,1.0,3.0,6.0,18.0,51.0,142.75,263.3,369.63,374.0,374.0
frequency,4338.0,4.273,7.706,1.0,1.0,1.0,1.0,2.0,5.0,9.0,30.0,210.0,210.0
monetary,4338.0,2054.271,8989.23,3.75,112.309,156.699,307.415,674.485,1661.74,3646.531,19880.996,280206.02,280206.02


### Task 3 (Görev 3): Creating RFM Scores and Converting them into a Single Variables (RFM Skorlarının Oluşturulması ve Tek bir Değişkene Çevrilmesi)

- **Step 1 (Adım 1):** *Convert Recency, Frequency and Monetary metrics into scores between 1-5 with the help of qcut.* (Recency, Frequency ve Monetary metriklerini qcut yardımı ile 1-5 arasında skorlara çeviriniz.)

- **Step 2 (Adım 2):** *Save these scores as recency score, frequency score and monetary score.* (Bu skorları recency_score, frequency_score ve monetary_score olarak kaydediniz.)

In [276]:
pd.options.mode.chained_assignment = None

In [277]:
rfm['recency_score'] = pd.qcut(rfm['recency'], 5, labels = [5, 4, 3, 2, 1])

In [278]:
rfm['frequency_score'] = pd.qcut(rfm['frequency'].rank(method='first'), 5, labels = [1, 2, 3, 4, 5])

In [279]:
rfm['monetary_score'] = pd.qcut(rfm['monetary'], 5, labels = [1, 2, 3, 4, 5])

- **Step 3 (Adım 3):** *Express recency_score and frequency_score as a single variable and save as RF_SCORE.* (recency_score ve frequency_score’u tek bir değişken olarak ifade ediniz ve RF_SCORE olarak kaydediniz.)

In [280]:
rfm['RF_SCORE'] = (rfm['recency_score'].astype(str) + rfm['frequency_score'].astype(str))

In [281]:
rfm.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
recency,4338.0,93.059,100.012,1.0,18.0,51.0,142.75,374.0
frequency,4338.0,4.273,7.706,1.0,1.0,2.0,5.0,210.0
monetary,4338.0,2054.271,8989.23,3.75,307.415,674.485,1661.74,280206.02


In [282]:
rfm[rfm['RF_SCORE'] == '11']

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RF_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346.0,326,1,77183.600,1,1,5,11
12350.0,311,1,334.400,1,1,2,11
12353.0,205,1,89.000,1,1,1,11
12354.0,233,1,1079.400,1,1,4,11
12355.0,215,1,459.400,1,1,2,11
...,...,...,...,...,...,...,...
15717.0,235,1,150.300,1,1,1,11
15723.0,365,1,203.100,1,1,1,11
15729.0,213,1,85.000,1,1,1,11
15733.0,283,1,162.300,1,1,1,11


In [283]:
rfm[rfm['RF_SCORE'] == '55']

Unnamed: 0_level_0,recency,frequency,monetary,recency_score,frequency_score,monetary_score,RF_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12347.0,3,7,4310.000,5,5,5,55
12362.0,4,10,5226.230,5,5,5,55
12417.0,4,9,3649.100,5,5,5,55
12423.0,1,8,1859.310,5,5,4,55
12433.0,1,7,13375.870,5,5,5,55
...,...,...,...,...,...,...,...
18230.0,10,7,2810.200,5,5,5,55
18241.0,10,17,2073.090,5,5,5,55
18245.0,8,7,2567.060,5,5,5,55
18272.0,3,6,3078.580,5,5,5,55


### Task 4 (Görev 4): Defining RF Score as a Segment (RF Skorunun Segment Olarak Tanımlanması)z.)

- **Step 1 (Adım 1):** *Make segment definitions for the generated RF scores.* *(Oluşturulan RF skorları için segment tanımlamaları yapınız.)*

- **Step 2 (Adım 2):** *Convert the scores into segments with the help of the matching below.* (Aşağıdaki eşleştirme yardımı ile skorları segmentlere çeviriniz.)

![RFM - 7.png](attachment:9b9ca281-6e42-4713-a723-803e7a1e253a.png)

In [284]:
seg_map = {
    r'[1-2][1-2]' : 'hibernating',
    r'[1-2][3-4]' : 'at_risk',
    r'[1-2]5' : 'cant_loose',
    r'3[1-2]' : 'about_to_sleep',
    r'33' : 'need_attention',
    r'[3-4][4-5]' : 'loyal_customers',
    r'41' : 'promising',
    r'[4-5][2-3]' : 'potential_loyalists',
    r'51' : 'new_customers',
    r'5[4-5]' : 'champions'
}

In [286]:
rfm['segment'] = rfm['RF_SCORE'].replace(seg_map, regex=True)

In [287]:
rfm.columns

Index(['recency', 'frequency', 'monetary', 'recency_score', 'frequency_score',
       'monetary_score', 'RF_SCORE', 'segment'],
      dtype='object')

In [288]:
rfm[["segment", "recency", "frequency", "monetary"]].groupby('segment').agg(['mean', 'count'])

Unnamed: 0_level_0,recency,recency,frequency,frequency,monetary,monetary
Unnamed: 0_level_1,mean,count,mean,count,mean,count
segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
about_to_sleep,53.312,352,1.162,352,471.994,352
at_risk,153.786,593,2.879,593,1084.535,593
cant_loose,132.968,63,8.381,63,2796.156,63
champions,6.362,633,12.417,633,6857.964,633
hibernating,217.605,1071,1.102,1071,488.643,1071
loyal_customers,33.608,819,6.48,819,2864.248,819
need_attention,52.428,187,2.326,187,897.628,187
new_customers,7.429,42,1.0,42,388.213,42
potential_loyalists,17.399,484,2.01,484,1041.222,484
promising,23.511,94,1.0,94,294.008,94


### Task 5 (Görev 5): Action Time! (Aksiyon Zamanı !)

- **Step 1 (Adım 1):** *Choose the 3 segments you think are important. Interpret these three segments both in terms of action decisions and the structure of the segments (average RFM values).* (Önemli gördüğünüz 3 segmenti seçiniz. Bu üç segmenti hem aksiyon kararları açısından hemde segmentlerin yapısı açısından(ortalama RFM değerleri) yorumlayınız.)

---
- **loyal_customers (sadık müşteriler):** *Our loyal customers can be rewarded through a special campaign. These customers, who have demonstrated loyalty to the brand, placed their last orders an average of 33 days ago. With an average order frequency of 6 days and leaving an average amount of £2864.248 to the company, these customers are prime candidates for a special campaign that acknowledges their loyalty. The campaign may include exclusive promotions, discounts, or personalized offers to further enhance their engagement with the brand.*

    - (Sadık müşterilerimiz özel bir kampanya aracılığıyla ödüllendirilebilir. Markaya olan bağlılıklarını gösteren bu müşteriler, son siparişlerini ortalama 33 gün önce vermişlerdir. Ortalama sipariş sıklıkları 6 gün ve şirkete ortalama 2864.248 sterlin bırakmışlardır. Bu müşteriler, sadakatlerini takdir eden özel bir kampanya için ideal adaylardır. Kampanya, marka ile bağlarını daha da güçlendirmek adına özel promosyonlar, indirimler veya kişiselleştirilmiş teklifler içerebilir.)*

---

- **potential_loyalists (potansiyel sadık kişiler):** *The customers in this segment are expected to make long-term purchases from the company and are aimed at advancing to the loyal customer category. To achieve this goal, it is important to increase the frequency values to boost the shopping frequency of customers. Offering incentives such as adding complimentary products to each of their orders can be an effective strategy. Considering that customers in this segment placed their last orders an average of 17 days ago, with an average shopping frequency of 2 days, and they left an average amount of £1041.222 to the company, it is possible to increase the frequency values by providing special promotions, discounts, or loyalty programs tailored to these customers. This strategy can strengthen customer loyalty and encourage them to shop morefrequently.*

    - (Bu segmentteki müşteriler, firmadan uzun süre alışveriş yapmaları beklenen ve sadık müşteri kategorisine terfi etmelerini hedefleyen müşterilerdir. Bu amaçla, müşterilerin alışveriş sıklıklarını artırmak için frekans değerlerini yükseltmek önemlidir. Bu hedefe ulaşmak için, her siparişlerine eşantiyon ürünler eklemek gibi teşvikler sağlamak etkili bir strateji olabilir. Segmentteki müşterilerin son siparişlerini ortalama 17 gün önce verdikleri, alışveriş sıklıklarının ortalama 2 gün olduğu ve firmaya bıraktıkları ortalama para miktarının 1041.222 sterlin olduğu göz önüne alındığında, bu müşterilere özel promosyonlar, indirimler veya sadakat programları gibi teşvikler sunularak frekans değerlerini artırmak mümkündür. Bu strateji, müşteri sadakatini güçlendirebilir ve onları daha sık alışveriş yapmaya teşvik edebilir.)
 
---

- **champions (şampiyonlar):** *Customers in this segment are generally loyal and high-value shoppers. Therefore, we can offer special discounts, priority service, pre-orders for complimentary items, and pre-orders for valuable items. The average time since the last purchase for customers in this segment is 6 days, their average shopping frequency is 12 days, and they leave an average amount of £6857.964 to the company. With this information in mind, we can provide special benefits and privileges to satisfy customers and strengthen their loyalty.*

    - (Bu segmentteki müşteriler genellikle sadık ve yüksek değerli alışveriş yapan müşterilerdir. Bu nedenle, özel indirimler, öncelikli hizmet, ücretsiz ürünler ve değerli sayılabilecek ürünler için ön sipariş seçenekleri sunabiliriz. Bu müşteri segmentinin son satın alma tarihi ortalama 6 gündür, alışveriş sıklıkları ortalama 12 gün ve firmaya bıraktıkları ortalama para miktarı ise 6857.964 sterlindir. Bu bilgiler ışığında, müşterileri memnun etmek ve onların sadakatini güçlendirmek adına özel avantajlar ve öncelikler sunabiliriz.)
 
---

- **Step 2 (Adım 2):** *Select the customer IDs belonging to the "Loyal Customers" class and get the excel output.* ("Loyal Customers" sınıfına ait customer ID'leri seçerek excel çıktısını alınız.))

In [293]:
loyal_customers_df = pd.DataFrame()

In [294]:
loyal_customers_df['loyal_customers_id'] = rfm[rfm['segment'] == 'loyal_customers'].index

In [295]:
loyal_customers_df.head()

Unnamed: 0,loyal_customers_id
0,12352.0
1,12359.0
2,12370.0
3,12380.0
4,12388.0


In [302]:
loyal_customers_df['loyal_customers_id'] = loyal_customers_df['loyal_customers_id'].astype(float).astype(int)

In [303]:
loyal_customers_df.head()

Unnamed: 0,loyal_customers_id
0,12352
1,12359
2,12370
3,12380
4,12388


In [304]:
loyal_customers_df.to_excel('loyal_customers_id.xlsx')