# Data Analysis with Python

HomeTask13_Analysis

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pylab as plt
from datetime import datetime
plt.style.use('fivethirtyeight')
import datetime as dt

![RFM Analizi](rfm.png)

#### What is RFM Analysis?
RFM stands for Recency, Frequency, and Monetary. It is a data-driven approach to customer segmentation based on their:

    1. Recency (R): How recently a customer made a purchase.

    2. Frequency (F): How often a customer makes a purchase.

    3. Monetary (M): The monetary value of a customer's purchases

By analyzing these three dimensions, businesses can tailor their marketing strategies to specific customer segments, enhancing customer satisfaction and driving profitability.

## Task Answer

In [6]:
df = pd.read_csv('online_retail_II.csv')

### Customer Segmentation with RFM Analysis

Overview about data

Removing returned products (Invoice numbers starting with C) from the data set

Removing missing values from the dataset

RFM Analysis
- In order to find the recency value of each customer, we need to determine the last invoice date as the current date and   
  subtract the last purchasing date of each customer from this date.
  
The type of Customer ID variable needs to be turned into an integer.

The type of InvoiceDate variable needs to be turned into datetime.

Recency:
- Grouping the last invoice dates according to the Customer ID variable, subtracting them from today_date, and assigning them as recency
- Rename column name as Recency
- Change the values to day format

Frequency

- In order to find the frequency value of each customer, we need to determine how many times the customers make purchases.
- Grouping unique values of invoice date according to customer_id variable and assigning them to freq_df variable
- Rename column name as Frequency

Monetary
- In order to find the monetary value of each customer, we need to determine how much do the customers spend on purchases
- Multiplying the prices and quantities of purchased products and assigning them to the total price variable
- Grouping and sum up total prices according to each Customer ID
- Rename Total Price column as Monetary

Concatenate Recency,Frequency and Monetary

Scoring of Recency, Frequency and Monetary Values¶

- Dividing the recency values into recency scores such that the lowest recency value as 5 and the highest as 1
- Dividing the frequency values into frequency scores such that the lowest frequency value as 1 and the highest as 5
- Dividing the monetary values into monetary scores such that the lowest monetary value as 1 and the highest as 5

- Combining Recency, Frequency, and Monetary Scores in a string format

Find Customers with best scores

Find Customers with worst scores

Mapping of segments according to recency and frequency scores of customers

Recency and Frequency scores are turned into string format, combined and assigned to Segment

Segments are changed with the definitons of seg_map

Mean, median, count statistics of different segments

#### **Məlumat haqqında ümumi baxış (Overview about data)**

**Geri qaytarılmış məhsulların məlumat dəstindən çıxarılması**

Fatura nömrəsi "C" hərfi ilə başlayan sətirlərin (ləğv edilmiş/qeri qaytarılmış) silinməsi.

Məlumat dəstindəki boş (missing values) dəyərlərin silinməsi

**RFM Analizi**

Hər bir müştərinin Recency (Yaxınlıq) dəyərini tapmaq üçün ən son fatura tarixini cari tarix kimi təyin etməli və hər bir müştərinin son satınalma tarixini bu tarixdən çıxmalıyıq.

 - "Customer ID" (Müştəri ID) dəyişəninin tipi tam ədədə (integer) çevrilməlidir.

 - "InvoiceDate" (Fatura tarixi) dəyişəninin tipi tarix formatına (datetime) çevrilməlidir.


    **Recency (Yaxınlıq):**

 - Son fatura tarixlərini "Customer ID" dəyişəninə görə qruplaşdırmaq, onları today_date-dən (müəyyən edilmiş cari tarix) çıxmaq və recency olaraq təyin etmək.

 - Sütun adını Recency olaraq dəyişmək.

 - Dəyərləri gün formatına çevirmək.


    **Frequency (Tezlik):**

 - Hər bir müştərinin tezlik dəyərini tapmaq üçün müştərilərin neçə dəfə satınalma etdiyini müəyyənləşdirməliyik.

 - Fatura tarixlərinin unikal (təkrarlanmayan) dəyərlərini customer_id dəyişəninə görə qruplaşdırmaq və onları freq_df dəyişəninə təyin etmək.

 - Sütun adını Frequency olaraq dəyişmək.


    **Monetary (Maddi Dəyər):**

 - Hər bir müştərinin maddi dəyərini tapmaq üçün müştərilərin satınalmalara nə qədər pul xərclədiyini müəyyənləşdirməliyik.

 - Satın alınan məhsulların qiymətlərini və sayını bir-birinə vuraraq total price (ümumi qiymət) dəyişəninə təyin etmək.

 - Ümumi qiymətləri hər bir "Customer ID" üzrə qruplaşdırmaq və cəmləmək.

 - Total Price sütun adını Monetary olaraq dəyişmək.


    **Recency, Frequency və Monetary dəyərlərinin birləşdirilməsi (Concatenate)**

    ***Recency, Frequency və Monetary dəyərlərinin ballandırılması (Scoring)***


 - Recency dəyərlərini elə bölmək ki, ən aşağı yaxınlıq dəyəri 5, ən yüksək olanı isə 1 bal alsın.

 - Frequency dəyərlərini elə bölmək ki, ən aşağı tezlik dəyəri 1, ən yüksək olanı isə 5 bal alsın.

 - Monetary dəyərlərini elə bölmək ki, ən aşağı maddi dəyər 1, ən yüksək olanı isə 5 bal alsın.


***Recency, Frequency və Monetary ballarının mətn (string) formatında birləşdirilməsi.***

 - Ən yaxşı balları olan müştərilərin tapılması.

 - Ən pis balları olan müştərilərin tapılması.


    ***Müştərilərin yaxınlıq və tezlik ballarına görə seqmentlərə bölünməsi (Mapping)***

 - Recency və Frequency balları mətn formatına çevrilir, birləşdirilir və Segment sütununa təyin edilir.

 - Seqmentlər seg_map (seqment xəritəsi) tərifləri ilə dəyişdirilir.

 - Müxtəlif seqmentlər üçün orta (mean), median və say (count) statistikalarının hesablanması.

In [8]:
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067371 entries, 0 to 1067370
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype  
---  ------       --------------    -----  
 0   Invoice      1067371 non-null  object 
 1   StockCode    1067371 non-null  object 
 2   Description  1062989 non-null  object 
 3   Quantity     1067371 non-null  int64  
 4   InvoiceDate  1067371 non-null  object 
 5   Price        1067371 non-null  float64
 6   Customer ID  824364 non-null   float64
 7   Country      1067371 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 65.1+ MB


Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085.0,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085.0,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085.0,United Kingdom


In [9]:
# Removing returned products (Invoice numbers starting with C) from the data set
df = df[~df["Invoice"].str.contains("C", na = False)]
# Removing missing values from the dataset
df.dropna(inplace = True)

In [10]:
df["InvoiceDate"].max() # Last invoice date

'2011-12-09 12:50:00'

In [11]:
df

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085.0,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.10,13085.0,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085.0,United Kingdom
...,...,...,...,...,...,...,...,...
1067366,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680.0,France
1067367,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
1067368,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France
1067369,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France


In [12]:
today_date = dt.datetime(2024,8,4) # last invoice date is assigned to today_date variable

In [13]:
df["Customer ID"] = df["Customer ID"].astype(int) 

In [14]:
df["InvoiceDate"] = pd.to_datetime(df["InvoiceDate"])

In [15]:
recency = (today_date - df.groupby("Customer ID").agg({"InvoiceDate":"max"}))
recency.rename(columns = {"InvoiceDate":"Recency"}, inplace = True)
recency_df = recency["Recency"].apply(lambda x: x.days)
recency_df.head()

Customer ID
12346    4946
12347    4623
12348    4696
12349    4639
12350    4931
Name: Recency, dtype: int64

In [16]:
recency_df

Customer ID
12346    4946
12347    4623
12348    4696
12349    4639
12350    4931
         ... 
18283    4624
18284    5052
18285    5281
18286    5097
18287    4663
Name: Recency, Length: 5881, dtype: int64

In [17]:
freq_df = df.groupby("Customer ID").agg({"InvoiceDate":"nunique"}) 
freq_df.rename(columns={"InvoiceDate": "Frequency"}, inplace=True)
freq_df.head()

Unnamed: 0_level_0,Frequency
Customer ID,Unnamed: 1_level_1
12346,12
12347,8
12348,5
12349,4
12350,1


In [18]:
df

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.10,13085,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085,United Kingdom
...,...,...,...,...,...,...,...,...
1067366,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680,France
1067367,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680,France
1067368,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680,France
1067369,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680,France


In [19]:
df["TotalPrice"] = df["Quantity"] * df["Price"]

In [20]:
monetary_df = df.groupby("Customer ID").agg({"TotalPrice":"sum"})
monetary_df.rename(columns={"TotalPrice":"Monetary"}, inplace=True)
monetary_df.head()

Unnamed: 0_level_0,Monetary
Customer ID,Unnamed: 1_level_1
12346,77556.46
12347,5633.32
12348,2019.4
12349,4428.69
12350,334.4


In [21]:
rfm = pd.concat([recency_df, freq_df, monetary_df],  axis=1)
rfm.head()

Unnamed: 0_level_0,Recency,Frequency,Monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346,4946,12,77556.46
12347,4623,8,5633.32
12348,4696,5,2019.4
12349,4639,4,4428.69
12350,4931,1,334.4


In [22]:
rfm

Unnamed: 0_level_0,Recency,Frequency,Monetary
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12346,4946,12,77556.46
12347,4623,8,5633.32
12348,4696,5,2019.40
12349,4639,4,4428.69
12350,4931,1,334.40
...,...,...,...
18283,4624,22,2736.65
18284,5052,1,461.68
18285,5281,1,427.00
18286,5097,2,1296.43


In [23]:
rfm["RecencyScore"] = pd.qcut(rfm["Recency"], 5, labels = [5, 4 , 3, 2, 1]) 
rfm["FrequencyScore"]= pd.qcut(rfm["Frequency"].rank(method="first"),5, labels=[1,2,3,4,5])
rfm["MonetaryScore"] = pd.qcut(rfm['Monetary'], 5, labels = [1, 2, 3, 4, 5])

In [24]:
rfm["RFM_SCORE"] = (rfm['RecencyScore'].astype(str) + 
                    rfm['FrequencyScore'].astype(str) + 
                    rfm['MonetaryScore'].astype(str))

In [25]:
rfm

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12346,4946,12,77556.46,2,5,5,255
12347,4623,8,5633.32,5,4,5,545
12348,4696,5,2019.40,3,4,4,344
12349,4639,4,4428.69,5,3,5,535
12350,4931,1,334.40,2,1,2,212
...,...,...,...,...,...,...,...
18283,4624,22,2736.65,5,5,4,554
18284,5052,1,461.68,1,2,2,122
18285,5281,1,427.00,1,2,2,122
18286,5097,2,1296.43,1,3,4,134


In [26]:
rfm[rfm["RFM_SCORE"]=="555"].head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12362,4624,11,5356.23,5,5,5,555
12395,4640,15,5067.27,5,5,5,555
12417,4624,20,6816.91,5,5,5,555
12433,4621,10,20581.26,5,5,5,555
12437,4622,39,12683.4,5,5,5,555


In [27]:
rfm[rfm["RFM_SCORE"]=="111"].head()

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
12387,5036,1,143.94,1,1,1,111
12392,5212,1,234.75,1,1,1,111
12400,5035,1,205.25,1,1,1,111
12404,5303,1,63.24,1,1,1,111
12416,5277,1,202.56,1,1,1,111


In [28]:
seg_map = {
    r'[1-2][1-2]': 'Hibernating',
    r'[1-2][3-4]': 'At Risk',
    r'[1-2]5': 'Can\'t Loose',
    r'3[1-2]': 'About to Sleep',
    r'33': 'Need Attention',
    r'[3-4][4-5]': 'Loyal Customers',
    r'41': 'Promising',
    r'51': 'New Customers',
    r'[4-5][2-3]': 'Potential Loyalists',
    r'5[4-5]': 'Champions'
}

In [29]:
rfm['Segment'] = rfm['RecencyScore'].astype(str) + rfm['FrequencyScore'].astype(str)
rfm['Segment'] = rfm['Segment'].replace(seg_map, regex=True)

In [30]:
rfm

Unnamed: 0_level_0,Recency,Frequency,Monetary,RecencyScore,FrequencyScore,MonetaryScore,RFM_SCORE,Segment
Customer ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
12346,4946,12,77556.46,2,5,5,255,Can't Loose
12347,4623,8,5633.32,5,4,5,545,Champions
12348,4696,5,2019.40,3,4,4,344,Loyal Customers
12349,4639,4,4428.69,5,3,5,535,Potential Loyalists
12350,4931,1,334.40,2,1,2,212,Hibernating
...,...,...,...,...,...,...,...,...
18283,4624,22,2736.65,5,5,4,554,Champions
18284,5052,1,461.68,1,2,2,122,Hibernating
18285,5281,1,427.00,1,2,2,122,Hibernating
18286,5097,2,1296.43,1,3,4,134,At Risk


In [31]:
rfm[["Segment","Recency","Frequency", "Monetary"]].groupby("Segment").agg(["mean","median","count"])

Unnamed: 0_level_0,Recency,Recency,Recency,Frequency,Frequency,Frequency,Monetary,Monetary,Monetary
Unnamed: 0_level_1,mean,median,count,mean,median,count,mean,median,count
Segment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
About to Sleep,4727.589147,4714.0,387,1.359173,1.0,387,534.749749,371.01,387
At Risk,4993.632,4997.0,750,3.898667,4.0,750,1379.649893,961.295,750
Can't Loose,4954.861111,4946.5,72,15.694444,11.0,72,8278.154333,3870.535,72
Champions,4629.255294,4629.0,850,19.154118,11.5,850,10816.020971,4017.555,850
Hibernating,5080.375575,5056.0,1523,1.252791,1.0,1523,437.797546,285.11,1523
Loyal Customers,4688.27439,4674.0,1148,9.776132,8.0,1148,4196.920353,2601.895,1148
Need Attention,4734.259259,4727.0,270,3.148148,3.0,270,1276.347556,974.97,270
New Customers,4631.368421,4631.0,57,1.0,1.0,57,350.007719,255.4,57
Potential Loyalists,4646.235294,4644.0,714,2.588235,3.0,714,1158.276598,692.52,714
Promising,4659.281818,4658.5,110,1.0,1.0,110,324.497,221.62,110


### Summary

Several marketing strategies can be determined for different customer segments. I have determined 3 strategies for different customer segments. These can be diversified and customers can be monitored more closely.

#### At Risk

Those in this group last shopping an average of 371 days ago. The group median was 375.0, so there was not much deviation from the mean. Therefore, it can be said that this number is consistent throughout the group. On average, 3.89 units of shopping were made and 1379.64 units of payments were made. The time interval that has passed since the last purchase of this group is very high, so customers may be lost. The reasons that may cause these people not to shop for so long should be focused on. There may be a case of customer dissatisfaction. The shopping experience of the customer can be examined by sending a survey via mail. If there is no dissatisfaction, then the person is reminded. Options such as discount codes may be offered to encourage re-shopping.

#### Need Attention

People in this group last shopping, on average, 112 days ago. The group median is 105, so there is not much deviation from the mean. Hence, this number is consistent across the group. On average, 3.14 units of shopping were made and 1276.34 units of payment were made. This group is less risky than the At-Risk group. The last shopping date is relatively close. Special offers can be made from products whose consumption is faster than among the products that those customers shop. By doing this, the average visit time of customers can be shortened.

#### Potential Loyalists

Those in this group last shopping an average of 24 days ago. The group median is 22, so there is not much deviation from the mean. Hence, this number is consistent across the group. On average, 2.58 units were purchased and 1158.27 units were paid. People in this group can be included in the Loyal Customer group if supported. Therefore, they can be monitored closely and customer satisfaction can be increased with one-to-one phone calls. Apart from this, options such as free shipping can be offered to increase the average paid wages.

## **Xülasə (Summary)**

Müxtəlif müştəri seqmentləri üçün bir neçə marketinq strategiyası müəyyən edilə bilər. Mən fərqli seqmentlər üzrə 3 əsas strategiya təyin etmişəm. Bu strategiyalar şaxələndirilə bilər və müştərilər daha yaxından izlənilə bilər.

### **Risk Altındakılar (At Risk)**

Bu qrupda olanlar sonuncu dəfə orta hesabla 371 gün əvvəl alış-veriş ediblər. Qrupun median dəyəri 375.0 təşkil edir, yəni orta göstəricidən çox kənarlaşma yoxdur. Buna görə də demək olar ki, bu rəqəm bütün qrup üzrə sabitdir. Orta hesabla 3.89 ədəd alış-veriş edilib və 1379.64 vahid ödəniş olunub. Bu qrupun son satınalmasından keçən vaxt çox yüksəkdir, buna görə də müştərilər itirilmiş sayıla bilər.

Strategiya: Bu insanların bu qədər uzun müddət alış-veriş etməməsinə səbəb olan amillərə fokuslanmaq lazımdır. Müştəri narazılığı halı ola bilər. E-poçt vasitəsilə sorğu göndərərək müştərinin alış-veriş təcrübəsi araşdırıla bilər. Əgər narazılıq yoxdursa, müştəriyə özümüzü xatırlatmalıyıq. Yenidən alış-verişə həvəsləndirmək üçün endirim kodları kimi seçimlər təklif oluna bilər.

### **Diqqət Tələb Edənlər (Need Attention)**

Bu qrupdakı insanlar sonuncu dəfə orta hesabla 112 gün əvvəl alış-veriş ediblər. Qrupun median dəyəri 105-dir, bu da orta göstəricidən kəskin fərqlənmir. Deməli, bu rəqəm bütün qrup üçün xarakterikdir. Orta hesabla 3.14 ədəd alış-veriş edilib və 1276.34 vahid ödəniş edilib. Bu qrup "Risk Altındakılar" qrupuna nisbətən daha az risklidir.

Strategiya: Son alış-veriş tarixi nisbətən yaxındır. Bu müştərilərin aldıqları məhsullar arasından istehlakı daha sürətli olanlara dair xüsusi təkliflər edilə bilər. Bununla müştərilərin mağazaya gəliş intervallarını qısaltmaq olar.

### **Potensial Sadiq Müştərilər (Potential Loyalists)**

Bu qrupda olanlar sonuncu dəfə orta hesabla 24 gün əvvəl alış-veriş ediblər. Qrupun median dəyəri 22-dir, yəni rəqəmlər qrup daxilində sabitdir. Orta hesabla 2.58 ədəd məhsul alınıb və 1158.27 vahid ödəniş edilib. Bu qrupdakı insanlar dəstəklənərsə, "Sadiq Müştərilər" (Loyal Customers) qrupuna daxil ola bilərlər.

Strategiya: Onlar yaxından izlənilməli və fərdi telefon zəngləri ilə müştəri məmnuniyyəti artırılmalıdır. Bundan əlavə, orta ödəniş məbləğini (səbət dəyərini) artırmaq üçün "pulsuz çatdırılma" kimi seçimlər təklif oluna bilər.

### **Diqqət edin**, 
biz rəqəmlərə baxıb sadəcə 'bunlar az pul xərcləyir' demirik. Biz 'Potensial Sadiq Müştəri'yə pulsuz çatdırılma veririk ki, o bizdən daha çox alış-veriş etsin, 'Risk Altındakı'na isə sorğu göndəririk ki, niyə bizdən küsdüyünü öyrənək. Data analitikasının gücü məhz bu fərdi yanaşmadadır."

##Task2

### Layihə: Abunəlik Xidməti üzrə RFM Analizi (Streaming Service)

In [33]:
#Code (Dataset-in yaradılması)

In [2]:
# Tapşırıq üçün süni data yaradırıq
np.random.seed(42)
data_size = 5000
customers = np.random.randint(10000, 15000, data_size)

# Tarixləri 2025-ci ilin əvvəlindən dekabrına qədər təyin edirik
dates = pd.date_range(start='2025-01-01', end='2025-12-31', periods=data_size)
amounts = np.random.uniform(10.0, 60.0, data_size)
transaction_ids = ['TXN' + str(i) for i in range(data_size)]

df_streaming_2025 = pd.DataFrame({
    'TransactionID': transaction_ids,
    'CustomerID': customers,
    'PaymentDate': dates,
    'AmountPaid': amounts,
    'PlanType': np.random.choice(['Basic', 'Standard', 'Premium'], data_size)
})

# Təmizləmə tapşırığı üçün bir neçə xətalı sətir əlavə edirik
df_streaming_2025.loc[::60, 'CustomerID'] = np.nan
df_streaming_2025.loc[::120, 'AmountPaid'] = -5.0

df_streaming_2025.to_csv('streaming_data_2025.csv', index=False)
print("2025-ci il üçün dataset yaradıldı: streaming_data_2025.csv")

2025-ci il üçün dataset yaradıldı: streaming_data_2025.csv


In [3]:
df_streaming_2025

Unnamed: 0,TransactionID,CustomerID,PaymentDate,AmountPaid,PlanType
0,TXN0,,2025-01-01 00:00:00.000000000,-5.000000,Standard
1,TXN1,13772.0,2025-01-01 01:44:51.178235647,54.495669,Premium
2,TXN2,13092.0,2025-01-01 03:29:42.356471294,59.598137,Standard
3,TXN3,10466.0,2025-01-01 05:14:33.534706941,24.703373,Standard
4,TXN4,14426.0,2025-01-01 06:59:24.712942588,20.515928,Premium
...,...,...,...,...,...
4995,TXN4995,12051.0,2025-12-30 17:00:35.287057412,12.039251,Standard
4996,TXN4996,13398.0,2025-12-30 18:45:26.465293060,25.750414,Basic
4997,TXN4997,13950.0,2025-12-30 20:30:17.643528708,38.777475,Premium
4998,TXN4998,10305.0,2025-12-30 22:15:08.821764356,57.529698,Premium


### Task Description

### **1. Məlumatın təmizlənməsi (Data Cleaning)**

 - AmountPaid sütununda mənfi dəyərləri silin.

 - Boş (null) CustomerID sətirlərini təmizləyin.


### **2. Tip çevirmələri (Type Conversion)**

 - CustomerID dəyişənini tam ədədə (integer) çevirin.

 - PaymentDate dəyişənini datetime formatına çevirin.

### **3. RFM Metriklərinin Hesablanması**

 - Recency: Analiz tarixi olaraq 2026-cı ilin əvvəlini götürüb, son ödənişdən neçə gün keçdiyini tapın.

 - Frequency: Müştəri üzrə unikal əməliyyat sayını müəyyən edin.

 - Monetary: Cəmi ödəniş məbləğini hesablayın.

### **4. Ballandırma və Seqmentasiya**

 - Dəyərləri 1-5 şkalası üzrə ballandırın.

 - seg_map lüğəti vasitəsilə müştəriləri qruplara ayırın.

## **Xülasə və Strategiya**

**Xülasə (Summary)**

 - Çempionlar (Champions) - 2025-ci ilin ulduzları

 - Strategiya: Onlara 2026-cı il üçün xüsusi sadiqlik hədiyyələri və ya illik abunəlikdə böyük endirim təklif edin.


**Risk Altındakılar (At Risk)**

 - Strategiya: 2025-ci ilin ortalarından bəri aktiv olmayan müştərilərə xidməti niyə dayandırdıqlarını öyrənmək üçün sorğu göndərin.

In [4]:
df=df_streaming_2025[df_streaming_2025["AmountPaid"]>0]
df

Unnamed: 0,TransactionID,CustomerID,PaymentDate,AmountPaid,PlanType
1,TXN1,13772.0,2025-01-01 01:44:51.178235647,54.495669,Premium
2,TXN2,13092.0,2025-01-01 03:29:42.356471294,59.598137,Standard
3,TXN3,10466.0,2025-01-01 05:14:33.534706941,24.703373,Standard
4,TXN4,14426.0,2025-01-01 06:59:24.712942588,20.515928,Premium
5,TXN5,13444.0,2025-01-01 08:44:15.891178235,48.268168,Premium
...,...,...,...,...,...
4995,TXN4995,12051.0,2025-12-30 17:00:35.287057412,12.039251,Standard
4996,TXN4996,13398.0,2025-12-30 18:45:26.465293060,25.750414,Basic
4997,TXN4997,13950.0,2025-12-30 20:30:17.643528708,38.777475,Premium
4998,TXN4998,10305.0,2025-12-30 22:15:08.821764356,57.529698,Premium


In [8]:
df.dropna(subset=['CustomerID'], inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.dropna(subset=['CustomerID'], inplace=True)


In [9]:
df

Unnamed: 0,TransactionID,CustomerID,PaymentDate,AmountPaid,PlanType
1,TXN1,13772.0,2025-01-01 01:44:51.178235647,54.495669,Premium
2,TXN2,13092.0,2025-01-01 03:29:42.356471294,59.598137,Standard
3,TXN3,10466.0,2025-01-01 05:14:33.534706941,24.703373,Standard
4,TXN4,14426.0,2025-01-01 06:59:24.712942588,20.515928,Premium
5,TXN5,13444.0,2025-01-01 08:44:15.891178235,48.268168,Premium
...,...,...,...,...,...
4995,TXN4995,12051.0,2025-12-30 17:00:35.287057412,12.039251,Standard
4996,TXN4996,13398.0,2025-12-30 18:45:26.465293060,25.750414,Basic
4997,TXN4997,13950.0,2025-12-30 20:30:17.643528708,38.777475,Premium
4998,TXN4998,10305.0,2025-12-30 22:15:08.821764356,57.529698,Premium


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4916 entries, 1 to 4999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   TransactionID  4916 non-null   object        
 1   CustomerID     4916 non-null   float64       
 2   PaymentDate    4916 non-null   datetime64[ns]
 3   AmountPaid     4916 non-null   float64       
 4   PlanType       4916 non-null   object        
dtypes: datetime64[ns](1), float64(2), object(2)
memory usage: 230.4+ KB


In [11]:
df['CustomerID']=df['CustomerID'].astype('int')
df['PaymentDate']=pd.to_datetime(df['PaymentDate'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['CustomerID']=df['CustomerID'].astype('int')
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['PaymentDate']=pd.to_datetime(df['PaymentDate'])


In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4916 entries, 1 to 4999
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   TransactionID  4916 non-null   object        
 1   CustomerID     4916 non-null   int64         
 2   PaymentDate    4916 non-null   datetime64[ns]
 3   AmountPaid     4916 non-null   float64       
 4   PlanType       4916 non-null   object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 230.4+ KB


In [13]:
df

Unnamed: 0,TransactionID,CustomerID,PaymentDate,AmountPaid,PlanType
1,TXN1,13772,2025-01-01 01:44:51.178235647,54.495669,Premium
2,TXN2,13092,2025-01-01 03:29:42.356471294,59.598137,Standard
3,TXN3,10466,2025-01-01 05:14:33.534706941,24.703373,Standard
4,TXN4,14426,2025-01-01 06:59:24.712942588,20.515928,Premium
5,TXN5,13444,2025-01-01 08:44:15.891178235,48.268168,Premium
...,...,...,...,...,...
4995,TXN4995,12051,2025-12-30 17:00:35.287057412,12.039251,Standard
4996,TXN4996,13398,2025-12-30 18:45:26.465293060,25.750414,Basic
4997,TXN4997,13950,2025-12-30 20:30:17.643528708,38.777475,Premium
4998,TXN4998,10305,2025-12-30 22:15:08.821764356,57.529698,Premium


In [14]:
today=dt.datetime(2026,1,1)

In [17]:
rfm=df.groupby('CustomerID').agg({
    'PaymentDate': lambda date: (today-date.max()).days,
    'TransactionID': lambda num: num.nunique(),
    'AmountPaid': lambda price: price.sum()})
rfm.columns=['Recency','Frequency','Monetary']
rfm

Unnamed: 0_level_0,Recency,Frequency,Monetary
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10001,242,2,74.148879
10002,69,2,67.495110
10003,305,1,40.047274
10004,339,1,43.521717
10005,305,1,21.874165
...,...,...,...
14992,32,2,62.551219
14994,71,1,54.212259
14996,56,1,19.468044
14997,98,1,56.541643


In [19]:
rfm.Frequency.value_counts()

Frequency
1    1752
2     902
3     292
4      91
5      20
7       2
6       1
Name: count, dtype: int64

In [22]:
rfm['Recencyscore']=pd.qcut(rfm['Recency'],5,labels=[5,4,3,2,1])
rfm['Frequencyscore']=pd.qcut(rfm['Frequency'].rank(method='first'),5,labels=[1,2,3,4,5])
rfm['Monetaryscore']=pd.qcut(rfm['Monetary'],5,labels=[1,2,3,4,5])

rfm
rfm['Recencyscore'].astype(str)
rfm['segment']=rfm['Recencyscore'].astype(str)+rfm['Frequencyscore'].astype(str)+rfm['Monetaryscore'].astype(str)
rfm


Unnamed: 0_level_0,Recency,Frequency,Monetary,Recencyscore,Frequencyscore,Monetaryscore,segment
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10001,242,2,74.148879,2,3,4,234
10002,69,2,67.495110,4,3,4,434
10003,305,1,40.047274,1,1,2,112
10004,339,1,43.521717,1,1,3,113
10005,305,1,21.874165,1,1,1,111
...,...,...,...,...,...,...,...
14992,32,2,62.551219,5,5,4,554
14994,71,1,54.212259,4,3,3,433
14996,56,1,19.468044,4,3,1,431
14997,98,1,56.541643,4,3,4,434


In [23]:
rfm[rfm['segment']=='111']

Unnamed: 0_level_0,Recency,Frequency,Monetary,Recencyscore,Frequencyscore,Monetaryscore,segment
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10005,305,1,21.874165,1,1,1,111
10010,268,1,23.042462,1,1,1,111
10036,264,1,11.517690,1,1,1,111
10046,275,1,14.834728,1,1,1,111
10054,287,1,12.811215,1,1,1,111
...,...,...,...,...,...,...,...
11645,293,1,19.601168,1,1,1,111
11680,326,1,16.535866,1,1,1,111
11685,364,1,16.297760,1,1,1,111
11704,262,1,22.082946,1,1,1,111


In [24]:
rfm[rfm['segment']=='555']

Unnamed: 0_level_0,Recency,Frequency,Monetary,Recencyscore,Frequencyscore,Monetaryscore,segment
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
10016,8,3,166.991095,5,5,5,555
10071,21,3,122.747712,5,5,5,555
10089,7,3,134.278819,5,5,5,555
10165,22,3,97.804103,5,5,5,555
10186,9,4,132.034317,5,5,5,555
...,...,...,...,...,...,...,...
14895,18,3,85.791414,5,5,5,555
14917,35,5,195.650431,5,5,5,555
14926,5,2,84.428008,5,5,5,555
14933,5,4,162.839885,5,5,5,555


In [26]:
rfm['segment2']=rfm['Recencyscore'].astype(str)+rfm['Frequencyscore'].astype(str)
rfm


Unnamed: 0_level_0,Recency,Frequency,Monetary,Recencyscore,Frequencyscore,Monetaryscore,segment,segment2
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
10001,242,2,74.148879,2,3,4,234,23
10002,69,2,67.495110,4,3,4,434,43
10003,305,1,40.047274,1,1,2,112,11
10004,339,1,43.521717,1,1,3,113,11
10005,305,1,21.874165,1,1,1,111,11
...,...,...,...,...,...,...,...,...
14992,32,2,62.551219,5,5,4,554,55
14994,71,1,54.212259,4,3,3,433,43
14996,56,1,19.468044,4,3,1,431,43
14997,98,1,56.541643,4,3,4,434,43


In [27]:
seg_map={
    r'[1-2][1-2]': 'Hibernating',
    r'[1-2][3-4]': 'At Risk',
    r'[1-2]5': 'Can\'t Loose',
    r'3[1-2]': 'About to Sleep',
    r'33': 'Need Attention',
    r'[3-4][4-5]': 'Loyal Customers',
    r'41': 'Promising',
    r'51': 'New Customers',
    r'[4-5][2-3]': 'Potential Loyalists',
    r'5[4-5]': 'Champions'
}

In [30]:
rfm['segment2']=rfm['segment2'].replace(seg_map, regex=True)
rfm

Unnamed: 0_level_0,Recency,Frequency,Monetary,Recencyscore,Frequencyscore,Monetaryscore,segment,segment2
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
10001,242,2,74.148879,2,3,4,234,At Risk
10002,69,2,67.495110,4,3,4,434,Potential Loyalists
10003,305,1,40.047274,1,1,2,112,Hibernating
10004,339,1,43.521717,1,1,3,113,Hibernating
10005,305,1,21.874165,1,1,1,111,Hibernating
...,...,...,...,...,...,...,...,...
14992,32,2,62.551219,5,5,4,554,Champions
14994,71,1,54.212259,4,3,3,433,Potential Loyalists
14996,56,1,19.468044,4,3,1,431,Potential Loyalists
14997,98,1,56.541643,4,3,4,434,Potential Loyalists
