In [59]:
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from datetime import datetime, date
plt.style.use('ggplot')

In [60]:
# Tải tập dữ liệu Transactions và Customer Demographics

trans = pd.read_csv('Transactions_Cleaned.csv')
cust = pd.read_csv('CustomerDemographic_Cleaned.csv')

In [61]:
# Kiểm tra 5 bản ghi đầu tiên từ dữ liệu Transactions

trans.head()

Unnamed: 0,transaction_id,product_id,customer_id,transaction_date,online_order,order_status,brand,product_line,product_class,product_size,list_price,standard_cost,product_first_sold_date,Profit
0,1,2,2950,2/25/2017,0,Approved,Solex,Standard,medium,medium,71.49,53.62,41245,17.87
1,2,3,3120,5/21/2017,1,Approved,Trek Bicycles,Standard,medium,large,2091.47,388.92,41701,1702.55
2,3,37,402,10/16/2017,0,Approved,OHM Cycles,Standard,low,medium,1793.43,248.82,36361,1544.61
3,4,88,3135,8/31/2017,0,Approved,Norco Bicycles,Standard,medium,medium,1198.46,381.1,36145,817.36
4,5,78,787,10/1/2017,1,Approved,Giant Bicycles,Standard,medium,large,1765.3,709.48,42226,1055.82


In [62]:
# Tổng số hàng và cột trong tập dữ liệu Transactions

print('Total records (row) in the Transactions dataset: {}'.format(trans.shape[0]))
print('Total columns in the Transactions dataset: {}'.format(trans.shape[1]))

Total records (row) in the Transactions dataset: 19803
Total columns in the Transactions dataset: 14


In [63]:
# Kiểm tra 5 bản ghi đầu tiên từ dữ liệu Customer Demographics

cust.head()

Unnamed: 0,customer_id,first_name,last_name,gender,past_3_years_bike_related_purchases,DOB,job_title,job_industry_category,wealth_segment,deceased_indicator,owns_car,tenure,Age
0,1,Laraine,Medendorp,Female,93,1953-10-12,Executive Secretary,Health,Mass Customer,N,Yes,11.0,70
1,2,Eli,Bockman,Male,81,1980-12-16,Administrative Officer,Financial Services,Mass Customer,N,Yes,16.0,43
2,3,Arlin,Dearle,Male,61,1954-01-20,Recruiting Manager,Property,Mass Customer,N,Yes,15.0,70
3,4,Talbot,,Male,33,1961-10-03,Missing,IT,Mass Customer,N,No,7.0,62
4,5,Sheila-kathryn,Calton,Female,56,1977-05-13,Senior Editor,Missing,Affluent Customer,N,Yes,8.0,46


In [64]:
# Tổng số hàng và cột trong tập dữ liệu Customer Demographics

print('Total records (row) in the Customer Demographics dataset: {}'.format(cust.shape[0]))
print('Total columns in the Customer Demographics dataset: {}'.format(cust.shape[1]))

Total records (row) in the Customer Demographics dataset: 3912
Total columns in the Customer Demographics dataset: 13


In [65]:
# Kết hợp cả 2 tập dữ liệu Transactions và Customer Demographics dựa trên customer_id.

merged_trans_cust = pd.merge(trans, cust, left_on='customer_id', right_on='customer_id', how='inner')

In [66]:
# Kiểm tra 5 bản ghi đầu tiên của tập dữ liệu được kết hợp

merged_trans_cust.head()

Unnamed: 0,transaction_id,product_id,customer_id,transaction_date,online_order,order_status,brand,product_line,product_class,product_size,...,gender,past_3_years_bike_related_purchases,DOB,job_title,job_industry_category,wealth_segment,deceased_indicator,owns_car,tenure,Age
0,1,2,2950,2/25/2017,0,Approved,Solex,Standard,medium,medium,...,Male,19,1955-01-11,Software Engineer I,Financial Services,Mass Customer,N,Yes,10.0,69
1,2,3,3120,5/21/2017,1,Approved,Trek Bicycles,Standard,medium,large,...,Female,89,1979-02-04,Clinical Specialist,Health,Mass Customer,N,Yes,10.0,45
2,3,37,402,10/16/2017,0,Approved,OHM Cycles,Standard,low,medium,...,Male,9,1977-06-03,Desktop Support Technician,Retail,Affluent Customer,N,No,22.0,46
3,4,88,3135,8/31/2017,0,Approved,Norco Bicycles,Standard,medium,medium,...,Male,83,1962-01-14,Staff Scientist,Financial Services,Mass Customer,N,No,16.0,62
4,5,78,787,10/1/2017,1,Approved,Giant Bicycles,Standard,medium,large,...,Female,29,1996-12-15,Missing,Retail,Affluent Customer,N,Yes,2.0,27


In [67]:
# Tổng số hàng và cột trong tập dữ liệu được kết hợp

print("Total records (rows) in the Merged Dataset : {}".format(merged_trans_cust.shape[0]))
print("Total columns in the Merged Dataset : {}".format(merged_trans_cust.shape[1]))

Total records (rows) in the Merged Dataset : 19354
Total columns in the Merged Dataset : 26


In [68]:
# Thông tin về các cột và kiểu dữ liệu của tập dữ liệu được kết hợp

merged_trans_cust.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19354 entries, 0 to 19353
Data columns (total 26 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   transaction_id                       19354 non-null  int64  
 1   product_id                           19354 non-null  int64  
 2   customer_id                          19354 non-null  int64  
 3   transaction_date                     19354 non-null  object 
 4   online_order                         19354 non-null  int64  
 5   order_status                         19354 non-null  object 
 6   brand                                19354 non-null  object 
 7   product_line                         19354 non-null  object 
 8   product_class                        19354 non-null  object 
 9   product_size                         19354 non-null  object 
 10  list_price                           19354 non-null  float64
 11  standard_cost               

<b>Kiểu dữ liệu của cột transaction_date không phải là định dạng ngày-giờ. Do đó, kiểu dữ liệu của cột này nên được thay đổi từ object sang kiểu datetime."</b>

In [69]:
merged_trans_cust['transaction_date'] =pd.to_datetime(merged_trans_cust['transaction_date'])

## 1. Phân tích RFM

Phân tích RFM (Recency, Frequency, Monetary) là một phương pháp dựa trên hành vi để nhóm khách hàng vào các phân khúc. Nó nhóm khách hàng dựa trên các giao dịch mua hàng trước đó của họ. RFM phân loại khách hàng theo ba yếu tố chính: <b>Thời gian gần nhất, Tần suất và Giá trị tiền tệ</b>. RFM lọc ra khách hàng đưa vào các nhóm khác nhau nhằm mục đích cung cấp dịch vụ tốt hơn. Có một phân khúc khách hàng là những người tiêu nhiều tiền nhưng họ chỉ mua một lần, hoặc mua gần đây như thế nào? Họ có thường xuyên mua sản phẩm của chúng tôi không? Ngoài ra, nó giúp các quản lý thực hiện chiến dịch khuyến mãi hiệu quả để cung cấp dịch vụ cá nhân hóa.

- <b>Recency (R)</b>: Khách hàng nào mua gần đây? Lần mua hàng gần đây nhất là khi nào (cách đây bao nhiêu ngày).
- <b>Frequency (F)</b>: Khách hàng nào mua hàng thường xuyên? Tần suất mua hàng(số đơn hàng) của khách hàng.
- <b>Monetary Value (M)</b>: Khách hàng nào có giá trị mua hàng cao? Nghĩa là tổng số tiền khách hàng đã chi tiêu.

In [70]:
# Ngày giao dịch gần đây nhất hoặc ngày giao dịch lớn nhất 

max_trans_date = max(merged_trans_cust['transaction_date']).date()
max_trans_date

datetime.date(2017, 12, 30)

<b>Lấy ngày giao dịch cuối cùng làm ngày tham chiếu để so sánh và tính số lượng ngày giữa ngày giao dịch và ngày giao dịch cuối cùng để tính toán mức độ thời gian khác hàng mua gần hay xa.</b>

In [71]:
# Chuyển đổi biến max_trans_date từ kiểu string thành datetime

comparison_date = datetime.strptime(str(max_trans_date), '%Y-%m-%d')

In [72]:
# Tạo một bảng RFM sẽ chứa tất cả các giá trị cho dữ liệu về mức độ mới mẻ (recency), tần suất (frequency), và giá trị tiền tệ (monetary).
rfm_table = merged_trans_cust.groupby(['customer_id']).agg({'transaction_date': lambda date: (comparison_date - date.max()).days,
                                        'product_id': lambda prod_id: len(prod_id),
                                        'Profit': lambda p: sum(p)})

Các cột trong DataFrame rfm_table không được đặt tên đúng cách. Cần đổi tên các cột thành tên phù hợp.

In [73]:
rfm_table.columns

Index(['transaction_date', 'product_id', 'Profit'], dtype='object')

In [74]:
# Đổi tên các cột trên cho phù hợp

rfm_table.rename(columns={'transaction_date':'recency',
                          'product_id':'frequency',
                          'Profit':'monetary'}, inplace=True)

Chia mức độ mới mẻ, tần suất và giá trị tiền tệ thành 4 khoảng phân vị(min, 25%, 50%, 75% và max).
Các giá trị này sẽ giúp chúng ta tính điểm RFM cho một khách hàng và phân loại dựa trên điểm RFM của họ.

In [75]:
rfm_table['r_quartile'] = pd.qcut(rfm_table['recency'], 4, ['4','3','2','1'])
rfm_table['f_quartile'] = pd.qcut(rfm_table['frequency'], 4, ['1','2','3','4'])
rfm_table['m_quartile'] = pd.qcut(rfm_table['monetary'], 4, ['1','2','3','4'])

In [76]:
# Tập dữ liệu rfm_table sau khi thêm cột r_quartile, f_quartile, và m_quartile

rfm_table.head(10)

Unnamed: 0_level_0,recency,frequency,monetary,r_quartile,f_quartile,m_quartile
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,7,11,3018.09,4,4,3
2,128,3,2226.26,1,1,2
3,102,8,3362.81,1,4,3
4,195,2,220.57,1,1,1
5,16,6,2394.94,4,2,2
6,64,5,3946.55,2,2,3
7,253,3,220.11,1,1,1
8,22,10,7066.94,3,4,4
9,78,6,2353.11,2,2,2
10,43,5,3358.28,3,2,3


In [77]:
# Tính toán điểm RFM, trọng số lớn nhất sẽ được gán cho recency, sau đó là frequency và cuối cùng là monetary

rfm_table['rfm_score'] = 100*rfm_table['r_quartile'].astype(int) + 10*rfm_table['f_quartile'].astype(int) + rfm_table['m_quartile'].astype(int)

In [78]:
# Gán rank cho khách hàng, Platinum, Gold, Silver, và Bronze dựa trên điểm RFM từ cao đến thấp

rfm_table['customer_rank'] = pd.qcut(rfm_table['rfm_score'], 4, ['Bronze','Silver','Gold','Platinum'])

In [79]:
# Tập dữ liệu rfm_table sau khi thêm cột rfm_score và customer_rank

rfm_table.head(10)

Unnamed: 0_level_0,recency,frequency,monetary,r_quartile,f_quartile,m_quartile,rfm_score,customer_rank
customer_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,7,11,3018.09,4,4,3,443,Platinum
2,128,3,2226.26,1,1,2,112,Bronze
3,102,8,3362.81,1,4,3,143,Bronze
4,195,2,220.57,1,1,1,111,Bronze
5,16,6,2394.94,4,2,2,422,Platinum
6,64,5,3946.55,2,2,3,223,Silver
7,253,3,220.11,1,1,1,111,Bronze
8,22,10,7066.94,3,4,4,344,Gold
9,78,6,2353.11,2,2,2,222,Silver
10,43,5,3358.28,3,2,3,323,Gold


### Gộp cả Bảng RFM với dữ liệu Transaction và Customer Demographics 

Bảng RFM được kết hợp với bộ dữ liệu Transaction và Customer Demographics để có cái nhìn sâu hơn về các phân khúc khách hàng cùng với giao dịch. Các bảng dữ liệu được kết hợp dựa trên các customer_id từ cả hai bộ dữ liệu.

In [80]:
cust_trans_rfm = pd.merge(merged_trans_cust, rfm_table, left_on='customer_id', right_on='customer_id', how='inner')

In [81]:
cust_trans_rfm.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19354 entries, 0 to 19353
Data columns (total 34 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   transaction_id                       19354 non-null  int64         
 1   product_id                           19354 non-null  int64         
 2   customer_id                          19354 non-null  int64         
 3   transaction_date                     19354 non-null  datetime64[ns]
 4   online_order                         19354 non-null  int64         
 5   order_status                         19354 non-null  object        
 6   brand                                19354 non-null  object        
 7   product_line                         19354 non-null  object        
 8   product_class                        19354 non-null  object        
 9   product_size                         19354 non-null  object        
 10  list_price

<b>Kiểu dữ liệu của các cột đã ổn</b>

### Tạo cột Age_Group (nhóm tuổi)

In [82]:
cust_trans_rfm['Age_Group'] = cust_trans_rfm['Age'].apply(lambda x : (math.floor(x/10)+1)*10)

### Tạo mức rank chi tiết cho khách hàng dựa trên điểm RFM

Phiên bản mở rộng của customer_rank được tạo ra để chia toàn bộ số lượng khách hàng thành 11 nhóm. Các nhóm chủ yếu bao gồm: <b>Platinum Customer, Very Loyal, Becoming Loyal, Recent Customer, Potential Customer, Late Customers, Loosing Customers, High Risk Customers, Almost Lost Customers, Evasive Customers, Lost Customer.</b></br>
Việc phân loại khách hàng thành các nhóm nêu trên dựa trên điểm RFM của họ.

In [83]:
# Hàm xác định rank của khách hàng dựa trên điểm RFM

def cust_score_rank(cols):
    rfm_score = cols[0]
    if rfm_score >= 444:
        return 'Platinum Customer'
    elif rfm_score >=433 and rfm_score < 444:
        return 'Very Loyal'
    elif rfm_score >=421 and rfm_score < 433:
        return 'Becoming Loyal'
    elif rfm_score >=344 and rfm_score < 421:
        return 'Recent Customer'
    elif rfm_score >=323 and rfm_score < 344:
        return 'Potential Customer'
    elif rfm_score >=311 and rfm_score < 323:
        return 'Late Customer'
    elif rfm_score >=224 and rfm_score < 311:
        return 'Loosing Customer'
    elif rfm_score >=212 and rfm_score < 224:
        return 'High Risk Customer'
    elif rfm_score >=124 and rfm_score < 212:
        return 'Almost Lost Customer'
    elif rfm_score >=112 and rfm_score < 124:
        return 'Evasive Customer'
    else :
        return 'Lost Customer'

In [85]:
# Sử dụng hàm cust_score_rank để tạo cột mới detail_cust_rank

cust_trans_rfm['detail_cust_rank'] = cust_trans_rfm[['rfm_score']].apply(cust_score_rank, axis=1)

  rfm_score = cols[0]


In [86]:
# Hàm cung cấp cấp bậc cho khách hàng dựa trên chức danh của họ

def get_rank(cols):
    rank = cols[0]
    if rank == 'Platinum Customer':
        return 1
    elif rank == 'Very Loyal':
        return 2
    elif rank == 'Becoming Loyal':
        return 3
    elif rank == 'Recent Customer':
        return 4
    elif rank == 'Potential Customer':
        return 5
    elif rank == 'Late Customer':
        return 6
    elif rank == 'Loosing Customer':
        return 7
    elif rank == 'High Risk Customer':
        return 8
    elif rank == 'Almost Lost Customer':
        return 9
    elif rank == 'Evasive Customer':
        return 10
    else :
        return 11

In [88]:
# Sử dụng hàm get_rank để tạo cột rank

cust_trans_rfm['rank'] = cust_trans_rfm[['detail_cust_rank']].apply(get_rank, axis=1)

  rank = cols[0]


In [89]:
cust_trans_rfm.head()

Unnamed: 0,transaction_id,product_id,customer_id,transaction_date,online_order,order_status,brand,product_line,product_class,product_size,...,frequency,monetary,r_quartile,f_quartile,m_quartile,rfm_score,customer_rank,Age_Group,detail_cust_rank,rank
0,1,2,2950,2017-02-25,0,Approved,Solex,Standard,medium,medium,...,3,645.99,2,1,1,211,Bronze,70,Almost Lost Customer,9
1,2,3,3120,2017-05-21,1,Approved,Trek Bicycles,Standard,medium,large,...,7,4179.11,3,3,4,334,Gold,50,Potential Customer,5
2,3,37,402,2017-10-16,0,Approved,OHM Cycles,Standard,low,medium,...,6,4965.43,2,2,4,224,Silver,50,Loosing Customer,7
3,4,88,3135,2017-08-31,0,Approved,Norco Bicycles,Standard,medium,medium,...,7,3983.97,1,3,3,133,Bronze,70,Almost Lost Customer,9
4,5,78,787,2017-10-01,1,Approved,Giant Bicycles,Standard,medium,large,...,10,6646.0,2,4,4,244,Silver,30,Loosing Customer,7


## 2. Xuất dữ liệu sang file CSV

Sau khi thực hiện đánh giá chất lượng dữ liệu (DQA), làm sạch dữ liệu và Phân tích RFM trên tập dữ liệu, đã đến lúc xuất tập dữ liệu sang tệp csv để phân tích dữ liệu khám phá (EDA) sâu hơn và dữ liệu này sẽ thúc đẩy danh thu của doanh nghiệp.

In [90]:
cust_trans_rfm.to_csv('Customer_Trans_RFM_Analysis.csv', index=False)

In [91]:
# Kiểm tra số lượng bản ghi trong tập dữ liệu

print('Total records (rows) in the dataset: {}'.format(cust_trans_rfm.shape[0]))

Total records (rows) in the dataset: 19354


## 3. Phân tích và khám phá dữ liệu