In [1]:
import pandas as pd
import numpy as np

df = pd.read_excel('../data/Supermarket_Sales_cleaned.xlsx')

# Recency: Lần cuối cùng khách hàng mua hàng là khi nào?
# Tính toán ngày phân tích (snapshot date) là một ngày sau ngày giao dịch cuối cùng trong bộ dữ liệu
snapshot_date = df['Thời gian'].max() + pd.Timedelta(days=1)

# 2. Tạo DataFrame khách hàng bằng cú pháp "Named Aggregation"
df_model = df.groupby('ID').agg(
    # Recency, Frequency, Monetary
    Ngày_mua_cuối = pd.NamedAgg(column='Thời gian', aggfunc='max'),
    Tần_suất_mua_hàng = pd.NamedAgg(column='Thời gian', aggfunc='count'),
    Tổng_doanh_thu = pd.NamedAgg(column='Doanh thu ròng', aggfunc='sum'),
    Doanh_thu_trung_bình = pd.NamedAgg(column='Doanh thu ròng', aggfunc='mean'),
    
    # Đặc trưng về số lượng sản phẩm
    Tổng_số_lượng_SP = pd.NamedAgg(column='Số lượng', aggfunc='sum'),
    Số_lượng_SP_trung_bình = pd.NamedAgg(column='Số lượng', aggfunc='mean'),
    
    # Đặc trưng về giảm giá
    Tổng_tiền_giảm_giá = pd.NamedAgg(column='Discount', aggfunc='sum'),
    Tỷ_lệ_giảm_giá_trung_bình = pd.NamedAgg(column='Discount', aggfunc='mean'),
    
    # Đặc trưng nhân khẩu học và hành vi
    Giới_tính = pd.NamedAgg(column='Giới tính', aggfunc='first'),
    Thành_phố = pd.NamedAgg(column='Thành phố', aggfunc='first'),
    Nhóm_khách_hàng = pd.NamedAgg(column='Nhóm khách hàng', aggfunc='first'),
    Sản_phẩm_ưa_thích = pd.NamedAgg(column='Tên SP', aggfunc=lambda x: x.mode()[0]),
    PLoai_Sản_phẩm_ưa_thích = pd.NamedAgg(column='Phân loại', aggfunc=lambda x: x.mode()[0]),
    PTTT_ưa_thích = pd.NamedAgg(column='Phương thức thanh toán', aggfunc=lambda x: x.mode()[0]),
    Chi_nhánh_ưa_thích = pd.NamedAgg(column='Chi nhánh', aggfunc=lambda x: x.mode()[0])
).reset_index()

# 3. Tính toán Recency
df_model['Recency'] = (snapshot_date - df_model['Ngày_mua_cuối']).dt.days
df_model = df_model.drop(columns=['Ngày_mua_cuối']) # Bỏ cột ngày mua cuối

# Đổi tên cột ID cho gọn
df_model = df_model.rename(columns={'ID': 'ID'})

# Hiển thị kết quả
print("DataFrame sau khi Feature Engineering:")
display(df_model.head())

print("\nThông tin của DataFrame mới:")
df_model.info()

DataFrame sau khi Feature Engineering:


Unnamed: 0,ID,Tần_suất_mua_hàng,Tổng_doanh_thu,Doanh_thu_trung_bình,Tổng_số_lượng_SP,Số_lượng_SP_trung_bình,Tổng_tiền_giảm_giá,Tỷ_lệ_giảm_giá_trung_bình,Giới_tính,Thành_phố,Nhóm_khách_hàng,Sản_phẩm_ưa_thích,PLoai_Sản_phẩm_ưa_thích,PTTT_ưa_thích,Chi_nhánh_ưa_thích,Recency
0,CUS-0001,85,1326331.32,15603.897882,587,6.905882,49309.04,580.106353,Female,Hà Nội,Member,Monitor,Groceries,E-Wallet,ABC Thanh Xuân,36
1,CUS-0002,7,167135.06,23876.437143,45,6.428571,93.38,13.34,Male,TP.HCM,Normal,Coffee (200g),Groceries,E-Wallet,ABC Quận 7,454
2,CUS-0003,3,200530.06,66843.353333,22,7.333333,14238.61,4746.203333,Male,TP.HCM,Normal,Bluetooth Speaker,Electronics,E-Wallet,ABC Quận 1,631
3,CUS-0004,5,58612.86,11722.572,23,4.6,610.9,122.18,Female,Hà Nội,Normal,Bread,Groceries,Cash,ABC Hoàn Kiếm,630
4,CUS-0005,101,921013.33,9118.943861,628,6.217822,59609.56,590.193663,Female,TP.HCM,Member,Wheat Flour,Groceries,E-Wallet,ABC Quận 1,14



Thông tin của DataFrame mới:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2651 entries, 0 to 2650
Data columns (total 16 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   ID                         2651 non-null   object 
 1   Tần_suất_mua_hàng          2651 non-null   int64  
 2   Tổng_doanh_thu             2651 non-null   float64
 3   Doanh_thu_trung_bình       2651 non-null   float64
 4   Tổng_số_lượng_SP           2651 non-null   int64  
 5   Số_lượng_SP_trung_bình     2651 non-null   float64
 6   Tổng_tiền_giảm_giá         2651 non-null   float64
 7   Tỷ_lệ_giảm_giá_trung_bình  2651 non-null   float64
 8   Giới_tính                  2651 non-null   object 
 9   Thành_phố                  2651 non-null   object 
 10  Nhóm_khách_hàng            2651 non-null   object 
 11  Sản_phẩm_ưa_thích          2651 non-null   object 
 12  PLoai_Sản_phẩm_ưa_thích    2651 non-null   object 
 13  PTTT_ưa_thích     

In [2]:
df_model.to_excel(r"../data/Supermarket_Sales_model_input.xlsx", index=False)