In [2]:
import pandas as pd

data = {
    'order_id': [1001, 1002, 1003, 1004, 1005, 1006, 1007, 1008, 1009, 1010],
    'customer_id': ['C001', 'C002', 'C001', 'C003', 'C004', 'C005', 'C001', 'C006', 'C004', 'C007'],
    'order_date': ['2023-01-05', '2023-01-07', '2023-01-20', '2023-01-25', '2023-02-02',
                   '2023-02-04', '2023-02-06', '2023-02-10', '2023-02-15', '2023-02-20'],
    'order_value': [500000, 200000, 350000, 0, 800000, 0, 400000, 100000, 0, 600000],
    'city': ['Hanoi', 'Saigon', 'Hanoi', 'Danang', 'Saigon', 'Hanoi', 'Hanoi', 'Hue', 'Saigon', 'Saigon'],
    'marketing_source': ['Facebook', 'Google Ads', 'Facebook', 'Organic', 'Tiktok',
                         'Google Ads', 'Facebook', 'Organic', 'Tiktok', 'Facebook'],
    'visit_id': ['V001', 'V002', 'V003', 'V004', 'V005', 'V006', 'V007', 'V008', 'V009', 'V010'],
    'is_purchase': [1, 1, 1, 0, 1, 0, 1, 1, 0, 1]
}

df = pd.DataFrame(data)
df['order_date'] = pd.to_datetime(df['order_date'])  # chuyển cột ngày về dạng datetime

print(df)


   order_id customer_id order_date  order_value    city marketing_source  \
0      1001        C001 2023-01-05       500000   Hanoi         Facebook   
1      1002        C002 2023-01-07       200000  Saigon       Google Ads   
2      1003        C001 2023-01-20       350000   Hanoi         Facebook   
3      1004        C003 2023-01-25            0  Danang          Organic   
4      1005        C004 2023-02-02       800000  Saigon           Tiktok   
5      1006        C005 2023-02-04            0   Hanoi       Google Ads   
6      1007        C001 2023-02-06       400000   Hanoi         Facebook   
7      1008        C006 2023-02-10       100000     Hue          Organic   
8      1009        C004 2023-02-15            0  Saigon           Tiktok   
9      1010        C007 2023-02-20       600000  Saigon         Facebook   

  visit_id  is_purchase  
0     V001            1  
1     V002            1  
2     V003            1  
3     V004            0  
4     V005            1  
5     V

In [4]:
#1. AOV- Average Order Value
aov = df[df['order_value']>0]['order_value'].mean()
print(aov)

421428.5714285714


In [5]:
#2. Conversion Rate (tỉ lệ truy cập mua hàng)

cr=df['is_purchase'].sum()/df['visit_id'].nunique()*100


In [8]:
#3. Churn Rate theo tháng
df['month']=pd.to_datetime(df['order_date']).dt.to_period('M')

jan_customers=df[df['month']=='2023-01']['customer_id'].unique()
feb_customers=df[df['month']=='2023-02']['customer_id'].unique()

churned= set(jan_customers)-set(feb_customers)
#Identifies customers who ordered in January 2023 but 
#not in February 2023 (i.e., churned customers).
churn_rate=len(churned)/len(jan_customers)
#calculates the churn rate, the proportion of January customers who did not order in February
print(churn_rate)

0.6666666666666666


NOTE
len() – Đếm số lượng phần tử
Trả về số lượng phần tử trong một list, tuple, dictionary, chuỗi, hoặc set.

In [9]:
names = ['Tuan','Lan','Nam','Lan']
print(len(names))

4


In [12]:
names = ['Tuan', 'Lan', 'Nam', 'Lan']
unique_names = set(names)
print(unique_names)      
print(len(unique_names))  


{'Nam', 'Lan', 'Tuan'}
3


In [13]:
# Kết hợp set() và len() thường dùng trong phân tích dữ liệu:
# Có bao nhiêu khách hàng khác nhau?
unique_customers=len(set(df['customer_id']))
print(unique_customers)

7


In [14]:
#Có bao nhiêu thành phố có khách đặt hàng?
len(set(df['city']))


4

In [17]:
# Đánh giá khách hàng giá trị nhất (dựa vào CLV)
# Tính tổng chi tiêu (CLV)
clv=df.groupby('customer_id')['order_value'].sum().reset_index()
clv.columns=['customer_id','CLV']
#sử dụng để tính Customer Lifetime Value (CLV), tức là tổng số tiền mà mỗi khách hàng đã chi tiêu trong suốt thời gian họ mua hàng.

In [18]:
#Xếp hạng khách hàng theo CLV
clv_sorted = clv.sort_values(by='CLV', ascending=False)
print(clv_sorted.head()) 


  customer_id      CLV
0        C001  1250000
3        C004   800000
6        C007   600000
1        C002   200000
5        C006   100000


In [19]:
# So sánh vs CAC (Customer Acquisition Cost)
# Giả sử bạn biết chi phí thu hút mỗi khách hàng (CAC), ví dụ: 
cac=300000 # giả định mỗi khách bạn tốn 300,000 để có được


In [21]:
# Tính lãi/lỗ từ mỗi khách hàng
clv['profit']=clv['CLV']- cac
clv['is_profitable']=clv['profit']>0
print(clv)

  customer_id      CLV  profit  is_profitable
0        C001  1250000  950000           True
1        C002   200000 -100000          False
2        C003        0 -300000          False
3        C004   800000  500000           True
4        C005        0 -300000          False
5        C006   100000 -200000          False
6        C007   600000  300000           True


In [22]:
# Phân khúc khách hàng theo giá trị
# Phân nhóm theo mức CLV


In [26]:
def label_segment(clv_value):
    if clv_value >= 1000000:
        return 'VIP'
    elif clv_value >= 500000:
        return 'Tiềm năng'
    else:
        return 'Thấp'