# Task 1. Cấu trúc dữ liệu & Xử lý dữ liệu (Data Structure & Data Wrangling)

In [187]:
!pip install chardet



In [188]:
import pandas as pd
import numpy as np
import os
import chardet

data_path = "../data_process/e-commerce data.csv"

output_dir = '../data_process/cleaned_data'
# Tạo thư mục đầu ra (nếu được tạo)
os.makedirs(output_dir, exist_ok=True)

# Subtask 0. Load Data

In [189]:
df = pd.read_csv(data_path, encoding='latin-1')
print(">> Dữ liệu đã được tải thành công.")

>> Dữ liệu đã được tải thành công.


In [190]:
with open(data_path, 'rb') as f:
    result = chardet.detect(f.read(500000))  # đọc 500KB đầu tiên
    print(result)

{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}


# Subtask 1. Data Structure

In [191]:
df.head(10)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,12/1/2010 8:26,7.65,17850.0,United Kingdom
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,12/1/2010 8:26,4.25,17850.0,United Kingdom
7,536366,22633,HAND WARMER UNION JACK,6,12/1/2010 8:28,1.85,17850.0,United Kingdom
8,536366,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 8:28,1.85,17850.0,United Kingdom
9,536367,84879,ASSORTED COLOUR BIRD ORNAMENT,32,12/1/2010 8:34,1.69,13047.0,United Kingdom


## 1.1. Kiểm tra kích thước dữ liệu

In [192]:
rows, cols = df.shape
print(f"Tập dữ liệu có {rows:,} dòng x {cols} cột.")

Tập dữ liệu có 541,909 dòng x 8 cột.


Tổng số giao dịch (transaction): 541,909

## 1.2. Kiểm tra tên trường và kiểu dữ liệu

In [193]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


## 1.3. Xử lý kiểu dữ liệu

### 1.3.1. Xử lý InvoiceDate

Dữ liệu InvoiceDate cần chuyển từ kiểu "object" sang "datetime"

In [194]:
# change InvoiceDate from 'object' ("12/1/2010 11:57") to 'datetime'
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
df['InvoiceDate']

0        2010-12-01 08:26:00
1        2010-12-01 08:26:00
2        2010-12-01 08:26:00
3        2010-12-01 08:26:00
4        2010-12-01 08:26:00
                 ...        
541904   2011-12-09 12:50:00
541905   2011-12-09 12:50:00
541906   2011-12-09 12:50:00
541907   2011-12-09 12:50:00
541908   2011-12-09 12:50:00
Name: InvoiceDate, Length: 541909, dtype: datetime64[ns]

In [195]:
min_date = df['InvoiceDate'].min()
max_date = df['InvoiceDate'].max()

min_date.strftime('%d/%m/%Y %H:%M'), max_date.strftime('%d/%m/%Y %H:%M')

('01/12/2010 08:26', '09/12/2011 12:50')

Thời gian tạo giao dịch trong khoảng từ tháng 12/2010 đến tháng 12/2011.

In [196]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


### 1.3.2. Xử lý CustomerID

In [197]:
# change CustomerID from 'float' (17850.0) to 'object' 
df['CustomerID'] = [str(int(x)) if not pd.isna(x) else x for x in df['CustomerID']]

In [198]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  object        
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 33.1+ MB


# Subtask 2. Data Validation

In [199]:
df.head(10)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,2010-12-01 08:26:00,7.65,17850,United Kingdom
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850,United Kingdom
7,536366,22633,HAND WARMER UNION JACK,6,2010-12-01 08:28:00,1.85,17850,United Kingdom
8,536366,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 08:28:00,1.85,17850,United Kingdom
9,536367,84879,ASSORTED COLOUR BIRD ORNAMENT,32,2010-12-01 08:34:00,1.69,13047,United Kingdom


## 2.1. Kiểm tra Quantity và UnitPrice

In [200]:
# Kiểm tra Quantity
print("--- Kiểm tra Quantity ---")
negative_quantity = df[df['Quantity'] <= 0]
print(f"Số dòng có lượng mua không dương (Quantity <= 0): {len(negative_quantity)} ({len(negative_quantity)/len(df)*100:.2f}%)")
print(f"+ Số dòng Quantity < 0: {(df['Quantity'] < 0).sum()}")
print(f"+ Số dòng Quantity = 0: {(df['Quantity'] == 0).sum()}")

# Kiểm tra xem Quantity âm có phải là đơn hủy (InvoiceNo chứa 'C') không
cancelled_orders = negative_quantity['InvoiceNo'].str.contains('C', na=False).sum()
print(f"Trong đó, số dòng có InvoiceNo chứa 'C' (Cancelled): {cancelled_orders}")

# Hiển thị một vài ví dụ
print("\n--- Ví dụ dữ liệu Quantity <= 0 ---")
display(negative_quantity.head())

--- Kiểm tra Quantity ---
Số dòng có lượng mua không dương (Quantity <= 0): 10624 (1.96%)
+ Số dòng Quantity < 0: 10624
+ Số dòng Quantity = 0: 0
Trong đó, số dòng có InvoiceNo chứa 'C' (Cancelled): 9288

--- Ví dụ dữ liệu Quantity <= 0 ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
141,C536379,D,Discount,-1,2010-12-01 09:41:00,27.5,14527,United Kingdom
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,2010-12-01 09:49:00,4.65,15311,United Kingdom
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,2010-12-01 10:24:00,1.65,17548,United Kingdom
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548,United Kingdom
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548,United Kingdom


In [201]:
# Kiểm tra UnitPrice
print("\n--- Kiểm tra UnitPrice ---")
invalid_price = df[df['UnitPrice'] <= 0]
print(f"Số dòng có đơn vị giá không dương (UnitPrice <= 0): {len(invalid_price)} ({len(invalid_price)/len(df)*100:.2f}%)")
print(f"+ Số dòng UnitPrice < 0: {(df['UnitPrice'] < 0).sum()}")
print(f"+ Số dòng UnitPrice = 0: {(df['UnitPrice'] == 0).sum()}")

# Hiển thị một vài ví dụ
print("\n--- Ví dụ dữ liệu UnitPrice <= 0 ---")
display(invalid_price.head())


--- Kiểm tra UnitPrice ---
Số dòng có đơn vị giá không dương (UnitPrice <= 0): 2517 (0.46%)
+ Số dòng UnitPrice < 0: 2
+ Số dòng UnitPrice = 0: 2515

--- Ví dụ dữ liệu UnitPrice <= 0 ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,2010-12-01 11:52:00,0.0,,United Kingdom
1970,536545,21134,,1,2010-12-01 14:32:00,0.0,,United Kingdom
1971,536546,22145,,1,2010-12-01 14:33:00,0.0,,United Kingdom
1972,536547,37509,,1,2010-12-01 14:33:00,0.0,,United Kingdom
1987,536549,85226A,,1,2010-12-01 14:34:00,0.0,,United Kingdom


### Nhận xét về Quantity và UnitPrice:

1.  **Quantity <= 0**:
    *   Có một lượng đáng kể (10624) các dòng có `Quantity` không dương.
    *   Đa số (9288) các dòng này thường đi kèm với `InvoiceNo` bắt đầu bằng chữ 'C', cho các đơn hàng bị hủy (Cancelled).
    *   Tuy nhiên, các dòng này có thể do điều chỉnh kho, lỗi khác không phải đơn hủy hoặc hàng trả về, ảnh hưởng xấu tới doanh thu.

2.  **UnitPrice <= 0**:
    *   Các dòng `UnitPrice = 0` đa số (2515), là quà tặng/hàng mẫu hoặc lỗi nhập liệu (không có đơn vị giá).
    *   Các dòng `UnitPrice < 0` rất hiếm (2) và thường liên quan đến việc điều chỉnh nợ xấu (Adjust bad debt) hoặc hàng được trả về, các sản phẩm miễn phí đặt chung với các sản phẩm khác (tham khảo Dataset Kaggle).

**Hành động đề xuất:**
*   Đối với bài toán phân tích doanh thu, nên loại bỏ các dòng có `Quantity <= 0` (đơn hủy) và `UnitPrice <= 0` để tránh làm sai lệch kết quả tính toán doanh thu.
*   Đối với bài toán phân tích tỷ lệ hủy đơn, cần giữ lại các dòng `Quantity < 0`.

## 2.2. Kiểm tra InvoiceNo

In [202]:
# Chuyển InvoiceNo sang kiểu string để xử lý
df['InvoiceNo'] = df['InvoiceNo'].astype(str)

# Tìm các InvoiceNo không phải là số
non_numeric_invoices = df[~df['InvoiceNo'].str.isdigit()]

print(f"Tổng số dòng có InvoiceNo không phải số: {len(non_numeric_invoices)}")

# Tách ra các trường hợp:
# 1. Bắt đầu bằng 'C' (Cancelled)
c_invoices = non_numeric_invoices[non_numeric_invoices['InvoiceNo'].str.startswith('C')]
print(f"+ Số lượng dòng có InvoiceNo bắt đầu bằng 'C' (Cancelled): {len(c_invoices)}")

# 2. Các trường hợp lạ khác (không phải số, không bắt đầu bằng 'C')
strange_invoices = non_numeric_invoices[~non_numeric_invoices['InvoiceNo'].str.startswith('C')]
print(f"+ Số lượng dòng có InvoiceNo có ký tự lạ (không phải 'C'): {len(strange_invoices)}")

if len(strange_invoices) > 0:
    print("\n--- Các giá trị InvoiceNo lạ ---")
    print(strange_invoices['InvoiceNo'].unique())
    display(strange_invoices.head())
else:
    print("\n=> Ngoài các đơn hủy (chứa 'C'), không có InvoiceNo dạng lạ nào khác.")

Tổng số dòng có InvoiceNo không phải số: 9291
+ Số lượng dòng có InvoiceNo bắt đầu bằng 'C' (Cancelled): 9288
+ Số lượng dòng có InvoiceNo có ký tự lạ (không phải 'C'): 3

--- Các giá trị InvoiceNo lạ ---
['A563185' 'A563186' 'A563187']


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
299982,A563185,B,Adjust bad debt,1,2011-08-12 14:50:00,11062.06,,United Kingdom
299983,A563186,B,Adjust bad debt,1,2011-08-12 14:51:00,-11062.06,,United Kingdom
299984,A563187,B,Adjust bad debt,1,2011-08-12 14:52:00,-11062.06,,United Kingdom


### Nhận xét về InvoiceNo:

*   Đa số InvoiceNo ở dạng số (các đơn bình thường), chỉ có số ít (9291 mã) chứa ký tự.
*   Trong các InvoiceNo chứa ký tự:
    *   Đa số (9288 mã) là các mã bắt đầu bằng **'C'**, đại diện cho đơn bị hủy (Cancelled). Hợp lệ với quy tắc nghiệp vụ.
    *   Các mã khác (3 mã) bắt đầu bằng **'A'** có mô tả là 'Adjust bad debt' (nợ xấu), cùng 'StockCode' (B) và không có CustomerID (NaN).

## 2.3. Kiểm tra Country

In [203]:
# Lấy danh sách các quốc gia duy nhất và sắp xếp
unique_countries = sorted(df['Country'].dropna().unique().astype(str))
print(f"Tổng số quốc gia/khu vực: {len(unique_countries)}")

print("\n--- Danh sách toàn bộ quốc gia/khu vực ---")
print(unique_countries)

# Thống kê số lượng bản ghi theo từng quốc gia
print("\n--- Thống kê số lượng bản ghi (Top 10) ---")
print(df['Country'].value_counts().head(10))

# Kiểm tra các giá trị "lạ" hoặc không xác định
print("\n--- Kiểm tra các giá trị đặc biệt ---")
potential_issues = ['Unspecified', 'European Community', 'Channel Islands', 'EIRE', 'RSA']
found_issues = df[df['Country'].isin(potential_issues)]['Country'].value_counts()

if not found_issues.empty:
    print("Tìm thấy các giá trị cần lưu ý:")
    print(found_issues)
else:
    print("Không tìm thấy các giá trị đặc biệt trong danh sách kiểm tra.")

Tổng số quốc gia/khu vực: 38

--- Danh sách toàn bộ quốc gia/khu vực ---
['Australia', 'Austria', 'Bahrain', 'Belgium', 'Brazil', 'Canada', 'Channel Islands', 'Cyprus', 'Czech Republic', 'Denmark', 'EIRE', 'European Community', 'Finland', 'France', 'Germany', 'Greece', 'Hong Kong', 'Iceland', 'Israel', 'Italy', 'Japan', 'Lebanon', 'Lithuania', 'Malta', 'Netherlands', 'Norway', 'Poland', 'Portugal', 'RSA', 'Saudi Arabia', 'Singapore', 'Spain', 'Sweden', 'Switzerland', 'USA', 'United Arab Emirates', 'United Kingdom', 'Unspecified']

--- Thống kê số lượng bản ghi (Top 10) ---
Country
United Kingdom    495478
Germany             9495
France              8557
EIRE                8196
Spain               2533
Netherlands         2371
Belgium             2069
Switzerland         2002
Portugal            1519
Australia           1259
Name: count, dtype: int64

--- Kiểm tra các giá trị đặc biệt ---
Tìm thấy các giá trị cần lưu ý:
Country
EIRE                  8196
Channel Islands        758
Un

### Nhận xét về Country:

1.  Dữ liệu có đa dạng quốc gia, bao gồm 38 quốc gia/khu vực khác nhau.
2.  **United Kingdom** chiếm tỷ trọng áp đảo về số lượng với 495478 bản ghi, gấp hơn **50** lần Germany (hạng 2).
3.  **Các giá trị đặc biệt cần lưu ý**:
    *   **'Unspecified'**: các bản ghi không xác định quốc gia. Cần quyết định xử lý (loại bỏ hoặc giữ nguyên tùy mục đích).
    *   **'EIRE'**: tên gọi khác của Ireland (Cộng hòa Ireland). Hợp lệ.
    *   **'RSA'**: tên viết tắt của Republic of South Africa (Nam Phi). Hợp lệ.
    *   **'Channel Islands'**: tên Quần đảo Channel. Hợp lệ.
    *   **'European Community'**: tên Cộng đồng Châu Âu (cũ). Hợp lệ (về lịch sử dữ liệu).

**Kết luận**: Danh sách quốc gia nhìn chung hợp lệ, không có lỗi chính tả nghiêm trọng (như 'U.K.', 'United Kingdon'...). Chỉ cần lưu ý xử lý nhóm 'Unspecified' nếu cần thiết.

# Subtask 3. Duplicate Value

In [204]:
print("--- Kiểm tra và xử lý trùng lặp ---")

# 1. Kiểm tra số lượng dòng trùng lặp
duplicate_count = df.duplicated().sum()
print(f"Số lượng dòng trùng lặp (duplicates): {duplicate_count} ({duplicate_count/len(df)*100:.2f}%)")

if duplicate_count > 0:
    # Xem qua một vài dòng trùng lặp
    print("\n--- Ví dụ các dòng trùng lặp ---")
    display(df[df.duplicated(keep=False)].head(6).sort_values(by=['InvoiceNo', 'StockCode']))
    
    # 2. Xóa duplicates
    print("\nĐang xóa trùng lặp...")
    df.drop_duplicates(inplace=True)
    print(f"Đã xóa trùng lặp. Kích thước dữ liệu hiện tại: {df.shape}")
else:
    print("Dữ liệu không có trùng lặp.")

--- Kiểm tra và xử lý trùng lặp ---
Số lượng dòng trùng lặp (duplicates): 5268 (0.97%)

--- Ví dụ các dòng trùng lặp ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
494,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,2010-12-01 11:45:00,1.25,17908,United Kingdom
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,2010-12-01 11:45:00,1.25,17908,United Kingdom
485,536409,22111,SCOTTIE DOG HOT WATER BOTTLE,1,2010-12-01 11:45:00,4.95,17908,United Kingdom
489,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1,2010-12-01 11:45:00,2.1,17908,United Kingdom
527,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1,2010-12-01 11:45:00,2.1,17908,United Kingdom
521,536409,22900,SET 2 TEA TOWELS I LOVE LONDON,1,2010-12-01 11:45:00,2.95,17908,United Kingdom



Đang xóa trùng lặp...
Đã xóa trùng lặp. Kích thước dữ liệu hiện tại: (536641, 8)


## Nhận xét về Duplicate Value:
*  Số lượng dòng trùng lặp (duplicates) khá ít: 5268 (0.97%)
*  Các trùng lặp được xử lý bằng cách xóa đi, giảm kích thước dữ liệu từ 541,909 xuống 536,641.

In [205]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 536641 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    536641 non-null  object        
 1   StockCode    536641 non-null  object        
 2   Description  535187 non-null  object        
 3   Quantity     536641 non-null  int64         
 4   InvoiceDate  536641 non-null  datetime64[ns]
 5   UnitPrice    536641 non-null  float64       
 6   CustomerID   401604 non-null  object        
 7   Country      536641 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 36.8+ MB


# Subtask 4. Missing Value

## 4.1. Kiểm tra missing (Description, CustomerID)

In [206]:
# Kiểm tra missing values cho các cột quan trọng
missing_cols = ['Description', 'CustomerID']

print("--- Thống kê Missing Values ---")
for col in missing_cols:
    missing_count = df[col].isna().sum()
    total_count = len(df)
    print(f"{col}: {missing_count} missing ({missing_count/total_count*100:.2f}%)")

# Kiểm tra mối liên hệ giữa Description missing và CustomerID missing
missing_desc_cust = df[df['Description'].isna() & df['CustomerID'].isna()]
print(f"+ Số lượng dòng missing cả Description và CustomerID: {len(missing_desc_cust)}")
print(f"+ Số lượng dòng missing Description mà không CustomerID: {len(df[df['Description'].isna() & df['CustomerID'].notna()])}")
print(f"+ Số lượng dòng missing CustomerID mà không Description: {len(df[df['CustomerID'].isna() & df['Description'].notna()])}")

# Hiển thị mẫu dữ liệu bị missing CustomerID
print("\n--- Mẫu dữ liệu missing CustomerID ---")
display(df[df['CustomerID'].isna()].head())

# Hiển thị mẫu dữ liệu bị missing Description
print("\n--- Mẫu dữ liệu missing Description ---")
display(df[df['Description'].isna()].head())

--- Thống kê Missing Values ---
Description: 1454 missing (0.27%)
CustomerID: 135037 missing (25.16%)
+ Số lượng dòng missing cả Description và CustomerID: 1454
+ Số lượng dòng missing Description mà không CustomerID: 0
+ Số lượng dòng missing CustomerID mà không Description: 133583

--- Mẫu dữ liệu missing CustomerID ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,2010-12-01 11:52:00,0.0,,United Kingdom
1443,536544,21773,DECORATIVE ROSE BATHROOM BOTTLE,1,2010-12-01 14:32:00,2.51,,United Kingdom
1444,536544,21774,DECORATIVE CATS BATHROOM BOTTLE,2,2010-12-01 14:32:00,2.51,,United Kingdom
1445,536544,21786,POLKADOT RAIN HAT,4,2010-12-01 14:32:00,0.85,,United Kingdom
1446,536544,21787,RAIN PONCHO RETROSPOT,2,2010-12-01 14:32:00,1.66,,United Kingdom



--- Mẫu dữ liệu missing Description ---


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,2010-12-01 11:52:00,0.0,,United Kingdom
1970,536545,21134,,1,2010-12-01 14:32:00,0.0,,United Kingdom
1971,536546,22145,,1,2010-12-01 14:33:00,0.0,,United Kingdom
1972,536547,37509,,1,2010-12-01 14:33:00,0.0,,United Kingdom
1987,536549,85226A,,1,2010-12-01 14:34:00,0.0,,United Kingdom


### Nhận xét về Missing Value:

1.  **Description**:
    *   Số lượng missing khá thấp: 1,454 (0.27%).
    *   Tất cả các dòng thiếu `Description` đều cũng thiếu `CustomerID`, có thể là các giao dịch lỗi hệ thống hoặc không hợp lệ từ đầu.
    *   Nên loại bỏ các dòng này vì thiếu thông tin sản phẩm.

2.  **CustomerID**:
    *   Số lượng missing khá cao: 135037 (25.16%).
    *   Bao gồm cả 1,454 dòng thiếu Description ở trên.
    *   Đây là các giao dịch của khách vãng lai (không đăng nhập/không có mã thành viên).
    *   Có 2 phương án xử lý:
        *   Nếu phân tích **tổng doanh thu**: Giữ lại.
        *   Nếu phân tích **hành vi khách hàng (RFM)**: Loại bỏ vì không định danh được khách hàng.

## 4.2. Xử lý missing (Description, CustomerID)

In [207]:
# --- Xử lý Description Missing ---
# Chiến lược: Điền Description bị thiếu dựa trên StockCode tương ứng (nếu có)
print("Đang xử lý Description missing...")

# Tạo từ điển ánh xạ StockCode -> Description (lấy giá trị xuất hiện nhiều nhất - mode)
stock_desc_map = df.dropna(subset=['Description']).groupby('StockCode')['Description'] \
                    .agg(lambda x: x.mode()[0] if not x.mode().empty else np.nan).to_dict()

# Fill missing Description
df['Description_Filled'] = df['Description'].fillna(df['StockCode'].map(stock_desc_map))

# Kiểm tra kết quả fill
missing_before = df['Description'].isna().sum()
missing_after = df['Description_Filled'].isna().sum()
print(f"+ Description missing ban đầu: {missing_before}")
print(f"+ Description missing sau khi làm đầy theo StockCode: {missing_after}")
print(f"+ Số dòng đã khôi phục được: {missing_before - missing_after}")

# Cập nhật lại dataframe (loại bỏ các dòng vẫn không có Description)
df_clean = df.dropna(subset=['Description_Filled']).copy()
df_clean['Description'] = df_clean['Description_Filled']
df_clean.drop(columns=['Description_Filled'], inplace=True)
print(f"Kích thước dữ liệu sau khi xử lý Description missing: {df_clean.shape}")


# --- Tạo các bộ dữ liệu chuyên biệt (Data Splitting) ---
print("\nĐang tạo các bộ dữ liệu cho mục đích phân tích khác nhau...")

# Dataset A: Dành cho Phân tích Doanh thu & Sản phẩm (Revenue & Product Analysis)
# Đặc điểm: Giữ lại tất cả giao dịch (bao gồm khách vãng lai) để tính tổng doanh số chính xác.
df_revenue = df_clean.copy()
df_revenue['CustomerID'] = df_revenue['CustomerID'].fillna('Guest') # Gán nhãn Guest cho khách vãng lai
print(f"\nA. Dataset 'df_revenue' (cho phân tích tổng doanh thu): {df_revenue.shape}")
print("+ Xử lý: Đã fill 'Guest' cho các giá trị thiếu CustomerID.")
print("+ Mục đích: Tính tổng doanh thu, xu hướng bán hàng, hiệu suất sản phẩm.")

# Dataset B: Dành cho Phân tích Khách hàng (Customer Analysis - RFM)
# Đặc điểm: Chỉ giữ lại các giao dịch có CustomerID định danh để phân tích hành vi.
df_customer = df_clean.dropna(subset=['CustomerID']).copy()
# Chuyển CustomerID về dạng int cho sạch đẹp
df_customer['CustomerID'] = df_customer['CustomerID'].astype(int)
print(f"\nB. Dataset 'df_customer' (cho phân tích hành vi khách hàng): {df_customer.shape}")
print("+ Xử lý: Đã loại bỏ các dòng bị thiếu CustomerID.")
print("+ Mục đích: Phân tích RFM, Customer Segmentation, Cohort Analysis.")

Đang xử lý Description missing...
+ Description missing ban đầu: 1454
+ Description missing sau khi làm đầy theo StockCode: 112
+ Số dòng đã khôi phục được: 1342
Kích thước dữ liệu sau khi xử lý Description missing: (536529, 8)

Đang tạo các bộ dữ liệu cho mục đích phân tích khác nhau...

A. Dataset 'df_revenue' (cho phân tích tổng doanh thu): (536529, 8)
+ Xử lý: Đã fill 'Guest' cho các giá trị thiếu CustomerID.
+ Mục đích: Tính tổng doanh thu, xu hướng bán hàng, hiệu suất sản phẩm.

B. Dataset 'df_customer' (cho phân tích hành vi khách hàng): (401604, 8)
+ Xử lý: Đã loại bỏ các dòng bị thiếu CustomerID.
+ Mục đích: Phân tích RFM, Customer Segmentation, Cohort Analysis.


### Kết quả xử lý Missing Value:

Tạo ra 2 bộ dữ liệu riêng biệt:

1.  **`df_revenue`**:
    *   **Xử lý**: Giữ lại các dòng thiếu `CustomerID` và gán nhãn là "Guest".
    *   **Lý do**: Tiền của khách vãng lai vẫn là doanh thu thực tế. Nếu loại bỏ, sẽ làm sụt giảm tổng doanh thu và sai lệch các báo cáo về xu hướng bán hàng (Trend) hoặc độ phổ biến của sản phẩm.
    *   **Mục đích**: Dashboard doanh thu, Time-series analysis, Product performance.

2.  **`df_customer`**:
    *   **Xử lý**: Loại bỏ hoàn toàn các dòng thiếu `CustomerID`.
    *   **Lý do**: Để phân tích hành vi (ai mua gì, quay lại bao lâu một lần), phải định danh được khách hàng. Dữ liệu "Guest" không có giá trị trong việc phân tích lòng trung thành hay cá nhân hóa.
    *   **Mục đích**: Mô hình RFM, Phân khúc khách hàng (Segmentation), Dự đoán Customer Lifetime Value (CLV).

Ngoài ra, cột `Description` đã được khôi phục một phần dựa trên `StockCode` để giảm thiểu mất mát dữ liệu.

In [208]:
df_revenue.info()

<class 'pandas.core.frame.DataFrame'>
Index: 536529 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    536529 non-null  object        
 1   StockCode    536529 non-null  object        
 2   Description  536529 non-null  object        
 3   Quantity     536529 non-null  int64         
 4   InvoiceDate  536529 non-null  datetime64[ns]
 5   UnitPrice    536529 non-null  float64       
 6   CustomerID   536529 non-null  object        
 7   Country      536529 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 36.8+ MB


In [209]:
df_customer.info()

<class 'pandas.core.frame.DataFrame'>
Index: 401604 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    401604 non-null  object        
 1   StockCode    401604 non-null  object        
 2   Description  401604 non-null  object        
 3   Quantity     401604 non-null  int64         
 4   InvoiceDate  401604 non-null  datetime64[ns]
 5   UnitPrice    401604 non-null  float64       
 6   CustomerID   401604 non-null  int32         
 7   Country      401604 non-null  object        
dtypes: datetime64[ns](1), float64(1), int32(1), int64(1), object(4)
memory usage: 26.0+ MB


# Subtask 5. Data Cleaning

In [210]:
print("--- Làm sạch nghiệp vụ ---")

# Quy tắc:
# 1. Loại bỏ đơn hủy (InvoiceNo chứa 'C') -> Thường tương đương Quantity < 0
# 2. Loại bỏ Quantity <= 0
# 3. Loại bỏ UnitPrice <= 0

def clean_business_logic(df_input, name):
    initial_rows = len(df_input)
    
    # Lọc dữ liệu hợp lệ: Quantity > 0 và UnitPrice > 0
    df_valid = df_input[(df_input['Quantity'] > 0) & (df_input['UnitPrice'] > 0)].copy()
    
    removed_rows = initial_rows - len(df_valid)
    print(f"Dataset '{name}':")
    print(f" - Trước khi lọc: {initial_rows} dòng")
    print(f" - Sau khi lọc (Quantity > 0 & Price > 0): {len(df_valid)} dòng")
    print(f" - Đã loại bỏ: {removed_rows} dòng ({removed_rows/initial_rows*100:.2f}%)")
    print("-" * 30)
    return df_valid

# Áp dụng cho df_revenue (Dùng cho phân tích doanh số, sản phẩm)
df_revenue_clean = clean_business_logic(df_revenue, "df_revenue")

# Áp dụng cho df_customer (Dùng cho RFM, phân khúc khách hàng)
df_customer_clean = clean_business_logic(df_customer, "df_customer")

# (Tùy chọn) Lưu riêng dữ liệu đơn hủy để phân tích lý do trả hàng sau này
df_cancelled = df[df['InvoiceNo'].str.startswith('C', na=False)]
print(f"Lưu riêng {len(df_cancelled)} giao dịch bị hủy (Cancelled) vào 'df_cancelled' để phân tích tỷ lệ hoàn trả.")

print("A. df_revenue_clean: Dữ liệu sạch để tính tổng doanh thu (bao gồm cả khách vãng lai).")
print("B. df_customer_clean: Dữ liệu sạch để phân tích hành vi khách hàng (chỉ khách có định danh).")
print("C. df_cancelled: Dữ liệu các giao dịch bị hủy.")

--- Làm sạch nghiệp vụ ---
Dataset 'df_revenue':
 - Trước khi lọc: 536529 dòng
 - Sau khi lọc (Quantity > 0 & Price > 0): 524878 dòng
 - Đã loại bỏ: 11651 dòng (2.17%)
------------------------------
Dataset 'df_customer':
 - Trước khi lọc: 401604 dòng
 - Sau khi lọc (Quantity > 0 & Price > 0): 392692 dòng
 - Đã loại bỏ: 8912 dòng (2.22%)
------------------------------
Lưu riêng 9251 giao dịch bị hủy (Cancelled) vào 'df_cancelled' để phân tích tỷ lệ hoàn trả.
A. df_revenue_clean: Dữ liệu sạch để tính tổng doanh thu (bao gồm cả khách vãng lai).
B. df_customer_clean: Dữ liệu sạch để phân tích hành vi khách hàng (chỉ khách có định danh).
C. df_cancelled: Dữ liệu các giao dịch bị hủy.


# Subtaks 6. Feature engineering

Dữ liệu (InvoiceNo, StockCode, Quantity, UnitPrice, InvoiceDate, CustomerID, Country) là dữ liệu thô (raw data), để phân tích sâu hơn hoặc chạy mô hình học máy, ta cần tạo ra các đặc trưng (features) mới mang nhiều ý nghĩa thông tin hơn.

## 6.1. Tính TotalAmount (doanh thu dòng):

Dữ liệu gốc chỉ có Quantity và UnitPrice. Ta nhân chúng lại để biết giá trị thực của đơn hàng. Đây là chỉ số quan trọng nhất.

+ Công thức: TotalAmount = Quantity * UnitPrice

## 6.2 Tách thông tin thời gian tạo giao dịch (InvoiceDate):
Phân tách dữ liệu thời gian tạo giao dịch chi tiết hơn để tìm hiểu xu hướng theo thời gian:
+ Year, Month: để vẽ biểu đồ doanh thu theo tháng.
+ Hour: để biết khung giờ nào khách mua nhiều nhất (sáng hay tối).
+ DayOfWeek: để biết ngày nào trong tuần đắt khách nhất (cuối tuần hay trong tuần).

## 6.3. Tạo cột MonthYear (Tháng-Năm):

Để phân tích Cohort (giữ chân khách hàng) hoặc vẽ biểu đồ trendline theo tháng một cách dễ dàng.


In [211]:
print("--- Tạo các đặc trưng mới ---")

def add_features(df_input):
    df_new = df_input.copy()
    
    # 1. Tính TotalAmount (Doanh thu)
    df_new['TotalAmount'] = df_new['Quantity'] * df_new['UnitPrice']
    
    # 2. Tách thông tin thời gian
    df_new['Year'] = df_new['InvoiceDate'].dt.year
    df_new['Month'] = df_new['InvoiceDate'].dt.month
    df_new['Day'] = df_new['InvoiceDate'].dt.day
    df_new['Hour'] = df_new['InvoiceDate'].dt.hour
    df_new['DayOfWeek'] = df_new['InvoiceDate'].dt.dayofweek # 0=Monday, 6=Sunday
    
    # 3. Tạo cột MonthYear (dạng YYYY-MM) để dễ visualize
    df_new['MonthYear'] = df_new['InvoiceDate'].dt.to_period('M')
    
    return df_new

# Áp dụng cho cả 2 bộ dữ liệu
print("+ Đang xử lý cho df_revenue_clean...")
df_revenue_clean = add_features(df_revenue_clean)

print("+ Đang xử lý cho df_customer_clean...")
df_customer_clean = add_features(df_customer_clean)

print("Đã thêm các cột mới: TotalAmount, Year, Month, Day, Hour, DayOfWeek, MonthYear\n")
print("--- Ví dụ các dòng dữ liệu sau khi thêm đặc trưng ---")
display(df_revenue_clean[['InvoiceNo', 'Quantity', 'UnitPrice', 'TotalAmount', 'InvoiceDate', 'MonthYear', 'Hour', 'DayOfWeek']].head())

--- Tạo các đặc trưng mới ---
+ Đang xử lý cho df_revenue_clean...
+ Đang xử lý cho df_customer_clean...
Đã thêm các cột mới: TotalAmount, Year, Month, Day, Hour, DayOfWeek, MonthYear

--- Ví dụ các dòng dữ liệu sau khi thêm đặc trưng ---


Unnamed: 0,InvoiceNo,Quantity,UnitPrice,TotalAmount,InvoiceDate,MonthYear,Hour,DayOfWeek
0,536365,6,2.55,15.3,2010-12-01 08:26:00,2010-12,8,2
1,536365,6,3.39,20.34,2010-12-01 08:26:00,2010-12,8,2
2,536365,8,2.75,22.0,2010-12-01 08:26:00,2010-12,8,2
3,536365,6,3.39,20.34,2010-12-01 08:26:00,2010-12,8,2
4,536365,6,3.39,20.34,2010-12-01 08:26:00,2010-12,8,2


# Subtask 7. Save Data
Lưu các bộ dữ liệu đã xử lý ra file CSV để sử dụng cho các bước phân tích tiếp theo.
*   `df_revenue_clean.csv`: Dữ liệu sạch dùng cho phân tích tổng doanh thu.
*   `df_customer_clean.csv`: Dữ liệu sạch dùng cho phân tích hành vi khách hàng (RFM).
*   `df_cancelled.csv`: Dữ liệu các giao dịch bị hủy.

In [None]:
# Lưu dữ liệu đã làm sạch
print(f"--- Đang lưu dữ liệu vào thư mục: {output_dir} ---")

# 1. Lưu df_revenue_clean (Dữ liệu phân tích tổng doanh thu)
file_revenue = os.path.join(output_dir, 'df_revenue_clean.csv')
df_revenue_clean.to_csv(file_revenue, index=False)
print(f">> Đã lưu: {file_revenue} ({len(df_revenue_clean)} dòng)")

# 2. Lưu df_customer_clean (Dữ liệu phân tích hành vi khách hàng)
file_customer = os.path.join(output_dir, 'df_customer_clean.csv')
df_customer_clean.to_csv(file_customer, index=False)
print(f">> Đã lưu: {file_customer} ({len(df_customer_clean)} dòng)")

# 3. Lưu df_cancelled (Dữ liệu giao dịch bị hủy)
file_cancelled = os.path.join(output_dir, 'df_cancelled.csv')
df_cancelled.to_csv(file_cancelled, index=False)
print(f">> Đã lưu: {file_cancelled} ({len(df_cancelled)} dòng)")

--- Đang lưu dữ liệu vào thư mục: ../data_process/cleaned_data ---
>> Đã lưu: ../data_process/cleaned_data\df_revenue_clean.csv (524878 dòng)
>> Đã lưu: ../data_process/cleaned_data\df_customer_clean.csv (392692 dòng)
>> Đã lưu: ../data_process/cleaned_data\df_cancelled.csv (9251 dòng)
