# Bước 1: Làm sạch dữ liệu và Phân tích khám phá (EDA)

## Tóm tắt tổng quan
- **Dữ liệu gốc**: 541,909 giao dịch từ công ty bán lẻ UK (2010-2011)  
- **Sau làm sạch**: 397,924 giao dịch hợp lệ từ 4,372 khách hàng UK
- **Mục đích**: Chuẩn bị dữ liệu chất lượng cao cho phân khúc khách hàng

## Quy trình thực hiện

1. **Tải và hiểu dữ liệu** - Khám phá cấu trúc và chất lượng
2. **Làm sạch dữ liệu** - Loại bỏ giao dịch không hợp lệ  
3. **Phân tích EDA** - Tìm hiểu patterns và trends
4. **Trực quan hóa** - Visualize insights quan trọng
5. **Xuất dữ liệu sạch** - Chuẩn bị cho bước tiếp theo

## Về tập dữ liệu

**Nguồn**: Công ty bán lẻ trực tuyến UK chuyên quà tặng độc đáo  
**Thời gian**: 12/2010 - 12/2011  
**Phạm vi**: Giao dịch toàn cầu với focus vào thị trường UK

### Các trường dữ liệu chính:
| Trường | Mô tả | Ví dụ |
|---------|--------|--------|  
| `InvoiceNo` | Mã hóa đơn (6 chữ số) | 536365 |
| `StockCode` | Mã sản phẩm | 85123A |
| `Description` | Tên sản phẩm | WHITE HANGING HEART |
| `Quantity` | Số lượng mua | 6 |
| `InvoiceDate` | Thời gian giao dịch | 2010-12-01 08:26:00 |
| `UnitPrice` | Đơn giá (GBP) | 2.55 |
| `CustomerID` | ID khách hàng | 17850 |
| `Country` | Quốc gia | United Kingdom |

## Parameters 
Gán tham số để sử dụng cho papermill

In [None]:
# PARAMETERS (for papermill)

# Đường dẫn file dữ liệu gốc
DATA_PATH = "data/raw/online_retail.csv"

# Tên country cần phân tích (mặc định: UK)
COUNTRY = "United Kingdom"

# Thư mục lưu dữ liệu đã xử lý
OUTPUT_DIR = "data/processed"

# Một số tham số EDA (nếu sau này muốn bật/tắt nhanh)
PLOT_REVENUE = True
PLOT_TIME_PATTERNS = True
PLOT_PRODUCTS = True
PLOT_CUSTOMERS = True
PLOT_RFM = True


## Set up

In [None]:
%load_ext autoreload
%autoreload 2

import os
import sys

# Xác định project_root linh hoạt
cwd = os.getcwd()
if os.path.basename(cwd) == "notebooks":
    # Đang chạy từ thư mục notebooks
    project_root = os.path.abspath("..")
else:
    # Đang chạy từ root project (papermill, VSCode, v.v.)
    project_root = cwd

src_path = os.path.join(project_root, "src")
if src_path not in sys.path:
    sys.path.append(src_path)

from apriori_library import DataCleaner, DataVisualizer 

import pandas as pd
import matplotlib.pyplot as plt



In [None]:
# Khởi tạo DataVisualizer với style đã cấu hình
visualizer = DataVisualizer()

## Tải dữ liệu

In [None]:
# Đọc dữ liệu gốc
cleaner = DataCleaner(DATA_PATH)
df = cleaner.load_data()

# Hiển thị 5 dòng đầu tiên
df.head()


In [None]:
print("Thông tin về tập dữ liệu Online retail:")

print(f"- Kích thước dữ liệu: {df.shape[0]:,} dòng và {df.shape[1]:} cột")

missing_values = df.isnull().sum().sum()
print(f"- Tổng số giá trị thiếu: {missing_values:,} ô")

print(f"- Khách hàng duy nhất (bao gồm cả NaN): {df['CustomerID'].nunique(dropna=True):,} khách hàng")

df.info()


## Làm sạch dữ liệu
Ta thực hiện làm sạch dữ liệu theo các bước:
### 1. Loại bỏ các hoá đơn bị huỷ
### 2. Tập trung vào khách hàng UK only
### 3. Loại bỏ bản ghi có quantity hoặc price không hợp lệ

In [None]:
# Làm sạch dữ liệu cho country được chọn
df_country = cleaner.clean_data()  

# Tạo time features
cleaner.create_time_features()

print("\nThông tin về tập dữ liệu sau khi làm sạch:")
print(f"- Dữ liệu gốc: {df.shape[0]:,} giao dịch")
print(f"- Dữ liệu sau làm sạch ({COUNTRY}): {df_country.shape[0]:,} giao dịch")
print(f"- Loại bỏ: {df.shape[0] - df_country.shape[0]:,} giao dịch "
      f"({((df.shape[0] - df_country.shape[0]) / df.shape[0] * 100):.1f}%)")
print(f"- Khách hàng {COUNTRY}: {df_country['CustomerID'].nunique():,}")

df_country.head()


In [None]:
# Phân tích doanh thu theo thời gian
if PLOT_REVENUE:
    visualizer.plot_revenue_over_time(df_country)


In [None]:
# Phân tích mẫu thời gian mua hàng 
if PLOT_TIME_PATTERNS:
    visualizer.plot_time_patterns(df_country)


In [None]:
# Phân tích các sản phẩm bán chạy nhất
if PLOT_PRODUCTS:
    visualizer.plot_product_analysis(df_country, top_n=10)


In [None]:
# Phân phối hành vi khách hàng
if PLOT_CUSTOMERS:
    visualizer.plot_customer_distribution(df_country)

In [None]:
# Phân tích chi tiêu của khách hàng
spend_per_customer = df_country.groupby('CustomerID')['TotalPrice'].sum()
transactions_per_customer = df_country.groupby("CustomerID")["InvoiceNo"].nunique()

print("Phân tích hành vi khách hàng:")
print(f"- Chi tiêu trung bình: £{spend_per_customer.mean():.2f}")
print(f"- Chi tiêu median: £{spend_per_customer.median():.2f}")
print(f"- Giao dịch trung bình: {transactions_per_customer.mean():.1f} lần")

spend_per_customer.describe()

### Phân tích RFM

Recency (Gần đây): Khách hàng mua hàng lần cuối cách đây bao lâu?

Frequency (Tần suất): Họ mua hàng thường xuyên như thế nào?

Monetary (Tiền tệ): Họ chi tiêu bao nhiều tiền?

In [None]:
# Tính toán các chỉ số RFM (Recency, Frequency, Monetary) cho tập {COUNTRY}
rfm_data = cleaner.compute_rfm()

print("Phân tích RFM:")
print(f"- Trung bình Recency: {rfm_data['Recency'].mean():.0f} ngày")
print(f"- Trung bình Frequency: {rfm_data['Frequency'].mean():.1f} giao dịch")
print(f"- Trung bình Monetary: £{rfm_data['Monetary'].mean():.2f}")

rfm_data.head(10)


In [None]:
# Trực quan hoá phân phối RFM
if PLOT_RFM:
    visualizer.plot_rfm_analysis(rfm_data)

In [None]:
# Lưu dữ liệu đã làm sạch
cleaner.save_cleaned_data(output_dir=OUTPUT_DIR)

print("Dữ liệu đã được lưu thành công:")
print(f"- Thư mục: {OUTPUT_DIR}")
print("- File: cleaned_uk_data.csv")
print(f"- Kích thước: {df_country.shape[0]:,} dòng")
print("- Sẵn sàng cho bước feature engineering / association rules")
