In [1]:
import pandas as pd
import numpy as np
import warnings

# Tắt các cảnh báo không cần thiết
warnings.filterwarnings('ignore')

In [2]:
def load_data(filepath):
    """Load dữ liệu từ file CSV"""
    print(f"Đang tải dữ liệu từ: {filepath}...")
    try:
        df = pd.read_csv(filepath)
        print(f"Đã tải thành công! Kích thước gốc: {df.shape}")
        return df
    except Exception as e:
        print(f"Lỗi tải file: {e}")
        return None


In [3]:
def clean_data(df):
    # 1. Chuẩn hóa tên cột (đổi dấu chấm thành gạch dưới về chữ thường)
    df.columns = df.columns.str.replace('.', '_').str.lower()
    print("- Đã chuẩn hóa tên cột (ví dụ: 'Order.ID' -> 'order_id').")

    # 2. Xóa cột rác (nếu có)
    junk_cols = ['row_id', '记录数', 'weeknum', 'market2']
    cols_to_drop = [c for c in junk_cols if c in df.columns]
    if cols_to_drop:
        df.drop(columns=cols_to_drop, inplace=True)
        print(f"- Đã xóa các cột thừa: {cols_to_drop}")

    # 3. Chuyển đổi định dạng ngày tháng
    df['order_date'] = pd.to_datetime(df['order_date'])
    df['ship_date'] = pd.to_datetime(df['ship_date'])
    print("- Đã chuyển 'order_date' và 'ship_date' sang dạng Datetime.")

    # 4. Xử lý Logic Nghiệp vụ (Phần bạn muốn chuyển sang đây)
    # 4.1. Xóa đơn hàng có Ngày Ship < Ngày Đặt (Vô lý)
    invalid_dates = df[df['ship_date'] < df['order_date']]
    if not invalid_dates.empty:
        print(f"- ⚠️ Phát hiện {len(invalid_dates)} dòng lỗi (Ship < Order). Đang xóa...")
        df = df[df['ship_date'] >= df['order_date']]
    
    # 4.2. Xử lý trùng lặp (Business Key: Order ID + Product ID)
    # Group lại và cộng dồn các chỉ số số lượng
    # Lưu ý: Ở đây ta giả định đơn giản là xóa trùng lặp hoàn toàn trước
    before_dedup = len(df)
    df = df.drop_duplicates()
    after_dedup = len(df)
    if before_dedup > after_dedup:
        print(f"- Đã xóa {before_dedup - after_dedup} dòng trùng lặp hoàn toàn.")

    return df