#### **I. IMPORT THƯ VIỆN VÀ DỮ LIỆU**

**1.1. Import thư viện**

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime

**1.2. Import dữ liệu**

In [None]:
df = pd.read_excel('data.xlsx')

#### **II. XỬ LÝ VÀ LÀM SẠCH DỮ LIỆU**

**2.1. Xử lý dữ liệu bị thiếu**

In [None]:
# Kiểm tra dữ liệu 
df.isnull().sum()

In [None]:
# Điền "United States" đối với các dòng thiếu Country
df['Country'] = df['Country'].fillna('United States')

In [None]:
# Điền các dòng thiếu Profit Ratio theo công thức Profit Ratio = Profit/Sales


# Xóa $, khoảng trắng, chuyển kiểu dữ liệu thành số nguyên để tính toán 
df['Profit'] = pd.to_numeric(df['Profit'].astype(str).str.replace('$', '', regex=False).str.replace(',', '', regex=False).str.strip(), errors='coerce')
df['Sales'] = pd.to_numeric(df['Sales'].astype(str).str.replace('$', '', regex=False).str.replace(',', '', regex=False).str.strip(), errors='coerce')

# Tính lại Profit Ratio cho các giá trị NaN
df.loc[df['Profit Ratio'].isna(), 'Profit Ratio'] = df['Profit'] / df['Sales']


In [None]:
# Xóa các dòng thiếu Manufacturer hoặc Product Name
df.dropna(inplace=True)

**2.2. Xử lý dữ liệu trùng lặp**

In [None]:
# Xóa các dòng trùng lặp
df.drop_duplicates(inplace=True)

**2.3 Xóa cột không cần thiết**

In [None]:
df['Number of Records'].value_counts()      # Kiểm tra giá trị cột Number of Records

In [None]:
df.drop('Number of Records', axis=1, inplace=True)      # Number of Records (Số lượng bản ghi) chỉ toàn là 1 nên không cần thiết giữ lại

**2.3. Kiểm tra lại dữ liệu**

In [None]:
df.head()

In [None]:
df.isnull().sum()

In [None]:
# Kiểm tra kiểu dữ liệu
df.dtypes

#### **III. THÊM CỘT VÀO DF**

**3.1. Thêm 2 cột Customer ID - Product ID**

In [None]:
df['Customer ID'] = df['Customer Name'].factorize()[0] + 1               # mã hóa các giá trị duy nhất thành số nguyên
df['Customer ID'] = df['Customer ID'].apply(lambda x: f"C{x:04}")        # luôn là kiểu Cxxxx

In [None]:
df['Product ID'] = df['Product Name'].factorize()[0] + 1               # mã hóa các giá trị duy nhất thành số nguyên
df['Product ID'] = df['Product ID'].apply(lambda x: f"P{x:04}")        # luôn là kiểu Cxxxx

**3.2. Thêm cột Price**

In [None]:
# Công thức: Price = Sales / [Quantity * (1 - Discount)]

df['Price'] = round(df['Sales'] / (df['Quantity'] * (1 - df['Discount'])), 2)   # Chỉ lấy 2 chữ số thập phân

**3.3. Thêm 3 cột: Year - Quarter - Month từ Order Date**

In [None]:
df['Year'] = df['Order Date'].dt.year
df['Month'] = df['Order Date'].dt.month
df['Quarter'] = df['Order Date'].dt.quarter

#### **IV. TÁCH BẢNG**

In [None]:
sales = df[['Order ID', 'Customer ID', 'Product ID', 'Order Date', 'Ship Date', 'Ship Mode', 'Price', 'Quantity', 'Discount', 'Sales', 'Profit Ratio', 'Profit', 'Year', 'Quarter','Month']]

In [None]:
customers = df[['Customer ID', 'Customer Name', 'Segment', 'City', 'State', 'Postal Code', 'Region']]
customers.drop_duplicates(inplace=True)

In [None]:
products = df[['Product ID', 'Product Name', 'Category', 'Sub-Category', 'Manufacturer']]
products.drop_duplicates(inplace=True)

#### **V. LƯU BẢNG VỀ MÁY**

In [None]:
sales.to_csv('sales.csv', index=False)         # Không lưu chỉ mục
customers.to_csv('customers.csv', index=False)
products.to_csv('products.csv', index=False)