In [None]:

# ==============================================
# 📊 EDA cho dữ liệu Online Retail
# ==============================================

# 1. Import thư viện cần thiết
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Hiển thị biểu đồ đẹp hơn
plt.style.use("seaborn-v0_8")
sns.set_palette("Set2")

# 2. Đọc dữ liệu
file_path = "Online Retail.xlsx"  # thay bằng đường dẫn file bạn giải nén
df = pd.read_excel(file_path)

# 3. Tổng quan dữ liệu
print("📌 Kích thước dataset:", df.shape)
print("\n📌 Thông tin dữ liệu:")
print(df.info())
print("\n📌 5 dòng đầu:")
print(df.head())

# 4. Kiểm tra dữ liệu thiếu
print("\n📌 Số lượng missing values:")
print(df.isnull().sum())

# 5. Xử lý dữ liệu
# Xóa dòng thiếu CustomerID
df = df.dropna(subset=['CustomerID'])

# Loại bỏ giá trị Quantity <= 0 hoặc UnitPrice <= 0
df = df[(df['Quantity'] > 0) & (df['UnitPrice'] > 0)]

# Thêm cột Doanh thu
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

# 6. Phân tích cơ bản
print("\n📌 Top 10 quốc gia có nhiều đơn hàng nhất:")
print(df['Country'].value_counts().head(10))

print("\n📌 Top 10 sản phẩm bán nhiều nhất:")
print(df.groupby('Description')['Quantity'].sum().sort_values(ascending=False).head(10))

# 7. Trực quan hóa dữ liệu
# Top 10 quốc gia (ngoại trừ UK)
top_countries = df[df['Country'] != 'United Kingdom']['Country'].value_counts().head(10)
plt.figure(figsize=(10,5))
sns.barplot(x=top_countries.values, y=top_countries.index)
plt.title("Top 10 quốc gia (ngoại trừ UK)")
plt.xlabel("Số lượng đơn hàng")
plt.ylabel("Quốc gia")
plt.show()

# Doanh thu theo tháng
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
df['Month'] = df['InvoiceDate'].dt.to_period('M')

monthly_revenue = df.groupby('Month')['TotalPrice'].sum()

plt.figure(figsize=(12,6))
monthly_revenue.plot(kind='line', marker='o')
plt.title("Doanh thu theo tháng")
plt.xlabel("Tháng")
plt.ylabel("Doanh thu (£)")
plt.grid(True)
plt.show()

# Heatmap: Doanh thu theo quốc gia & tháng
pivot_country_month = df.pivot_table(index='Country', columns='Month', values='TotalPrice', aggfunc='sum').fillna(0)

plt.figure(figsize=(15,8))
sns.heatmap(pivot_country_month, cmap="YlGnBu", cbar_kws={'label': 'Doanh thu (£)'})
plt.title("Heatmap Doanh thu theo Quốc gia và Tháng")
plt.show()
