# EDA Overview - Tổng quan Dataset Winner Group Analytics

### Mục tiêu phân tích
- **Đánh giá chất lượng dữ liệu tổng thể**: Kiểm tra tính toàn vẹn và độ tin cậy của dữ liệu
- **Hiểu cấu trúc và quy mô dataset**: Nắm bắt tổng quan về dữ liệu có sẵn
- **Xác định các vấn đề dữ liệu cần xử lý**: Tìm ra những điểm cần cải thiện

### Nội dung phân tích chính
1. **Đánh giá chất lượng dữ liệu**
   - Phân tích giá trị thiếu (missing values)
   - Phát hiện dữ liệu trùng lặp
   - Xác thực kiểu dữ liệu
   - Xác định giá trị ngoại lai

2. **Cấu trúc Dataset**
   - Mối quan hệ giữa các bảng
   - Phân tích khối lượng dữ liệu
   - Phạm vi thời gian
   - Phạm vi địa lý

3. **Tổng quan chỉ số kinh doanh**
   - Tổng đơn hàng, khách hàng, sản phẩm
   - Xu hướng doanh thu
   - Tỷ lệ tăng trưởng

### Chỉ số đánh giá quan trọng
- **Độ hoàn chỉnh dữ liệu**: % dữ liệu hoàn chỉnh
- **Độ mới của dữ liệu**: Thời gian cập nhật cuối
- **Khối lượng dữ liệu**: Số lượng records, kích thước database


## 1. Đánh giá chất lượng dữ liệu


In [None]:
# Import các thư viện cần thiết
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine, text
import warnings
import os
from dotenv import load_dotenv
from datetime import datetime

# Thiết lập hiển thị
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

# Load thông tin kết nối database
load_dotenv()

# Thông tin kết nối Silver database
DB_USER = os.getenv("DB_USER")
DB_PASS = os.getenv("DB_PASS") 
DB_HOST = os.getenv("DB_HOST")
DB_PORT = os.getenv("DB_PORT")
DB_SILVER = os.getenv("DB_SILVER")

# Tạo kết nối đến Silver database
silver_engine = create_engine(f"mysql+pymysql://{DB_USER}:{DB_PASS}@{DB_HOST}:{DB_PORT}/{DB_SILVER}")


In [27]:
# Nạp dữ liệu vào data frame

fact_order_items = pd.read_sql_table('fact_order_items', silver_engine)
fact_orders = pd.read_sql_table('fact_orders', silver_engine)
dim_order_payments = pd.read_sql_table('dim_order_payments', silver_engine)
dim_order_shipping = pd.read_sql_table('dim_order_shipping', silver_engine)
dim_customers = pd.read_sql_table('dim_customers', silver_engine)
dim_date = pd.read_sql_table('dim_date', silver_engine)
dim_order_pages = pd.read_sql_table('dim_order_pages', silver_engine)
dim_products = pd.read_sql_table('dim_products', silver_engine)
dim_order_warehouses = pd.read_sql_table('dim_order_warehouses', silver_engine)
dim_shops = pd.read_sql_table('dim_shops', silver_engine)

### 1.1. Missing values analysis:

In [32]:
table = [fact_order_items, fact_orders, dim_order_payments, dim_order_shipping, dim_customers, dim_date, dim_order_pages, dim_products, dim_order_warehouses, dim_shops]
for i in table:
    print('='*20)
    print(i.shape)
    print(i.isnull().sum())


(46611, 11)
order_item_id      0
order_id           0
product_id         0
variation_id       0
item_quantity      0
item_price         0
item_discount      0
return_quantity    0
returned_count     0
product_name       0
product_detail     0
dtype: int64
(40236, 25)
order_id                           0
system_id                          0
shop_id                            0
order_link                         0
link_confirm_order                 0
order_currency                     0
total_price                        0
total_price_after_sub_discount     0
total_discount                     0
total_quantity                     0
items_length                       0
tax                                0
shipping_fee                       0
money_to_collect                   0
is_free_shipping                   0
customer_id                        0
page_id                           10
warehouse_id                       0
shipping_id                        0
payment_id                   