In [12]:
import pandas as pd
from sqlalchemy import create_engine

In [13]:
import os

# Lấy thư mục hiện tại (thường là thư mục chứa notebook)
base_dir = os.getcwd() 

# Nối đường dẫn tương đối với base_dir để đến thư mục data
# Giả sử notebook của bạn nằm trong thư mục 'src'
db_path = os.path.join(base_dir, '..', 'data', 'warehouse.db')

# Chuẩn hóa đường dẫn để loại bỏ '..'
db_path = os.path.abspath(db_path)

print(f"Đường dẫn đến cơ sở dữ liệu là: {db_path}")


Đường dẫn đến cơ sở dữ liệu là: c:\Users\Admin\PYTHON_CODE\DE_Project\ecommerce-data-pipeline\data\warehouse.db


In [14]:
engine_url = f"sqlite:///{db_path}" 

print(engine_url)

sqlite:///c:\Users\Admin\PYTHON_CODE\DE_Project\ecommerce-data-pipeline\data\warehouse.db


In [18]:
print("--- BÁO CÁO PHÂN TÍCH NHANH ---")
    
# Top 5 quốc gia có doanh thu cao nhất?
query_1 = """
SELECT 
    c.Country, 
    SUM(f.TotalAmount) as Revenue
FROM fact_sales f
JOIN dim_customer c ON f."Customer ID" = c."Customer ID"
GROUP BY c.Country
ORDER BY Revenue DESC
LIMIT 5;
"""

print("\n1. Top 5 Quốc gia theo doanh thu:")
# Đọc dữ liệu vào DataFrame
df_top_revenue = pd.read_sql(query_1, engine_url)

df_top_revenue['Revenue'] = df_top_revenue['Revenue'].apply(lambda x: f'{x:,.0f}')

print(df_top_revenue.to_string(index=False))


--- BÁO CÁO PHÂN TÍCH NHANH ---

1. Top 5 Quốc gia theo doanh thu:
       Country    Revenue
United Kingdom 14,723,349
          EIRE    622,355
   Netherlands    554,232
       Germany    432,182
        France    355,596


In [20]:
query_2 = """
    SELECT 
        p.Description, 
        SUM(f.Quantity) as TotalQuantity
    FROM fact_sales f
    JOIN dim_product p ON f.StockCode = p.StockCode
    GROUP BY p.Description
    ORDER BY TotalQuantity DESC
    LIMIT 5;
    """
print("\n2. Top 5 Sản phẩm bán chạy nhất:")
print(pd.read_sql(query_2, engine_url))


2. Top 5 Sản phẩm bán chạy nhất:
                          Description  TotalQuantity
0   WORLD WAR 2 GLIDERS ASSTD DESIGNS         109169
1         JUMBO BAG RED WHITE SPOTTY           94983
2  WHITE HANGING HEART T-LIGHT HOLDER          93697
3    PACK OF 72 RETRO SPOT CAKE CASES          91263
4         PAPER CRAFT , LITTLE BIRDIE          80995


In [22]:
query_3 = """
    SELECT p.Description, SUM(f.Quantity) as TotalQuantity
    FROM fact_sales f
    JOIN dim_product p ON f.StockCode = p.StockCode
    GROUP BY p.Description
    ORDER BY TotalQuantity DESC
    LIMIT 10;
"""
print("\n3. Top 10 Sản phẩm bán chạy nhất:")
print(pd.read_sql(query_3, engine_url))


3. Top 10 Sản phẩm bán chạy nhất:
                          Description  TotalQuantity
0   WORLD WAR 2 GLIDERS ASSTD DESIGNS         109169
1         JUMBO BAG RED WHITE SPOTTY           94983
2  WHITE HANGING HEART T-LIGHT HOLDER          93697
3    PACK OF 72 RETRO SPOT CAKE CASES          91263
4         PAPER CRAFT , LITTLE BIRDIE          80995
5       ASSORTED COLOUR BIRD ORNAMENT          79913
6             POPCORN HOLDER , SMALL           77971
7      MEDIUM CERAMIC TOP STORAGE JAR          77916
8                 BROCADE RING PURSE           71129
9  PACK OF 60 PINK PAISLEY CAKE CASES          55270


In [25]:
query_4 = """
    SELECT 
        strftime('%Y-%m', f.InvoiceDate) as SalesMonth,
        SUM(f.TotalAmount) as MonthlyRevenue
    FROM fact_sales f
    GROUP BY SalesMonth
    ORDER BY SalesMonth;
"""
print("\n4. Doanh thu hàng tháng:")
print(pd.read_sql(query_4, engine_url))


4. Doanh thu hàng tháng:
   SalesMonth  MonthlyRevenue
0     2009-12      686654.160
1     2010-01      557319.062
2     2010-02      506371.066
3     2010-03      699608.991
4     2010-04      594609.192
5     2010-05      599985.790
6     2010-06      639066.580
7     2010-07      591636.740
8     2010-08      604242.650
9     2010-09      831615.001
10    2010-10     1036680.000
11    2010-11     1172336.042
12    2010-12      884591.890
13    2011-01      569445.040
14    2011-02      447137.350
15    2011-03      595500.760
16    2011-04      469200.361
17    2011-05      678594.560
18    2011-06      661213.690
19    2011-07      600091.011
20    2011-08      645343.900
21    2011-09      952838.382
22    2011-10     1039318.790
23    2011-11     1161817.380
24    2011-12      518210.790


In [26]:
query_5 = """
-- Dành cho SQLite
    SELECT 
        strftime('%Y-%m', f.InvoiceDate) as SalesMonth,
        SUM(f.TotalAmount) as MonthlyRevenue
    FROM fact_sales f
    GROUP BY SalesMonth
    ORDER BY SalesMonth;
"""
print("\n4. Doanh thu hàng tháng:")
print(pd.read_sql(query_4, engine_url))


4. Doanh thu hàng tháng:
   SalesMonth  MonthlyRevenue
0     2009-12      686654.160
1     2010-01      557319.062
2     2010-02      506371.066
3     2010-03      699608.991
4     2010-04      594609.192
5     2010-05      599985.790
6     2010-06      639066.580
7     2010-07      591636.740
8     2010-08      604242.650
9     2010-09      831615.001
10    2010-10     1036680.000
11    2010-11     1172336.042
12    2010-12      884591.890
13    2011-01      569445.040
14    2011-02      447137.350
15    2011-03      595500.760
16    2011-04      469200.361
17    2011-05      678594.560
18    2011-06      661213.690
19    2011-07      600091.011
20    2011-08      645343.900
21    2011-09      952838.382
22    2011-10     1039318.790
23    2011-11     1161817.380
24    2011-12      518210.790
