In [1]:
from sqlalchemy import create_engine, func
from sqlalchemy.orm import sessionmaker
from datetime import datetime

# Kết nối đến cả hai database
source_engine = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/intergrated_db')
warehouse_engine = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/datawarehouse')

SourceSession = sessionmaker(bind=source_engine)
WarehouseSession = sessionmaker(bind=warehouse_engine)

source_session = SourceSession()
warehouse_session = WarehouseSession()

In [None]:
# ----------- SQLAlchemy ORM Version -----------
from sqlalchemy import case, and_
from data
# Định nghĩa mức giá
price_conditions = [
    (DimItem.Gia < 100000, 'Low'),
    (and_(DimItem.Gia >= 100000, DimItem.Gia < 500000), 'Medium'),
    (DimItem.Gia >= 500000, 'High')
]
price_level = case(price_conditions, else_='Unknown').label('PriceLevel')

cube_complex = (
    session.query(
        # Time Dimensions
        DimTime.Tuan.label('Week'),
        DimTime.Thang.label('Month'),
        DimTime.Quy.label('Quarter'),
        DimTime.Nam.label('Year'),
        
        # Item Dimensions
        price_level,
        DimItem.TrongLuong.label('Weight'),
        
        # Store Dimensions
        DimGeo.Bang.label('State'),
        DimGeo.TenThanhPho.label('City'),
        
        # Customer Dimension
        DimCustomer.LoaiKH.label('CustomerType'),
        
        # Measures
        func.sum(FactSales.DoanhThu).label('TotalRevenue'),
        func.sum(FactSales.SoLuongBan).label('TotalQuantity')
    )
    .join(DimTime, FactSales.MaThoiGian == DimTime.MaThoiGian)
    .join(DimStore, FactSales.MaCuaHang == DimStore.MaCuaHang)
    .join(DimGeo, DimStore.MaThanhPho == DimGeo.MaThanhPho)
    .join(DimItem, FactSales.MaMH == DimItem.MaMH)
    .join(DimCustomer, FactSales.MaKH == DimCustomer.MaKH)
    .group_by(
        DimTime.Nam,
        DimTime.Quy,
        DimTime.Thang,
        DimTime.Tuan,
        price_level,
        DimItem.TrongLuong,
        DimGeo.Bang,
        DimGeo.TenThanhPho,
        DimCustomer.LoaiKH
    )
    .all()
)

In [2]:
! pip install tabulate

Collecting tabulate
  Downloading tabulate-0.9.0-py3-none-any.whl.metadata (34 kB)
Downloading tabulate-0.9.0-py3-none-any.whl (35 kB)
Installing collected packages: tabulate
Successfully installed tabulate-0.9.0


In [3]:
from tabulate import tabulate

# Dữ liệu OCR mẫu (đã sắp xếp)
data = [
    {"text": "Tên", "bbox": [10, 20, 30, 40]},
    {"text": "Tuổi", "bbox": [120, 20, 140, 40]},
    {"text": "Địa chỉ", "bbox": [240, 20, 340, 40]},
    {"text": "John", "bbox": [10, 60, 30, 80]},
    {"text": "30", "bbox": [120, 60, 140, 80]},
    {"text": "New York", "bbox": [240, 60, 340, 80]},
]

# Nhóm thành các hàng dựa trên tọa độ y1
rows = {}
for item in data:
    y = item["bbox"][1]
    if y not in rows:
        rows[y] = []
    rows[y].append(item)

# Sắp xếp các hàng và cột
sorted_rows = []
for y in sorted(rows.keys()):
    row = sorted(rows[y], key=lambda x: x["bbox"][0])
    sorted_rows.append([item["text"] for item in row])

# Tạo bảng Markdown
print(tabulate(sorted_rows, headers="firstrow", tablefmt="pipe"))

| Tên   |   Tuổi | Địa chỉ   |
|:------|-------:|:----------|
| John  |     30 | New York  |


In [1]:
import itertools

# Các cấp phân cấp của từng chiều

# Time hierarchy
time_levels = [
    [],
    ["t.Nam"],
    ["t.Nam", "t.Thang"],
    ["t.Nam", "t.Thang", "t.Quy"]
]

# Customer hierarchy
customer_levels = [
    [],
    ["c.LoaiKH"]
]

# Item hierarchy
item_levels = [
    [],
    ["i.MaMH"],
    ["i.MaMH", "i.KichCo"],
    ["i.MaMH", "i.KichCo", "i.TrongLuong"]
]

geo_levels = [
    [],
    ["g.Bang"],
    ["g.Bang", "g.MaThanhPho"]
]
# Danh sách tất cả các cột có thể có trong SELECT
all_columns = [
    ("t.Nam", "Year"),
    ("t.Thang", "Month"),
    ("t.Quy", "Quarter"),
    ("c.LoaiKH", "CustomerType"),
    ("i.MaMH", "ProductCode"),
    ("i.KichCo", "Size"),
    ("i.TrongLuong", "Weight"),
    ("g.Bang", "State"),
    ("g.MaThanhPho", "City"),

]

# FROM và JOIN cố định
from_clause = """
FROM fact_sales f
JOIN dim_time t ON f.MaThoiGian = t.MaThoiGian
JOIN dim_item i ON f.MaMH = i.MaMH
JOIN dim_customer c ON f.MaKH = c.MaKH
join dim_geo g on f.MaThanhPho = g.MaThanhPho
"""

# Phần SUM
select_sum = """
    SUM(f.SoLuongBan) AS TotalQuantity,
    SUM(f.DoanhThu) AS TotalRevenue
"""

# Sinh tổ hợp từ 3 cấp
queries = []

for t_idx, time in enumerate(time_levels):
    for c_idx, customer in enumerate(customer_levels):
        for i_idx, item in enumerate(item_levels):
            for g_idx, geo in enumerate(geo_levels):
                group_by_cols = time + customer + item + geo

                # Tạo phần SELECT
                select_parts = []
                for col, alias in all_columns:
                    if col in group_by_cols:
                        select_parts.append(col)
                    # else:
                    #     select_parts.append(f"NULL AS {alias}")

                select_clause = "SELECT \n    " + ",\n    ".join(select_parts) + ",\n    " + select_sum
                group_by_clause = ""
                if group_by_cols:
                    group_by_clause = "GROUP BY " + ", ".join(group_by_cols)

                full_query = f"{select_clause}\n{from_clause}\n{group_by_clause}".strip()
                with open(f"sql_query/time{t_idx}-{c_idx}-{i_idx}-{g_idx}.sql", "w", encoding="utf-8") as f:
                    f.write(full_query)



                queries.append(full_query)

# Ghép lại bằng UNION ALL
# final_sql = "\n\nUNION ALL\n\n".join(queries)

# # Ghi ra file
# with open("sql_query/group_by_hierarchy_cube.sql", "w", encoding="utf-8") as f:
#     f.write(final_sql)

print(f"✅ Đã sinh {len(queries)} tổ hợp GROUP BY phân cấp và lưu vào group_by_hierarchy_cube.sql")


✅ Đã sinh 96 tổ hợp GROUP BY phân cấp và lưu vào group_by_hierarchy_cube.sql


In [11]:
import clickhouse_connect

client = clickhouse_connect.get_client(
    host='localhost',
    port=8123,
    username='default',
    # database='test_db2',
    password='',  # nếu chưa set mật khẩu
)

# Tạo database mới
db_name = 'data_cube_v1'
client.command(f"CREATE DATABASE IF NOT EXISTS {db_name}")

print(f"✅ Database '{db_name}' đã được tạo")

✅ Database 'data_cube_v1' đã được tạo


In [9]:
client.command('CREATE TABLE new_table (key UInt32, value String, metric Float64) ENGINE MergeTree ORDER BY key')



<clickhouse_connect.driver.summary.QuerySummary at 0x201e70aecb0>

In [None]:
import itertools

# Các cấp phân cấp của từng chiều

# Time hierarchy
time_levels = [
    [],
    ["t.Nam"],
    ["t.Nam", "t.Thang"],
    ["t.Nam", "t.Thang", "t.Quy"]
]

# Customer hierarchy
customer_levels = [
    [],
    ["c.LoaiKH"]
]

# Item hierarchy
item_levels = [
    [],
    ["i.MaMH"],
    ["i.MaMH", "i.KichCo"],
    ["i.MaMH", "i.KichCo", "i.TrongLuong"]
]

geo_levels = [
    [],
    ["g.Bang"],
    ["g.Bang", "g.MaThanhPho"]
]
# Danh sách tất cả các cột có thể có trong SELECT
all_columns = [
    ("t.Nam", "Year"),
    ("t.Thang", "Month"),
    ("t.Quy", "Quarter"),
    ("c.LoaiKH", "CustomerType"),
    ("i.MaMH", "ProductCode"),
    ("i.KichCo", "Size"),
    ("i.TrongLuong", "Weight"),
    ("g.Bang", "State"),
    ("g.MaThanhPho", "City"),

]

# FROM và JOIN cố định
from_clause = """
FROM fact_sales f
JOIN dim_time t ON f.MaThoiGian = t.MaThoiGian
JOIN dim_item i ON f.MaMH = i.MaMH
JOIN dim_customer c ON f.MaKH = c.MaKH
join dim_geo g on f.MaThanhPho = g.MaThanhPho
"""

# Phần SUM
select_sum = """
    SUM(f.SoLuongBan) AS TotalQuantity,
    SUM(f.DoanhThu) AS TotalRevenue
"""

# Sinh tổ hợp từ 3 cấp
queries = []

for t_idx, time in enumerate(time_levels):
    for c_idx, customer in enumerate(customer_levels):
        for i_idx, item in enumerate(item_levels):
            for g_idx, geo in enumerate(geo_levels):
                group_by_cols = time + customer + item + geo

                # Tạo phần SELECT
                select_parts = []

                for col, alias in all_columns:
                    if col in group_by_cols:
                        select_parts.append(col)
                
                if c_idx > 0:
                    select_parts.append("c.TenKH")
                if g_idx == 2:
                    select_parts.append("g.TenThanhPho")

                if i_idx > 0:
                    select_parts.append("i.TenMH")

                    # else:
                    #     select_parts.append(f"NULL AS {alias}")

                select_clause = "SELECT \n    " + ",\n    ".join(select_parts) + ",\n    " + select_sum
                group_by_clause = ""
                if group_by_cols:
                    group_by_clause = "GROUP BY " + ", ".join(group_by_cols)

                full_query = f"{select_clause}\n{from_clause}\n{group_by_clause}".strip()
                with open(f"sql_query/time{t_idx}-customer{c_idx}-item{i_idx}-geo{g_idx}.sql", "w", encoding="utf-8") as f:
                    f.write(full_query)



                queries.append(full_query)

# Ghép lại bằng UNION ALL
# final_sql = "\n\nUNION ALL\n\n".join(queries)

# # Ghi ra file
# with open("sql_query/group_by_hierarchy_cube.sql", "w", encoding="utf-8") as f:
#     f.write(final_sql)

print(f"✅ Đã sinh {len(queries)} tổ hợp GROUP BY phân cấp và lưu vào group_by_hierarchy_cube.sql")


✅ Đã sinh 96 tổ hợp GROUP BY phân cấp và lưu vào group_by_hierarchy_cube.sql
