In [1]:
from sqlalchemy import create_engine, func
from sqlalchemy.orm import sessionmaker
from datetime import datetime

# Kết nối đến cả hai database
source_engine = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/intergrated_db')
warehouse_engine = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/datawarehouse')

SourceSession = sessionmaker(bind=source_engine)
WarehouseSession = sessionmaker(bind=warehouse_engine)

source_session = SourceSession()
warehouse_session = WarehouseSession()

In [None]:
# ----------- SQLAlchemy ORM Version -----------
from sqlalchemy import case, and_
from data
# Định nghĩa mức giá
price_conditions = [
    (DimItem.Gia < 100000, 'Low'),
    (and_(DimItem.Gia >= 100000, DimItem.Gia < 500000), 'Medium'),
    (DimItem.Gia >= 500000, 'High')
]
price_level = case(price_conditions, else_='Unknown').label('PriceLevel')

cube_complex = (
    session.query(
        # Time Dimensions
        DimTime.Tuan.label('Week'),
        DimTime.Thang.label('Month'),
        DimTime.Quy.label('Quarter'),
        DimTime.Nam.label('Year'),
        
        # Item Dimensions
        price_level,
        DimItem.TrongLuong.label('Weight'),
        
        # Store Dimensions
        DimGeo.Bang.label('State'),
        DimGeo.TenThanhPho.label('City'),
        
        # Customer Dimension
        DimCustomer.LoaiKH.label('CustomerType'),
        
        # Measures
        func.sum(FactSales.DoanhThu).label('TotalRevenue'),
        func.sum(FactSales.SoLuongBan).label('TotalQuantity')
    )
    .join(DimTime, FactSales.MaThoiGian == DimTime.MaThoiGian)
    .join(DimStore, FactSales.MaCuaHang == DimStore.MaCuaHang)
    .join(DimGeo, DimStore.MaThanhPho == DimGeo.MaThanhPho)
    .join(DimItem, FactSales.MaMH == DimItem.MaMH)
    .join(DimCustomer, FactSales.MaKH == DimCustomer.MaKH)
    .group_by(
        DimTime.Nam,
        DimTime.Quy,
        DimTime.Thang,
        DimTime.Tuan,
        price_level,
        DimItem.TrongLuong,
        DimGeo.Bang,
        DimGeo.TenThanhPho,
        DimCustomer.LoaiKH
    )
    .all()
)

In [2]:
! pip install tabulate

Collecting tabulate
  Downloading tabulate-0.9.0-py3-none-any.whl.metadata (34 kB)
Downloading tabulate-0.9.0-py3-none-any.whl (35 kB)
Installing collected packages: tabulate
Successfully installed tabulate-0.9.0


In [3]:
from tabulate import tabulate

# Dữ liệu OCR mẫu (đã sắp xếp)
data = [
    {"text": "Tên", "bbox": [10, 20, 30, 40]},
    {"text": "Tuổi", "bbox": [120, 20, 140, 40]},
    {"text": "Địa chỉ", "bbox": [240, 20, 340, 40]},
    {"text": "John", "bbox": [10, 60, 30, 80]},
    {"text": "30", "bbox": [120, 60, 140, 80]},
    {"text": "New York", "bbox": [240, 60, 340, 80]},
]

# Nhóm thành các hàng dựa trên tọa độ y1
rows = {}
for item in data:
    y = item["bbox"][1]
    if y not in rows:
        rows[y] = []
    rows[y].append(item)

# Sắp xếp các hàng và cột
sorted_rows = []
for y in sorted(rows.keys()):
    row = sorted(rows[y], key=lambda x: x["bbox"][0])
    sorted_rows.append([item["text"] for item in row])

# Tạo bảng Markdown
print(tabulate(sorted_rows, headers="firstrow", tablefmt="pipe"))

| Tên   |   Tuổi | Địa chỉ   |
|:------|-------:|:----------|
| John  |     30 | New York  |


In [None]:
# import itertools

# # Các cấp phân cấp của từng chiều

# # Time hierarchy
# time_levels = [
#     [],
#     ["t.Nam"],
#     ["t.Nam", "t.Thang"],
#     ["t.Nam", "t.Thang", "t.Quy"]
# ]

# # Customer hierarchy
# customer_levels = [
#     [],
#     ["c.LoaiKH"]
# ]

# # Item hierarchy
# item_levels = [
#     [],
#     ["i.KichCo"],
#     ["i.TrongLuong"],
#     ["i.MaMH"],
#     ["i.KichCo", "i.TrongLuong"],
#     ["i.KichCo", "i.TrongLuong", "i.MaMH"],
#     # ["i.MaMH"],
#     # ["i.MaMH", "i.KichCo"],
#     # ["i.MaMH", "i.KichCo", "i.TrongLuong"]
# ]

# geo_levels = [
#     [],
#     ["g.Bang"],
#     ["g.Bang", "g.MaThanhPho"]
# ]
# # Danh sách tất cả các cột có thể có trong SELECT
# all_columns = [
#     ("t.Nam", "Year"),
#     ("t.Thang", "Month"),
#     ("t.Quy", "Quarter"),
#     ("c.LoaiKH", "CustomerType"),
#     ("i.MaMH", "ProductCode"),
#     ("i.KichCo", "Size"),
#     ("i.TrongLuong", "Weight"),
#     ("g.Bang", "State"),
#     ("g.MaThanhPho", "City"),

# ]

# # FROM và JOIN cố định
# from_clause = """
# FROM fact_sales f
# JOIN dim_time t ON f.MaThoiGian = t.MaThoiGian
# JOIN dim_item i ON f.MaMH = i.MaMH
# JOIN dim_customer c ON f.MaKH = c.MaKH
# join dim_geo g on f.MaThanhPho = g.MaThanhPho
# """

# # Phần SUM
# select_sum = """
#     SUM(f.SoLuongBan) AS TotalQuantity,
#     SUM(f.DoanhThu) AS TotalRevenue
# """

# # Sinh tổ hợp từ 3 cấp
# queries = []

# for t_idx, time in enumerate(time_levels):
#     for c_idx, customer in enumerate(customer_levels):
#         for i_idx, item in enumerate(item_levels):
#             for g_idx, geo in enumerate(geo_levels):
#                 group_by_cols = time + customer + item + geo

#                 # Tạo phần SELECT
#                 select_parts = []
#                 for col, alias in all_columns:
#                     if col in group_by_cols:
#                         select_parts.append(col)
#                     # else:
#                     #     select_parts.append(f"NULL AS {alias}")

#                 select_clause = "SELECT \n    " + ",\n    ".join(select_parts) + ",\n    " + select_sum
#                 group_by_clause = ""
#                 if group_by_cols:
#                     group_by_clause = "GROUP BY " + ", ".join(group_by_cols)

#                 full_query = f"{select_clause}\n{from_clause}\n{group_by_clause}".strip()
#                 with open(f"sql_query/time{t_idx}-{c_idx}-{i_idx}-{g_idx}.sql", "w", encoding="utf-8") as f:
#                     f.write(full_query)



#                 queries.append(full_query)

# # Ghép lại bằng UNION ALL
# # final_sql = "\n\nUNION ALL\n\n".join(queries)

# # # Ghi ra file
# # with open("sql_query/group_by_hierarchy_cube.sql", "w", encoding="utf-8") as f:
# #     f.write(final_sql)

# print(f"✅ Đã sinh {len(queries)} tổ hợp GROUP BY phân cấp và lưu vào group_by_hierarchy_cube.sql")


✅ Đã sinh 96 tổ hợp GROUP BY phân cấp và lưu vào group_by_hierarchy_cube.sql


In [11]:
import clickhouse_connect

client = clickhouse_connect.get_client(
    host='localhost',
    port=8123,
    username='default',
    # database='test_db2',
    password='',  # nếu chưa set mật khẩu
)

# Tạo database mới
db_name = 'data_cube_v1'
client.command(f"CREATE DATABASE IF NOT EXISTS {db_name}")

print(f"✅ Database '{db_name}' đã được tạo")

✅ Database 'data_cube_v1' đã được tạo


In [9]:
client.command('CREATE TABLE new_table (key UInt32, value String, metric Float64) ENGINE MergeTree ORDER BY key')



<clickhouse_connect.driver.summary.QuerySummary at 0x201e70aecb0>

In [1]:
## Sinh sql cho sales_fact

# Các cấp phân cấp của từng chiều

# Time hierarchy
time_levels = [
    [],
    ["t.Nam"],
    ["t.Nam", "t.Quy"],
    ["t.Nam", "t.Quy", "t.Thang"]
]

# Customer hierarchy
customer_levels = [
    [],
    ["c.LoaiKH"]
]

# Item hierarchy
item_levels = [
    [],
    ["i.KichCo"],
    ['WeightRange'],
    ["i.MaMH"],
    ["i.KichCo", "WeightRange"]
]

geo_levels = [
    [],
    ["g.Bang"],
    ["g.Bang", "g.MaThanhPho"]
]
# Danh sách tất cả các cột có thể có trong SELECT
all_columns = [
    ("t.Nam", "Year"),
    ("t.Thang", "Month"),
    ("t.Quy", "Quarter"),
    ("c.LoaiKH", "CustomerType"),
    ("i.MaMH", "ProductCode"),
    ("i.KichCo", "Size"),
    ("i.TrongLuong", "Weight"),
    ("g.Bang", "State"),
    ("g.MaThanhPho", "City")

]

# FROM và JOIN cố định
from_clause = """
FROM fact_sales f
JOIN dim_time t ON f.MaThoiGian = t.MaThoiGian
JOIN dim_item i ON f.MaMH = i.MaMH
JOIN dim_customer c ON f.MaKH = c.MaKH
join dim_geo g on f.MaThanhPho = g.MaThanhPho
"""

# Phần SUM
select_sum = """
    SUM(f.SoLuongBan) AS TotalQuantity,
    SUM(f.DoanhThu) AS TotalRevenue
"""

hiararchy_weght = """
CASE
    WHEN i.TrongLuong >= 0 AND i.TrongLuong < 3 THEN '0-3'
    WHEN i.TrongLuong >= 3 AND i.TrongLuong < 5 THEN '3-5'
    WHEN i.TrongLuong >= 5 AND i.TrongLuong < 8 THEN '5-8'
    WHEN i.TrongLuong >= 8 THEN '8+'
    ELSE 'Unknown'
END AS WeightRange
"""


# Sinh tổ hợp từ 3 cấp
queries = []

for t_idx, time in enumerate(time_levels):
    for c_idx, customer in enumerate(customer_levels):
        for i_idx, item in enumerate(item_levels):
            for g_idx, geo in enumerate(geo_levels):
                group_by_cols = time + customer + item + geo

                # Tạo phần SELECT
                select_parts = []

                for col, alias in all_columns:
                    if col in group_by_cols:
                        select_parts.append(col)
                
                # if c_idx > 0:
                #     select_parts.append("c.TenKH")
                if g_idx == 2:
                    select_parts.append("g.TenThanhPho")

                if i_idx == 3:
                    select_parts.append("i.MoTa")

                    # else:
                    #     select_parts.append(f"NULL AS {alias}")


                if len(select_parts) > 0:
                    select_parts = ",\n    ".join(select_parts)
                else:
                    select_parts = "\n"

                select_clause = "SELECT \n    " + select_parts + ",\n    " + select_sum
                if i_idx == 2 or i_idx == 4:
                    if i_idx == 4:
                        select_clause = "SELECT \n    " + select_parts + ",\n    " + hiararchy_weght + ",\n    " + select_sum
                    else:
                        if select_parts == '\n':
                            select_clause = "SELECT \n    " + "\n    " + hiararchy_weght + ",\n    " + select_sum
                        else:
                            select_clause = "SELECT \n    " + select_parts + ",\n    " + hiararchy_weght + ",\n    " + select_sum


                if i_idx == 2 and g_idx ==0  and c_idx == 0 and t_idx == 0:
                    print(select_clause)
                group_by_clause = ""
                if group_by_cols:
                    group_by_clause = "GROUP BY " + ", ".join(group_by_cols)



                full_query = f"{select_clause}\n{from_clause}\n{group_by_clause}".strip()

                if t_idx+c_idx+i_idx+g_idx > 0:
                    with open(f"sql_data_cube/sales_fact/time{t_idx}-customer{c_idx}-item{i_idx}-geo{g_idx}.sql", "w", encoding="utf-8") as f:
                        f.write(full_query)



                    queries.append(full_query)

# Ghép lại bằng UNION ALL
# final_sql = "\n\nUNION ALL\n\n".join(queries)

# # Ghi ra file
# with open("sql_query/group_by_hierarchy_cube.sql", "w", encoding="utf-8") as f:
#     f.write(final_sql)

print(f"✅ Đã sinh {len(queries)} tổ hợp GROUP BY phân cấp")


SELECT 
    
    
CASE
    WHEN i.TrongLuong >= 0 AND i.TrongLuong < 3 THEN '0-3'
    WHEN i.TrongLuong >= 3 AND i.TrongLuong < 5 THEN '3-5'
    WHEN i.TrongLuong >= 5 AND i.TrongLuong < 8 THEN '5-8'
    WHEN i.TrongLuong >= 8 THEN '8+'
    ELSE 'Unknown'
END AS WeightRange
,
    
    SUM(f.SoLuongBan) AS TotalQuantity,
    SUM(f.DoanhThu) AS TotalRevenue

✅ Đã sinh 119 tổ hợp GROUP BY phân cấp


In [6]:
#### Data cube for inventory

# Time hierarchy
time_levels = [
    [],
    ["t.Nam"],
    ["t.Nam", "t.Quy"],
    ["t.Nam", "t.Quy", "t.Thang"]
]

# Customer hierarchy
store_levels = [
    [],
    ["s.MaCuaHang"]
]

# Item hierarchy
item_levels = [
    [],
    ["i.KichCo"],
    ['WeightRange'],
    ["i.MaMH"],
    ["i.KichCo", "WeightRange"]
]

geo_levels = [
    [],
    ["g.Bang"],
    ["g.Bang", "g.MaThanhPho"]
]
# Danh sách tất cả các cột có thể có trong SELECT
all_columns = [
    ("t.Nam", "Year"),
    ("t.Thang", "Month"),
    ("t.Quy", "Quarter"),
    ("i.MaMH", "ProductCode"),
    ("i.KichCo", "Size"),
    ("i.TrongLuong", "Weight"),
    ("g.Bang", "State"),
    ("g.MaThanhPho", "City"),
    ("s.MaCuaHang", "StoreCode"),


]

# FROM và JOIN cố định
from_clause = """
FROM fact_inventory f
JOIN dim_time t ON f.MaThoiGian = t.MaThoiGian
JOIN dim_item i ON f.MaMH = i.MaMH
join dim_store s on f.MaCuaHang = s.MaCuaHang
join dim_geo g on s.MaThanhPho = g.MaThanhPho
"""

# Phần SUM
select_sum = """
    SUM(f.SoLuongTonKho) AS TotalInventory
"""
hiararchy_weght = """
CASE
    WHEN i.TrongLuong >= 0 AND i.TrongLuong < 3 THEN '0-3'
    WHEN i.TrongLuong >= 3 AND i.TrongLuong < 5 THEN '3-5'
    WHEN i.TrongLuong >= 5 AND i.TrongLuong < 8 THEN '5-8'
    WHEN i.TrongLuong >= 8 THEN '8+'
    ELSE 'Unknown'
END AS WeightRange
"""
# Sinh tổ hợp từ 3 cấp
queries = []

for t_idx, time in enumerate(time_levels):
    for s_idx, store in enumerate(store_levels):
        for i_idx, item in enumerate(item_levels):
            for g_idx, geo in enumerate(geo_levels):
                group_by_cols = time + store + item + geo

                # Tạo phần SELECT
                select_parts = []

                for col, alias in all_columns:
                    if col in group_by_cols:
                        select_parts.append(col)
                    if i_idx == 2 and g_idx == 2 and s_idx == 1 and t_idx == 3:
                        print(select_parts)
                        # print(group_by_cols)
                        # print(col in group_by_cols)
                        # print(col)
                # if c_idx > 0:
                #     select_parts.append("c.TenKH")
                if s_idx > 0:
                    select_parts.append("s.SoDienThoai")
                if g_idx == 2:
                    select_parts.append("g.TenThanhPho")

                if i_idx == 3:
                    select_parts.append("i.MoTa")


                select_clause = None
                if len(select_parts) > 0:
                    select_parts = ",\n    ".join(select_parts)
                    
                else:
                    select_parts = "\n"


                select_clause = "SELECT \n    " + select_parts + ",\n    " + select_sum

        

                if i_idx == 2 or i_idx == 4:
                    if i_idx == 4:
                        select_clause = "SELECT \n    " + select_parts + ",\n    " + hiararchy_weght + ",\n    " + select_sum
                    else:
                        if select_parts == '\n':
                            select_clause = "SELECT \n    " + "\n    " + hiararchy_weght + ",\n    " + select_sum
                        else:
                            select_clause = "SELECT \n    " + select_parts + ",\n    " + hiararchy_weght + ",\n    " + select_sum

                if i_idx == 2 and g_idx ==0  and s_idx == 0 and t_idx == 0:
                    print(select_clause)


                group_by_clause = ""
                if group_by_cols:
                    group_by_clause = "GROUP BY " + ", ".join(group_by_cols)

                full_query = f"{select_clause}\n{from_clause}\n{group_by_clause}".strip()

                if t_idx+s_idx+i_idx+g_idx > 0:
                    with open(f"sql_data_cube/inventory_fact/time{t_idx}-store{s_idx}-item{i_idx}-geo{g_idx}.sql", "w", encoding="utf-8") as f:
                        f.write(full_query)



                    queries.append(full_query)

# Ghép lại bằng UNION ALL
# final_sql = "\n\nUNION ALL\n\n".join(queries)

# # Ghi ra file
# with open("sql_query/group_by_hierarchy_cube.sql", "w", encoding="utf-8") as f:
#     f.write(final_sql)

print(f"✅ Đã sinh {len(queries)} tổ hợp GROUP BY phân cấp")


SELECT 
    
    
CASE
    WHEN i.TrongLuong >= 0 AND i.TrongLuong < 3 THEN '0-3'
    WHEN i.TrongLuong >= 3 AND i.TrongLuong < 5 THEN '3-5'
    WHEN i.TrongLuong >= 5 AND i.TrongLuong < 8 THEN '5-8'
    WHEN i.TrongLuong >= 8 THEN '8+'
    ELSE 'Unknown'
END AS WeightRange
,
    
    SUM(f.SoLuongTonKho) AS TotalInventory

['t.Nam']
['t.Nam', 't.Thang']
['t.Nam', 't.Thang', 't.Quy']
['t.Nam', 't.Thang', 't.Quy']
['t.Nam', 't.Thang', 't.Quy']
['t.Nam', 't.Thang', 't.Quy']
['t.Nam', 't.Thang', 't.Quy', 'g.Bang']
['t.Nam', 't.Thang', 't.Quy', 'g.Bang', 'g.MaThanhPho']
['t.Nam', 't.Thang', 't.Quy', 'g.Bang', 'g.MaThanhPho', 's.MaCuaHang']
✅ Đã sinh 119 tổ hợp GROUP BY phân cấp


In [9]:
import os
from sqlalchemy import create_engine, text

# Engine đã được định nghĩa sẵn
warehouse_engine = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/datawarehouse')

# Thư mục chứa các file .sql


def execute_sql_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        sql_statement = f.read().strip()

    if not sql_statement:
        print("🚫 File rỗng, bỏ qua.")
        return

    with warehouse_engine.connect() as conn:
        try:
            conn.execute(text(sql_statement))
            print(f"✅ Đã thực thi thành công: {file_path}...")
        except Exception as e:
            print(f"❌ Lỗi khi chạy lệnh từ file {file_path}: {e}")
            # raise  # Dừng nếu gặp lỗi

def run_all_sql_files(sql_folder):
    # Lấy danh sách file .sql và sắp xếp theo tên
    sql_files = sorted([f for f in os.listdir(sql_folder) if f.endswith('.sql')])

    for sql_file in sql_files:
        file_path = os.path.join(sql_folder, sql_file)
        print(f"\n🚀 Đang chạy file: {sql_file}")
        execute_sql_file(file_path)

    print("\n🎉 Hoàn tất chạy tất cả các file SQL.")

if __name__ == '__main__':
    inventory = 'sql_data_cube/inventory_fact'
    run_all_sql_files(inventory)


🚀 Đang chạy file: time0-store0-item0-geo1.sql
✅ Đã thực thi thành công: sql_data_cube/inventory_fact\time0-store0-item0-geo1.sql...

🚀 Đang chạy file: time0-store0-item0-geo2.sql
✅ Đã thực thi thành công: sql_data_cube/inventory_fact\time0-store0-item0-geo2.sql...

🚀 Đang chạy file: time0-store0-item1-geo0.sql
✅ Đã thực thi thành công: sql_data_cube/inventory_fact\time0-store0-item1-geo0.sql...

🚀 Đang chạy file: time0-store0-item1-geo1.sql
✅ Đã thực thi thành công: sql_data_cube/inventory_fact\time0-store0-item1-geo1.sql...

🚀 Đang chạy file: time0-store0-item1-geo2.sql
✅ Đã thực thi thành công: sql_data_cube/inventory_fact\time0-store0-item1-geo2.sql...

🚀 Đang chạy file: time0-store0-item2-geo0.sql
✅ Đã thực thi thành công: sql_data_cube/inventory_fact\time0-store0-item2-geo0.sql...

🚀 Đang chạy file: time0-store0-item2-geo1.sql
✅ Đã thực thi thành công: sql_data_cube/inventory_fact\time0-store0-item2-geo1.sql...

🚀 Đang chạy file: time0-store0-item2-geo2.sql
✅ Đã thực thi thành cô

In [None]:
import pandas as pd
from sqlalchemy import create_engine
import clickhouse_connect

# --- Kết nối ---
# MySQL
mysql_engine = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/datawarehouse')

# ClickHouse
client = clickhouse_connect.get_client(
    host='localhost',
    port=8123,
    username='default',
    password='',
    database='test_db'
)

# --- Bước 1: Đọc dữ liệu từ MySQL vào DataFrame ---
query = '''
SELECT 
    g.Bang,
    
    SUM(f.SoLuongBan) AS TotalQuantity,
    SUM(f.DoanhThu) AS TotalRevenue


FROM fact_sales f
JOIN dim_time t ON f.MaThoiGian = t.MaThoiGian
JOIN dim_item i ON f.MaMH = i.MaMH
JOIN dim_customer c ON f.MaKH = c.MaKH
join dim_geo g on f.MaThanhPho = g.MaThanhPho

GROUP BY g.Bang
'''
df = pd.read_sql(query, mysql_engine)

print("✅ Đã lấy dữ liệu từ MySQL vào DataFrame")
print(df.head())

# --- Bước 2: Xác định kiểu dữ liệu cho ClickHouse ---
def infer_clickhouse_types(df):
    type_mapping = {
        'int64': 'Int64',
        'float64': 'Float64',
        'object': 'String',
        'datetime64[ns]': 'DateTime',
        'bool': 'UInt8',
        'int32': 'Int32',
        'category': 'String'
    }
    cols = []
    for col_name, dtype in df.dtypes.items():
        ch_type = type_mapping.get(str(dtype), 'String')
        cols.append(f"`{col_name}` {ch_type}")
    return cols

# --- Bước 3: Tạo bảng trong ClickHouse ---
table_name = 'test_table'

# Drop bảng nếu tồn tại (tuỳ chọn)
client.command(f"DROP TABLE IF EXISTS {table_name}")

# Tạo schema
columns = infer_clickhouse_types(df)

create_table_sql = f"""
CREATE TABLE {table_name} (
    {', '.join(columns)}
) ENGINE = MergeTree()
ORDER BY ({', '.join([col.split()[0].strip('`') for col in columns])})
"""


client.command(create_table_sql)
print(f"✅ Đã tạo bảng '{table_name}' trong ClickHouse")

# --- Bước 4: Ghi dữ liệu từ DataFrame vào ClickHouse ---
# Chuyển DataFrame thành list of tuples
data = df.to_records(index=False).tolist()

# Chuẩn bị tên cột
columns_only = [col.split(' ')[0].strip('`') for col in columns]

# Insert dữ liệu
client.insert(table_name, data, column_names=columns_only)

print(f"✅ Đã ghi {len(data)} dòng dữ liệu vào bảng '{table_name}'")

✅ Đã lấy dữ liệu từ MySQL vào DataFrame
             Bang  TotalQuantity  TotalRevenue
0            Ohio        76820.0  1.912171e+08
1         Vermont       216766.0  5.423818e+08
2            Utah        71663.0  1.802002e+08
3            Iowa        64922.0  1.644836e+08
4  North Carolina       264199.0  6.613915e+08
✅ Đã tạo bảng 'test_table' trong ClickHouse
✅ Đã ghi 24 dòng dữ liệu vào bảng 'test_table'


In [2]:
def read_sql(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        sql_statement = f.read().strip()
    return sql_statement


def infer_clickhouse_types(df):
    type_mapping = {
        'int64': 'Int64',
        'float64': 'Float64',
        'object': 'String',
        'datetime64[ns]': 'DateTime',
        'bool': 'UInt8',
        'int32': 'Int32',
        'category': 'String'
    }
    cols = []
    for col_name, dtype in df.dtypes.items():
        ch_type = type_mapping.get(str(dtype), 'String')
        cols.append(f"`{col_name}` {ch_type}")
    return cols

def create_table_in_clickhouse(df, table_name, client):
    # Drop bảng nếu tồn tại (tuỳ chọn)
    client.command(f"DROP TABLE IF EXISTS {table_name}")

    # Tạo schema
    columns = infer_clickhouse_types(df)
    
    create_table_sql = f"""
    CREATE TABLE {table_name} (
        {', '.join(columns)}
    ) ENGINE = MergeTree()
    ORDER BY ({', '.join([col.split()[0].strip('`') for col in columns[:-1]])})
    """
    print(f"\n🚀 Đang chạy tạo bảng{table_name}: \n\n{create_table_sql}")
    client.command(create_table_sql)
    print(f"✅ Đã tạo bảng '{table_name}' trong ClickHouse")
    data = df.to_records(index=False).tolist()


    print("\n🚀 Đang chạy insert table: {table_name}")
    client.insert(table_name, data, column_names=[col.split(' ')[0].strip('`') for col in columns])


def get_data_from_mysql(query, engine):
    print("\n🚀 Đang chạy lấy dữ liệu từ mysql")

    df = pd.read_sql(query, engine)
    print("✅ Đã lấy dữ liệu từ MySQL vào DataFrame")
    return df

In [4]:
import os
import pandas as pd
from sqlalchemy import create_engine
import clickhouse_connect

client = clickhouse_connect.get_client(
    host='localhost',
    port=8123,
    username='default',
    password='',  # nếu chưa set mật khẩu
    database='sale_cube'
)
sql_connection = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/datawarehouse')

# client.command('CREATE DATABASE IF NOT EXISTS sale_cube')


In [5]:
file_names = os.listdir('sql_data_cube/sales_fact')
for file_name in file_names:
    if file_name.endswith('.sql'):
        file_path = os.path.join('sql_data_cube/sales_fact', file_name)
        sql_statement = read_sql(file_path)
        print(f"🚀 Đang chạy file: {file_name}")
        df = get_data_from_mysql(sql_statement, sql_connection)
        print(f"✅ Đã lấy dữ liệu từ MySQL vào DataFrame")
        table_name = f"{file_name.split('.')[0]}".replace("-", "_")
        create_table_in_clickhouse(df, table_name, client)
        print(f"✅ Đã tạo bảng '{table_name}' trong ClickHouse")

🚀 Đang chạy file: time0-customer0-item0-geo1.sql

🚀 Đang chạy lấy dữ liệu từ mysql
✅ Đã lấy dữ liệu từ MySQL vào DataFrame
✅ Đã lấy dữ liệu từ MySQL vào DataFrame

🚀 Đang chạy tạo bảngtime0_customer0_item0_geo1: 


    CREATE TABLE time0_customer0_item0_geo1 (
        `Bang` String, `TotalQuantity` Float64, `TotalRevenue` Float64
    ) ENGINE = MergeTree()
    ORDER BY (Bang, TotalQuantity)
    
✅ Đã tạo bảng 'time0_customer0_item0_geo1' trong ClickHouse

🚀 Đang chạy insert table: {table_name}
✅ Đã tạo bảng 'time0_customer0_item0_geo1' trong ClickHouse
🚀 Đang chạy file: time0-customer0-item0-geo2.sql

🚀 Đang chạy lấy dữ liệu từ mysql
✅ Đã lấy dữ liệu từ MySQL vào DataFrame
✅ Đã lấy dữ liệu từ MySQL vào DataFrame

🚀 Đang chạy tạo bảngtime0_customer0_item0_geo2: 


    CREATE TABLE time0_customer0_item0_geo2 (
        `Bang` String, `MaThanhPho` Int64, `TenThanhPho` String, `TotalQuantity` Float64, `TotalRevenue` Float64
    ) ENGINE = MergeTree()
    ORDER BY (Bang, MaThanhPho, TenThanh

In [9]:
import pyarrow
import os
import pandas as pd
from sqlalchemy import create_engine
import clickhouse_connect

client = clickhouse_connect.get_client(
    host='localhost',
    port=8123,
    username='default',
    password='',  # nếu chưa set mật khẩu
    database='sale_cube'
)
# sql_connection = create_engine('mysql+pymysql://nhanadmin:nhandeptrai191@localhost:3306/datawarehouse')




In [11]:
import json
result = client.query_arrow("SELECT * FROM time3_customer1_item4_geo2").to_pandas()
result.head(10)


Unnamed: 0,Nam,Thang,Quy,LoaiKH,KichCo,Bang,MaThanhPho,TenThanhPho,WeightRange,TotalQuantity,TotalRevenue
0,2022,5,2,0,b'L',b'Alabama',2358,b'East Traci',b'0-3',48.0,103609.13
1,2022,5,2,0,b'L',b'Alabama',2358,b'East Traci',b'3-5',9.0,30793.76
2,2022,5,2,0,b'L',b'Alabama',2358,b'East Traci',b'8+',17.0,50545.48
3,2022,5,2,0,b'L',b'Alabama',6994,b'New Heathertown',b'0-3',18.0,51462.61
4,2022,5,2,0,b'L',b'Alabama',6994,b'New Heathertown',b'3-5',13.0,43218.58
5,2022,5,2,0,b'L',b'Alabama',6994,b'New Heathertown',b'5-8',53.0,102859.35
6,2022,5,2,0,b'L',b'Alabama',6994,b'New Heathertown',b'8+',25.0,96207.23
7,2022,5,2,0,b'L',b'Alabama',9613,b'Davidmouth',b'0-3',33.0,62679.2
8,2022,5,2,0,b'L',b'Alabama',9613,b'Davidmouth',b'3-5',27.0,80339.63
9,2022,5,2,0,b'L',b'Alabama',9613,b'Davidmouth',b'5-8',10.0,30173.1


In [41]:
! pip install pyarrow --pre --extra-index-url https://pypi.fury.io/ar9/ 

Looking in indexes: https://pypi.org/simple, https://pypi.fury.io/ar9/
