In [1]:
import pandas as pd
from tabulate import tabulate

In [2]:
Invoices = pd.read_csv("../datasets/Invoices.csv", encoding='latin-1')

columns = {
    "Invoices": ["InvoiceDate"]
}

def profile_temporal(df, file_name, col_name):
    total = len(df)
    missing = df[col_name].isna().sum()
    distinct = df[col_name].nunique(dropna=True)
    cardinality = round(distinct / total, 3) if total > 0 else 0

    valid_format = True
    try:
        df[col_name] = pd.to_datetime(df[col_name], errors="coerce")
    except Exception:
        valid_format = False

    parsed = df[col_name].dropna()
    min_date = parsed.min() if not parsed.empty else None
    max_date = parsed.max() if not parsed.empty else None

    return {
        "Tập tin": file_name,
        "Cột": col_name,
        "Tổng": total,
        "Thiếu (%)": round(missing / total * 100, 2),
        "Giá trị riêng biệt": distinct,
        "Độ phân biệt (Cardinality)": cardinality,
        "Định dạng hợp lệ": "Yes" if valid_format else "No",
        "Ngày nhỏ nhất": min_date.strftime("%Y-%m-%d") if min_date is not None else "",
        "Ngày lớn nhất": max_date.strftime("%Y-%m-%d") if max_date is not None else ""
    }

results = []
for file, cols in columns.items():
    for col in cols:
        df = eval(file)
        results.append(profile_temporal(df, file, col))

temporal_profile = pd.DataFrame(results)

table_text = tabulate(temporal_profile, headers='keys', tablefmt='grid', showindex=False)
print(table_text)

+-----------+-------------+--------+-------------+----------------------+------------------------------+--------------------+-----------------+-----------------+
| Tập tin   | Cột         |   Tổng |   Thiếu (%) |   Giá trị riêng biệt |   Độ phân biệt (Cardinality) | Định dạng hợp lệ   | Ngày nhỏ nhất   | Ngày lớn nhất   |
| Invoices  | InvoiceDate | 541909 |           0 |                23260 |                        0.043 | Yes                | 2010-12-01      | 2011-12-09      |
+-----------+-------------+--------+-------------+----------------------+------------------------------+--------------------+-----------------+-----------------+
