In [1]:
import pandas as pd
from tabulate import tabulate

In [2]:
Invoices = pd.read_csv("../datasets/Invoices.csv", encoding='latin-1')

columns = {
    "Invoices": ["InvoiceNo", "StockCode", "CustomerID", "Country"]
}

def profile_identifier(df: pd.DataFrame, file_name: str, col_name: str) -> dict:
    total = len(df)
    missing = df[col_name].isna().sum()
    distinct = df[col_name].nunique(dropna=True)
    
    # Độ phân biệt (Cardinality) = Số lượng riêng biệt / Tổng số hàng (tỷ lệ)
    cardinality = round(distinct / total, 3) if total > 0 else 0

    duplicates = total - distinct

    return {
        "Tập tin": file_name,
        "Cột": col_name,
        "Kiểu dữ liệu": df[col_name].dtype,
        "Tổng": total,
        "Thiếu (%)": round(missing / total * 100, 2),
        "Giá trị riêng biệt": distinct,
        "Độ phân biệt (Cardinality)": cardinality,
        "Số lượng trùng (Duplicate)": duplicates,
    }

results = []
for file, cols in columns.items():
    for col in cols:
        results.append(profile_identifier(Invoices, file, col))

identifier_profile = pd.DataFrame(results)

table_text = tabulate(identifier_profile, headers='keys', tablefmt='grid', showindex=False)
print(table_text)

+-----------+------------+----------------+--------+-------------+----------------------+------------------------------+------------------------------+
| Tập tin   | Cột        | Kiểu dữ liệu   |   Tổng |   Thiếu (%) |   Giá trị riêng biệt |   Độ phân biệt (Cardinality) |   Số lượng trùng (Duplicate) |
| Invoices  | InvoiceNo  | object         | 541909 |        0    |                25900 |                        0.048 |                       516009 |
+-----------+------------+----------------+--------+-------------+----------------------+------------------------------+------------------------------+
| Invoices  | StockCode  | object         | 541909 |        0    |                 4070 |                        0.008 |                       537839 |
+-----------+------------+----------------+--------+-------------+----------------------+------------------------------+------------------------------+
| Invoices  | CustomerID | float64        | 541909 |       24.93 |                 4372 