In [None]:
basket_bool = pd.read_parquet(BASKET_BOOL_PATH)

print("=== Basket bool matrix ===")
print(f"- Shape: {basket_bool.shape[0]:,} transactions x {basket_bool.shape[1]:,} items")
basket_bool.head()


## Chạy Apriori theo từng min_support

In [None]:
rules_by_support = {}
summary_rows = []

for supp in SUPPORT_LIST:
    print(f"\n=== Running Apriori with min_support={supp} ===")
    miner = AssociationRulesMiner(basket_bool=basket_bool)

    start_time = time.time()
    frequent_itemsets = miner.mine_frequent_itemsets(
        min_support=supp,
        max_len=MAX_LEN,
        use_colnames=True,
    )
    elapsed_itemsets = time.time() - start_time

    print(f"- Frequent itemsets: {len(frequent_itemsets):,} (time {elapsed_itemsets:.2f}s)")

    # Sinh luật
    start_time = time.time()
    rules = miner.generate_rules(metric=METRIC, min_threshold=MIN_THRESHOLD)
    rules = miner.add_readable_rule_str()
    elapsed_rules = time.time() - start_time

    # Lọc luật: biến thiên min_support (theo kịch bản), giữ conf/lift cố định
    rules_filtered = miner.filter_rules(
        min_support=supp,
        min_confidence=FILTER_MIN_CONF,
        min_lift=FILTER_MIN_LIFT,
        max_len_antecedents=FILTER_MAX_ANTECEDENTS,
        max_len_consequents=FILTER_MAX_CONSEQUENTS,
    )

    print(f"- Rules (raw): {len(rules):,} (time {elapsed_rules:.2f}s)")
    print(f"- Rules (filtered): {len(rules_filtered):,}")

    rules_by_support[supp] = rules_filtered.copy()

    # Summary
    if len(rules_filtered) == 0:
        summary_rows.append([supp, 0, np.nan, np.nan, np.nan])
    else:
        summary_rows.append([
            supp,
            len(rules_filtered),
            rules_filtered["lift"].mean(),
            rules_filtered["confidence"].mean(),
            rules_filtered["support"].mean(),
        ])

summary_df = pd.DataFrame(
    summary_rows,
    columns=["min_support", "Số luật", "Lift TB", "Confidence TB", "Support TB"],
).sort_values("min_support", ascending=False)

print("\n=== Summary ===")
display(summary_df)


## Biểu đồ: Số lượng luật & chỉ số trung bình theo min_support

In [None]:
if PLOT_RULES_COUNT:
    plt.figure()
    plt.bar(summary_df["min_support"].astype(str), summary_df["Số luật"])
    plt.title("Số lượng luật (sau lọc) theo min_support")
    plt.xlabel("min_support")
    plt.ylabel("Số luật")
    plt.grid(True, axis="y", alpha=0.3)
    plt.show()

if PLOT_AVG_METRICS:
    plt.figure()
    plt.plot(summary_df["min_support"].astype(str), summary_df["Lift TB"], marker="o")
    plt.title("Lift trung bình theo min_support")
    plt.xlabel("min_support")
    plt.ylabel("Lift TB")
    plt.grid(True, alpha=0.3)
    plt.show()

    plt.figure()
    plt.plot(summary_df["min_support"].astype(str), summary_df["Confidence TB"], marker="s")
    plt.title("Confidence trung bình theo min_support")
    plt.xlabel("min_support")
    plt.ylabel("Confidence TB")
    plt.grid(True, alpha=0.3)
    plt.show()

    plt.figure()
    plt.plot(summary_df["min_support"].astype(str), summary_df["Support TB"], marker="^")
    plt.title("Support trung bình theo min_support")
    plt.xlabel("min_support")
    plt.ylabel("Support TB")
    plt.grid(True, alpha=0.3)
    plt.show()


## Phân phối chỉ số (boxplot) theo min_support

In [None]:
if PLOT_METRICS_DISTRIBUTION:
    rows = []
    for supp, rdf in rules_by_support.items():
        if len(rdf) == 0:
            continue
        tmp = rdf[["lift", "confidence", "support"]].copy()
        tmp["min_support"] = str(supp)
        rows.append(tmp)

    comp_df = pd.concat(rows, ignore_index=True) if rows else pd.DataFrame()

    if len(comp_df) == 0:
        print("Không có dữ liệu luật để vẽ boxplot.")
    else:
        plt.figure()
        sns.boxplot(data=comp_df, x="min_support", y="lift")
        plt.title("Phân phối Lift theo min_support")
        plt.grid(True, axis="y", alpha=0.3)
        plt.show()

        plt.figure()
        sns.boxplot(data=comp_df, x="min_support", y="confidence")
        plt.title("Phân phối Confidence theo min_support")
        plt.grid(True, axis="y", alpha=0.3)
        plt.show()

        plt.figure()
        sns.boxplot(data=comp_df, x="min_support", y="support")
        plt.title("Phân phối Support theo min_support")
        plt.grid(True, axis="y", alpha=0.3)
        plt.show()


## Top luật theo từng min_support (theo Lift)

In [None]:
if PLOT_TOP_RULES_BY_SUPPORT:
    for supp, rdf in rules_by_support.items():
        print(f"\n=== min_support={supp} ===")
        if len(rdf) == 0:
            print("Không có luật sau lọc.")
            continue

        top_rules = rdf.sort_values("lift", ascending=False).head(TOP_N_RULES)
        display(top_rules[["rule_str", "lift", "confidence", "support"]].head(10))

        # Bar chart top lift
        visualizer.plot_top_rules_lift(top_rules, top_n=min(TOP_N_RULES, len(top_rules)),
                                       title=f"Top rules by Lift (min_support={supp})")


## Network graph theo từng min_support

In [None]:
if PLOT_NETWORK_BY_SUPPORT:
    for supp, rdf in rules_by_support.items():
        print(f"\n=== Network graph: min_support={supp} ===")
        if len(rdf) == 0:
            print("Không có luật để vẽ network.")
            continue

        top_rules = rdf.sort_values("lift", ascending=False).head(TOP_N_RULES)
        visualizer.plot_rules_network(
            top_rules,
            title=f"Rules Network (top {min(TOP_N_RULES, len(top_rules))} by lift) - min_support={supp}",
        )


## Kết luận gợi ý (viết vào báo cáo)

Bạn điền kết luận dựa trên bảng `summary_df` và các biểu đồ:

- Khi **min_support tăng**: số luật giảm, tập trung vào sản phẩm phổ biến (dễ áp dụng đại trà).
- Khi **min_support giảm**: số luật tăng mạnh; xuất hiện nhiều luật “niche” (lift cao) nhưng dễ nhiễu nếu support quá thấp.
- “Ngưỡng hợp lý” thường là điểm cân bằng:
  - đủ nhiều luật để có insight,
  - nhưng không bùng nổ nhiễu,
  - network graph vẫn đọc được và có cụm rõ ràng.

Gợi ý kết luận theo mục tiêu:
- Cross-sell đại trà: ưu tiên `min_support` cao hơn (ví dụ 0.01–0.02)
- Cá nhân hoá / tìm niche: có thể hạ xuống (ví dụ 0.005) nhưng cần lọc kỹ theo lift/confidence.
