# Tiền xử lý dữ liệu

In [None]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
# 2 thư viện sau dùng cho xây dựng mô hình Apriori, Fpgrowth, So sánh kết quả
import time
from mlxtend.frequent_patterns import apriori, fpgrowth, association_rules

# Tải tập dữ liệu
df = pd.read_csv('car_wash_transactions.csv')

# Loại bỏ các cột không cần thiết
df = df.drop(columns=['TID', 'Date', 'TotalPrice'])

# Chuyển đổi tập dữ liệu sang danh sách các giao dịch và loại bỏ NaN
transactions = df.applymap(str).values.tolist()
transactions = [[item for item in transaction if item != 'nan'] for transaction in transactions]

# Chuyển đổi tập dữ liệu sang định dạng one-hot encoding
te = TransactionEncoder()
te_ary = te.fit(transactions).transform(transactions)
df_encoded = pd.DataFrame(te_ary, columns=te.columns_)
df_encoded

: 

# So sánh thời gian thực hiện Apriori & FP-Growth 

In [None]:
# Định nghĩa ngưỡng hỗ trợ tối thiểu
min_support = 0.2
min_confidence = 0.5

# Đo thời gian thực thi cho Apriori
start_time_apriori = time.time()
frequent_itemsets_apriori = apriori(df_encoded, min_support=min_support, use_colnames=True)
apriori_time = time.time() - start_time_apriori

# Đo thời gian thực thi cho FP-Growth
start_time_fpgrowth = time.time()
frequent_itemsets_fpgrowth = fpgrowth(df_encoded, min_support=min_support, use_colnames=True)
fpgrowth_time = time.time() - start_time_fpgrowth

# So sánh thời gian
print("\nSo sánh thời gian:")
print(f"Apriori: {apriori_time:.4f} giây")
print(f"FP-Growth: {fpgrowth_time:.4f} giây")
print(f"Tỷ lệ thời gian (Apriori/ FPGrowth): {apriori_time / fpgrowth_time:.4f}")

# Apriori

In [None]:
# Định nghĩa ngưỡng hỗ trợ tối thiểu
min_support = 0.2

# Thực hiện khai thác tập mục thường xuyên bằng FPGrowth
frequent_itemsets = apriori(df_encoded, min_support=min_support, use_colnames=True)

# Tạo các luật kết hợp với ngưỡng độ tin cậy tối thiểu
min_confidence = 0.5
association_rules_df = association_rules(frequent_itemsets, metric="confidence", min_threshold=min_confidence)

# Xuất các tập mục thường xuyên và các luật kết hợp ra file CSV
frequent_itemsets.to_csv('frequent_itemsets_apriori.csv', index=False)
association_rules_df[['antecedents', 
                      'consequents', 
                      'antecedent support', 
                      'consequent support', 
                      'support', 
                      'confidence',''
                      'lift']].to_csv('association_rules_apriori.csv', index=False)

# FP-Growth

In [None]:
# Định nghĩa ngưỡng hỗ trợ tối thiểu
min_support = 0.2

# Thực hiện khai thác tập mục thường xuyên bằng FP-Growth
frequent_itemsets = fpgrowth(df_encoded, min_support=min_support, use_colnames=True)

# Tạo các luật kết hợp với ngưỡng độ tin cậy tối thiểu
min_confidence = 0.5
association_rules_df = association_rules(frequent_itemsets, metric="confidence", min_threshold=min_confidence)

# Xuất các tập mục thường xuyên và các luật kết hợp ra file CSV
frequent_itemsets.to_csv('frequent_itemsets_fpgrowth.csv', index=False)
association_rules_df[['antecedents', 
                      'consequents', 
                      'antecedent support', 
                      'consequent support', 
                      'support', 
                      'confidence',''
                      'lift']].to_csv('association_rules_fp.csv', index=False)