# Luật kết hợp

Phân tích luật kết hợp (Association Rule Analysis) là một kỹ thuật để khai phá cách các mục (item) được liên kết với nhau. Có ba cách phổ biến để đo lường sự liên kết.
1. Độ hỗ trợ (support)
2. Độ tin cậy (confident)
3. Mức tăng (lift)

Dưới đây là giải thích đơn giản về các độ đo trên:

1. **Độ hỗ trợ**: Độ đo này được tính toán để kiểm tra mức độ phổ biến của một mặt hàng nhất định. Nó được đo lường bằng tỷ lệ các giao dịch trong đó một tập hợp mục xuất hiện. Ví dụ, có 100 người mua mặt hàng nào đó từ cửa hàng tạp hóa ngày hôm nay, ví dụ, cứ 100 người thì có 10 người mua chuối. Do đó, độ hỗ trợ của những người đã mua chuối sẽ là $(10/100 = 0.1 = 10\%).$

2. **Độ tin cậy**: được tính toán để kiểm tra xem mặt hàng X có được mua hay không khi mặt hàng Y được mua. Điều này được đo lường bằng tỷ lệ giao dịch với mặt hàng X, trong đó mặt hàng Y cũng xuất hiện. Giả sử, có 10 người mua táo (trong số 100 người), và từ 10 người đó, 6 người cũng mua sữa chua. Do đó, độ tin cậy của $(táo => sữa chua)$ là: $(táo =>sữa chua) / táo$, tức là $(6/10 = 0.6)$.

3. **Mức tăng**: được tính để đo lường khả năng mặt hàng Y được mua khi mặt hàng X được mua, đồng thời kiểm soát mức độ phổ biến của mặt hàng Y. Công thức cho độ tăng là: $$lift = support (X -> Y) / (support (X) * support (Y))$$.

Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: *minimum support (min_sup)* và  *minimum confidence (min_conf)*

Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rule)

Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và phải xác định trước khi sinh các luật kết hợp.

## Apriori

Thuật toán Apriori được công bố bởi R. Agrawal và R. Srikant vào năm 1994 vì để tìm các tập phổ biến trong một bộ dữ liệu lớn. Tên của thuật toán là Apriori vì nó sử dụng kiến thức đã có từ trước (prior) về các thuộc tính, vật phẩm thường xuyên xuất hiện trong cơ sở dữ liệu. Để cải thiện hiệu quả của việc lọc các mục thường xuyên (frequent itemsets) theo cấp độ, một thuộc tính quan trọng được sử dụng gọi là thuộc tính Apriori giúp giảm phạm vi tìm kiếm của thuật toán.

Tư tưởng chính của thuật toán Apriori là:

- Tìm tất cả frequent itemsets: 
    + k-itemset (itemsets gồm k items) được dùng để tìm (k+1)- itemset. 
    + Đầu tiên tìm 1-itemset (ký hiệu L1). L1 được dùng để tìm L2 (2-itemsets). L2 được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi không có k-itemset được tìm thấy.

- Từ frequent itemsets sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa mãn 2 tham số min_sup và min_conf)

## Nội dung thực hành:
Một siêu thị thực phẩm có lưu lại thông tin hành vi mua sắm của khách hàng tại siêu thị của họ. Bài toán đặt ra là tìm ra được những sản phẩm thường xuyên được mua cùng nhau bởi các khách hàng, từ đó, họ có thể có một vài chiến lược kích cầu mua sắm, ví dụ, sắp xếp lại gian hàng, tặng kèm sản phẩm ưa thích, ....

- *Dữ liệu sử dụng:* `data/groceries.csv`
- *Mô tả:* 
    - Item(s): Số lượng mặt hàng đã mua
    - Item 1: Tên sản phẩm thứ nhât
    - Item 2: Tên sản phẩm thứ hai (nếu có)
    - Item n: Tên sản phẩm thứ n (nếu có)

Tương tự như trong các bài thực hành trước, chúng ta vẫn đi qua các bước cơ bản, đầu tiên, import các thư viện cần thiết và tải dữ liệu.

In [1]:
import numpy as np
import pandas as pd

from mlxtend.frequent_patterns import apriori, association_rules
from mlxtend.preprocessing import TransactionEncoder

In [2]:
data = pd.read_csv('data/groceries.csv')
print('Kích thước dữ liệu: ', data.shape)
data.head()

Kích thước dữ liệu:  (200, 33)


Unnamed: 0,Item(s),Item 1,Item 2,Item 3,Item 4,Item 5,Item 6,Item 7,Item 8,Item 9,...,Item 23,Item 24,Item 25,Item 26,Item 27,Item 28,Item 29,Item 30,Item 31,Item 32
0,4,citrus fruit,semi-finished bread,margarine,ready soups,,,,,,...,,,,,,,,,,
1,3,tropical fruit,yogurt,coffee,,,,,,,...,,,,,,,,,,
2,1,whole milk,,,,,,,,,...,,,,,,,,,,
3,4,pip fruit,yogurt,cream cheese,meat spreads,,,,,,...,,,,,,,,,,
4,4,other vegetables,whole milk,condensed milk,long life bakery product,,,,,,...,,,,,,,,,,


Trong bài thực hành cơ bản này, chúng ta tạm thời bỏ qua các bước EDA (Phân tích dữ liệu) và đi thẳng vào việc triển khai thuật toán Apriori.

Thuật toán Apriori lấy danh sách các mặt hàng đã được mua cùng nhau làm đầu vào. Do đó, chúng ta cần lấy từng hàng dưới dạng danh sách (ngoại trừ cột đầu tiên và 'NAN' trong các cột).

In [13]:
transactions = []

# Thêm tất cả các mục từ mỗi hàng trong một danh sách (Bỏ qua các cột đầu tiên, nơi tất cả các mục đều ở số (0-9))
for i in range(0, 200):
    transactions.append([str(data.values[i,u]) for u in range(1, 33)])

In [14]:
print(transactions[0])

['citrus fruit', 'semi-finished bread', 'margarine', 'ready soups', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan']


In [15]:
te = TransactionEncoder()
te_data = te.fit(transactions).transform(transactions)
df = pd.DataFrame(te_data,columns=te.columns_)
del df['nan']
df.head()

Unnamed: 0,Instant food products,UHT-milk,abrasive cleaner,artif. sweetener,baking powder,bathroom cleaner,beef,berries,beverages,bottled beer,...,sweet spreads,tropical fruit,turkey,waffles,whipped/sour cream,white bread,white wine,whole milk,yogurt,zwieback
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,True,False,False,False,False,False,False,True,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,True,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,True,False,False


Triển khai thuật toán với độ hỗ trợ 0.01. Sau đó sắp xếp để thấy được top sản phẩm có độ hỗ trợ cao

In [17]:
df1 = apriori(df,min_support=0.01,use_colnames=True)
df1

Unnamed: 0,support,itemsets
0,0.020,(UHT-milk)
1,0.010,(abrasive cleaner)
2,0.010,(baking powder)
3,0.015,(bathroom cleaner)
4,0.040,(beef)
...,...,...
1396,0.010,"(tropical fruit, domestic eggs, fruit/vegetabl..."
1397,0.010,"(waffles, root vegetables, tropical fruit, dom..."
1398,0.010,"(other vegetables, whole milk, sugar, ham, sof..."
1399,0.010,"(waffles, root vegetables, cereals, tropical f..."


In [18]:
df1.sort_values(by="support",ascending=False)

Unnamed: 0,support,itemsets
89,0.265,(whole milk)
68,0.200,(rolls/buns)
56,0.185,(other vegetables)
76,0.145,(soda)
90,0.110,(yogurt)
...,...,...
619,0.010,"(tropical fruit, cream cheese, domestic eggs)"
620,0.010,"(domestic eggs, cream cheese, whole milk)"
621,0.010,"(frankfurter, cream cheese, fruit/vegetable ju..."
622,0.010,"(pip fruit, cream cheese, frankfurter)"


In [20]:
df1['length'] = df1['itemsets'].apply(lambda x:len(x))
df1

Unnamed: 0,support,itemsets,length
0,0.020,(UHT-milk),1
1,0.010,(abrasive cleaner),1
2,0.010,(baking powder),1
3,0.015,(bathroom cleaner),1
4,0.040,(beef),1
...,...,...,...
1396,0.010,"(tropical fruit, domestic eggs, fruit/vegetabl...",7
1397,0.010,"(waffles, root vegetables, tropical fruit, dom...",7
1398,0.010,"(other vegetables, whole milk, sugar, ham, sof...",7
1399,0.010,"(waffles, root vegetables, cereals, tropical f...",8


In [21]:
df1[(df1['length']==2) & (df1['support']>=0.05)]

Unnamed: 0,support,itemsets,length
402,0.07,"(other vegetables, whole milk)",2
433,0.06,"(rolls/buns, whole milk)",2
481,0.055,"(yogurt, whole milk)",2


In [28]:
df1[(df1['length']==3) & (df1['support']>=0.02)]

Unnamed: 0,support,itemsets,length
504,0.02,"(fruit/vegetable juice, bottled beer, whole milk)",3
723,0.02,"(other vegetables, frozen vegetables, whole milk)",3
724,0.02,"(frozen vegetables, rolls/buns, whole milk)",3
759,0.02,"(other vegetables, ham, whole milk)",3
786,0.02,"(other vegetables, root vegetables, whole milk)",3
792,0.02,"(other vegetables, sugar, whole milk)",3
846,0.02,"(tropical fruit, yogurt, whole milk)",3


In [9]:
rules = association_rules(df1, metric = "confidence", min_threshold = 0)
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(citrus fruit),(UHT-milk),0.080,0.020,0.01,0.125000,6.250000,0.00840,1.120000
1,(UHT-milk),(citrus fruit),0.020,0.080,0.01,0.500000,6.250000,0.00840,1.840000
2,(other vegetables),(UHT-milk),0.185,0.020,0.01,0.054054,2.702703,0.00630,1.036000
3,(UHT-milk),(other vegetables),0.020,0.185,0.01,0.500000,2.702703,0.00630,1.630000
4,(rolls/buns),(UHT-milk),0.200,0.020,0.01,0.050000,2.500000,0.00600,1.031579
...,...,...,...,...,...,...,...,...,...
19857,(fruit/vegetable juice),"(cream cheese, tropical fruit, domestic eggs, ...",0.075,0.010,0.01,0.133333,13.333333,0.00925,1.142308
19858,(whole milk),"(cream cheese, tropical fruit, domestic eggs, ...",0.265,0.010,0.01,0.037736,3.773585,0.00735,1.028824
19859,(pip fruit),"(cream cheese, tropical fruit, domestic eggs, ...",0.035,0.010,0.01,0.285714,28.571429,0.00965,1.386000
19860,(sugar),"(cream cheese, tropical fruit, domestic eggs, ...",0.060,0.010,0.01,0.166667,16.666667,0.00940,1.188000


Whole Milk có độ hỗ trợ cao nhất, do đó, chúng ta lựa chọn whole milk để phân tích chi tiết hơn

In [11]:
rules_sel = rules[rules["antecedents"].apply(lambda x: "whole milk" in x)]
rules_sel.sort_values('confidence', ascending=False)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
12258,"(other vegetables, fruit/vegetable juice, ham,...","(tropical fruit, bottled beer)",0.010,0.010,0.01,1.000000,100.000000,0.00990,inf
12283,"(fruit/vegetable juice, ham, whole milk)","(other vegetables, tropical fruit, bottled beer)",0.010,0.010,0.01,1.000000,100.000000,0.00990,inf
11950,"(whole milk, pip fruit, sugar, soft cheese)",(other vegetables),0.010,0.185,0.01,1.000000,5.405405,0.00815,inf
11956,"(other vegetables, pip fruit, whole milk)","(sugar, soft cheese)",0.010,0.010,0.01,1.000000,100.000000,0.00990,inf
11957,"(whole milk, sugar, soft cheese)","(other vegetables, pip fruit)",0.010,0.010,0.01,1.000000,100.000000,0.00990,inf
...,...,...,...,...,...,...,...,...,...
9301,(whole milk),"(domestic eggs, sugar, cream cheese, fruit/veg...",0.265,0.010,0.01,0.037736,3.773585,0.00735,1.028824
9331,(whole milk),"(tropical fruit, fruit/vegetable juice, cream ...",0.265,0.010,0.01,0.037736,3.773585,0.00735,1.028824
9394,(whole milk),"(pip fruit, domestic eggs, sugar, cream cheese)",0.265,0.010,0.01,0.037736,3.773585,0.00735,1.028824
9424,(whole milk),"(tropical fruit, pip fruit, cream cheese, dome...",0.265,0.010,0.01,0.037736,3.773585,0.00735,1.028824


In [23]:
# Lấy ra 5 sản phẩm quan trọng nhất sau khi khách hàng mua whole milk 
rules_support = rules_sel['support'] >= rules_sel['support'].quantile(q = 0.95)
rules_confi = rules_sel['confidence'] >= rules_sel['confidence'].quantile(q = 0.95)
rules_lift = rules_sel['lift'] > 1
rules_best = rules_sel[rules_support & rules_confi & rules_lift]
rules_best.head()

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
793,"(bathroom cleaner, whole milk)",(rolls/buns),0.01,0.2,0.01,1.0,5.0,0.008,inf
1033,"(white bread, whole milk)",(bottled beer),0.01,0.065,0.01,1.0,15.384615,0.00935,inf
1327,"(candy, whole milk)",(soda),0.01,0.145,0.01,1.0,6.896552,0.00855,inf
1339,"(candy, whole milk)",(waffles),0.01,0.04,0.01,1.0,25.0,0.0096,inf
1573,"(coffee, whole milk)",(yogurt),0.01,0.11,0.01,1.0,9.090909,0.0089,inf
