# Import Libraries & Dataset

In [None]:
import numpy as np
import pandas as pd
import plotly

In [None]:
!pip install pyECLAT

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyECLAT
  Downloading pyECLAT-1.0.2-py3-none-any.whl (6.3 kB)
Installing collected packages: pyECLAT
Successfully installed pyECLAT-1.0.2


In [None]:
# importing dataset (example 2 có sẵn trong pyECLAT)
from pyECLAT import Example2

dataset = Example2().get()

dataset

Unnamed: 0,0,1,2,3,4,5,6
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams
1,burgers,meatballs,eggs,,,,
2,chutney,,,,,,
3,turkey,avocado,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,
...,...,...,...,...,...,...,...
2996,green tea,,,,,,
2997,shrimp,cake,,,,,
2998,ham,ground beef,mineral water,,,,
2999,burgers,frozen vegetables,whole wheat pasta,mineral water,chocolate,eggs,blueberries


Mỗi hàng thể hiện giao dịch mua hàng của khách hàng tại siêu thị. 

Ví dụ: Ở hàng 1, khách hàng chỉ mua burger, thịt viên và trứng.

In [None]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3001 entries, 0 to 3000
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       3001 non-null   object
 1   1       2315 non-null   object
 2   2       1774 non-null   object
 3   3       1374 non-null   object
 4   4       1048 non-null   object
 5   5       775 non-null    object
 6   6       581 non-null    object
dtypes: object(7)
memory usage: 164.2+ KB


# Visualizing The Frequent Items

Để trực quan hóa các tập phổ biến, load dữ liệu vào lớp EClaT và tạo DataFrame nhị phân:

In [None]:
# importing ECLAT module
from pyECLAT import ECLAT

# loading transactions DataFrame to ECLAT class
eclat = ECLAT(data=dataset)

# DataFrame of binary values
eclat.df_bin

Unnamed: 0,cream,gums,frozen smoothie,salt,ketchup,black tea,clothes accessories,strong cheese,zucchini,spaghetti,...,rice,cookies,shallot,bug spray,oatmeal,champagne,barbecue sauce,vegetables mix,almonds,antioxydant juice
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,1,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2996,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2997,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2998,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2999,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Mỗi hàng đại diện cho một giao dịch. 

Các cột là những sản phẩm có thể xuất hiện trong giao dịch. 

Mỗi ô chứa một trong hai giá trị:


*   0 - sản phẩm không có trong giao dịch
*   1 - sản phẩm có trong giao dịch



Đếm các items của mỗi cột trong DataFrame:

In [None]:
# count items in each column
items_total = eclat.df_bin.astype(int).sum(axis=0)
items_total

cream                  3
gums                  27
frozen smoothie      144
salt                  25
ketchup               11
                    ... 
champagne            128
barbecue sauce        22
vegetables mix        59
almonds               52
antioxydant juice     18
Length: 119, dtype: int64

Đếm các items của mỗi hàng trong DataFrame:

In [None]:
# count items in each row
items_per_transaction = eclat.df_bin.astype(int).sum(axis=1)
items_per_transaction

0       7
1       3
2       1
3       2
4       5
       ..
2996    1
2997    2
2998    3
2999    7
3000    5
Length: 3001, dtype: int64

Minh họa phân phối của các items:

In [None]:
# load items của mỗi cột vào DataFrame
df = pd.DataFrame({'items': items_total.index, 'transactions': items_total.values}) 

# clone pandas DataFrame
df_table = df.sort_values("transactions", ascending=False)

# top 5 items phổ biến nhất
df_table.head(5).style.background_gradient(cmap='Blues')

Unnamed: 0,items,transactions
108,mineral water,711
9,spaghetti,549
16,eggs,532
33,chocolate,485
63,french fries,463


Minh họa các items thường xuất hiện bằng TreeMap

In [None]:
import plotly.express as px

# to have a same origin
df_table["all"] = "Tree Map" 

# creating tree map using plotly
fig = px.treemap(df_table.head(50), path=['all', "items"], values='transactions',
                  color=df_table["transactions"].head(50), hover_data=['items'],
                  color_continuous_scale='Blues',
                )
# ploting the treemap
fig.show()

Để sinh luật kết hợp, ta cần định nghĩa:


*   Minimum Support: độ phổ biến tối thiểu
*   Minumum Combinations: số lượng items tối thiểu trong giao dịch
*   Maximum Combinations: số lượng items tối đa trong giao dịch

Lưu ý: Maximum Combinations càng cao thì thời gian tính toán càng lâu.

In [None]:
# the item shoud appear at least at 5% of transactions
min_support = 5/100

# start from transactions containing at least 2 items
min_combination = 2

# up to maximum items per transaction
max_combination = max(items_per_transaction)
rule_indices, rule_supports = eclat.fit(min_support=min_support,
                                                 min_combination=min_combination,
                                                 max_combination=max_combination,
                                                 separator=' & ',
                                                 verbose=True)

Combination 2 by 2


253it [00:01, 151.65it/s]


Combination 3 by 3


1771it [00:11, 154.83it/s]


Combination 4 by 4


8855it [01:00, 145.40it/s]


Combination 5 by 5


33649it [04:09, 134.97it/s]


Combination 6 by 6


100947it [13:15, 126.86it/s]


Combination 7 by 7


245157it [33:34, 121.69it/s]


Phương thức fit() của lớp ECLAT trả về:


*   Chỉ số của luật kết hợp
*   Giá trị support của luật kết hợp



In [None]:
result = pd.DataFrame(rule_supports.items(),columns=['Item', 'Support'])
result.sort_values(by=['Support'], ascending=False)

Unnamed: 0,Item,Support
0,spaghetti & mineral water,0.060646
